NTTレゾナント、日本語解析技術APIをgooラボで公開

NTTレゾナント、日本語解析技術APIをgooラボで公開


API活用事例

NTTレゾナント株式会社は、日本語解析技術に関するAPIを「gooラボ」にて公開した。

同技術は、NTT研究所が開発し、長年「goo」にて利用してきたもので、ビッグデータ解析などで必須となる要素技術である日本語解析APIとして、「語句類似度算出」、「ひらがな化」、「固有表現抽出」、「形態素解析」の4種を公開する。同APIを活用することで、分析対象となるビックデータが日本語で書かれた文章の場合、単なる文字列の集計だけではなく、より書かれている内容に基いた分析が可能となる。

「語句類似度算出」は、2つのキーワードの構成単語や音素の情報を踏まえて、その類似度合いを算出するAPI。たとえば“トーキョー”と“東京”など似通った発音を持つ違う表記の語句を、類似度合いにより同じ語句と見なすことができる。「固有表現抽出」は、トレンドや評判の解析に必須となる人名や地名、組織名などを抽出するAPIで、抽出されたものを分類して集計することで、SNS上の投稿のなかで最近話題になっているスポットを発見するといった分析が容易になる。

「ひらがな化」は、漢字混じりで書かれた文字列を“ひらがな”または“カタカナ”による記載に変換するAPI。変換後の文字列は読みやすいように文中の適当な位置に半角スペースが挿入されるため、子供向けコンテンツの作成などに用いることができる。「形態素解析」は、日本語の文字列を形態素と呼ばれる単位に分割するAPIで、自社製品のレビュー記事からどのような表現でよく評価されているかといった分析が容易になる。

gooラボ
URL:
MdN DIのトップぺージ