共起語をより正確に抽出できるようになりました

Keywordmapをご利用いただき、誠にありがとうございます。

この度、共起語の性能を向上させ、より正確に共起語を抽出いただけるようになりました。

「正確に抽出できる」とは?

共起語は複数の文章データから品詞別に分解し抽出した上で、出現数や特徴度合いを考慮しながらスコアリングし表示しています。

この際行う「品詞別に分解する」作業を「形態素解析」といい、形態素解析で新しい言葉も正しく一語として認識できるか否かで、その共起語の精度が決まってきます。

今回の性能向上により、日々生まれる新語(造語)でも、一定の利用が確認され次第、1つの単語として認識し、抽出します。

f:id:copydetect:20180812193552p:plain

例えば、単語「ブルゾンちえみ」は数年前までは1語として認識されていませんでしたが、昨今では1人の芸能人として定着化し、様々なメディアでこの単語が出現するようになりました。

一定数以上の言及があった単語の組み合わせは、自動的に1語として認識し、以後固有の名詞として抽出されます。

f:id:copydetect:20180812192837p:plain

上の図は「楽天ゴールドカード」の共起語です。

いままでは1語として認識されていなかった「期間限定ポイント」や「楽天プレミアムカード」「楽天ゴールドカード」を1語として認識・抽出しています。

正確な抽出を実現した技術

正しく新語も1語として抽出する為には、形態素解析する際に必要となる辞書をできる限り正確に作成し、更新し続ける必要があります。

弊社では、日々膨大に蓄積されるWebページのコーパスデータから新語候補を抽出し、出現推移や時系列比較による増減率の度合いなど複数の判断係数を新語候補が属するテーマワードの過去のデータと照らし合わせ、機械学習のモデルによって辞書への追加判断を自動的に行っています。これにより、あらゆる新語も日本語としての一定の定着が見られ次第、即座にシステムに1語として認識され、より正しく共起語の分析を行っていただけるようになりました。

f:id:copydetect:20180812195550p:plain

本システムはデイリーで更新され、新しい言葉も一定の定着が確認され次第、順次追加されていきます。