機械学習 | おもしろそうな記事集め 〜テキスト分類縛り〜

内容

機械学習を用いたテキスト分類で、個人的に興味深かった事例を紹介します。

f:id:pushthefader:20190319213728p:plain

動機

先日勤務先で機械学習を用い電話対応オペレーターが入力した簡単な文章からどのようなお問い合わせカテゴリが該当するのかを表示する、というテキスト分類のWebアプリケーションを作りました。

作るまでの過程で色々な記事を参考にさせていただいたのですが、勉強用の記事で出来上がるものは、学習用としてはわかりやすいのですが、個人的にはあまり興味をそそらないテーマでした。例えば以下です。

  • スパムメールを判定する
  • ニュース記事が何のジャンルに該当するか判定する
  • 小説の著者は誰か推測する

そこで身近なテーマで、頑張れば私でもできるかも?と思ったテキスト分類の事例紹介ページをピックアップしてみました。

以下の見出しは私の独断と偏見です。

似ている情報を探す

テキスト分類ではレビュー記事や説明文、Tweetなどから、似ている情報を見つけ出すという手法があります。

興味深いのは、これらは単純なキーワード抽出・タグ分類ではなく「意味」や「概念」が似ている情報を見つけられている点です。

例えば「いらすとや」の事例では、固有のキーワードを使った画像検索ではなく、意味が似ている言葉から画像をピックアップされ、よりイメージに合ったものを見つけ出すことができます。

イメージに合ったものを見つけ出すというのは、イラスト画像以外の情報を見つけ出す際にも応用できるのではないでしょうか。

人間に迫る

「言葉 = 人間の考えを表に出すツール」と考えると、言葉の特徴から人間の考えを分類・推定をすることで、人間(自分/相手/ユーザ)を知ることができるのではないかと考えます。

性別・感情・キャラクターなど、人物像を把握することはマーケティングにも応用できると思います。

ユーザ像設定の際は経験や勘など主観的な思い込が入りがちです。

客観的な分析・推定を元に行うことでより精度の高いユーザ設定ができ、サービスが成功する確率が高まるかもしれません。

予測する

分類自体が予測という見方もできますが、ここでは確定していない未来のことをテキスト分類を用いて推察している事例です。

為替・株式・仮想通貨は市場心理のネガポジを把握するには良い手段のように思えます。ですが、思ったような良い結果は得られていないようです。いずれもTweetを学習用データセットとしており予測に不必要なデータも混ざってしまうことが原因となっています。

デートが成功する店〜は予測とは少し異なるかもしれませんが、成功確率の高い行動をするために分類データが役立つ事例として興味深いですね。

まとめ

画像・映像で活用されている機械学習を用いた分類ですが、テキストの世界でも今後もさらに面白い活用方法が出てくるかもしれませんね!