機械学習 | おもしろそうな記事集め 〜テキスト分類縛り〜
内容
機械学習を用いたテキスト分類で、個人的に興味深かった事例を紹介します。
動機
先日勤務先で機械学習を用い電話対応オペレーターが入力した簡単な文章からどのようなお問い合わせカテゴリが該当するのかを表示する、というテキスト分類のWebアプリケーションを作りました。
作るまでの過程で色々な記事を参考にさせていただいたのですが、勉強用の記事で出来上がるものは、学習用としてはわかりやすいのですが、個人的にはあまり興味をそそらないテーマでした。例えば以下です。
- スパムメールを判定する
- ニュース記事が何のジャンルに該当するか判定する
- 小説の著者は誰か推測する
そこで身近なテーマで、頑張れば私でもできるかも?と思ったテキスト分類の事例紹介ページをピックアップしてみました。
以下の見出しは私の独断と偏見です。
似ている情報を探す
テキスト分類ではレビュー記事や説明文、Tweetなどから、似ている情報を見つけ出すという手法があります。
- 【Python】自然言語処理でラーメン屋を分類してみる
- 【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる
- あなたの文章に合った「いらすとや」画像をレコメンド♪(機能概要編)
- トピックモデルでポケモン分類
- ベイズの定理を用いて方言を分類してみた | Aidemy Blog
- KerasでIMDB映画レビューDatasetのネガポジ分類
- D-SUMM 災害状況要約システム リアルタイム版
興味深いのは、これらは単純なキーワード抽出・タグ分類ではなく「意味」や「概念」が似ている情報を見つけられている点です。
例えば「いらすとや」の事例では、固有のキーワードを使った画像検索ではなく、意味が似ている言葉から画像をピックアップされ、よりイメージに合ったものを見つけ出すことができます。
イメージに合ったものを見つけ出すというのは、イラスト画像以外の情報を見つけ出す際にも応用できるのではないでしょうか。
人間に迫る
「言葉 = 人間の考えを表に出すツール」と考えると、言葉の特徴から人間の考えを分類・推定をすることで、人間(自分/相手/ユーザ)を知ることができるのではないかと考えます。
- 文書を書いた人の性別を推定する技術
- AI感情カレンダー
- モーニング娘。のブログを自動分類してみました。
- アメブロの芸能人ブログをTopic Modelingで分類する
- ML-Askでテキストの感情分析
- CNNで文からアニメの主人公を予測する
- 艦これのセリフ分類をCNNでやる
性別・感情・キャラクターなど、人物像を把握することはマーケティングにも応用できると思います。
ユーザ像設定の際は経験や勘など主観的な思い込が入りがちです。
客観的な分析・推定を元に行うことでより精度の高いユーザ設定ができ、サービスが成功する確率が高まるかもしれません。
予測する
分類自体が予測という見方もできますが、ここでは確定していない未来のことをテキスト分類を用いて推察している事例です。
- 機械学習でデートが成功する店・しない店判定器を作ってみた | AROCHAN
- トランプ氏のツイートを機械学習し、為替の予測をしてみた。〜GCP ML系使い倒し〜
- Twitterから仮想通貨価格予測してみた | 人工知能ニュースメディア AINOW
- 紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測 2年目
- Word2Vecを用いて蒙古タンメン中本の口コミ評価を予測してみる
為替・株式・仮想通貨は市場心理のネガポジを把握するには良い手段のように思えます。ですが、思ったような良い結果は得られていないようです。いずれもTweetを学習用データセットとしており予測に不必要なデータも混ざってしまうことが原因となっています。
デートが成功する店〜は予測とは少し異なるかもしれませんが、成功確率の高い行動をするために分類データが役立つ事例として興味深いですね。
まとめ
画像・映像で活用されている機械学習を用いた分類ですが、テキストの世界でも今後もさらに面白い活用方法が出てくるかもしれませんね!