[アカデメイア]自然言語処理勉強会 #1 に参加しました。
自然言語処理勉強会に参加しました。
URL: https://academeia-dev.connpass.com/event/42935/
自然言語処理とは
日本語や、英語など私達が日常で使っている自然言語をコンピュータに処理させる技術のことらしいです。
自然言語処理の世界
意味処理と、文字列処理という大きく2軸があります。
参考: http://www.slideshare.net/unnonouno/20150316-ipsj-nlp
対話だとLineのりんななどが有名ですね。Gunosyだと文書分類ですね。
今日は構文解析と形態素解析をやります。
形態素解析とは
形態素解析とは文を単語に分けることです。
文の先頭から辞書の見出しをあてていき、尤もらしい単語を割り当てます。
形態素解析の手法
ルールベースと統計処理があります。
ルールベースは日本語の文法の知識や暗黙的なルールに書き起こす手法です。
統計処理では、正解データから、隣接スコアを計算します。
形態素解析の統計的手法
連接コストテーブル、単語生起テーブル、こっちだと+1、-1として正解のコストを小さくしていきます。
ルールがしっかりしているとルールベースが良いです。
例えば英語なら単語がスペースで区切られているので品詞の判定をします。
形態素解析の難しさ
「ここではきものをゆいでください」
※この文を単語に分割してみてください!
これを分割すると2パターンに分かれてます。正解は無いけれど、それよりも前に居酒屋の説明があれば、履物(はきもの)が正解であろうと予想ができます。
しかしコンピュータには難しいことです。
形態素解析できると何が嬉しい?
トピックがわかる。話題がわかる。それらがひと目でわかります。
質問タイム
mecabは統計手法?
mecabは統計ベースの手法を使っています。mecabの統計的手法の訓練されたデータが入っています。
翻訳はどのレベルでできていますか?
意味理解は怪しいですね。構文解析などはできていると思います。
辞書の作り方は?
思いつくものを追加していく手法、辞書に当てはまらないものをピックアップして足していくやり方があります。
辞書に流行はありますか?時代によって変わると思うので
90年代はこういう日本語みたいなものはmecabではしていないと思います。基本は追加型かと思われます。
自然言語処理応用事例の紹介
ここでバトンタッチ
形態素解析と構文解析もわかった、それでどうすればいいの?
テキストマイニングの特徴
大量の処理が可能でコストカットできます。
企業におけるテキストマイニングの利用者
- コールセンター
- 広報マーケティング担当者
- 人事部
- 営業企画戦略
人事部は、社内アンケートで統計処理するとパット見でどうおもってるとかわかります。
テキストマイニングで声を発見
- アンケートで、顧客の満足度の理由がわかる。
- 問い合わせから不満の中に改善ヒントがある
- SNSなどで世の中の声が聴こえる
テキストマイニングで自社の傾向を発見
- 特許論文
- 営業日報
自社がどういう傾向があるかなどがわかります。
営業の傾向がわかったりします。昔からこの辺はあります。
顧客アンケート・問い合わせの活用事例
- 重要度の高いネガティブな意見からピックアップした製品開発や仕様改善
- 満足された点、良かった点を反映した販売方法、マーケの改善
- FAQへの反映
SNSにおける世の中の声活用事例
- 新商品・プロモーションの効果測定
- トレンド把握
- 競合分析
- 潜在ニーズの可視化
新商品の開発、企画立案へ
ネット上から声を拾って商品開発です。
楽天レビュー ダイソンとレイコップ比較
レビューを利用して競合比較が可能です。
ダイソンはレイコップと比較されるが、レイコップは目的指名買いなどわかっています。
ここでレイコップ担当者なら、プレゼント向けにやれば販促が捗るのでは?という予想ができます。
テキストマイニング・ラボの紹介
以下を見ると比較例がわかります。よろしければ御覧ください。
http://www.pa-consul.co.jp/mieruka/textmininglab/index.php
質問
レビュー比較はどこまでテキストマイニング?
ダイソンとレイコップ比較では、テキストマイニングでは理由をしらべるまでで、その重み付けは人間が行います。
テキストマイニングは便利に行うためのツールですね。
ポジネガの判定は?
単語単位でポジティブとネガティブのポイントを付けていきます。
単語単体でわからない場合、例えば wwwww
は良いか悪いかは文脈を考えて判定します。
テキストマイニングはなぜブームがこない?
営業視点では、たぶん無くても困らないからだと思います。
ただ、自分でやると技術と時間がかかるので流行らないではないかと思います。
テキストマイニングでこれうまくいったよというのは?
ツールをどれくらい細かく見せられるかというのがあると思いますが、1万件のアンケートのなかで1件だけど非常に重要な意見でそれを元に商品改善したという例はあります。
使ってもサイレントで意見が出ていないというケースについては難しいかもしれません。
最低どれくらいのデータ必要ですか
精度としては最低300~500件必要です。
ダイソンとレイコップ比較では8000件くらいです。
手動なら100~300件が限界かもしれませんね。300件というのは感覚値ですね。
mecabについて
mecabの品詞について
固有名詞の品詞や国名、地域などまでだしてくれます。
mecab実習 WordCloudを作ってみよう
実習1 好きなデータを使ってワードクラウドを作ってみよう。
ツイッターのデータ、ポケモン、パズドラ、モンストのCSVが配られたので、それをmecabで抽出してみます。
実習2 データをクリーニングしよう
ゴミデータの削除をします。
例えば参考サイトによるとコマンドだけでかなり絞りこめるようです。
mecab ./ポケモン_utf-8.csv | grep "名詞" | grep \[ァ-ン] | grep -v "\." | grep -v "\?" | grep -v "(" | cut -f 1 | sort | uniq -c | sort -r -n -o pokemon.csv
ここまでで出力するとこんな感じになりました。
ポケモンのWordCloud出力したマン(☝ ՞ਊ ՞) pic.twitter.com/eGbqGkOHen
— ぷぎえもん dbd ドワイト (@pugiemonn) November 20, 2016
もうちょっと工夫して先頭がカタカナだけにするともうちょっとマシですね
mecab ./ポケモン_utf-8.csv | grep "名詞\|一般" | grep \^[ァ-ン] | grep -v "\." | grep -v "\?" | grep -v "(" | cut -f 1 | sort | uniq -c | sort -r -n -o pokemon.csv
ポケモンのWordCloudちょい抽出を変えた版(☝ ՞ਊ ՞) pic.twitter.com/ZFsr9YS4VB
— ぷぎえもん dbd ドワイト (@pugiemonn) November 20, 2016
参考: http://ldl.ic.kanagawa-it.ac.jp/ioroi/programer/wordcount/wordcount.html
参考: http://qiita.com/hirohiro77/items/771ffb64dddceabf69a3
実習3 他のデータと比較してみよう
ポケモンと比較するためにパズドラの比較を出しました。
パスドラのWordCloud pic.twitter.com/IWjOSvneJ1
— ぷぎえもん dbd ドワイト (@pugiemonn) November 20, 2016
ほかにはモンストです。
モンストのWordCloud pic.twitter.com/ysw4h0M1FJ
— ぷぎえもん dbd ドワイト (@pugiemonn) November 20, 2016
抽出がぜんぜんうまく行っていません。
データ量が大きすぎると、WordCloudがうまく見えないような場合がありました。
実習4 他データと比較して、特徴的なワードを出してみよう
TF-IDFというのを使うらしいです。
今回は時間がなくてここまでできませんでした。
ディスカッション
コメント一覧
まだ、コメントがありません