Data Mining & Text Mining

データマイニング＆テキストマイニングの考え方

なかなか敷居が高いと思われがちなデータマイニング＆テキストマイニング、理論はともかくとして、とりあえずお仕事・実務で使いたいとお考えの方は結構多いのではないでしょうか？（
そのような方のために、気軽な解説＆参考書紹介ページを開設致しました。お役に立てば幸いと存じます。

とりあえず、私管理人自身が、どのような考えでデータマイニング＆テキストマイニングを行っているのかを、自著の序文から激白致しますと・・・

以下、【Excelで学ぶテキストマイニング入門】序文より抜粋（ちょっとだけ改筆）（^^;）

日本の消費者は、「欲しいモノがない」「買いたいモノがない」という未曾有の体験をしているのではないでしょうか。筆者の身の回りを見渡しても、おおよそ普段の生活に関しては、大抵のニーズが充足されています。例えば新型スポーツカーのテレビコマーシャルを目にしても、その性能が従来より飛躍的に向上していることは何となく理解できるのですが、今乗っている車に大きな不満はないので、「カッコイイなぁ」くらいにしか思わず、「買いたい！」という衝動がわき起こってきません。薄型の高画質テレビにしても、「いいなぁ」と思っても「買いたい！」とは思わず、「今のが壊れたら次はこれにしよう」といった具合です。今乗っている車も見ているテレビも、今のところ壊れる気配がまったくないので、しばらくは車もテレビも買わないでしょう。つまり、いくら高い品質の商品をリーズナブルな価格で世に送り出しても、消費者の「欲しい」「買いたい」という衝動を喚起できなければ購買には至らず、企業活動としては未完結なのです。

化粧品技術者として処方開発を担当した経験を持つ筆者にとって、この事実は極めて納得のいかないものでした。高い品質の商品を創っているのに、なぜ売れないのか。どうすれば消費者が「欲しい」「買いたい」と思ってくれるのか。この疑問への解答を探し求めて、筆者は化粧品技術者としての研究活動の傍ら、企業の商品開発担当者、シンクタンクや大学の研究者らの集まりである「魅力工学研究会（出版当時会長：東京都立大学朝野熙彦教授、現会長：関東学院大学讃井純一郎教授）」や「好みの計量研究会（代表：女子栄養大学芳賀麻誉美先生）」に参加させていただき、「欲しい」「買いたい」といった「魅力」をテーマに、その計測方法や具現化方法について、多くの仲間との交流の中で刺激を受け、役に立つ知識・情報を共有しながら研究を続けてきました。もちろん、未だに自分自身で完全に納得できる答えは得られていませんが、問題点はなんとなく見えてきたように思います。

企業人であると同時に科学的な知見を必要とする筆者らは、商品を開発する際、消費者を観察したりインタビューしたりすることで「欲しい」「買いたい」という顧客ニーズに関する仮説を立て、アンケートという手法で実際に消費者がどのように考えているのかを数値化し、検証しようとしてきました。設問に「はい」「いいえ」で答えてもらったり、SD尺度といわれる方法で回答してもらったりしながら、定量的なデータを収集し、多変量解析のような数理統計的な手法でそのデータを解析して、仮説の検証を行っていたわけです。最近では、「データマイニング」という新しい言葉の出現に象徴されるように、解析手法も一段と充実してきています。

しかし、このアンケートという手法は、本質的に一つの宿命を負っています。それは、消費者にアンケートを設計した人間の仮説を押しつけてしまうということです。車を例にとれば、消費者の本当の興味がインテリアの高級感にあったとしても、「Q1：ハンドルの切れはいかがですか？」「Q2：ブレーキの効きはいかがですか？」「Q3：室内の広さはいかがですか？」…といった設問ばかりが羅列されていたら、それらに消費者が正直に答えた結果、「ハンドルがよく切れて、ブレーキがよく効き、室内の広い車が消費者の希望だ」という結論になってしまう可能性があります。企業は、そのような調査結果に従って商品を開発していくでしょう。この本を手にとってくださった読者の方の身近でも、こんな悲劇がしばしば起こっているのではないでしょうか。

このような問題を解決するには、消費者に、「みずから」「自身の言葉で」「気になっていること」を語っていただくほかありません。もちろん従来から、グループインタビューや自由記述式のアンケートのような、「言葉（定性的データ）」を収集して解析する方法も活用されてはいます。しかし、定性調査と呼ばれるこれらの方法では、データの収集方法・解析手法が十分整備されていないため、グループインタビューでは一部の影響力の大きな参加者に全体の意見が誘導されたり、インタビュー結果の解析やレポート作成の段階で多分に解析者の主観が入ったりと、定性的なデータを扱うがゆえの問題も多々あります。こうした問題を解決するヒントを筆者に与えてくれたのが、魅力工学研究会でした。メンバーであった道官克一郎氏（有限会社データアート代表）が提唱した「○○は、（　）で、（　）で、…」というフォーマットにより概念を定義してもらう方法（定義法）では、定性的なテキストデータを「同一概念の定義が何回登場したか」という観点から数値化でき、定量的な解析手法の適用が可能になります。また、「○○は、（　）ので、（　）だから（　）」というフォーマットで文章を完成してもらう方法（文章完成法）は、同一の概念を持つ語の因果関係の出現回数を数値化し、定量的な因果関係の分析手法の適用を可能にします。これらの方法が、筆者がこの本の中で紹介する「定形自由文形式のアンケート（決まったフォーマットに従って自由記述する形式のアンケート）」による「テキストのデータマイニング」のルーツとなっています。この本により、「定型自由文形式のアンケート」の利点を体感し、活用していただければと思います。

近年になって筆者は、定型自由文形式のアンケートによる「テキストのデータマイニング」の考え方を応用して、Web上に書き込まれた口コミ情報や自由記述式アンケート、コールセンターに集まるお客さまの生の意見といった「非定型自由文」を対象としたマイニング手法（文字どおりのテキストマイニング手法）の開発を進めているのですが、それらのテキストデータを解析していてしみじみ感じることは、「非定型自由文の中には、役に立つ知識・情報が期待するほどは含まれていない」「解析手法がいくら進化しても、元になるデータの中に役に立つ知識・情報が含まれていなければ何も出てこない」ということです。「お宝」が埋まっているところを掘ってこその「マイニング」なのです。その意味では、「テキストデータの解析手法」よりも、むしろ「テキストデータの収集方法」に注力すべきであると筆者は確信しています。

テキストマイニングは目的ではありません。役に立つ知識・情報を得るための手段です。宝の埋まっていない地面をやみくもに掘るような愚は決して犯さないでください。そして、そのためにも、本書でテキストマイニングのさわりを実際に体験し、「何ができて何ができないのか」「どうすれば効率よく役に立つ知識・情報を得られるのか」を正しく理解していただきたいと思います。

データマイニングとテキストマイニング

テキストマイニングとは、テキスト（テキストデータ）を分析し、ビジネスに役立つ知識・情報を取り出そうという技術です。
ですから、多量のテキストのなかから必要な情報を上手に探し出す技術もテキストマイニングですし、テキストを要約し論旨を明確にするのもテキストマイニング、多量のテキストを縮約しそれぞれの元テキストの著者でさえも気づかなかった新しい情報を発見するのもテキストマイニングと考えて良いでしょう。

■データマイニングとの位置付け
データマイニングは、手法として、マーケットバスケット分析、記憶ベース推論、クラスタ－分析、リンク分析、決定木、ニューラルネットワーク、遺伝的アルゴリズム等々様々なものが提案されていますが、その目的はデータを分析してビジネスに役立つ知識・情報を取り出そうという技術であり、テキストマイニングと目的は何ら変わりません。
これら両者の違いは、データマイニングが様々な調査、統計、データベースから得られるきれいに整えられた数値データを先に挙げたような様々な統計解析手法や構造解析手法を用いて分析し、ビジネスに役立つ知識・情報を取り出そうという技術であるのに対し、テキストマイニングは、扱う元データがきれいに整えられた数値データではなく、テキストであるところです。
つまり、広義にはテキストマイニングはデータマイニングに内包されると考えて良いでしょう。

■情報検索との位置付け
インターネットで何か調べものをするときよく使われている検索エンジンがまさに情報検索の良い例ですが、情報検索はユーザーが必要とするであろう情報を探し出してくる技術です。
テキストの中味を読み込んで自分に「ビジネスに役立つ知識・情報を取り出すことが出来た！」と感じられた時テキストマイニングが完結するのであり、情報検索はテキストマイニングの前処理の一つであると考えられます

■テキストマイニングの３要素
テキストマイニングには
①情報の抽出
②抽出された情報の解析
③解析結果の可視化
の要素があります。
①情報の抽出とは、いかにノイズを少なく必要な情報を集めるかということであり、②抽出された情報の解析とは、集めてきた情報を正しく考察・理解するためにはどんな手法で解析すればよいのかということであり、③解析結果の可視化とは、いかに解析結果の考察と理解を楽にするかということです。
業務の中で本格的にテキストマイニングを導入することになれば、専用のテキストマイニングアプリケーションを活用することになると思いますが、どのアプリケーションが優れているのか、ご自分の業務に役立つのかを評価する際のチェックポイントとして是非この３要素の観点から吟味していただきたいと思います。

■自然言語処理
テキストマイニングを支える技術としては、自然言語処理が筆頭にあげられます。
自然言語処理も含め、「言語学」という分野は大きくは５つの研究分野に分けられます。
①音韻論（ｐｈｏｎｏｌｏｇｙ）
②形態論（ｍｏｒｐｈｏｌｏｇｙ）
③構文論（ｓｙｎｔａｘ）
④意味論（ｓｅｍａｎｔｉｃｓ）
⑤語用論（ｐｒａｇｍａｔｉｃｓ）
です。
音韻論とは、単に音と文字の関係、子音と母音の組み合わさり方などを明らかにするもの、形態論とは、単語とか、品詞とかについて、その語形変化や並び方などを研究する分野で、言語が意味を持つ最小の単位を扱う世界です。
構文論は、語や文節がどのように構造化しているのかを研究する分野、意味論とは、ひとつひとつの「単語」がどのような意味をもっているかを研究する分野、語用論は、ある発話をとりあげ、その発話が文脈の中でどのような働きをもっているかを研究する分野です。
音韻論と形態論は比較的研究が進んでいる分野で、その成果が形態素解析と呼ばれる技術として実用化されつつありますし、構文論の進歩が構文解析を可能にしつつあります。

■形態素解析
もう一つ重要な技術に形態素解析（Ｍｏｒｐｈｏｌｏｇｉｃａｌ　ａｎａｌｙｓｉｓ）があります。
形態素解析とは、与えられた文を形態素に分ける作業のことをいいます。
形態素とは、名前のとおり、「形態」の「素」で、テキストを構成する文法的に意味づけ出来る最小単位をさします。単語に近いのですが、日本語の場合はもっと細かく分類されます。
例えば「カリフォルニアワインは美味しいのだが」は、
　カリフォルニア　名詞－固有名詞－地域－一般
　ワイン　名詞－一般
　は　助詞－係助詞
　美味しい形容詞－自立　形容詞・イ段　基本形
　の　名詞－非自立－一般
　だ　助動詞特殊・ダ　基本形
　が　助詞－接続助詞
といった要「素」に解析されるという具合です。
直感的には、よくロボットが日本語を話すようなアニメのシーンがありますが、そのロボットのカタコトの日本語「カリフォルニア・ワイン・ハ・オイシイ・ノ・ダ・ガ」を想像してください。
ふざけてロボットの真似をして喋る区切りが、ほぼ形態素です。
形態素解析は自然言語処理の次ステップである構文解析の拠り所となる文法的な品詞情報を、品詞と品詞のつながりの規則性を利用して決定する、非常に重要な役割をもつ技術です。
身近なところでは、携帯電話の日本語変換にもこの形態素解析技術が使われています。

■構文解析
形態素解析の次は構文解析です。
自然言語をコンピューターで構文解析出来ると考えたのは、理論言語学の始祖と言われるチョムスキーでしょう。
彼の考えは、無限にある単語の組み合わせの中から、無限に存在する文法的に正しい単語並びを規定する規則を数学の枠組みの中で規定しようとするものでした。
この考えが形式言語理論を生み、それが発展して計算言語学や自然言語処理といった学問分野に発展しました。
その結果、無限にある単語の組み合わせの中から、無限に存在する文法的に正しい単語並びを規定するという考え方から、単語列とその構造との関連、相互の制約関係を記述するという考え方にシフトし、ＴＡＧ（Ｔｒｅｅ　Ａｄｊｏｉｎｉｎｇ　Ｇｒａｍｍａｒ：木接合文法）等の自然言語記述の枠組みが出来てきました。
そうは言っても、形態素解析に曖昧性があり、品詞情報の候補が不正確だと、当然それを使う構文解析は不正確になります。
現在の自然言語処理の最大の問題はこの「曖昧性」の解消であり、これを解決しなければその先にある意味論、語用論にはなかなか到達できないということになります。

■テキストマイニングに向くデータマイニング手法
テキストマイニングに向くデータマイニング手法についてですが、形態素解析のおかげで、テキストが単語（の語幹）の出現頻度情報としてきれいに数値化されたデータとして提供されるため、相関ルールや共起分析、マーケットバスケット分析と呼ばれる、ある単語（或いは概念）と別の単語（別の概念）が一つのテキストの中で同時に使われる確率を計算する方法が適用できるようになりました。
この方法でテキストを解析すると、「ワイン」という言葉と「テイスティング」という言葉はよくセットで使われるとか、「ワイン」と「イタリア料理」は高い共起確率を示すが「ワイン」と「日本料理」はほとんど共起しない、ということは、ワインとイタリア料理は良く合い、日本料理とのマリアージュ（相性）はあまり良くないのだろう、といった「ビジネスに役立つ知識・情報」を取り出すことが出来るわけです。
また、クラスター分析と呼ぶ、テキスト同士の類似点を同じ単語が含まれているかどうかを指標に数量化する手法も適用でき、要旨の発見と分類に役立っています。

参考書

林が実際にお世話になった（役だった）参考書、執筆に関わった書籍をご紹介します

■まずはわかった気になる　（決済者、調査報告を聞く立場の方はこれらを読んでおけば良いでしょう）
まずは、これらの「読み物」を読んで、わかった気になりましょう

推計学のすすめ（ブルーバックス）　佐藤信 (著)
統計解析のはなし　大村平 (著)
複雑さに挑む科学（ブルーバックス　柳井晴夫 (著)
多変量解析のはなし　大村平 (著)
テキストマイニング活用法　石井哲 (著)

■考え方や仕組みを理解する　（実務担当者、調査報告を行う立場の方はこれらを読んでおいて欲しいですね）
次に少し「考え方」や「仕組み」を勉強しましょう

ＪＭＰによる統計解析入門　田久浩志、林俊克、小島隆矢 (著)
Excelで学ぶやさしい統計学　田久浩志 (著)
入門多変量解析の実際　朝野煕彦 (著)　←【名著です】
Excelで学ぶ共分散構造分析とグラフィカルモデリング　小島隆矢 (著)
データマイニング手法　マイケルJ.A.ベリー (著)
ＪＭＰによる多変量データ活用術　広野元久、林俊克共(著)
Excelで学ぶテキストマイニング入門　林俊克 (著)
正規表現とテキスト・マイニング　佐良木昌、新田義彦 (著)

■専門的に勉強したい　（上級を目指す実務担当者、研究者の方向けの本です）
これら全部を理解したら、免許皆伝と言えましょう。少なくとも、林はこれら全ては理解出来ておりません。（^^;）

コーパス言語学の技法－テキスト処理入門　中尾　浩
英語コーパス言語学　斎藤　俊雄
実践コーパス言語学　鷹家　秀史、須賀　廣
コーパス言語学　ダグラス・バイバー
WindowsPCによる日本語研究法－Perl, CLTOOLによるテキストデータ処理　佐野洋
計量言語学入門　伊藤雅光
メッセージ分析の技法－「内容分析」への招待　クラウス・クリッベンドルフ
テキストファイルとは何か？　鐸木能光
正規表現入門　平田豊
正規表現ケーススタディブック　ハーシー
正規表現の達人　IDEA.C
図解でわかる文字コードのすべて　清水哲郎