背伸びのままで。

良い話題があった時に更新します。

統計数理研究所の「ビッググラフと最適化」を聞いてきました。(午前セッション編)

いつもご無沙汰なブログですが、書きたいことが出てきたので更新します。

昨日、お休みして、ビッググラフと最適化というプログラムに参加してきました。

 

数学協働プログラム チュートリアル「ビッググラフと最適化」

http://coop-math.jpn.org/

===============【プログラム】===============

10:10~11:00

ビッグデータ解析に機械学習技術は有用か?

上田修功(NTTコミュニケーション科学基礎研究所 機械学習・データ科学センタ代表)

 

11:00~11:50

下流から攻めるビッグデータ

樋口知之(統計数理研究所長)

 

13:00~13:50

巨大グラフ:数学的解析と高速アルゴリズム

河原林健一(国立情報学研究所 情報学プリンシプル研究系 教授)

 

13:50~14:40

次世代スーパーコンピュータ技術を用いた超大規模グラフ解析と実社会への応用

藤澤克樹(中央大学 理工学部 経営システム工学科 教授)

 

14:50~15:40

大規模な組合せ最適化問題に対する発見的解法

梅谷俊治(大阪大学 大学院 情報科学研究科 情報数理学専攻 准教授)

 

15:40~16:30

SCIP Optimization Suite によるシュタイナー木問題の解法

品野勇治(Zuse-Institut Berlin 研究員・統計数理研究所 客員准教授)

==============================

全く理解が追いつかない部分がしばしば出てきましたが、最適化問題データマイニングを研究するゼミにいたときを思い出しながら、楽しく学び直すことができました。

 

後日、セミナー資料が届くので、ここでは正確な解説は避け(というかできない)、各セッションの印象に残った部分を辛うじて取れたメモをもとに書き留めたいと思います。

 

 

ビッグデータ解析に機械学習技術は有用か?

2020年には全世界のデータ総量が35ゼッタバイトになるという時代になると予測されています。

"The Digital Universe study, conducted by IDC on behalf of EMC, claimed digital information reached 0.8 Zettabytes – one Zettabyte equals a trillion gigabytes – last year and predicted this number would grow 44 fold to 35 Zettabytes by 2020."

ITPro "IDC: Data explosion goes into the Zettabytes"

http://www.itpro.co.uk/622942/idc-data-explosion-goes-into-the-zettabytes)

 

ビッグデータ」と呼ばれる膨大なリソースへのアクセスが容易になる中、

  • 従来のアルゴリズムや「数え上げ」の限界
  • 過去事例のただ集計しただけの結果を将来に適用すること

の不可能性が指摘されるようになったそうです。

 

そこで、現状のビッグデータを処理するために、「機械学習」という、数理統計・最適化理論に基づく汎用データ解析技術に注目が集まっています。

 

今までは、データ(結果)の生成過程を考え、結果的に境界を見つけるという「生成モデル」であったアプローチだったのが、機械学習により、生成過程を無視して所与のデータをもとに境界を見つけるという「識別モデル」での解析が可能になりました。

 

データの爆発的な増大や技術の発達により、データの収集がローコストになり、クラスタ分類をせずとも、膨大なデータにもとづいて確率的に分析できるようになったことが機械学習への注目を集めることに繋がっているようです。

 

現実に応用されている代表例が、アマゾンなどECサイトの推薦システム(協調システム)で、大量のデータを元に、1つの商品を買った人におすすめ商品を提案するという仕組みです。

 

初期のシステムでは、「その商品を買った人が他に買っている商品」や「その商品と同時に買われている商品」など、非常に単純な仕組みの推薦システムだったようですが、今では、グラフを使用して購買者の特性を学習していくことで、推薦商品をよりパーソナライズするシステムが使われているようです。

 

その話題から、無駄な情報を削ぎ落した上でクラスタを把握する技術など、具体的な処理方法について解説がありましたが、全然理解できなかったのでここでは書き(け)ません...。

 

ビッグデータという、ほとんど役立たなくて処理しにくいが重要な情報が眠っているかもしれない大量のデータを分析するには、確率と相性のよい機会学習モデルは有効だということでした。

 

下流から攻めるビッグデータ

ここでは、ビッグデータが重要である理由やその背景について非常にスピーカーに優しい、丁寧な解説がされていました。一番わかりやすかったセッションです。

 

ビッグデータが重要な理由としては

  • 生活を"まるごと"捉えることができるから
  • 支配方程式(前のセッションの「生成モデル」)がないものを分析できるから

という2点を挙げていました。

 

さまざまな角度から、さまざまな種類のデータで対象を捉えられるようになることは、今までの仮説検証型モデルではできなかったことです。また、事前の情報がなくとも十分な質と量のデータさえあれば、分析することが可能になったのもビッグデータ分析の利点だということでした。

 

しかし、一方でビッグデータを扱う際に注意すべき点も挙げられていました。

 

ビッグデータ分析は錬金術や砂金探しのように例えられることが多く、データのほとんどがクズで、その中から非常に価値ある僅かな部分を探すという作業になります。言い換えると、処理量あたりの価値(=価値密度)が低いため、人力だけではなく機械に可能な限り任せることが重要だということでした。

 

また、ビッグデータ分析には、データクレンジングから分析結果導出、ときによってはアクションプランまで、さまざまなプロセスがあり、一言で「ビッグデータ分析」と言えるような作業ではありません。1分野の専門性だけではなく、Data Mining, Modeling, Optimizationなど複数の専門性を組み合わせてプロセスを構築する必要があります。実際に、ビッグデータを利用できている企業では、数十人規模のチームを組んで取り組んでいるようです。

 

そして、技術的な視点だけではなく、「ビッグデータを入れればなにか出てくる」という幻想から離れて、ビッグデータの価値、つまり消費者をはじめとする受益者の視点を考慮する必要があるともおっしゃっていました。言い換えると、技術ではなく、データ側にある価値にも十分配慮する必要があるということです。

 

 そのための試みの例として、以下の本から、CMOとCIOが別々にCustomerにアプローチするのではなく、共同してアプローチするような仕組みを紹介していました。

データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ

データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ

 

 

その後、「アナリティクスの4つの落とし穴」と称して、注意すべき点を紹介していました。

 

  1. ビッグデータの操作に没頭してスモールデータを見ない
  2. 因果と相関を区別しない
  3. 全てのデータを扱う意味を考えない
  4. 内挿と外挿を区別しない

 

ビッグデータの操作に没頭してスモールデータを見ない

ここでも上記の書籍を紹介しながら、N(サンプルサイズ)の増大に応じた処理を実行するだけでなく、「データの構造」を把握するヒントとなる重要なスモールデータを突き止めることが肝要とのことでした。

 

特に率(rate)を考えるときは、数字の扱いに注意する必要があり、

率(rate)=A/S

(A:Action数, S:Sample数)

という計算をする際に、分子も分母もターゲットの数とターゲットではないものの数が含まれているため、

率(rate)=(Aa+Ab)/(Sa+Sb)

(Aa: TargetのAction数, Ab: non-TargetのAction数, Sa: TargetのSample数, Sb: non-TargetのSample数)

としておくと間違いが少なくなるということでした。

 

因果と相関を区別しない

これは統計の話ではよくあることで、相関係数が高くても関係があるわけではないということです。分析結果で有意に相関があるという結果が出たとしても偶然の可能性もあり、その(因果を認めて)対応を考える際には、関係者の経験や専門性も役に立つということだと思います。

今回説明してきた「因果関係がないのに相関関係があらわれるケース」は、以下の4つになります:

(1) 偶然によるケース

(2) 因果の流れが「逆」のケース

(3) 因果の上流側に共通の要因があるケース

(4) 因果の合流点において選抜/層別/調整されてしまっているケース

http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166

因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

 

全てのデータを扱う意味を考えない

ビッグデータの全数調査をする大きな意義の一つは、極端なデータ(外れ値)も集計することでInnovationのヒントを見つけられることだということです。サンプリングデータで済む話であればわざわざ手間のかかるビッグデータの分析はする必要はありません。

 

最近の日経BPの記事でも、山本一郎さんが同様のことを述べていました。

山本:とにかく大量のデータを集めればよいと思っている現象としては、全数調査とサンプル調査の使い分けができていないケースもありますよね。例えば、あるエリアの消費動向を知りたいのなら、サンプル調査で十分です。にも関わらず、ポイントカードの履歴データなどを駆使して全数調査をしようとするわけです。結果はほぼ同じなのに、コストと手間をかけようとするのは理解に苦しみます。

(2/3)ビッグデータ 炎上の法則 - パーソナルデータで炎上、ビッグデータに対する幻想がトラブルを招く:ITpro

http://itpro.nikkeibp.co.jp/article/COLUMN/20140227/539837/?ST=selfup&P=2

 

ちなみに、Google Analyticsはサンプリングデータを使っているので、ビッグデータ分析をしたいのであれば特別な操作をする必要があるようです。

 

参考:Google Analyticsのサンプリングを避けつつデータを楽に取得する方法-LIVESENSE DIGITAL MARKETING

http://marketing.livesense.co.jp/post/77247321244

 

内挿と外挿を区別しない

データ(結果)から知見を導き出そうとする帰納法的アプローチを行う場合には、分析範囲以上のことを理解/予測することは難しいということでした。あくまでデータの範囲内での判断(内挿)にとどまるので、範囲外の事象を把握(外挿)するには、生成モデルなど演繹的アプローチも検討する必要があるようです。

 

 様々なTipsを紹介しつつも、最終的に「価値(Value)」に紐づくビッグデータの分析が必要だということでした。

 

Vで始まる最初の3つの言葉(volume-ボリューム、velocity-速度、 variety-多様性)は概して自己定義ができる。

(中略)

最も困難なVは4つ目(validity-有効性)と5つ目(value-価値)である。

ビッグデータの5つのVを考え出したのは誰だろうか。 | Enterprise CIO Forum

http://www.enterprisecioforum.com/ja/blogs/jdodge/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE5%E3%81%A4%E3%81%AEv%E3%82%92%E8%80%83%E3%81%88%E5%87%BA%E3%81%97%E3%81%9F%E3%81%AE%E3%81%AF%E8%AA%B0%E3%81%A0%E3%82%8D%E3%81%86%E3%81%8B%E3%80%82

 

長くなったので、一旦この記事ではこれくらいにして、後半は後日アップしたいと思います。

後半はどんどん応用範囲が増え、全然理解できなかったので文章は短くなりそうです...。講義資料が届けば充実するかも...?