#devsumiE 「オンライン機械学習で実現する大規模データ処理」で聞いたことのメモ

via http://jubat.us

Developers Summit 2012

の2日目、 13:10〜14:00 の【17-E-3】「オンライン機械学習で実現する大規模データ処理」だけに参加してきたので、わたしがとってきたメモを共有したいと思います。

[Cloud Development] 13:10〜14:00【17-E-3】オンライン機械学習で実現する大規模データ処理西川徹氏

【17-E-3】オンライン機械学習で実現する大規模データ処理

View more presentations from Developers Summit

＜講演概要＞

大規模データ処理は、Hadoopの普及や大手ベンダーの参入により、ますます盛り上がってきました。大規模データを活用しようとするこのビッグウェーブは、まだ始まったばかりです。データの量が増えるだけでなく、扱うデータの多様性はもっと増していきます。トランザクション履歴やテキストだけでなく、センサーデータ、生物学的な情報、位置情報など、さまざまな種類のデータを扱うことになるでしょう。そして、分析技術も日々発展しています。分散ストリーミング処理系も、オープンソースのものが出てきています。より多様に、よりリアルタイムに、そして、より深い分析を実現する、ということを目指して大規模データ処理の世界は急速に発展を遂げています。弊社では、その発展を支えるために、JubatusというOSSを出しました。今回のセッションでは、Jubatusをはじめとして我々が取り組んでいる技術の詳細・面白さを紹介するとともに、大規模データ処理を発展させるためのロードマップを示したいと考えています。

＜登壇者＞

株式会社 Preferred Infrastructure
西川徹氏
株式会社Preferred Infrastructure（PFI）代表取締役。2006年の大学院在学中にPFIを設立。大学・大学院時には大規模な並列処理システムの研究を行う。その後、PFIでは、情報検索システムの開発や、機械学習・自然言語処理システムの大規模化・実世界の応用を行っている。
Twitter： @nvaca
Facebook： nvaca

▶ 会社紹介、自己紹介

PFI
コンピュータサイエンス
6年目のベンチャー
その代表取締役
自然言語処理、機械学習
機械学習と言う処理をどうやって大規模に展開していくのか
BigData をこれからどうやってあつかっていくのか
機械学習はその武器

▶ 大規模データ処理の今大規模データと機械学習技術

▶ 人工知能研究のスタート

人間をコンピュータで模倣することから始まった
チューニングテスト
箱に何が入っているかわからない状態で、機械か人間かわからないようにする

▶ 知識表現と推論

今、注目をあびているSiriの原型となる研究はかなり前から行われていた
人の持っている知識をデジタル化、判断を機械に再現させる

▶ 機械学習技術の登場

学習＝人間が知識や知能を獲得する過程をコンピュータ上で実現しようとする

▶ 初期の人工知能→失敗

コンピュータパワーの不足
複雑すぎてルールが爆発する…例外だらけ
応用が見出せなかった

▶ 分野の専門化がおこる

その中で、機械学習が1990年代から大きな注目
画像認識、音声認識、データマイニング、自然言語処理・機械翻訳などなど

▶ アプローチの変化

演繹的→帰納的
ルールベースのシステム→データから法則を見出す

▶ 機械学習とは？

データから有用な規則、ルール、知識表現、判断基準などを抽出
データがあるところならば、どこでも使える
様々な分野の問題に利用可能
リコメンド
株価の予測などなど

▶ 機械学習→データマイニングへの応用

コンピュータの進化
DB技術の発展
＋

…

▶ 機械学習→自然言語処理への応用

アノテーション済みコーパスの整備により、自然言語処理における機械学習の応用が大きく進んだ

▶ 機械学習→ウェブサービスでの活用

スパムフィルタリング
オンライン広告の最適化
レコメンデーション技術の発展
検索によるランキング学習
ユーザーの属性推定
などなど

▶ PFIのアプリケーションの例

Twitterのつぶやきの分析
テキストの中から特徴的な単語の抜きだし→分析

▶ 機械学習の発展

技術の発展→ビジネスへの応用

▶ 機械学習の発展

法則の発見＋データに基づいた

▶ 機械学習→様々な技術との協調・発展

▶ 技術の合わせ技

クイズに自動的に答えたりとか

▶ 大規模データ処理の今 Hadoopのインパクト

▶ 検索技術とGoogleのテクノロジー

どうしてそれがBigDataに寄与したのか
複雑なWeb
構造化されていない情報
人が書いたコンテンツ
大量の情報
などを扱わなくてはならなかった
その解決→GFS、MR

▶ Hadoop→Google MRのクローン

▶ HadoopはRDBMSの置換にはならない

スケーラブルなIO性能
無限に大きなストレージ
安価なHW
MR
Unstructured、Semistructured
表現力
Fault Tolerance
大規模データの量的な変化・多様性に対応できる
汎用的で使いやすいデータモデル

▶ 簡単に記述できる、簡単に運用できる

Hadoopの恩恵

▶ Hadoop EcoSystem

Hive/Pig
Mahout
MapR
Oracle、IBM、

▶ ビッグデータバブル

一過性のブームとして見るのか、パラダイムの変化として捉えるのか
ビジネス的にみれば、バブルの側面
成熟度がましていくと一旦おちつく
エンジニア視点でみると、パラダイムシフトとして捉えることもできる

▶ 理論の追求、シミュレーション、データ中心・データ集約型・コンピューティング

▶ 方法論そのものがデータ中心になっていく

世の中はだいぶ複雑
嗜好や文化の違いを明快に分析することはできない
→できる
→Data Scrienticstはビジネスサイドにも必要

▶ データ志向コンピューティングの発展 x Hadoopはどの技術の発展

▶ 応用分野はWebだけではない

ビッグデータの注目はより大きく
ライフサイエンス
社内システム
生活インフラ
モバイル
言葉が先行していて中身がないことは問題

▶ 医療への応用

例

Description - Heritage Health Prize

▶ 次世代シーケンサーが生むビッグデータ

次世代シーケンサー→DNA→蓄積
人ゲノム

▶ さらにデータは多様になる

▶ 大規模データ処理の進化

深い分析
省電力
リアルタイム

▶ 大規模データの今深い分析をスケールさせるには

▶ 2つの難しい課題

データ量の問題
計算量の問題：たとえデータを集められるようになったとしても、プロセッシングのコストが高くなってしまう

▶ 分析処理のオンライン化・ストリーム化

省スペース・効率的なアルゴリズムを使う
→リアルタイム

▶ オンラインとバッチ、大規模と分散並列

Jubatus→大規模かつリアルタイムの機械学習
WEKA
SVM light
Mahout

▶ Jubatus プロジェクト

スケーラブルな機械学習をすべての人に提供することを目指す
OSS
少ないコンピューティングリソースでも快適
将来的には組み込みデバイスにも

▶ 機械学習に特化したデータ交換モデル

生データに対して、学習モデルは小さい

▶ Update、Analyze、MIX

計算モデル
データを受け取って更新

…

▶ 多クラス分類で実装されている

メール分類
Twitterのユーザー分析
電気使用量

…

▶ 否定形データから特徴ベクトルへの変換

入力は特徴ベクトル
各特徴量にクラスごとの重みがある
重みの総和（内積）が各クラスの得点とする

▶ 線形分類器と呼ばれる所以

重みの足し合わせは特徴ベクトルと重みベクトルのない席を計算しているということ

…

▶ これからの大規模データ Jubatus の未来

▶ Jubatus新機能

新しい3つの解析帰納が搭載
- リアルタイム・分散・深い分析

↓

＊推薦
回帰
統計

▶ 推薦

リアルタイムのレコメンド！！

▶ Jubatusのレコメンドで

更新・レコメンドともにスケールアウトする

▶ 20120217 リリースされる！

14:00 に！？

▶ さらなる未来にむけて

世の中はグラフであふれている
インターネット
SNS
代謝の反応経路
タンパク質相互作用と発想パタン
交通

▶ グラフマイニング→Jubatus

Hadoop GraphDB→Jubatus 複雑なグラフマイニングを大規模リアルタイムに！
2012年中に公開予定！！
大量のデータに対して対応可能な機械学習でなければ意味がない！

感想：

よくも悪くも PFI さんによる Jubatas のプロモーションという内容でした。
ちなみに以下のツイートには吹きましたｗ（こういうユーモアは好きです）
あ！なんかJubatusの新しいバージョンである0.2.0がリリースされてるぞ！ > URL #jubatus #devsumiE
2012-02-17 13:52:09 via YoruFukurou