[Cloud Development] 13:10〜14:00【17-E-3】オンライン機械学習で実現する大規模データ処理 西川 徹 氏
【17-E-3】 オンライン機械学習で実現する大規模データ処理
View more presentations from Developers Summit
<講演概要>
大規模データ処理は、Hadoopの普及や大手ベンダーの参入により、ますます盛り上がってきました。大規模データを活用しようとするこのビッグウェーブは、まだ始まったばかりです。データの量が増えるだけでなく、扱うデータの多様性はもっと増していきます。トランザクション履歴やテキストだけでなく、センサーデータ、生物学的な情報、位置情報など、さまざまな種類のデータを扱うことになるでしょう。そして、分析技術も日々発展しています。分散ストリーミング処理系も、オープンソースのものが出てきています。より多様に、よりリアルタイムに、そして、より深い分析を実現する、ということを目指して大規模データ処理の世界は急速に発展を遂げています。弊社では、その発展を支えるために、JubatusというOSSを出しました。今回のセッションでは、Jubatusをはじめとして我々が取り組んでいる技術の詳細・面白さを紹介するとともに、大規模データ処理を発展させるためのロードマップを示したいと考えています。
<登壇者>
株式会社 Preferred Infrastructure
西川 徹 氏
株式会社Preferred Infrastructure(PFI)代表取締役。2006年の大学院在学中にPFIを設立。 大学・大学院時には大規模な並列処理システムの研究を行う。 その後、PFIでは、情報検索システムの開発や、機械学習・自然言語処理システムの大規模化・実世界の応用を行っている。
Twitter: @nvaca
Facebook: nvaca
▶ 会社紹介、自己紹介
- PFI
- コンピュータサイエンス
- 6年目のベンチャー
- その代表取締役
- 自然言語処理、機械学習
- 機械学習と言う処理をどうやって大規模に展開していくのか
- BigData をこれからどうやってあつかっていくのか
- 機械学習はその武器
▶ 大規模データ処理の今 大規模データと機械学習技術
▶ 人工知能研究のスタート
- 人間をコンピュータで模倣することから始まった
- チューニングテスト
- 箱に何が入っているかわからない状態で、機械か人間かわからないようにする
▶ 知識表現と推論
- 今、注目をあびているSiriの原型となる研究はかなり前から行われていた
- 人の持っている知識をデジタル化、判断を機械に再現させる
▶ 機械学習技術の登場
- 学習=人間が知識や知能を獲得する過程をコンピュータ上で実現しようとする
▶ 初期の人工知能→失敗
- コンピュータパワーの不足
- 複雑すぎてルールが爆発する…例外だらけ
- 応用が見出せなかった
▶ 分野の専門化がおこる
- その中で、機械学習が1990年代から大きな注目
- 画像認識、音声認識、データマイニング、自然言語処理・機械翻訳などなど
▶ アプローチの変化
- 演繹的→帰納的
- ルールベースのシステム→データから法則を見出す
▶ 機械学習とは?
- データから有用な規則、ルール、知識表現、判断基準などを抽出
- データがあるところならば、どこでも使える
- 様々な分野の問題に利用可能
- リコメンド
- 株価の予測などなど
▶ 機械学習→データマイニングへの応用
- コンピュータの進化
- DB技術の発展
- +
…
▶ 機械学習→自然言語処理への応用
- アノテーション済みコーパスの整備により、自然言語処理における機械学習の応用が大きく進んだ
▶ 機械学習→ウェブサービスでの活用
- スパムフィルタリング
- オンライン広告の最適化
- レコメンデーション技術の発展
- 検索によるランキング学習
- ユーザーの属性推定
- などなど
▶ PFIのアプリケーションの例
- Twitterのつぶやきの分析
- テキストの中から特徴的な単語の抜きだし→分析
▶ 機械学習の発展
- 技術の発展→ビジネスへの応用
▶ 機械学習の発展
- 法則の発見+データに基づいた
▶ 機械学習→様々な技術との協調・発展
▶ 技術の合わせ技
- クイズに自動的に答えたりとか
▶ 大規模データ処理の今 Hadoopのインパクト
▶ 検索技術とGoogleのテクノロジー
- どうしてそれがBigDataに寄与したのか
- 複雑なWeb
- 構造化されていない情報
- 人が書いたコンテンツ
- 大量の情報
- などを扱わなくてはならなかった
- その解決→GFS、MR
▶ Hadoop→Google MRのクローン
▶ HadoopはRDBMSの置換にはならない
- スケーラブルなIO性能
- 無限に大きなストレージ
- 安価なHW
- MR
- Unstructured、Semistructured
- 表現力
- Fault Tolerance
- 大規模データの量的な変化・多様性に対応できる
- 汎用的で使いやすいデータモデル
▶ 簡単に記述できる、簡単に運用できる
- Hadoopの恩恵
▶ Hadoop EcoSystem
- Hive/Pig
- Mahout
- MapR
- Oracle、IBM、
▶ ビッグデータバブル
- 一過性のブームとして見るのか、パラダイムの変化として捉えるのか
- ビジネス的にみれば、バブルの側面
- 成熟度がましていくと一旦おちつく
- エンジニア視点でみると、パラダイムシフトとして捉えることもできる
▶ 理論の追求、シミュレーション、データ中心・データ集約型・コンピューティング
▶ 方法論そのものがデータ中心になっていく
- 世の中はだいぶ複雑
- 嗜好や文化の違いを明快に分析することはできない
- →できる
- →Data Scrienticstはビジネスサイドにも必要
▶ データ志向コンピューティングの発展 x Hadoopはどの技術の発展
▶ 応用分野はWebだけではない
- ビッグデータの注目はより大きく
- ライフサイエンス
- 社内システム
- 生活インフラ
- モバイル
- 言葉が先行していて中身がないことは問題
▶ 次世代シーケンサーが生むビッグデータ
- 次世代シーケンサー→DNA→蓄積
- 人ゲノム
▶ さらにデータは多様になる
▶ 大規模データ処理の進化
- 深い分析
- 省電力
- リアルタイム
▶ 大規模データの今 深い分析をスケールさせるには
▶ 2つの難しい課題
- データ量の問題
- 計算量の問題:たとえデータを集められるようになったとしても、プロセッシングのコストが高くなってしまう
▶ 分析処理のオンライン化・ストリーム化
- 省スペース・効率的なアルゴリズムを使う
- →リアルタイム
▶ オンラインとバッチ、大規模と分散並列
- Jubatus→大規模かつリアルタイムの機械学習
- WEKA
- SVM light
- Mahout
▶ Jubatus プロジェクト
- スケーラブルな機械学習をすべての人に提供することを目指す
- OSS
- 少ないコンピューティングリソースでも快適
- 将来的には組み込みデバイスにも
▶ 機械学習に特化したデータ交換モデル
- 生データに対して、学習モデルは小さい
▶ Update、Analyze、MIX
- 計算モデル
- データを受け取って更新
…
▶ 多クラス分類で実装されている
- メール分類
- Twitterのユーザー分析
- 電気使用量
…
▶ 否定形データから特徴ベクトルへの変換
- 入力は特徴ベクトル
- 各特徴量にクラスごとの重みがある
- 重みの総和(内積)が各クラスの得点とする
▶ 線形分類器と呼ばれる所以
- 重みの足し合わせは特徴ベクトルと重みベクトルのない席を計算しているということ
…
▶ これからの大規模データ Jubatus の未来
▶ Jubatus新機能
- 新しい3つの解析帰納が搭載
- リアルタイム・分散・深い分析
↓
- *推薦
- 回帰
- 統計
▶ 推薦
- リアルタイムのレコメンド!!
▶ Jubatusのレコメンドで
- 更新・レコメンドともにスケールアウトする
▶ 20120217 リリースされる!
- 14:00 に!?
▶ さらなる未来にむけて
- 世の中はグラフであふれている
- インターネット
- SNS
- 代謝の反応経路
- タンパク質相互作用と発想パタン
- 交通
Reference.
- Jubatas および本セッション関連
- Developers Summit 関連
- 10年後も世界で通じるエンジニアであるために Developers Summit 2012
- デブサミ2012 参加セッション一覧 - Google ドキュメント
- デブサミ2012、講演スライド資料まとめ:CodeZine
講演スライド資料のまとめ。公開されているものはこちらにリンクがまとめられています。