#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

データマネジメント 2014 で異彩を放っていた @okachimachiorz1 さんの「正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜」のメモ

スポンサーリンク

f:id:garage-kid:20140313221258p:plain

データマネジメント 2014に参加してきたレポートの最後は、以下のセッションのみをひとつ切り出しました。

  • 14:00-14:40 C-5 『正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜』 ノーチラス・テクノロジーズ

理由は簡単で、この @okachimachiorz1 さんのセッションが今回のデータマネジメント 2014 の中で、わたしが一番面白いと思い、かつ異彩を放っていたなぁ、と思っているからです。

ゼヒ、資料が slideshare 等にアップされてほしいなぁと思っていますが、わたしのとれた範囲内でメモを公開させていただきます。


C-5 『正確なデータをもとに明日を予測する 〜ノーチラスが提案する新しい予測の形〜』 ノーチラス・テクノロジーズ

自己紹介

  • DM というよりも業務系で Hadoop を使う
  • OSS を中心に Asakusa を開発したりしている
  • 受発注絡み、原価計算
  • マーケティングといったところにはいません

残念なお知らせ

  • 覚えておいてもらいたいこと
    • 踊りを踊るんじゃなくて、地に足をつけることが大事だということ!
    • 言われてるほど、上手く行ってる人なんていない

ビッグデータとは?

  • 言葉がひとり歩きしてる
  • なんだかわからん

ビッグデータという言葉

  • 必ずみんなが同じ言葉をつかうようになるものです
  • 流行とはそういうものです

そもそもビッグデータとはなんだったのか?

  • そもそも英語として変だよね
    • a large amount of data が正しいよね
  • 類する言葉はあった
    • データ爆発という言葉
    • インターネット上のログデータが出発点
  • もともとはビッグデータとは、巨大なデータ量をどう処理し、有意な情報を見出すかという技術とそのトレンド
    • 大前提として、大きなデータ (PB クラス)が前提になっている

そこに金貸し、マスコミ、評論家、政治家がのっかってきた

  • なぜか?
    • 彼らにネタがないから
  • VC が金を突っ込むには得体がしれないほうがいい。
    • 掴まされたら、ババ抜きが始まる
  • ビッグデータ案件を探してこいが合言葉
    • 今は、ビッグデータ案件をつくってこい、になっている
    • 日経ほげほげとかいう雑誌とかないわぁ
      • やらせはよろしくないw
  • そういう人たちには実体がないほうがいい、むしろあっては困る

さらに評論家と政治家の登場

  • 評論家
    • そもそもビッグデータとはサイズではない
      • それ、ただのデータじゃん
    • さあ、コンサルの出番だよ
    • そもそも言葉としておかしい
    • もともとデータ分析なんてあったじゃん
  • 政治家
    • 雇用をつくりたい
    • 新市場をつくりたい
    • 個人情報保護法の改正へ
      • ビッグデータ関係無いでしょw
      • ホントは個人情報は問題無いとしたかった
        • 出来レースなんで、みんなのデータ外にでるようになりますよ
  • いろいろな意味で中身が無い状態

まったく同じトレンドがむかしあった

  • ナノテクwwwww
    • 一時期大ブーム
    • 実体は不明だった
    • 今は完全に下火
  • ビッグデータはナノテクと同じ道をたどるだろう

ではビッグデータは幻なのか

  • ビジネス
  • 関わる人
  • 技術

ビジネスからみた現状のビッグデータ

  • ざんねんな・が・ら、ビジネスにはなってないすねwwww
  • 案件ベースでは大手SI屋で10数件あればいい方
  • ビッグデータのデータサイズがあるのは次のカテゴリ
    • Web
    • 携帯電話を含めたライフログ
    • 組み込み系ログ
  • つ・ま・り、ビジネスとしては非常に狭い領域
    • 儲かってるとこはほとんどない、例外ない

ビッグデータ市場

  • 当初の予想よりずっと小さい
    • ゴミは集めても、より有効なデータがでる、それは嘘
    • ゴミはゴミです
  • データを集めるなら同じ種類のデータを集めるしかない
    • それって何かって言ったら Web ログくらいでしょ
  • ただしもともとあった市場は健全に成長している
    • それが CRM
  • 浮かれるのではなく、顧客をどうみるかに注力するチャンス
    • 契機として利用することが正しい
マーケティングの本音、覚えてほしいこと
  • データが倍になったからといって価値が倍になるわけではない!

人からみた現状のビッグデータ

  • 右往左往するエンジニア
  • 統計屋さん
    • データ・サイエンティスト
      • そんなものいないだろ
      • そんな名刺をもっている人、まわりにいますか?

誰もいわない本当のこと

  • ビッグデータ処理は統計には向いていない
    • わかってる人ほど本当のことがいえない
    • そもそもビッグデータを使わないで物事の傾向を把握するのが統計
      • 全件をみてかぞえあげるようなことをしなくていいというのが統計学
  • ビッグデータ>データサイエンス>統計手法の利用
  • 母集団がものすごいスピードで変わるケースのみ、データを全件数える意味がある
    • ここだけは統計屋は手も足も出ない
  • ビッグデータのトレンドに乗りたいとうこれまで不遇だった人たちの欲目wwww

技術からみたビッグデータ

  • 分散処理の仕組み
  • 分散クエリ
  • 分散トランザクション
  • 複数 DC 間の整合性確保
  • それらをバカでもできるようにした。
  • バックグランドは間違いなくクラウド。
    • 主役はクラウドベンダーたち

代表選手の Hadoop をめぐるトレンド

  • 普通に本格的に使われるようになってきた
  • Web 系でつかわれてないところはない
  • 技術的には枯れた
    • もうみんな投資していいステージ
  • ベンダーの群雄割拠
    • MapR
    • Horton
    • Cloudera
    • Microsoft
    • Intel
      • 卑怯技 (ハード圧縮) で大穴になりつつある
      • 再来年くらいには彼らは勝負にでる
        • PC が売れなくなってきてるから

Hadoop についての共通認識

  • 実装面
    • MR
      • もはや改修点はほとんどないでしょう
  • 普及面
    • 先端 Web 企業から一般企業も使うように

今後の Hadoop

  • スループットからレイテンシーへ
    • マーケティング先行のきらい
      • Cloudera Impala
      • そもそも 1 分とかかかるのがリアルタイムとかいっちゃうのは間違ってるよね
  • 背景
    • より高速な処理が必要という問題の認識
    • とにかく主導権争いに勝って、早めにマネタイズしたい

形骸化する Hadoop

  • より高速な処理が必要という認識そのものは正しい

今後の Hadoop

  • バッチ基盤として Hadoop を使うというのが一番ただしい
  • 統計基盤ではないでしょう

バッチ基盤として

  • 一斉バッチ処理基盤として Hadoop は有効
  • したがって、一斉バッチ処理基盤としての Hadoop と組み合わせるか

来るべきアーキテクチャ

  • オンラインアプリケーション
  • データフロー系フレームワーク
    • 書ききれなかった

MapR にみる今後の方向性の特徴

  • MR 以外のフレームワークをつかうならば HDFS はお荷物以外でも何でもない

既存アーキテクチャの進化

  • 業務系、 DWH 分析を一緒の基盤上でやるようになる

実際のケース

  • 原価計算の基盤上で分析をしたという事例
  • 同一分散クラスター上で業務も分析も行う
  • 分析で結果をだすことを考えないほうがいい

試行錯誤されていること

  • ログデータの分析ではない
    • 普通に業務データを利用する
  • 業務データの分析をどう行うかの二本立て
    • まず処理の高速化
    • 次に業務データの有効化を行う
  • 統計処理ではない
    • 必要なものは確率データではない
    • 事実の細かい積み上げですら十分に活用されていない
      • まず推論ではなく、細粒度の事実の分析が重要
    • これまで DWH で売上伸びました?
      • 伸びてないですよね?

一足飛びにはできない

  • どうやってデータを貯めるか?
    • いきなり分析しましょうでは進めにくい
      • そもそも CRM とは何が違う
      • そもそも何を分析するのか?
正しい3つのステップ
  1. 業務系処理の高速化
  2. 高速化の結果としてデータが分散クラスター上に溜まる
  3. 溜まったデータを分析していく

総括

  • ビッグデータは突破口ではない
  • DWH での失敗の二の舞いはしないようにしよう
  • 業務処理ができるということは、 MR 以外のフレームワークも重要になる!
Short Summary:
  • 禿同なこと
    • ビッグデータはナノテクと一緒、早晩消える
    • 政府は個人情報保護法を改正する、みんなのデータは外に出るようになる
  • なるほどなこと
    • 業務系と分析系を同じ分散クラスター上で実現
  • 手前味噌なツイートだが、以下のような動きがある以上、ほんとうにみんなのデータは外にでるようになるでしょう・・・

以上で、今回わたしがデータマネジメント 2014 に参加してきてとってきたメモの公開はおしまいです。

なかなか濃ゆい一日でした・・・ では、今日はこんなところで。

関連記事