#cwt2013 に午前ちょこっとだけ参加したメモ： Cloudera CTO 曰く「これからの時代、データドリブンじゃない企業は負け組だよ。 Hadoop やってない？はじめるなら今でしょ？！」

今日は午前中だけですが、 Cloudera World Tokyo 2013 に参加してきました。場所は目黒雅叙園でした。参加動機は、やはりテクノロジースタートアップの技術トップ (CTO) の公式の場での発言を聞いてみたかったからです。

すごく簡単に午前中だけ Cloudera World Tokyo 2013 に参加した感想を書いておくと

Hadoop である必要があるかどうかは置いておいて*1、 CTO の Dr.Amr Awadallah のいうところの「これからの時代、データドリブンでない企業は負け組」というのには大賛同。
時流にあわせて、会社の方向性も柔軟に変えていっている Cloudera に好感と期待。
- Hadoop 「屋」から Bigdata Platform 「屋」というのはとても自然。
あまり細かくは話がなかったが個人的には地味だけど CDH の Data Management の機能拡充にもっと力を入れてくれるといいと思っている
- 構造、非構造の Master Data Managemet (MDM) とかわたしは超重要だと思ってるんだが、そういうプロダクト全然ない orz
CDH5 は勉強しよう

といったところでしょうか。

ちなみに午後に参加したべつの Seminar の内容は大分、こちらとは対局だったので、それはそれで面白かったというのは、別のポストで書きます。

では、少ないですが、以降よりわたしがとってきたメモを公開しておきます。

基調講演1 10時〜10時30分【講演タイトル】「ビッグデータプラットフォームとして進化するHadoop」

講師：Cloudera株式会社　代表取締役　ジュセッペ小林氏
- このイベントは2回め、1000名以上の登録
- ビッグデータへの関心の高まり

＊＊＊＊＊

CEO　からの挨拶　トム・ライリー、今年、CEOに就任
新しいプロダクトの紹介も多数、今日はある
Cloudera Connect 、Spark の提供に言及

＊＊＊＊＊

先週 Hadoop World での発表の紹介も

＊＊＊＊＊

エンジンとしてのHadoop
欧米としては Hadoop はシステムのコンポーネントして一般化されている
エンジンとして拡充されていく機能
- 分散処理　MR
- SQL
- サーチ Google search のように Bigdata を検索
- Machine learning
- 数理処理
- データ管理 (地味だが大事。バックアップですら、以前のhadoopにはなかった。本来あるべきでなかったものが、実用化の段階にある)
- クラスター上でのツール実行
- メタデータの共有 (Hadoop と HBase 間とか)
- セキュリティ（ Column, Cell base )
- 運用管理
- リソースマネジメント (e.g. YARN etc... メモリのアロケーション、ユーザのアロケーション[課金のために])

＊＊＊＊＊

アーキテクチャとしてのビッグデータ
今日のビッグデータは明日のスモールデータ
コンセプトとしては
- 多様種データを一箇所に集約
- 生データを直接活用
- コストは10%未満 (従前は DWH しか選択肢がなかったことに比べて)
- 活用期間の拡大 (アーカイビングをしなくていい) e.g. 損保の会社で 80 年分のデータ活用に事例
- 新たな気づき (一回データを取得しておけば、どんな観点からもデータ分析は可能) データを取得するときに制限はしない

＊＊＊＊＊

OSS としての責任
- データそのものは企業の資産
- 多様化する活用方法 (ある程度 fork してしまった distribution は backport しなくてはならない)
- パッチの反映
- 顧客ニーズの反映
- 長期のロードマップ (OSS は民主主義的に合議制で方向性を決めている)
- Project Founder, PMC Member, Commiter, Contributor (こういった人たちがいないと OSS は回らない) : Hadoop に関係する人材の 70% が Cloudera 社員

＊＊＊＊＊

データサイエンス
- アナリティクスの二種類
  - オペレーショナル・アナリティクス : 日本では事業の状況を反映させるレポートである事が多い : DWH を基本としている
  - エクスプロラトリー・アナリティクス : 探索、比較的新しいものを見つける : 今後はこちらだ

＊＊＊

プロセスはある程度、定まったものがあるが、経営指標がなければならない (目的が必要というということ)
目的があれば、アナリティクスは問題に対して比較的楽に手段をみつけることができる

＊＊＊＊＊

Cloudera の進化
- Hadoop 「屋」もともとはそうだった
- 現在は Bigdata Platform 「屋」になってきた
- その結果、 Enterprise Data Hub (EDH) という言葉を使い始めた

基調講演2 10時30分〜11時10分【講演タイトル】「Clouderaのビッグデータプラットフォーム戦略」（仮）

講師：Cloudera, Inc. 最高技術責任者（CTO） Dr.Amr Awadallah

＊＊＊＊＊

なぜ、ここにきているのか？なぜ Bigdata が大事なのか？新しいテクノロジーの説明
Hadoop World での発表の説明、 CDH5 の概要とか。

＊＊＊＊＊

簡単に Cloudera の歴史
- 2008 年の創業、 4 member それが今は 500 member に
- Partner は 700 社、有料顧客は 100 社以上
- Hadoop を使っていない企業があるなら、今すぐにでも使った方がいいということを示している

＊＊＊＊＊

なぜ今、こんなことがおこっているのか？
- こんなこととは、あらゆる側面でデータを集めるというトレンドのこと
  - IT の進化、わたしたちの生活の大部分が IT の中で行われている
  - そのため、そこに蓄積されたデータを使うということは簡単
  - センサーネットワーク、モバイルデバイス、サテライト etc... すべての現実世界のデータをトラッキングできるようになってきている
  - ビジネスに関するデータが溢れている

＊＊＊＊＊

Fortune, CNN, WIRED, The Economist, Forbes の記事の紹介
ビッグデータの潮流は現実のもの
しかし、データのサイズだけがすべてではない
10TB - 10PB まですべては（ビッグ）データ（でない）

＊＊＊＊＊

銀行の ATM でとれるデータの変化
むかしは口座のお金のうごきだけがトラッキングされていたが、今は監視カメラ等で誰がいつ、どれだけの時間をかけて何をしているかなどもトラッキングすることができたりする
その結果として、それがイリーガルな取引かそうでないかを検知したり、と。

＊＊＊＊＊

そして、単なる Web2.0 でもない
ビッグデータは Web 企業から生まれてきたけども、あらゆる業界にビッグデータがあるし、活用されるようになってきている
自動車、通信、石油ガス、小売、などなどなど

＊＊＊＊＊

BI のユースケース
- レガシーな情報アーキテクチャ
- Enterprise app <-> OLTP -> ETL -> DWH -> BI reporting
- Network Storage (ETL につながる )
これではビッグデータには対抗できなくなっている
- 4つの理由
  - データ取得→格納→探索→ (処理|分析)→提供
  1. スケールの限界 : 計算処理機能とストレージ機能の分離
  2. アジリティの限界 : 硬直したスキーマ要件 (いいこと[共通理解を得やすい]でもあるが、変更に時間がかかる[Table にカラムひとつ追加するのもコストが高い])
  3. 履歴の限界 : コストとデータ価値の不一致 (テープアーカイブをするのはデータを墓場に送るのと同じ、ほぼ二度と使われることはない。何かイベントが起こった時にそのことを振り替えれるようにしておきたい、それができない。例えば、震災が起きた時の人々の行動を振り返ったり、といったこと)
  4. 可視化の限界 : 異種システム間のデータサイロ
    ↓
そして Cloudera の新しいアーキテクチャ
- Enterprise app <-> OLTP -> ETL -> DWH -> BI reporting
  +
- Network Storage -> Cloudera <-> BI reporting

＊＊＊＊＊

今後はデータドリブンの時代に
- 今後はデータドリブン型の中小企業や大企業、組織、政府組織だけが勝者になれる
- これはつまり、すべてのユーザが、あらゆるワークロードやアプリケーションを通じてあたらゆる形態のすべての履歴データにアクセスできる必要がある
- これを実現するにはすべてのデータを格納操作できる単一の統合システムに全データを格納すること
- それゆえ必要なのは
  - Enterprise Data Hub (Cloudera はそう呼ぶことにした)
  - どんなものか？ (以下の4レイヤーで構成されている)
  - インテグレーション、データ収集
  - すべてのデータを格納するストレージ (構造、非構造)
  - リソース管理
  - どんなアプリケーションもワークロードも (バッチ、 SQL、インタラクティブサーチ、機械学習、パートナーアプリケーション)
    その4レイヤーを透過的にマネジメントし、セキュリティを担保し、メタデータ管理する

＊＊＊

スケーラブル、柔軟性、費用対効果、オープン (API の提供)、統合を実現

＊＊＊＊＊

データハブ vs. DWH
- Enterprise DWH は一眼レフみたいなもので (目的が決まってる、いい写真をとるという)
- Enterprise Data Hub はスマートフォンみたいなもの (多用途につかう、そして十分にいい写真も取れる)

＊＊＊＊＊

Cloudera のビジョン：ビッグデータのアプリストア
- SI と ISV/OEM と Cloud/MSP, そして HW
- Splunk + Hadoop = Hunk とか

＊＊＊＊＊

なぜこのビジョンが有意義か？
様々なデータをアプリケーションにもたらし、スケーラブルで柔軟
あたらゆるアプリケーションからの迅速なアクセス、迅速性
クエリ可能なアーカイブ経由でデータのオプションバリューを保持

＊＊＊＊＊

将来のアーキテクチャ
- Weblog, Systemlog, File, RDBMS -> EDH へ
- EDH を介してすべてのユーザがつながるイメージ (資料の図をみたい)

＊＊＊＊＊

ポテンシャルを達成する道筋の例
- (経営効率 | IT)
  - ETLアクセラレーション-> EDW 最適化 -> (深い探索|ヒストリカルコンプライアンス)
    ↓
- (競争優位性 | Business)
  - (SQL だけではない|あらゆるデータ形態|スキーマの俊敏性)->(データサイエンス|合理化)

＊＊＊＊＊

EDH のほかのユースケース
- イノベーションの優位性
  - (マーケットバスケット分析|不正検出|ログの処理|レコメンデーションエンジン|リスク管理)
- 経営効率
  - (ETLアクセラレーション|...)

＊＊＊＊＊

CDH5 / CM5 / Navigator の最新機能とは？
- アナリティック SQL
- 拡張 ANSI SQL のサポート (Impala)
- インメモリキャッシング (HDFS)
- きめ細かい認可 (Sentry)
- コストベース・オプティマイザ (Impala)

＊＊＊

拡張性
- 製品レベルの YARN (GA ということ？)
- Spark のサポート

＊＊＊＊＊

データ管理
- データの発見
- データセットのタギング (metadata の search)
- データ系統 (Relation, DFD)
- バックアップ管理

＊＊＊＊＊

Cloudera Connect: Cloud と Innovator
- Cloudera Connect: Cloud どこでも稼働可能が目標
  - AWS ほか
  - For internal Cloud 用として VMware と Openstack
- Cloudera Connect: Innovators
  - Apache Spark のサポート (Data Bricks 社と共同で)

＊＊＊＊＊

まとめ
- Cloudera は EDH の基盤
- 未来はデータドリブンに、今その実現がはじまったばかり
- はじめるなら、今でしょ

特別講演1 11時10分〜11時40分 Prof. Sato 【講演タイトル】ビッグデータの歴史と将来展望

講師：国立情報学研究所　アーキテクチャ科学研究系　教授　佐藤一郎氏
- 大量または多様なデータの取り扱いはいつの世も問題となってきた。コンピュータも、人間の手作業では追えないデータ処理のために生み出されたといっていい。またHadoopの元になったMapReduce処理も、その片鱗が19世紀末には表れており、それが発展し、現代に受け継がれている。講演では、過去から現代にわたるビッグデータ事例を紹介するとともに、将来のビッグデータに鑑みた、次世代の情報システムのあり方について概説していく。

※ 本当はこのセッションまで参加するつもりだったんですが、この時点で 11:30 になってしまっていたので、参加を断念しました。

午後のセッションで聞いてみたかったものの資料のリンクをこのあとここに追記したりしてみようと思っています~~が、とりあえず、最初のポストはこんなところで~~。ということで、以降にちょくちょく追記していっています。

参考：

他の方のブログレポート

Cloudera World Tokyo 2013に参加しました！ #cwt2013 - @johtaniの日記 2nd - 2013-11-08 0:03 追記
Cloudera World Tokyo 2013に参加してきました #cwt2013 ｜ Developers.IO - 2013-11-08 21:07 追記

Cloudera World Tokyo 2013 関連ツイートで面白かったもの

昨日の写真データの整理をしていたら、こんなものが・・・ @shiumachi さんよ・・・ #cwt2013 pic.twitter.com/S0JsxSYXIx
— Kenichiro HAMANO (@hamaken) November 8, 2013

わたしは午後のセッションは他のセミナーに行ってしまってみれなかったんですが、このスライドがセッションの合間合間に表示されてたんですかね… @shiumachi さんがビッグウエーブさんならぬビッグデータさんにｗｗｗｗ
どどど、どうせなら髪型もモ、モヒカンに・・・（・∀・）ﾆﾔﾆﾔ

（訂正です）@ryu_kobayasi san 失礼しました本日紹介した @tamagawa_ryuji さんのインパラ本の紹介スライド #cwt2013 pic.twitter.com/zg1GgTpe2d
— Tatsuo Kawasαki (@kernel023) November 7, 2013