2014-11-06

Cloudera World Tokyo 2014 午後の Breakout Session のメモ #cwt2014

f:id:garage-kid:20141106212157p:plain

はい、 Cloudera World Tokyo 2014 にいってきました（基調講演、特別講演のメモ） #cwt2014 - #garagekidztweetzにつづいてCloudera World Tokyo 2014 | Cloudera Japanの午後の Breakout Session の雑感、およびメモを公開します。

わたしが午後の Breakout Session で参加してきたのは以下のセッションです。

午後の Breakout Session

14:25 - 15:05 C-2 エンタープライズデータハブでAnalyticsを再考してみよう Cloudera, Inc. Chief Technologist イーライコリンズ氏

15:30 - 16:10 B-3 HBaseで実現するクラウドストレージサービスフリービット株式会社 SmartInfra本部プラットフォーム開発部サブジェネラルマネージャー市橋佑弥氏

16:25 - 17:05 C-4 ビックデータ戦略：ユースケーススタディ Cloudera, Inc. Field Sales Evangelist エイミーオコナー氏

17:20 - 18:00 C-5 Apache Sparkが描く大規模オンメモリ処理の世界〜数百台のSparkクラスタを動かしたNTTデータの現場より〜株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス主任土橋昌氏

雑感は各セッションに含めてみました。以降よりメモです。

午後のセッション

14:25 - 15:05 C-2 エンタープライズデータハブでAnalyticsを再考してみよう Cloudera, Inc. Chief Technologist イーライコリンズ氏

Agenda
- 市場背景
  - Advanced Analytics?
    - 何が起こるのか？
    - どうすればもっとよくなるか？
    - いつどこでなにが？
    - いかにしてなぜ発生したのか
  - Answer the question which traditional BI cannot.
    - e.g. 利益に対する影響
      - Different opinion between CIO and ( CEO and COO )
        
        how to making money or how to saving money
  - 従来の分析プロセス
    - 課題の特定＞データアクセス欲求およびディスカバリ＞データ変換＞データサンプリング＞モデル作成、検証＞モデルの適用
- 課題と制約
  - 正しいデータにアクセスするのは難しい
    - 内部構造化データ
    - 多構造化データまたは外部データ
  - データディスカバリに時間がかかる
  - サイロ化されたプラットフォームにおけるコラボレーションと管理上の課題
    - users are frustrated
    - admin are also frustrated
- アドバンスト・アナリティクスに EDH を使用する
  - Cloudera EDH for Analytics 基本的にこのプロダクトの説明だった
    - あらゆるデータタイプ適応するストレージ (Filesystem: EMC Isilon also supoorted, Online NoSQL: HBase, Cassandra, MongoDB )
    - Workload management
    - Impala
    - SPARK/ORYX/MAHOUT
    - SPARK STERAMING
  - すべてのデータを使いこなす
    - 既存のツールで
    - サンプリング (正確、精密)
    - 情報のセキュリティ、メタデータ管理、データガバナンス
  - 分析ライフサイクルの短縮化
    - データディスカバリの最適化
    - データのライフサイクルをトラッキング
    - EDH 内部でモデルの定義、テスト、適用
  - さらなるデータ活用
    - 1つのプラットフォームでマルチジェネレーション分析
    - すべてのデータセットに対して多様なコンカレント分析
  - これにより、従来の分析プロセスとプロセスそのものは同じだけれども、大幅な時間短縮が可能に
    - データの移動が発生しないから発見にかかる時間が大幅に短縮される
次の一歩を踏み出すためには？
- Cloudera Enterprise
  - Cloudera Support
  - Cloudera Manager
  - CDH
- Cloudera University
- Professional Services
  - Usecase discovery
  - New Hadoop Integration, etc...
QA.
- Is there Docker Support Plan?
  - In simple, No.
  - No needed, not fit with the data oriented system right now.
- Paradaim Change somewhat not needed Enterprise system like EMC expensive data storage?
  - Somewhat yes, but somewhat no.
  - DWH still exisiting maybe and sometime copy the data from them.

雑感

The Key to the Information-Driven Enterprise に書いてあることとか読んでみようかな、と。

15:30 - 16:10 B-3 HBaseで実現するクラウドストレージサービスフリービット株式会社 SmartInfra本部プラットフォーム開発部サブジェネラルマネージャー市橋佑弥氏

フリービットが提供するクラウドストレージの話。裏で HBase が動いている。
ユーザーから大量のファイルがアップロードされてくるわけだが、普通のファイルストレージの考えのわけにはいかない。
- そこでデータストアの部分を HBase
フリービット沿革
- 2000 年設立
- DTI や Full Speed がグループ会社
- 事業内容
  - ブロードバンドインフラ
  - クラウドコンピューティングインフラ
  - アドテクインフラ
  - 次世代インターネット・ユビキタスインフラ
  - freebit mobile
    - ネットワーク、端末、店舗などすべて自社グループで
サービス説明
- いわゆるクラウドストレージ
- OEM 提供している、各顧客企業は独自ブランドとして展開可能
- OEM ごとにシステムを構築しているのではなく、マルチテナントの一システム
- 機能
  - マルチデバイス対応
    - Linux もサポート
  - 2種類の動機モード
  - ファイル、フォルダの共有
  - ファイルの更新履歴 -> HBase が関係するのはここ
  - 更新通知、操作履歴
  - インスタントアップロード
  - 主なマルチテナント機能
    - サービス名
    - ドメイン
    - UI デザイン
    - 独自のアカウント名空間
    - 料金プラン
  - ServersMan@Disk は DTI の他のサービスとも連携
    - Web メールサービス
    - ServersMan@VPS
HBase のバージョンの履歴
- 201104
  - サービス開始時 0.20.6 (apache Hadoop)
- 201310
  - CDH 4.1.3 へ update
  - 0.92.1
- 2015xx
  - CDH5 系へ update 予定
  - 0.98 系へ
システム概要
- ファイルのアップロード
  - App server
    - -> Notification -> push 通知
    - RDBMS
      - 全部を HBase でやってるわけではなくアカウントの情報などは RDBMS に
- -> ファイルの保存
  - HBase Cluster
なぜ HBase?
- 要求されること
  - 大容量
    - 容量がスケールすること
      - PB 級のデータを扱える
      - DN を追加していくことで容量と性能がスケール
    - 性能がスケールすること
  - データ完全性
    - ブロック単位のレプリケーション
    - レプリカは DN の収容ラックまで考慮して配置される
    - ブロック単位のチェックサム検証
  - コスト
    - PC サーバのみで構成
- アクセスパターンが適しているか？
  - 大量の小さいファイル
    - だいたい数 KB - MB
    - ランダムアクセス
    - レイテンシ重視
  - HDFS が得意なアクセスパターン
    - 大きいファイル
    - シーケンシャルアクセス
    - スループット重視
  - DB として HBase, ストレージとして HDFS という組み合わせで解決できないか、と考えた
HBase
- レコードとして読み書きを小さいデータ
- 書き込みは WAL とメモリ
- 読み込みはキャッシュあり
- HDFS
  - テーブルファイルとして読み書きは大きいデータ
HBase 採用のまとめ
- アクセスパターンの要件とマッチ
- HDFS のメリットはそのまま
  - スケール、データ完全性
- データベースなので構造データをもてる
  - 巨大なファイルシステムをつくるための管理情報
- データ分析時に便利
- 結論：
  - HBase + HDFS の構成を採用
ユーザーファイルデータの流れ
- 一定サイズのデータに分割
テーブル設計
- Join はないので直アクセス
- おおまかに2つ
  - ファイルメタ情報のテーブル
    - 一意に識別する ID
    - ランダムキー
      - ファイル、フォルダ名
      - サイズ
      - 各タイムスタンプ
      - 親フォルダのリンク
      - 子ファイル・フォルダのリスト
      - etc
  - ファイルデータのテーブル
    - 分割したファイルデータブロックを識別する ID
    - ファイル ID + シーケンス番号
      - データ本体
      - etc
  - 書き込み
    - ファイル単位でリージョン分散しホットスポット回避
  - 読み込み
    - ファイルを構成するデータブロックはシーケンシャルリード
バージョン - HBase のテーブルデータモデル
- ファイル更新履歴機能はバージョンを利用
時間が押して割愛
- 資料は公開される
Hiring の宣伝

雑感

HBase を選んだ理由はわかったが、 HBase を選んで失敗した理由もあるとよかったな、と。

時間がおしすぎてコンテンツがすべて終わらなかったのも残念。

16:25 - 17:05 C-4 ビックデータ戦略：ユースケーススタディ Cloudera, Inc. Field Sales Evangelist エイミーオコナー氏

Bigdata Strategy Use Case Study
The Importance Of a Data Strategy
- Data is your most Important Asset
- Use that data to achieve your Business vision.
Data created by People
- 240B email, last year
- Zack's law
- Customers are providing greater visibility to their lives
Data also created by Machines
- IoT
- 202B machine to machine though internet, last year
- censors
  - Airplane
  - cars
  - life sciences
ex. Smart Appliances
- 6th sense
- mysmartappliances.com
Key Element of a Bigdata Strategy
- Collect your exising data
- Create new data channel
- Create Opportunity
- Drive Innovation and revenue with data
- Collect, secure, govern and appropriately use your data to achieve your business vision
Collect your exisiting data in one place
- Provides access to historical and realtime data
- support compliance needs
- enables sharing across your business
- empowers out of box thinking
- increases analytical agility
  - EDH is affordable and attainable
  - ex. Experian
    - Consumer matching
    - Explain clients want single view of customer;
  - ex. Morgan Stanley
    - pattern match from log
Create new data channels
- Build new apps, sensors, etc to gather data
- innovation from data, photo, video, apps
- Opportunity to view business new ways
- etc.
- ex. KAISER PERMANETE
  - electornic medical data.
  - helps providers recommend at home action based on realtie data to prevent hospital visits.
- ex. Opower
  - save millions of dollars electricity bills
- ex. for farmer
Create opportunity through Operational Efficiency
- Reduce data processing window
- Reduce storage cost
- make data available quickly and easily
- All about opportunity cost
- ex. Allstate (insurance company)
  - optimize offers and pricing with a comprehensive view of individual risk on a daily basis.
- ex. Nokia
  - log data.
  - the integration of the Cloudera cluster with the DWH created a seamless working env for the marketing users who were experienced with the Teradata warehouse.
Drive Innovation and Revenue with Data
- Add more context to current use cases
- Build insight into business processes
- Optimize investment
- Create new business models
- Drive new revenue opportunities
- all about innovation and transforming business
- ex. Baby's care units in a hospital
  - correlated with quality of care patient outcome in neonatal ICU
- ex. MasterCard
  - fraud detection
  - consumer behavioral modeling, security analytics
With Bigdata comes Big Responsibility
- Data is your most important asset
- Collect, Secure, Govern and appropriately Use that data to achieve your business vision.
  - Once you put your data in to one place (hadoop), you can use those data again and again for the different business.

雑感

今回、一番自分にはささったセッション。（自分がやっていることと重なるところが多かったので）。

Big がついてもつかなくても Data Strategy として考えることとしては、まったく激しく同意な内容でした。

17:20 - 18:00 C-5 Apache Sparkが描く大規模オンメモリ処理の世界〜数百台のSparkクラスタを動かしたNTTデータの現場より〜株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス主任土橋昌氏

OSS のプロフェッショナル集団
- 最近は Hadoop 関連の相談が多い
- Hadoop 徹底入門、 Hadoop Hacks 著者多数在籍
伝えたいこと
- Spark とはなにか？何が嬉しいか？
- Spark は特徴的なプロダクト。特徴的なプロダクトを活かしきるには何を押さえておくべきか
特徴的なプロダクトを活かしきるために大事なこと
- プロダクトの背景を知り、アーキテクチャを知り、実際の挙動を知る
Spark の背景
- Hadoop は大規模データ処理向けの仕組み
  - 大容量処理だけでなく純バッチの高スループット化など
  - データを蓄積・変換する上でコストパフォマンスが高い
- Hadoop がもたらしたもの
  - 大規模データ処理を現実的な時間幅にした
  - 並列分散処理を身近なものにした
    - 現実的な運用性、スケーラビリティ
- Hadoop が苦手だったもの
  - レイテンシの低さを求められる処理、複雑で繰り返しが多い処理
    - 統計処理、機械学習、複雑な業務処理の中に含まれる処理
    - Hadoop が悪いわけではない、適用範囲を広げようとした結果でてきた話
  - MR の書きづらさ
    - Hive, Pig
- 従来の Hadoop を使う現場のよくある利用パターン
  - 入力＞蓄積＞分析
  - 分析の比重がふえてくると大量分析結果を保存する場所に困る
    - エクスポート時間も無視できない
- Spark の登場でどう変わったか
  - HDFS のデータをそのまま Spark に読み込んで処理できる
  - YARN をつかうと従来の手堅い MR と新しい Spark を併用できる
- データ処理に関する OSS の特徴比較の例
  - OSS は各々の得意分野を活かして使うのがいい (ユーザ情報の枠内で考えた時の例)
    - PostgreSQL
      - RDBMS
      - 厳密性、管理
    - Spark
      - インタラクティブなデータ処理
        
        ユーザのページ遷移や行動履歴の分析
    - Hadoop
      - バッチ並列処理
      - データクレンジング、全件処理
    - Storm
      - ストリーム並列処理
        
        ユーザ行動の即時処理
Spark のポイント
- メモリを使って処理をするというコンセプトが大前提
  - 柔軟な分散処理基盤
    - インタラクティブな shell が付属している
    - 手元のテスト環境で試行錯誤しつつ、本番クラスタに接続しなおして同じ処理を実行するような使い方が可能
    - 主にメモリ上で処理されつつ、必要に応じてディスクが使用される
  - データを上手く扱うための抽象化の仕組み
    - 分散したデータをコレクションのように扱うことができる -> RDD
    - RDD を変換する流れを実装することで、様々なデータを表現する
    - 何らかの理由で失われたデータを再び利用する場合は再生成
    - 抽象化、割り切りの方針がうまい
  - コアを中心に成り立つエコシステム
    - コアやライブラリを組み合わせて利用することがある
      - Spark Core
        
        Spark SQL
        
        Spark app 内で SQL/HQL
        
        Spark Streaming
        
        MLlib
        
        機械学習
        
        GraphX
    - なぜエコシステムが発展した？
      - データセットの抽象化の仕組みと使いやすい API のおかげでそれを活用したライブラリが活発に開発している
      - オープンな活動をつづけていて良いサイクルが生まれている
        
        ライブラリの組み合わせも可能
        
        便利なライブラリの活発な開発
        
        オープンで使いやすいコア
    - Spark エコシステムの活用例
      - Y! Taiwan
        
        BI レポーティングと機械学習
      - Ooyala のストリーミング処理への利用
        
        ビデオ配信、アクセスログ
Spark を使い切るための勘所
- Spark のようなユニークなプロダクトを扱うコツ
  - 背景の把握
  - 動作を踏まえた勘所をとらえる
  - できるできないではなく、得意不得意である
- Spark で何をたしかめたかったか
  - Spark は幅広い業務に対応し、データ分析基盤の一角を担えるはず、と考えた
  - 1.0.2 の段階で数千コアの YARN クラスタなどで確かめた
    - 機械学習以外の並列分散処理に十分使える？
      - 基本的な処理も当然走る（数十 TB まで）
      - wordcount, 大規模シャッフル
      - 1.1.0 になり sort-based shuffle が導入された。分散処理の鬼門であるデータ交換に関する活動が活発
    - メモリを超えるようなデータの取り扱いは？
      - データをメモリに蓄積しない処理は順次処理される
      - メモリに蓄積するキャッシュ機能は柔軟に機能した
      - バージョンがあがるごとに改善、数十 TB を処理するにはパラメタチューニングが必要だった
      - キャッシュを活用するときには、オブジェクトのサイズに注意。キャッシュに載せるデータはシンプルなものを推奨
    - アプリケーション実装における使い勝手は？
      - これを語らず Spark は語れないと思っているとのこと
        
        Scala
      - データ処理やデータ分析の面では使いやすい印象
      - Spark コアの上になりたつライブラリは気軽にはじめやすい
        
        Java, Python, SQL(HiveQL) でも記述可能
      - Spark でデータ処理分析するときの流れの一例
        
        HDFS にデータ取り込み
        
        Spark shell をもちいてインタラクティブに処理しながらデータ処理の流れを決定
        
        場合によって MLlib 利用
        
        バッチ処理に実装
まとめにかえて
- Spark は抽象化、割り切りの方針がうまい
- オープンな開発、利用しやすいコア、強力なライブラリ群
- 活かしきるには、背景やアーキテクチャからみた特徴を把握しておくことが重要
  - 場合によってはいくつかの OSS の組み合わせをするがよし！
20150126 Hadoop エンタープライズ・ソリューションセミナー 2015
- oss.nttdata.co.jp/hadoop
補足： MR との違い
- Spark では RDD の変換で処理を表現
- ユーザが RDD の変換の流れを定義
  - データ変換
  - コレクション
- Spark が処理をまとめこんで実行

雑感

実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz で以前聞かせていただいた話＋アルファという感じだった。

はい、では午後の Breakout Session のメモはここまでです。

では次に最後にすこしだけ参加した LT で聞いてきた話のメモを公開しようと思います。

Cloudera Administration Handbook[Kindle版]

posted with ヨメレバ

Rohit Menon Packt Publishing 2014-07-18

Kindle

Amazon[書籍版]

Learning Cloudera Impala[Kindle版]

posted with ヨメレバ

Avkash Chauhan Packt Publishing 2013-12-24

Kindle

Amazon[書籍版]

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ！

Cloudera World Tokyo 2014 午後の Breakout Session のメモ #cwt2014

午後のセッション

14:25 - 15:05 C-2 エンタープライズデータハブでAnalyticsを再考してみよう Cloudera, Inc. Chief Technologist イーライコリンズ氏

15:30 - 16:10 B-3 HBaseで実現するクラウドストレージサービスフリービット株式会社 SmartInfra本部プラットフォーム開発部サブジェネラルマネージャー市橋佑弥氏

16:25 - 17:05 C-4 ビックデータ戦略：ユースケーススタディ Cloudera, Inc. Field Sales Evangelist エイミーオコナー氏

17:20 - 18:00 C-5 Apache Sparkが描く大規模オンメモリ処理の世界〜数百台のSparkクラスタを動かしたNTTデータの現場より〜株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス主任土橋昌氏

あわせて読まれたい

午後のセッション

14:25 - 15:05 C-2 エンタープライズデータハブでAnalyticsを再考してみよう Cloudera, Inc. Chief Technologist イーライコリンズ氏

15:30 - 16:10 B-3 HBaseで実現するクラウドストレージサービス フリービット株式会社 SmartInfra本部プラットフォーム開発部 サブジェネラルマネージャー 市橋佑弥氏

16:25 - 17:05 C-4 ビックデータ戦略：ユースケーススタディ Cloudera, Inc. Field Sales Evangelist エイミー オコナー氏

17:20 - 18:00 C-5 Apache Sparkが描く大規模オンメモリ処理の世界 〜数百台のSparkクラスタを動かしたNTTデータの現場より〜 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 主任 土橋 昌氏

あわせて読まれたい

15:30 - 16:10 B-3 HBaseで実現するクラウドストレージサービスフリービット株式会社 SmartInfra本部プラットフォーム開発部サブジェネラルマネージャー市橋佑弥氏

16:25 - 17:05 C-4 ビックデータ戦略：ユースケーススタディ Cloudera, Inc. Field Sales Evangelist エイミーオコナー氏

17:20 - 18:00 C-5 Apache Sparkが描く大規模オンメモリ処理の世界〜数百台のSparkクラスタを動かしたNTTデータの現場より〜株式会社NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス主任土橋昌氏