Developers Summit 2016 - Hack the Realで参加してきた三コマ目のメモを公開。
本エントリ、コンテンツは以下。
以降よりメモ公開。
【18-B-4】乗り遅れるな!KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 / 田中 裕一氏 [日本アイ・ビー・エム]
- 基盤の構築にフォーカスを当てた話。
- 講演のターゲット
- Spark をはじめたい、ビッグデータをはじめたいエンジニアのとっかかり
- 持ち帰りポイント
- Spark+Kafka をつかった解析基盤の概要の把握、オリジナルの基盤構築を行うことができる
- ビジネス担当の方にはこんなことができるんじゃないか?というビジネスの発想の種
- Hadoop/Spark の広がりについて
- Spark のひろがり
- Spark はイノベータ、アーリアダプタを超えて広がりつつある
- 業界に横串で展開される BigData
- BigData とはどんなものか
- 毎日発生し続けるデータ
- ウェブサイトデータ
- ログデータ
- オペレーションデータ
- オフィスデータ
- センサーデータ
- カスタマーデータ
- ソーシャルデータ
- メディアデータ
- 毎日発生し続けるデータ
- Spark のひろがり
- 従来の Hadoop 基盤のおさらいと問題提起
- DataSource>HDFS>YARN>Hive,Mahout>Batch>Data>RDB>BI,API,Batch
- 問題
- Input のタイミングの問題
- 処理時間の問題
- どうやってレイテンシーを下げるのか
- データ反映の問題
- つくったデータをどうやって提供していくのか?
- Spark/Kafka の概要のおさらい
- Apache Spark
- Component
- SparkSQL, Datasets, DataFrames: SQL IF の提供
- GraphX: グラフ操作を提供
- Steraming: ストリーミング処理を提供
- MLlib: 機械学習アルゴリズムを提供
- on top of SparkCore.
- 処理系
- RDD & DAG, On-memory.
- Component
- Apache Kafka: 分散 MQ
- Component
- Producer
- Broker
- Topics の単位で処理をキューイング
- Consumer
- Component
- Apache Spark
- リアルタイム解析基盤について
- Kafka と Spark をつかったリアルタイム解析基盤
- Data>Kafka>Spark>RDB>BI,Batch,API>Kafkaに返す
- Kafka をデータハブとして使う
- リアルタイム基盤ではキューが重要
- キューによる処理系の分離ができる
- データ
- 多様なデータソース
- 多彩なデータ
- Sparkの障害から分離
- Kafka
- どんなデータでも一旦の終端になれる
- Bigdata
- Spark側はKafkaにのみ対応
- データに合わせたロジック
- 多様なデータソースの障害から分離 *キューをつかったストリーミングフロー制御
- 処理を並べてフローを作成できる
- データ
- キューを使った処理やアルゴリズムの検証
- 同じデータから新たな処理を追加したい場合など
- キューによる処理系の分離ができる
- Kafka と Spark をつかったリアルタイム解析基盤
- リアルタイム解析基盤の活用
- ログをKafkaにキューイング、Sparkで集計処理、Kafkaに返す
- 既存で HDFS/Hive をもっているときに SparkSQL が Hive の MetaStore を参照するようなインテグレーション例
- MLlib を利用した異常値の検知システム
- IoT の場合、大量書き込みが発生する、書き込み部分に HBase を使う事例
- まとめ
- Sparkは利活用事例がこれからなサービス
- DataPalooza が日本でも開催される
- サイエンティスト向けのイベント。
- IBM の Hadoop Distribution
- Open Data Platform
- BigInsight
- IBM は Spark に本気。
資料埋め込み
資料が公開されたらこちらに埋め込ませて頂く予定。
devsumi2016 でわたしがとってきた他セッションのメモ
のちほど他のエントリを書いたら更新する予定です。
garagekidztweetz.hatenablog.com
garagekidztweetz.hatenablog.com
garagekidztweetz.hatenablog.com