2016-02-18

乗り遅れるな！KafkaとSparkを組み合わせたリアルタイム分析基盤の構築〜のメモ

Developers Summit 2016 - Hack the Realで参加してきた三コマ目のメモを公開。

本エントリ、コンテンツは以下。

以降よりメモ公開。

【18-B-4】乗り遅れるな！KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 / 田中裕一氏 [日本アイ・ビー・エム]

基盤の構築にフォーカスを当てた話。
講演のターゲット
- Spark をはじめたい、ビッグデータをはじめたいエンジニアのとっかかり
持ち帰りポイント
- Spark+Kafka をつかった解析基盤の概要の把握、オリジナルの基盤構築を行うことができる
- ビジネス担当の方にはこんなことができるんじゃないか？というビジネスの発想の種
Hadoop/Spark の広がりについて
- Spark のひろがり
  - Spark はイノベータ、アーリアダプタを超えて広がりつつある
- 業界に横串で展開される BigData
- BigData とはどんなものか
  - 毎日発生し続けるデータ
    - ウェブサイトデータ
    - ログデータ
    - オペレーションデータ
    - オフィスデータ
    - センサーデータ
    - カスタマーデータ
    - ソーシャルデータ
    - メディアデータ
従来の Hadoop 基盤のおさらいと問題提起
- DataSource＞HDFS＞YARN＞Hive,Mahout＞Batch＞Data＞RDB＞BI,API,Batch
- 問題
  - Input のタイミングの問題
  - 処理時間の問題
    - どうやってレイテンシーを下げるのか
  - データ反映の問題
    - つくったデータをどうやって提供していくのか？
Spark/Kafka の概要のおさらい
- Apache Spark
  - Component
    - SparkSQL, Datasets, DataFrames: SQL IF の提供
    - GraphX: グラフ操作を提供
    - Steraming: ストリーミング処理を提供
    - MLlib: 機械学習アルゴリズムを提供
    - on top of SparkCore.
  - 処理系
    - RDD & DAG, On-memory.
- Apache Kafka: 分散 MQ
  - Component
    - Producer
    - Broker
      - Topics の単位で処理をキューイング
    - Consumer
リアルタイム解析基盤について
- Kafka と Spark をつかったリアルタイム解析基盤
  - Data＞Kafka＞Spark＞RDB＞BI,Batch,API＞Kafkaに返す
  - Kafka をデータハブとして使う
- リアルタイム基盤ではキューが重要
  - キューによる処理系の分離ができる
    - データ
      - 多様なデータソース
      - 多彩なデータ
      - Sparkの障害から分離
    - Kafka
      - どんなデータでも一旦の終端になれる
    - Bigdata
      - Spark側はKafkaにのみ対応
      - データに合わせたロジック
      - 多様なデータソースの障害から分離 *キューをつかったストリーミングフロー制御
    - 処理を並べてフローを作成できる
  - キューを使った処理やアルゴリズムの検証
    - 同じデータから新たな処理を追加したい場合など
リアルタイム解析基盤の活用
- ログをKafkaにキューイング、Sparkで集計処理、Kafkaに返す
- 既存で HDFS/Hive をもっているときに SparkSQL が Hive の MetaStore を参照するようなインテグレーション例
- MLlib を利用した異常値の検知システム
- IoT の場合、大量書き込みが発生する、書き込み部分に HBase を使う事例
まとめ
- Sparkは利活用事例がこれからなサービス
DataPalooza が日本でも開催される
- サイエンティスト向けのイベント。
IBM の Hadoop Distribution
- Open Data Platform
- BigInsight
IBM は Spark に本気。
- IBMがApache Sparkプロジェクトに3500名を投入、未来に生きる道はオープンソースしかないと悟る | TechCrunch Japan