#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

乗り遅れるな!KafkaとSparkを組み合わせたリアルタイム分析基盤の構築〜のメモ

スポンサーリンク

Developers Summit 2016 - Hack the Realで参加してきた三コマ目のメモを公開。

本エントリ、コンテンツは以下。

以降よりメモ公開。

【18-B-4】乗り遅れるな!KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 / 田中 裕一氏 [日本アイ・ビー・エム]

  • 基盤の構築にフォーカスを当てた話。
  • 講演のターゲット
    • Spark をはじめたい、ビッグデータをはじめたいエンジニアのとっかかり
  • 持ち帰りポイント
    • Spark+Kafka をつかった解析基盤の概要の把握、オリジナルの基盤構築を行うことができる
    • ビジネス担当の方にはこんなことができるんじゃないか?というビジネスの発想の種
  • Hadoop/Spark の広がりについて
    • Spark のひろがり
      • Spark はイノベータ、アーリアダプタを超えて広がりつつある
    • 業界に横串で展開される BigData
    • BigData とはどんなものか
      • 毎日発生し続けるデータ
        • ウェブサイトデータ
        • ログデータ
        • オペレーションデータ
        • オフィスデータ
        • センサーデータ
        • カスタマーデータ
        • ソーシャルデータ
        • メディアデータ
  • 従来の Hadoop 基盤のおさらいと問題提起
    • DataSource>HDFS>YARN>Hive,Mahout>Batch>Data>RDB>BI,API,Batch
    • 問題
      • Input のタイミングの問題
      • 処理時間の問題
        • どうやってレイテンシーを下げるのか
      • データ反映の問題
        • つくったデータをどうやって提供していくのか?
  • Spark/Kafka の概要のおさらい
    • Apache Spark
      • Component
        • SparkSQL, Datasets, DataFrames: SQL IF の提供
        • GraphX: グラフ操作を提供
        • Steraming: ストリーミング処理を提供
        • MLlib: 機械学習アルゴリズムを提供
        • on top of SparkCore.
      • 処理系
        • RDD & DAG, On-memory.
    • Apache Kafka: 分散 MQ
      • Component
        • Producer
        • Broker
          • Topics の単位で処理をキューイング
        • Consumer
  • リアルタイム解析基盤について
    • Kafka と Spark をつかったリアルタイム解析基盤
      • Data>Kafka>Spark>RDB>BI,Batch,API>Kafkaに返す
      • Kafka をデータハブとして使う
    • リアルタイム基盤ではキューが重要
      • キューによる処理系の分離ができる
        • データ
          • 多様なデータソース
          • 多彩なデータ
          • Sparkの障害から分離
        • Kafka
          • どんなデータでも一旦の終端になれる
        • Bigdata
          • Spark側はKafkaにのみ対応
          • データに合わせたロジック
          • 多様なデータソースの障害から分離 *キューをつかったストリーミングフロー制御
        • 処理を並べてフローを作成できる
      • キューを使った処理やアルゴリズムの検証
        • 同じデータから新たな処理を追加したい場合など
  • リアルタイム解析基盤の活用
    • ログをKafkaにキューイング、Sparkで集計処理、Kafkaに返す
    • 既存で HDFS/Hive をもっているときに SparkSQL が Hive の MetaStore を参照するようなインテグレーション例
    • MLlib を利用した異常値の検知システム
    • IoT の場合、大量書き込みが発生する、書き込み部分に HBase を使う事例
  • まとめ
    • Sparkは利活用事例がこれからなサービス
  • DataPalooza が日本でも開催される
    • サイエンティスト向けのイベント。
  • IBM の Hadoop Distribution
  • IBM は Spark に本気。

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com