#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築〜のメモ

今日(2018-02-18)のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。

個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。

本エントリのコンテンツは以下。

で、以下よりがメモ。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田 純一氏 [GMOインターネット]

  • @n428dev
    • Software Design 201511 号
    • ConoHa を使った Hadoop 事例
  • 目的
    • NHK NEWS WEB のつぶやきビッグデータをつくりたい
      • 3月でこの番組なくなる?つぶやきビッグデータも?!
  • Spark について
    • MR とは別のアプローチ、 DAG での並列分散処理
      • Job Scheduling Process
        • RDD Objects
        • Scheduler
      • ITPro の記事。 DAG と MR の違い
    • インメモリ
    • Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
  • Spark Streaming について
    • リアルタイムに流れてくるストリーム対する集計ができる
    • 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
    • データソース
      • Kafka, Flume, HDFS/S3, Kinesis, Twitter > Spark Streaming > HDFS, DB, Dashboards
  • 検証サービス説明
    • Twitter > Spark Streaming > Mikasa, Ikazuchi
  • Spark Streaming を使用したオンライン Twitter 解析
    • ここはスライドを参照したい
      • Streaming
        • Twitter Streaming API
          • 400 までの検索キーワードが指定可能
        • Spark Streaming
          • kuromoji: 形態素解析
            • デフォルトの辞書にない情報は自分で追加する必要がある
          • ウィンドウ集計の活用
            • 直近 5 分
            • 直近 60 分
        • Apache Kafka
      • Recommendation
        • Kafka
          • Ruby
        • nginx
          • Data-Driven Document
        • Amazon Product Advertizing API
        • Trend Product Bot (Twitter account へ) @Akihabara_itso
    • 完全スタンドアロン構成 (Mac or Linux)
      • ZK
      • Kafka
      • nginx
      • GraphX
      • Spark Streaming
      • Spark
      • Ruby
      • Java
      • Scala
  • Demo.

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

関連リンク

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com

乗り遅れるな!KafkaとSparkを組み合わせたリアルタイム分析基盤の構築〜のメモ

Developers Summit 2016 - Hack the Realで参加してきた三コマ目のメモを公開。

本エントリ、コンテンツは以下。

以降よりメモ公開。

【18-B-4】乗り遅れるな!KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 / 田中 裕一氏 [日本アイ・ビー・エム]

  • 基盤の構築にフォーカスを当てた話。
  • 講演のターゲット
    • Spark をはじめたい、ビッグデータをはじめたいエンジニアのとっかかり
  • 持ち帰りポイント
    • Spark+Kafka をつかった解析基盤の概要の把握、オリジナルの基盤構築を行うことができる
    • ビジネス担当の方にはこんなことができるんじゃないか?というビジネスの発想の種
  • Hadoop/Spark の広がりについて
    • Spark のひろがり
      • Spark はイノベータ、アーリアダプタを超えて広がりつつある
    • 業界に横串で展開される BigData
    • BigData とはどんなものか
      • 毎日発生し続けるデータ
        • ウェブサイトデータ
        • ログデータ
        • オペレーションデータ
        • オフィスデータ
        • センサーデータ
        • カスタマーデータ
        • ソーシャルデータ
        • メディアデータ
  • 従来の Hadoop 基盤のおさらいと問題提起
    • DataSource>HDFS>YARN>Hive,Mahout>Batch>Data>RDB>BI,API,Batch
    • 問題
      • Input のタイミングの問題
      • 処理時間の問題
        • どうやってレイテンシーを下げるのか
      • データ反映の問題
        • つくったデータをどうやって提供していくのか?
  • Spark/Kafka の概要のおさらい
    • Apache Spark
      • Component
        • SparkSQL, Datasets, DataFrames: SQL IF の提供
        • GraphX: グラフ操作を提供
        • Steraming: ストリーミング処理を提供
        • MLlib: 機械学習アルゴリズムを提供
        • on top of SparkCore.
      • 処理系
        • RDD & DAG, On-memory.
    • Apache Kafka: 分散 MQ
      • Component
        • Producer
        • Broker
          • Topics の単位で処理をキューイング
        • Consumer
  • リアルタイム解析基盤について
    • Kafka と Spark をつかったリアルタイム解析基盤
      • Data>Kafka>Spark>RDB>BI,Batch,API>Kafkaに返す
      • Kafka をデータハブとして使う
    • リアルタイム基盤ではキューが重要
      • キューによる処理系の分離ができる
        • データ
          • 多様なデータソース
          • 多彩なデータ
          • Sparkの障害から分離
        • Kafka
          • どんなデータでも一旦の終端になれる
        • Bigdata
          • Spark側はKafkaにのみ対応
          • データに合わせたロジック
          • 多様なデータソースの障害から分離 *キューをつかったストリーミングフロー制御
        • 処理を並べてフローを作成できる
      • キューを使った処理やアルゴリズムの検証
        • 同じデータから新たな処理を追加したい場合など
  • リアルタイム解析基盤の活用
    • ログをKafkaにキューイング、Sparkで集計処理、Kafkaに返す
    • 既存で HDFS/Hive をもっているときに SparkSQL が Hive の MetaStore を参照するようなインテグレーション例
    • MLlib を利用した異常値の検知システム
    • IoT の場合、大量書き込みが発生する、書き込み部分に HBase を使う事例
  • まとめ
    • Sparkは利活用事例がこれからなサービス
  • DataPalooza が日本でも開催される
    • サイエンティスト向けのイベント。
  • IBM の Hadoop Distribution
  • IBM は Spark に本気。

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com