#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築〜のメモ

スポンサーリンク

今日(2018-02-18)のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。

個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。

本エントリのコンテンツは以下。

で、以下よりがメモ。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田 純一氏 [GMOインターネット]

  • @n428dev
    • Software Design 201511 号
    • ConoHa を使った Hadoop 事例
  • 目的
    • NHK NEWS WEB のつぶやきビッグデータをつくりたい
      • 3月でこの番組なくなる?つぶやきビッグデータも?!
  • Spark について
    • MR とは別のアプローチ、 DAG での並列分散処理
      • Job Scheduling Process
        • RDD Objects
        • Scheduler
      • ITPro の記事。 DAG と MR の違い
    • インメモリ
    • Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
  • Spark Streaming について
    • リアルタイムに流れてくるストリーム対する集計ができる
    • 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
    • データソース
      • Kafka, Flume, HDFS/S3, Kinesis, Twitter > Spark Streaming > HDFS, DB, Dashboards
  • 検証サービス説明
    • Twitter > Spark Streaming > Mikasa, Ikazuchi
  • Spark Streaming を使用したオンライン Twitter 解析
    • ここはスライドを参照したい
      • Streaming
        • Twitter Streaming API
          • 400 までの検索キーワードが指定可能
        • Spark Streaming
          • kuromoji: 形態素解析
            • デフォルトの辞書にない情報は自分で追加する必要がある
          • ウィンドウ集計の活用
            • 直近 5 分
            • 直近 60 分
        • Apache Kafka
      • Recommendation
        • Kafka
          • Ruby
        • nginx
          • Data-Driven Document
        • Amazon Product Advertizing API
        • Trend Product Bot (Twitter account へ) @Akihabara_itso
    • 完全スタンドアロン構成 (Mac or Linux)
      • ZK
      • Kafka
      • nginx
      • GraphX
      • Spark Streaming
      • Spark
      • Ruby
      • Java
      • Scala
  • Demo.

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

関連リンク

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com