2016-02-18

Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築〜のメモ

今日（2018-02-18）のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。

個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。

本エントリのコンテンツは以下。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田純一氏 [GMOインターネット]

資料埋め込み

関連リンク

devsumi2016 でわたしがとってきた他セッションのメモ

で、以下よりがメモ。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田純一氏 [GMOインターネット]

@n428dev
- Software Design 201511 号
- ConoHa を使った Hadoop 事例
目的
- NHK NEWS WEB のつぶやきビッグデータをつくりたい
  - 3月でこの番組なくなる？つぶやきビッグデータも？！
Spark について
- MR とは別のアプローチ、 DAG での並列分散処理
  - Job Scheduling Process
    - RDD Objects
    - Scheduler
  - ITPro の記事。 DAG と MR の違い
- インメモリ
- Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
Spark Streaming について
- リアルタイムに流れてくるストリーム対する集計ができる
- 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
- データソース
  - Kafka, Flume, HDFS/S3, Kinesis, Twitter ＞ Spark Streaming ＞ HDFS, DB, Dashboards
検証サービス説明
- Twitter ＞ Spark Streaming ＞ Mikasa, Ikazuchi
Spark Streaming を使用したオンライン Twitter 解析
- ここはスライドを参照したい
  - Streaming
    - Twitter Streaming API
      - 400 までの検索キーワードが指定可能
    - Spark Streaming
      - kuromoji: 形態素解析
        
        デフォルトの辞書にない情報は自分で追加する必要がある
      - ウィンドウ集計の活用
        
        直近 5 分
        
        直近 60 分
    - Apache Kafka
  - Recommendation
    - Kafka
      - Ruby
    - nginx
      - Data-Driven Document
    - Amazon Product Advertizing API
    - Trend Product Bot (Twitter account へ) @Akihabara_itso
- 完全スタンドアロン構成 (Mac or Linux)
  - ZK
  - Kafka
  - nginx
  - GraphX
  - Spark Streaming
  - Spark
  - Ruby
  - Java
  - Scala
Demo.