今日(2018-02-18)のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。
個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。
本エントリのコンテンツは以下。
で、以下よりがメモ。
【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田 純一氏 [GMOインターネット]
- @n428dev
- Software Design 201511 号
- ConoHa を使った Hadoop 事例
- 目的
- NHK NEWS WEB のつぶやきビッグデータをつくりたい
- 3月でこの番組なくなる?つぶやきビッグデータも?!
- NHK NEWS WEB のつぶやきビッグデータをつくりたい
- Spark について
- MR とは別のアプローチ、 DAG での並列分散処理
- Job Scheduling Process
- RDD Objects
- Scheduler
- ITPro の記事。 DAG と MR の違い
- Job Scheduling Process
- インメモリ
- Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
- MR とは別のアプローチ、 DAG での並列分散処理
- Spark Streaming について
- リアルタイムに流れてくるストリーム対する集計ができる
- 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
- データソース
- Kafka, Flume, HDFS/S3, Kinesis, Twitter > Spark Streaming > HDFS, DB, Dashboards
- 検証サービス説明
- Twitter > Spark Streaming > Mikasa, Ikazuchi
- Spark Streaming を使用したオンライン Twitter 解析
- ここはスライドを参照したい
- Streaming
- Twitter Streaming API
- 400 までの検索キーワードが指定可能
- Spark Streaming
- kuromoji: 形態素解析
- デフォルトの辞書にない情報は自分で追加する必要がある
- ウィンドウ集計の活用
- 直近 5 分
- 直近 60 分
- kuromoji: 形態素解析
- Apache Kafka
- Twitter Streaming API
- Recommendation
- Kafka
- Ruby
- nginx
- Data-Driven Document
- Amazon Product Advertizing API
- Trend Product Bot (Twitter account へ) @Akihabara_itso
- Kafka
- Streaming
- 完全スタンドアロン構成 (Mac or Linux)
- ZK
- Kafka
- nginx
- GraphX
- Spark Streaming
- Spark
- Ruby
- Java
- Scala
- ここはスライドを参照したい
- Demo.
資料埋め込み
資料が公開されたらこちらに埋め込ませて頂く予定。
関連リンク
- Mikasaインストールマニュアル · GitHub
- GitHub - AKB428/mikasa_ol: Mikasa Recommendation System. Twitter Data Analyzer
- GitHub - AKB428/mikasa_rs: Mikasa Recommendation System
devsumi2016 でわたしがとってきた他セッションのメモ
のちほど他のエントリを書いたら更新する予定です。
garagekidztweetz.hatenablog.com
garagekidztweetz.hatenablog.com
garagekidztweetz.hatenablog.com