#hcj13w Hadoop Conference Japan 2013 Winter 午前中 Keynote のメモ

全体のまとめは ➤ こちら

※ はてなダイアリーの一日の文字数制限にひっかかってエントリそのものを消されてしまったみたいなので、一日前の日付になってしまってますが再度書き直しました。

1/21 は Hadoop Conference Japan 2013 Winter Tickets, Tokyo - Eventbrite だったので東京ビッグサイトに行って来ました。
セッションの数が多かったため、午前の Keynote 、午後の各セッションで分けてメモをシェアしていっています。

Keynote （7F 国際会議場）

10:00 ご挨拶・Hadoopを取り巻く環境日本Hadoopユーザー会, 濱野賢一朗（NTTデータ） / - - Hadoop生みの親, Doug Cutting （予定、ビデオ参加） / リクルートテクノロジーズ, 米谷修

➤イベントの説明

#hcj13w にハッシュタグ変更
2009から4回目
おおよそ一年に1回のつもりで開催中
初回と2回目は300名規模
前回、1178名、2トラック
今回、3トラック、21講演
コミュニティレベルでやるにはそろそろ限界かと
これ以上の期待はしないでほしいw
今回は講演も公募で選定→テクノロジー、事例

➤Hadoop の利用経験

経験者層も経験年数もそれぞれ増加
6ヶ月以上の経験が11.6%増
使い続けている人はドンドン使い続けているが、そこまで踏み進められていない人も多い印象

➤Hadoop の開発は活発に進んでいるが

バージョンは複雑な状況
1.0, 2.0 の2系統

➤利用バージョンは

CDH3が一番多く、つぎにCDH4
つづいて Apache , EMR, MapR ...
特徴的なのは、利用予定の方はほとんどバージョンを決めかねている→集計結果から露骨にわかったこと

➤ Hadoop Eco System

Hive が圧倒的
意外だったのが、つぎにHBaseがきたこと→そのせいか3番目がZK

➤ Doug Cutting からのビデオメッセージ

Believing Hadoop's big future
History of Hadoop
- Powerful computing platform
  - MR
About Eco system
Big data is not just Batch
- Scalable
  - Multiple computer with multiple cores
New approache to data (Big data)
- schema free
- analytics
ex. HBase: first non batch process product
- online key/value
What goes next
- more fast
- transaction, index, etc...
Google suggesting us a map
- Spanner -> global transactions
Cloudera Impala (intro)

➤ 企画の趣旨

7F テクノロジー系のテーマを中心に
1F ホールAのトラック→事例を中心に
1F ホールB→ソリューションを中心に

＊

LT
懇親会中の謎の発表？？

＊

展示ブースもあり

＊

特別企画
有志による持ち込み企画が2件
Hive T-shirts→セッションで質問するともらえる？
Hive ステッカー

➤運営協力

特にリクルートテクノロジーズ

➤リクルートテクノロジーズからの挨拶

会社の説明
- 昨年10月の分社化について

＊

Hadoop x リクルート
皆の知見をシャアすることで世の中の変革を加速させたい

＊

メッセージボードに記入のお願い
→Hadoop に関する目標などを書いて欲しい
→メッセージを書いたらささやかな記念品を進呈

➤最後にお願い

カメラのシャッター音には気をつける

＊

発表資料のほとんどは Web で公開される
Ustream あり
電源だけは用意がある
ランチは1Fで無料→6種類あって企画が壮大？！

＊

懇親会は有料、4000円
当日参加もOK

10:30 LINEのHBaseを利用した大規模なメッセージストレージ中村俊介（NHN Japan）

メッセージングサービスLINEでは，メッセージやそのメタデータ，及びユーザー情報を格納する主要ストレージの1つとしてHBaseを採用しており，現在その開発・運用を始めてから1年が経過しました，採用当時の数百万ユーザーから，現在では約1億ユーザー，やりとりされるメッセージの数は20億超/日と著しく成長しました．サービスが成長していく中で，様々な問題に出くわしながらも，我々はアーキテクチャの拡張・改善を幾度も行ってきました．本講演では数百台から成るHBase/HDFSクラスタを運用してきて得られた面白いノウハウや安定運用のために行ってきた工夫についてご紹介します．

➤ HBaseを使うことで

10億行規模を
10ms以内に返せるレスポンス

➤About LINE

global messanger
mobile phone and now also support desktop

＊

1億人ユーザー達成→達成期間を強調

＊

231ヶ国語で利用、41ヶ国で1位

＊

2013元日
通常の3倍のトラフィックがあったが、LINE Storage は全く問題なかった
→想定の範囲内でおさまった
→2ヶ月くらいまえからインフラの準備をしていた

＊

Hadoop Ecosystem を数多く活用

➤LINE のリクアイアメント

メッセンジャーなので速さ
落ちちゃいけない

＊

no data loss
low latency
easy scaleout
flexible schema maangement
eventual consistency （最終的には一貫性を保証しなければならないが）

➤なので HBaseを選んだ

HDFSにより運用コスト低減
データモデル（semi-storactured, timestamp ）

➤ 10 billions/day

➤ 何が達成できたのか

No data loss
- Persistent
- Data replication
Response performance

➤ IDC online migration

DC 移設を無停止で
もともとのインフラのNWキャパシティに不安があったため移設を考えた
データ構造の再設計も行っている

＊

incremental replicatiion
Bulk migration
データの上書きは、HBaseのタイムスタンプを利用することで回避できる

＊

Pull 型の Replicator を独自で実装

＊

HLogTracker

＊

Bulk Migration
Map task only
Bulk Migrator を独自実装

➤ NN failover

最初は Linux HAで NN を冗長化していた
DRBD x VIP x Pacemaker
NN failure
VIPをHDFSに使うことは危険だということを身をもって学んだ
DRBD のスプリットブレイン問題

＊

クラスターの状態をモニタリングし
- /etc/hosts を更新するというシンプルな方法に切り替えた

➤ Stablilizing LINE message cluster

メッセンジャーサービスとしての安定のために何をしてきたか
Case1: Too many HLogs
→Flush Storm
→リージョンバランシンングが重要

＊

Case2: Hotspot problems
↓
Case3: META region workload isolation

＊

Case4: Restion mappting ...

➤ Conclusion

HBase の利用により、LINEは1億人ユーザーを支えている

11:00 Hadoop meets Cloud with Multi-tenancy 太田一樹（Treasure Data）

Treasure Data provides Hadoop-based Big Data infrastructure on the cloud. Launched at 2012, Treasure Data imports 75 billion records per month and already executed 2 million jobs for 2000+ users. This keynote describes why people choose cloud-based Hadoop offerings compared with on-premise, and how it's architected to achieve no-SPOF and multi-tenancy.

➤リクルートテクノロジーズさんへの感謝

➤自己紹介

@kzk_mover

➤ Treasure data, fluentd

なぜ会社を設立したか？
Hadoop は素晴らしいが、導入障壁は大きいのではないか？
実際導入しても、運用は大変じゃないか
DWH回帰してしまう

➤ そこで Treasure Data = Cloud + Bigdata

Jerry Yang に投資してもらった
今日の日経にのっている

➤ なぜ Treasure Data？

いろいろプロダクト → 451 research
どれを使っていいのかわからない
どのバージョンを選んでいいかもわからない→ 機能をつけつづけるとなんだかわからなくなる、スイスアーミーナイフ、 feature creap
↓

わたしたちにはナタのようなものが必要だ

Simple & Discoverable
Everyting with One interface
とにかくシンプルなIFで使えるものをつくりたいと

＊

Cloud も意味がわからないものになっている
IaaS→サプライチェーンマネジメントで戦っている
オンプレで買うと、時間と共にHWの価値が下がる（ムーアの法則）
価値を下げないために買い続ける→HW買うなら今後はCloudで買うよね、今後はと考えている

ー

PaaS、SaaS
アプリケーションの保守
人は寝るためになら金を払う
Battle Field は Time Is Money
SWを Upgrade した瞬間に価値がさがっていく→使っていれば使っているほど価値があがっていくものを提供することが必要

➤ 会社の紹介

日本人がファウンダー
15名
OSS Contributor
40 社の顧客
100 billion records / month
2 million jobs / year

＊

世界にひとつだけ分析用のDBがあるとしたらそれが Treasure Data になるようにしたい

➤データはどんどん生まれているということを起業してより実感

➤ Treasure Data の哲学、アーキテクチャ

Reporting から Analytics へ
そして、予測・最適化へ
現状は、Treasure Data は Reporting にフォーカスしている（70％）

＊

いかにデータを集めるか？
それを蓄積し
理解し
サービスを継続的に改善する

＊

Treasure Data = Collect + Store + Query
td-agent → オンプレ環境にインストールしてもらう
TD DWH
SQL IF

➤ 事例： MobFox

Adtec の会社
MySQLベースのレポーティングがスケールしないので、置き換えた

➤ AWS との違いは？

AWSはコンポーネントベース

➤ Data Collection

ここに労力を一番かけている
Fluentd
ソーシャルゲームや広告では使っていない人のほうが少ないのではないだろうか

➤ Data Store

ストレージには S3
カラムナー形式のストレージ
コンピューティング側にはEC2

➤ Connectivity

REST API

➤ 一番の困難は Multi Tenancy

顧客データは Hadoop Cluster をシェアしている

➤結論

ビッグデータはむずかしすぎます
Treasure Data はそれにたいしてものすごくシンプルな IF で解決しようとしています

11:30 Amazon Elastic MapReduceとHadoopコミュニティの関わり(仮) Peter Sirota（Amazon - Web Services）

➤ Big data through customer examples

AWS and Hadoop Community

➤ 3Vs

Volume, Velocity, Variety
Velocity is important
how frequently data arise

➤Bigger is Better

yelp example
restaurant and hotel recomendations

rasorfish
advertising

Amazon using MR clasify billions of items over 200 fulfillment centers
all the catalog data are stored in amazon S3 storage

➤ AWS puglic datasets

hosted for free
aws.amazon.com/jp/publicdatasets

Ion Flux using this dataset to help their customers
analyzed DNA sequence data

➤ Indicator how Bigdata growth faster

Job trends from indeed.com
compared to Oracle

➤ Amazon S3 total objects

1.3 trillion objects

➤ To choose solution

Check Size and Structure
and choose the solutiono
RDS, DynamoDB, HBase, EMR, S3

➤ Data Challenges

using AWS components

➤ EMR

reducing Hadoop managing complexities.
Integrates seamlessly with AWS services

3.7 million clusters build by customers

➤ Big data Use Cases

so many startups are now using Hadoop today
Madia/Ad, Oil & Gas, Retail, Life science, Financial Services, Security, SNS

Netflix
more than 25 million streaming members
all data are accumulating to amazon S3.
and Data consumed in multiple way.
Query Cluster and Prod Cluster

➤ Feature: Dynamically Resise Cluster

As using Agile DWH Cluster
ex. THE CLIMATE CORPORATION

➤ Hadoop Ecosystem on AWS

many ecosystem are running on top of AWS.
anyway EMR makes it easy to use Hive and Pig.
also EMR makes it easy to use HBase
other example
- R
- Mahout (installed packages default on EMR)

➤ Monitoring

Free 5min metrics on
Ganglia

➤ Hadoop and Amazon S3

Use S3 as a Hadoop FS
- historical data
- improve IO
- reduce compute cost
eliminate complexity

➤ DynamoDB <-> S3 with Hadoop/Hive

➤ Amazon EMR and DynamoDB

➤ EMR with MapR Hadoop

aws.amazon.com/elasticmapreduce/mapr

➤ Visualization of Data

foursquare's example
Linkedin's network graph
MicroStrategy

➤ Thank you.

aws.amazon.com/big-data