1/21 は Hadoop Conference Japan 2013 Winter Tickets, Tokyo - Eventbrite だったので東京ビッグサイトに行って来ました。
セッションの数が多かったため、午前の Keynote 、午後の各セッションで分けてメモをシェアしていっています。
Keynote (7F 国際会議場)
10:00 ご挨拶・Hadoopを取り巻く環境 日本Hadoopユーザー会, 濱野 賢一朗 (NTTデータ) / - - Hadoop生みの親, Doug Cutting (予定、ビデオ参加) / リクルートテクノロジーズ, 米谷 修
➤イベントの説明
- #hcj13w にハッシュタグ変更
- 2009から4回目
- おおよそ一年に1回のつもりで開催中
- 初回と2回目は300名規模
- 前回、1178名、2トラック
- 今回、3トラック、21講演
- コミュニティレベルでやるにはそろそろ限界かと
- これ以上の期待はしないでほしいw
- 今回は講演も公募で選定→テクノロジー、事例
➤Hadoop の利用経験
- 経験者層も経験年数もそれぞれ増加
- 6ヶ月以上の経験が11.6%増
- 使い続けている人はドンドン使い続けているが、そこまで踏み進められていない人も多い印象
➤Hadoop の開発は活発に進んでいるが
- バージョンは複雑な状況
- 1.0, 2.0 の2系統
➤利用バージョンは
- CDH3が一番多く、つぎにCDH4
- つづいて Apache , EMR, MapR ...
- 特徴的なのは、利用予定の方はほとんどバージョンを決めかねている→集計結果から露骨にわかったこと
➤ Hadoop Eco System
- Hive が圧倒的
- 意外だったのが、つぎにHBaseがきたこと→そのせいか3番目がZK
➤ Doug Cutting からのビデオメッセージ
- Believing Hadoop's big future
- History of Hadoop
- Powerful computing platform
- MR
- Powerful computing platform
- About Eco system
- Big data is not just Batch
- Scalable
- Multiple computer with multiple cores
- Scalable
- New approache to data (Big data)
- schema free
- analytics
- ex. HBase: first non batch process product
- online key/value
- What goes next
- more fast
- transaction, index, etc...
- Google suggesting us a map
- Spanner -> global transactions
- Cloudera Impala (intro)
➤ 企画の趣旨
- 7F テクノロジー系のテーマを中心に
- 1F ホールAのトラック→事例を中心に
- 1F ホールB→ソリューションを中心に
*
- LT
- 懇親会中の謎の発表??
*
- 展示ブースもあり
*
- 特別企画
- 有志による持ち込み企画が2件
- Hive T-shirts→セッションで質問するともらえる?
- Hive ステッカー
➤運営協力
- 特にリクルートテクノロジーズ
➤リクルートテクノロジーズからの挨拶
- 会社の説明
- 昨年10月の分社化について
*
- Hadoop x リクルート
- 皆の知見をシャアすることで世の中の変革を加速させたい
*
- メッセージボードに記入のお願い
→Hadoop に関する目標などを書いて欲しい
→メッセージを書いたらささやかな記念品を進呈
➤最後にお願い
- カメラのシャッター音には気をつける
*
- 発表資料のほとんどは Web で公開される
- Ustream あり
- 電源だけは用意がある
- ランチは1Fで無料→6種類あって企画が壮大?!
*
- 懇親会は有料、4000円
- 当日参加もOK
10:30 LINEのHBaseを利用した大規模なメッセージストレージ 中村 俊介(NHN Japan)
メッセージングサービスLINEでは,メッセージやそのメタデータ,及びユーザー情報を格納する主要ストレージの1つとしてHBaseを採用しており,現在その開発・運用を始めてから1年が経過しました,採用当時の数百万ユーザーから,現在では約1億ユーザー,やりとりされるメッセージの数は20億超/日と著しく成長しました.サービスが成長していく中で,様々な問題に出くわしながらも,我々はアーキテクチャの拡張・改善を幾度も行ってきました.本講演では数百台から成るHBase/HDFSクラスタを運用してきて得られた面白いノウハウや安定運用のために行ってきた工夫についてご紹介します.
➤ HBaseを使うことで
- 10億行規模を
- 10ms以内に返せるレスポンス
➤About LINE
- global messanger
- mobile phone and now also support desktop
*
- 1億人ユーザー達成→達成期間を強調
*
- 231ヶ国語で利用、41ヶ国で1位
*
- 2013元日
- 通常の3倍のトラフィックがあったが、LINE Storage は全く問題なかった
→想定の範囲内でおさまった
→2ヶ月くらいまえからインフラの準備をしていた
*
- Hadoop Ecosystem を数多く活用
➤LINE のリクアイアメント
- メッセンジャーなので速さ
- 落ちちゃいけない
*
- no data loss
- low latency
- easy scaleout
- flexible schema maangement
- eventual consistency (最終的には一貫性を保証しなければならないが)
➤なので HBaseを選んだ
- HDFSにより運用コスト低減
- データモデル(semi-storactured, timestamp )
➤ 10 billions/day
➤ 何が達成できたのか
- No data loss
- Persistent
- Data replication
- Response performance
➤ IDC online migration
- DC 移設を無停止で
- もともとのインフラのNWキャパシティに不安があったため移設を考えた
- データ構造の再設計も行っている
*
- incremental replicatiion
- Bulk migration
- データの上書きは、HBaseのタイムスタンプを利用することで回避できる
*
- Pull 型の Replicator を独自で実装
*
- HLogTracker
*
- Bulk Migration
- Map task only
- Bulk Migrator を独自実装
➤ NN failover
- 最初は Linux HAで NN を冗長化していた
- DRBD x VIP x Pacemaker
- NN failure
- VIPをHDFSに使うことは危険だということを身をもって学んだ
- DRBD のスプリットブレイン問題
*
- クラスターの状態をモニタリングし
- /etc/hosts を更新するというシンプルな方法に切り替えた
➤ Stablilizing LINE message cluster
- メッセンジャーサービスとしての安定のために何をしてきたか
- Case1: Too many HLogs
→Flush Storm
→リージョンバランシンングが重要
*
- Case2: Hotspot problems
↓ - Case3: META region workload isolation
*
- Case4: Restion mappting ...
➤ Conclusion
- HBase の利用により、LINEは1億人ユーザーを支えている
11:00 Hadoop meets Cloud with Multi-tenancy 太田 一樹(Treasure Data)
Treasure Data provides Hadoop-based Big Data infrastructure on the cloud. Launched at 2012, Treasure Data imports 75 billion records per month and already executed 2 million jobs for 2000+ users. This keynote describes why people choose cloud-based Hadoop offerings compared with on-premise, and how it's architected to achieve no-SPOF and multi-tenancy.
➤リクルートテクノロジーズさんへの感謝
➤自己紹介
- @kzk_mover
➤ Treasure data, fluentd
- なぜ会社を設立したか?
- Hadoop は素晴らしいが、導入障壁は大きいのではないか?
- 実際導入しても、運用は大変じゃないか
- DWH回帰してしまう
➤ そこで Treasure Data = Cloud + Bigdata
- Jerry Yang に投資してもらった
- 今日の日経にのっている
➤ なぜ Treasure Data?
- いろいろプロダクト → 451 research
- どれを使っていいのかわからない
- どのバージョンを選んでいいかもわからない→ 機能をつけつづけるとなんだかわからなくなる、スイスアーミーナイフ、 feature creap
↓
わたしたちにはナタのようなものが必要だ
- Simple & Discoverable
- Everyting with One interface
- とにかくシンプルなIFで使えるものをつくりたいと
*
- Cloud も意味がわからないものになっている
- IaaS→サプライチェーンマネジメントで戦っている
- オンプレで買うと、時間と共にHWの価値が下がる(ムーアの法則)
- 価値を下げないために買い続ける→HW買うなら今後はCloudで買うよね、今後はと考えている
ー
- PaaS、SaaS
- アプリケーションの保守
- 人は寝るためになら金を払う
- Battle Field は Time Is Money
- SWを Upgrade した瞬間に価値がさがっていく→使っていれば使っているほど価値があがっていくものを提供することが必要
➤ 会社の紹介
- 日本人がファウンダー
- 15名
- OSS Contributor
- 40 社の顧客
- 100 billion records / month
- 2 million jobs / year
*
- 世界にひとつだけ分析用のDBがあるとしたらそれが Treasure Data になるようにしたい
➤データはどんどん生まれているということを起業してより実感
➤ Treasure Data の哲学、アーキテクチャ
- Reporting から Analytics へ
- そして、予測・最適化へ
- 現状は、Treasure Data は Reporting にフォーカスしている(70%)
*
- いかにデータを集めるか?
- それを蓄積し
- 理解し
- サービスを継続的に改善する
*
- Treasure Data = Collect + Store + Query
- td-agent → オンプレ環境にインストールしてもらう
- TD DWH
- SQL IF
➤ 事例: MobFox
- Adtec の会社
- MySQLベースのレポーティングがスケールしないので、置き換えた
➤ AWS との違いは?
- AWSはコンポーネントベース
➤ Data Collection
- ここに労力を一番かけている
- Fluentd
- ソーシャルゲームや広告では使っていない人のほうが少ないのではないだろうか
➤ Data Store
- ストレージには S3
- カラムナー形式のストレージ
- コンピューティング側にはEC2
➤ Connectivity
- REST API
➤ 一番の困難は Multi Tenancy
- 顧客データは Hadoop Cluster をシェアしている
➤結論
- ビッグデータはむずかしすぎます
- Treasure Data はそれにたいしてものすごくシンプルな IF で解決しようとしています
11:30 Amazon Elastic MapReduceとHadoopコミュニティの関わり(仮) Peter Sirota(Amazon - Web Services)
➤ Big data through customer examples
- AWS and Hadoop Community
➤ 3Vs
- Volume, Velocity, Variety
- Velocity is important
- how frequently data arise
➤Bigger is Better
- yelp example
- restaurant and hotel recomendations
#
- rasorfish
- advertising
#
- Amazon using MR clasify billions of items over 200 fulfillment centers
- all the catalog data are stored in amazon S3 storage
➤ AWS puglic datasets
- hosted for free
- aws.amazon.com/jp/publicdatasets
#
- Ion Flux using this dataset to help their customers
- analyzed DNA sequence data
➤ Indicator how Bigdata growth faster
- Job trends from indeed.com
- compared to Oracle
➤ Amazon S3 total objects
- 1.3 trillion objects
➤ To choose solution
- Check Size and Structure
- and choose the solutiono
- RDS, DynamoDB, HBase, EMR, S3
➤ Data Challenges
- using AWS components
➤ EMR
- reducing Hadoop managing complexities.
- Integrates seamlessly with AWS services
#
- 3.7 million clusters build by customers
➤ Big data Use Cases
- so many startups are now using Hadoop today
- Madia/Ad, Oil & Gas, Retail, Life science, Financial Services, Security, SNS
#
- Netflix
- more than 25 million streaming members
- all data are accumulating to amazon S3.
- and Data consumed in multiple way.
- Query Cluster and Prod Cluster
➤ Feature: Dynamically Resise Cluster
- As using Agile DWH Cluster
- ex. THE CLIMATE CORPORATION
➤ Hadoop Ecosystem on AWS
- many ecosystem are running on top of AWS.
- anyway EMR makes it easy to use Hive and Pig.
- also EMR makes it easy to use HBase
- other example
- R
- Mahout (installed packages default on EMR)
➤ Monitoring
- Free 5min metrics on
- Ganglia
➤ Hadoop and Amazon S3
- Use S3 as a Hadoop FS
- historical data
- improve IO
- reduce compute cost
- eliminate complexity
➤ DynamoDB <-> S3 with Hadoop/Hive
➤ Amazon EMR and DynamoDB
➤ EMR with MapR Hadoop
- aws.amazon.com/elasticmapreduce/mapr
➤ Visualization of Data
- foursquare's example
- Linkedin's network graph
- MicroStrategy
➤ Thank you.
- aws.amazon.com/big-data
✔ #hcj13w わたしのとった他のメモへのリンク
- #hcj13w A会場 午後 (1) ”Hadoop’s Power to Transform Business Ted Dunning(MapR Technologies)” のメモ
- #hcj13w A会場 午後 (2) ”Introduction to Impala 〜Hadoop用のSQLエンジン〜” のメモ
- #hcj13w A会場 午後 (4) ”スケーラブルなシステムのためのHBaseスキーマ設計” のメモ
- #hcj13w A会場 午後 (5) ”いかにしてHadoopにデータを集めるか” のメモ
- #hcj13w A会場 午後 (6) ”トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール” のメモ