
今日は、東京ミッドタウンで開催された Cloudera World Tokyo 2012 に参加してきましたので、そこでわたしのとってきたメモを公開しようと思います。
※時間差で少しづつ更新する予定です、資料も up されると思うので。
Contents:
個人的感想
9:50 ご挨拶 「ビックデータ最新動向」(20分)
Cloudera株式会社 代表取締役社長 ジュセッペ 小林氏
10:10 基調講演 「ビッグデータ及びそれを支えるCDHの未来展望」(60分)
米国Cloudera社 共同創業者兼最高技術責任者(CTO) Dr. Amr Awadallah, Ph.D.
11:00 基調講演「(仮題):Clouderaのエコシステム」
米国Cloudera社 Vice President, Business and Corporate Development Tim Stevens
11:30 ブレイクセッション (15分)
株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 氏
11:45 特別講演 「リクルート流 ビッグデータを使いこなす3つの観点」(30分)
株式会社リクルートテクノロジーズ ITソリューション部ビックデータグループ グループマネージャー 菊地原 拓 氏
12:15 特別講演 「Hadoop成功の鍵となるエンジニアのスキル&キャリア開発」(30分)
株式会社リクルート ビジネス&ソリューションプロデューサー 加藤 茂博 氏 Tech総研Academy 「Japan Innovation Leaders Summit」 企画運営責任者 経済産業省「情報大航海プロジェクト」リクルートプロジェクト責任者
B-1 「データ分析におけるHadoop活用のメリット」 〜Hadoopで挑戦!KDD Cup 2012〜
新日鉄住金ソリューションズ株式会社 システム研究開発センター 研究員 大坪正典 氏
B-2 「オープンソースで始めるビッグデータのプラットフォーム」
レッドハット株式会社 マーケティング本部 部長 中井雅也 氏
A-3 「Hadoopのシステム設計・運用のポイント」〜Hadoop運用・管理のベストプラクティス〜
Cloudera株式会社 カスタマーオペレーションズエンジニアHadoopエバンジェリスト 嶋内 翔
A-4 【再入門編】「ゾウは××が嫌い 〜 2頭目のゾウはやんちゃです 〜」
株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリスト 政谷好伸 氏
A-5 「Hadoop World in NY」 〜グローバルHadoop最新情報〜
Cloudera株式会社 カスタマーオペレーションズエンジニア 小林大輔
References.
個人的感想
脈絡なく感じたことをそのまま書きます。
本イベントを全体とおして既知の情報が多かったというのはありましたが、各セッションそれぞれに特徴があって聴き応えはありました。いろいろと考えさせられました。
インパクト、と言う意味では
個人的には Hadoop を実務で使ってるから引く手あまたかといったらそういうふうには全く思っていないので、そういった甘言には変に踊らされず、真摯にビジネスに取り組んでいきたいですね。
そういう人こそが年齢関係なく魅力的だとわたしは思っているので。
会場運営はとてもよかったと思います。
なによりみんな分の机があったのがうれしかったですね(パイプ椅子に長時間座らされるといったことはよくあるので)。
また Cloudera のスタッフのみなさんが随所で声がけを頻繁にされていたりするのにとても好感をもちました。
NTT Data さんが 12 月に行うという Hadoop Enterprise Solution Seminar も楽しみですね。
以上で感想おしまいです。以降からがわたしがとってきたメモです。
9:50 ご挨拶 「ビックデータ最新動向」(20分) Cloudera株式会社 代表取締役社長 ジュセッペ 小林氏
- 当初、100名くらいの規模かと思っていたら、600名も集まってしまった
- ビッグデータ流行語大賞になりそうなくらい注目を浴びているが、それにたいして Cloudera がどのように考えているかを説明する
- Cloudera の考え方を共有
- ビッグデータの誤解をといてみたい
➤ ビッグデータの6つの誤解を解く
➤ Big とは?
- Big といってもなんなのか?
- データが入らなくなった
- 昔からビッグデータはあった。今更話題にするものでも本来はない
- 言葉でいうなら Bigger Data 、進行形であるということ
- まだまだ大きくなる、ということ
- 泉のごとくデータが増えてくる
- 固定的なものではない、どんどん増える
➤ Dataとは?
- 使い方の話。
- 風が吹けば桶屋が儲かる
- 桶屋が儲かるまでの要素要素がすべてデータ
- 因果関係をみる
- データとデータの間のことをみる
- やりたいことは因果関係をみつけること
- データを集めれば集めるほど間にうもれている因果関係を探すことができるようになる
➤ 使用目的
- Big Data って何のためにつかうんだ?
- 基本的には冷蔵庫と同じ考え方。
- 日本では環境の問題もあって大きな冷蔵庫はおくことができない
- 日本では毎日買い物をしにいく必要がでてくる
- 日本では夕食の献立など必要のあるもの、目的をもって買い物にいく
- 今日使うもの、明日つかうものしかいれられないから
- それを、日本の暮らしから欧米の暮らしに視点をうつす
- 欧米では食料はまとめ買いする
- 献立は考えない
- 最初から何をつくるか考えない
- つくるときに考える
- この考え方が Hadoop にもあてはまる
- 「とりあえずいれておく」
- ひとつにあつめてそこに色々はいっているから、あとで用途をかんがえる、ができる
- コストコにいくとき、目的をかんがえるだろうか?
- とにかく全部いれておこう
- それが Big Data
- 使用目的を考える前に、いかに集めるかを考える
- Big Data = Raw Data (生データ)
➤ 解析
- 南アフリカ対オランダ
- 南アフリカではダイヤモンドの原石を採掘している
- たくさんほればほるほど、原石を見つけられる可能性がある
- Big Dataも同じ、集めれば集めるほど原石がある可能性が増える
- 集めた原石を、オランダで磨く
- 目的志向で磨いていく
- Big Data は原石、Big Data の Big は大雑把の大
- 大雑把でよい
➤ バッチ処理
- バッチ処理であることはまちがいないが、それで終わるものではない
- 銭湯をイメージする
- ただ体を洗い温めるだけでなく、そこにふれあいがある
- シャワーをイメージする
- 目的志向、体を洗うという目的は同じ
- もはやバッチもリアルタイムも Big Data、区別はない
➤ データ・サイエンス
- 単純にデータを探索しにいく
- データサイエンティストの仕事
- いろんな情報のなかに隠れている事実を探しに行くということ
- アドベンチャー
- 統計学などの基礎知識はもちろん必要だが、ワクワクがある、浪漫がある
- データというのは企業の資産、それを人任せにするのはよろしくない
- なにより楽しい
- これこそ企業が自分でやるべき仕事
- 情熱が必要
- 今日は Cloudera とそのパートナーからその情熱を感じていって欲しい
10:10 基調講演 「ビッグデータ及びそれを支えるCDHの未来展望」(60分) 米国Cloudera社 共同創業者兼最高技術責任者(CTO) Dr. Amr Awadallah, Ph.D.
【Amr Awadallah 氏略歴】
エジプト・カイロ大学にて電気工学修士課程を修了、米国スタンフォード大学にて電気工学博士号を取得。VivaSmartに参画後、同社買収によりYahoo!に入社。Yahoo!では、プロダクトインテリジェンスエンジニアリング担当副社長として、データ分析およびビジネスインテリジェンスのために、いち早くHadoopを採用し、稼働させた実績を持つ。その後、ベンチャーキャピタルのAccel Partnersの客員起業家(EIR/Entreprenuer-in-Residence)として3カ月間勤務後、2008年にCloudera社の設立・経営に参画し、現在に至ります。
➤ My Story
- One of the fouder of Cloudera.
- Data analytics team, Yahoo!
- 100 people, Big team
- Oracle, IBM ...
- Many headaches (4 headaches)
- Data growing very very quickly
- many type of data
- JSON, XML
- data is always changing
- dynamic schema
- data as a asset
- Hadoop as one of the problem solving method for those headaches.
- Hadoop is actually very good.
- and think this is also good for other web companies.
➤ The Problems with Current Data Systems
- Moving to data to compute doesnt scale
- Cant Explore original high fidelty raw data.
- Archiving = Premature Data Death
- Before the problem appear of Hadoop.
- Two type of question
- unkwown knowns questions
- Traditional RDB covers
- unknown unknowns questions
- unkwown knowns questions
➤ The Solution: A Combined storage / Compute Layer
- Scalable Thoughput for ETL & Aggregation
- Data Explotions & Advvanced Analytics
- Keep Data Alive for Ever
- Compare with previous slide, Hadoop realized.
➤ So what is apache Hadoop?
➤ The Key Benefit: Agility & Flexibility
- Most important slide on this document.
- Schema-on-Write (RDBMS)
- Pros.
- read is fast
- standards/governance
- Pros.
- Schema-on-Read(Hadoop)
- Pros.
- load is fast
- flexibility/agility
- Pros.
➤ Scalability
- Machine scalability
- Human scalability (quite unique in hadoop)
- tons of horizotally scaling out slave servers.
- Not much need number of member of Admins
➤ Economics: Return to Byte
- Value to be extracted from that byte divided by the cost of storing that byte.
- Keep all data for keeping it.
- Not for to archiving data.
➤ The Big data platform: CDH4 - June 2012
- Hadoop is only a part of it that is important.
- Hadoop is simply the core.
- Stared products, Cloudera have the founders. (photo in detail)
- 5 meanings
- collect
- store
- ? (cant catch up)
- analyze
- and serve
- mention about Bigtop and CM
➤ CDH4 - Enterprise Standard for Hadoop
- Three emphasise point
- Higher Availability (no NN SPOF)
- Faster Performance (100% faster for lookups)
- from tons of custer FB.
- More Scalability ( No limit on number of nodes)
- 4,000 nodes limit are no more. ...
- More secure and more usable CDH than ever.
➤ CDH4 in the enterprise data stack
- Collect: by flume etc.
- Transform(for data architect): INFORMATICA
- BI: MicroStorategy
- R: REVOLUTION ANALYTICS
- for Data Engineers: Karmasphere
➤ HBase vs HDFS
- Design point and difference between them.
- Optimize for, Used for and Not Suitable for. ( detail can see from photo)
- many customers using HBase as onling serving. (facebook)
- facebook no longer using Cassandra.
➤ MR NG
(in a short because of left time short...)
- on CDH4 you can choice use MR NG or previous Gen
➤ CDH5 Key Release Theme
- Low Latency SQL Analytics (implant)
- Stronger Recoverbility ...
➤ Cloudera Now Powered by Impala
- Like Hive but much faster than Hive.
- 10 times, sometimes 100 times faster.
- Impala is 100% OSS.
➤ Impala Near-Term Feature
(in a quick... so see after photos)
➤ CM 4.5
- Downtimeless rolling upgrade.
➤ Use Case Examples
- key point of this slide.
- now Cloudera's customer is not only the web companies.
- Various type of customers (industories) they serve for now.
➤ Core Benefits of the platform for Bigdata
- Flexibility
- store any data, run any analytics ...
- Scalability
- proven growth to PBS/1,000s of nodes
- no need to rewrite queries, automatically scales
- Economics
- cost per TB at a fraction of other optiions
- keep all of your data alive in an active archive
11:00 基調講演「(仮題):Clouderaのエコシステム」 米国Cloudera社 Vice President, Business and Corporate Development Tim Stevens
➤ Cloudera Overview
- Introduction of Cloudera inc.
- Tim responsible for partner ecosystem
➤ Who is Cloudera?
- Most trasted company in Apache Hadoop.
- Japan is very strategic contry for Cloudera.
➤ Our Jurney so Far
- from 2008 and now 2012.
- 100 customers in production.
- Distributing CDH as OSS, this is important, they think.
➤ Our Mission
- Create the #1 platform for big data.
- pushing the state of the art with Impala and additional innovation
- can realize realtime analytics for Analyst, Data Engineers or so.
- work closely with partners
- pushing the state of the art with Impala and additional innovation
➤ Cloudera knows and "are" Hadoop
➤ Cloudera Hadoop is powering the enterprise
- Track records.
➤ We have many customers
➤ We have a global partners in Japan
- NTT Data, Hitachi...
➤ Our partners complete the solution
➤ There is no time to wait
- Data is growing exponentially
- Market requirements are changing
- Hadoop is no more nice to have.
➤ Long Term Cloudera Roadmap.
- Aiming goal as Data driven organization
➤ The Cloudera differenciation
➤ Summary
11:30 ブレイクセッション (15分) 株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット
- OSSプロフェッショナルサービス シニアエキスパート 濱野 賢一朗 氏
- 5 年前からHadoop
- 3年前からClouderaと関係
- ビジネス関係は今日でまる2年
➤ プレゼント?!
- 目玉商品は iPad mini?!
- ゾウさんのぬいぐるみ(Hadoop 7.0 で賞)
- 黒豚そぼろ
- 蜂蜜 などなど
➤ 進め方
- クイズをする
- Hadoop のソースは14万行
- Hadoop のソースコードで5番目におおいのは?
- wordcount で数えた、 return
- Cloudera CEO, Mike Olson 氏の車のナンバーは Hadoop
ふつーにうらやましかった iPad mini.
11:45 特別講演 「リクルート流 ビッグデータを使いこなす3つの観点」(30分) 株式会社リクルートテクノロジーズ ITソリューション部ビックデータグループ グループマネージャー 菊地原 拓 氏
【講演内容】
就職(リクナビ)や結婚(ゼクシィ)、住宅購入(SUUMO)などの「ライフイベント領域」、グルメ(ホットペッパー)や旅行(じゃらん)などの「ライフスタイル領域」。――リクルートグループでは多くのカスタマーにサービスを利用頂いており、そこで得られる大量のデータをいかに活用するかが昨今の重要テーマとなっています。それらを技術、組織体制、システムライフサイクルの3つの観点でお伝えします。
➤ あくまでリクルート流
➤ リクルートのビジネスモデル
- カスタマーのニーズと企業のニーズをマッチングすること
- すべてのサービスはこのビジネスモデルをもとにつくられている
- Life Event と Life Style
- スーモ、ゼクシィ… :前者
- ポンパレ、ホットペッパー…:後者
- すべてネットのサイトがある
- そこには膨大なデータがある
- 某ベンチャーキャピタリスト、紹介するのが難しいと言われた
- 日本でも有数のビッグデータをもつフリーキャッシュフロー100億の会社
- Netの売り上げはこれからも伸びて行くと思っている
- それゆえに保持するデータ量はどんどん増えていくと思っている
➤ Agenda
- 組織
- システムライフサイクル
- 技術
➤ 現在組織は七つに分社化
- そのうちのひとつリクルートテクノロジーズ
➤ ビッグデータグループはなにをしてるか
➤ 2種類のアナリスト
- あくまでリクルートのなかで
- コンサル型のアナリスト(事業の意思決定の支援など。予測モデル、需要予測など)
- エンジニア型アナリスト(新技術やアルゴリズムを実装、組み合わせる:Hadoopとともに現れてきた)
- カーセンサーの事例をみてみよう
➤ コンサル型とエンジニア型最初から協同していた?
- 派生がちがったのでしてなかった、バラバラに活動していた
- 事業を継続してくなかでコラボレーションする機会があった(Hadoopを使って)
- 組織がバラバラなのは効率が悪いので合体した
➤ データ活用は
- コンサル型+エンジニア型+事業担当
- が、一体となることでPDCAが速く回るように
➤ システムライフサイクルについて
- 開拓
- Fining を重視、たくさん失敗する。失敗した中から新たな知見に重きをおいている
- > 実装展開
- サービスとしての型化する
- 早く運用フェーズへもっていく
- > 運用
- 集約メリットの最大化
➤ 収支は?
- リクルートグループの競争優位を構築していくことを重視しているので
- マイナスでいい。(投資分野だもの、当然といえば当然)
- オープンソースへの取り組みをしたことにより「最終的には」大きなコスト削減になった
➤ 技術について
- ビッグデータを扱う技術で注目すべきもの、 Hadoop(システムライフサイクルでみる:写真)
- プライベートクラウドと現在は融合、160台
➤ Hadoopとは?
その周辺でつかっているミドルウェアの紹介
- Sqoop(Oracleを結構つかっているので)
- DBにもどすときは SQL Loader
- Hive
- Webhive (リクルートさんがつくった、 github から取得可能)
- Excel の代替として
- mahout
- たとえばレコメンド
- 協調フィルタリングの例
- もともともっていた技術と組み合わせて自然言語処理
- Lucene or RMeCab + mahout
- HBase
- 分析対象をよりリアルタイムに近づけたい
- S4、Stormも検証中、Apache Drill、Impalaもいいな、と。
➤ ビッグデータを扱う技術
- 高度な能力は必ずしも必要だとはおもっていない
- 道具の内容と使い方を知り上手に活用すること
- Shell と SQL ができるというレベルの人間からいる
- 重要なのはビジネスのことをよく理解すること
➤ まとめ (写真みる)
12:15 特別講演 「Hadoop成功の鍵となるエンジニアのスキル&キャリア開発」(30分) 株式会社リクルート ビジネス&ソリューションプロデューサー 加藤 茂博 氏 Tech総研Academy 「Japan Innovation Leaders Summit」 企画運営責任者 経済産業省「情報大航海プロジェクト」リクルートプロジェクト責任者
【講演内容】
「ビッグデータ」「データサイエンティスト」「ビジネスインテリジェンス」「Hadoop」も含めかつてこれほどデータサイエンスが注目を集めたことはありませんでした。これらがバズワードとして消えることなく、未曽有のチャンスをどうすればビジネスの、そして個人のキャリア機会として活かすことができるのか。 今後の展望を考えるため、「人材戦略と事業戦略の関係性」、「エンジニアのキャリアデザイン」といった視点から市場の現状や、機会を獲得するために必要な要件を人材戦略のプロの立場から説明する。
- 技術の話ではなく、人材の話
- ひとことでいうと、Hadoop を実務で使ったことのある人材はニーズがある(ただ学んだことがあるという話ではなく) という話。
- 今から始めるにしても Hadoop は勉強するのにとてもいい対象。
- 企業のがわも、Hadoopに社員を携わらせていて、重用していないなら、近い将来その社員はやめてしまうかもしれないという危機感を感じた方がよい
- 日本は技術力は高いのに、企業の側がオープンソースに関わってほしく思っていない傾向があるらしい
→海外からはフリーライダーと揶揄される
- Apache Foundation にまず問題を報告することからはじめてみたらどうか
- Committer になれたなら、履歴書などもはや書く必要もないだろう
- 松信さんが例にw
- 特にHadoop に限定された話ではないこと、かつ自明の話ではあったが、面白いトピックではあったと思う。
B-1 「データ分析におけるHadoop活用のメリット」 〜Hadoopで挑戦!KDD Cup 2012〜 新日鉄住金ソリューションズ株式会社 システム研究開発センター 研究員 大坪正典 氏
Hadoopは単に大量のデータを扱うだけではなく、多様な処理を実現できるメリットがあります。本セッションでは、データマイニング技術の国際コンテストである「KDD Cup2012」の課題に対し、HiveやMahoutを利用して挑戦した結果を中心に、データ分析業務におけるHadoop活用メリットを紹介します。
➤ 新日鉄住金ソリューションズの取り組み
- データサイエンス&テクノロジーセンターの開設
➤ BigData活用へのアプローチ
- データ集積・蓄積
- データ共有
- 分析
➤ 意思決定支援に関する研究
➤ Hadoop研究の歩み
- アジア太平洋地域で初のClouderaとの提携
➤ 2. Hadoopで挑戦!KDD Cup 2012
- KDD Cup
- データマイニングの世界的コンテスト
- 今回はsoso.com の広告クリック予測
- 分類問題とはなんぞや?
- 様々なデータを元に、そのカテゴリを予測すること
- 機会学習における分類の説明
- 検証の背景
- 現状の分析業務における課題
- 必要なデータが別環境にある(手前)
- 事前処理に時間がかかる(全部使うわけではない)
- 分類処理に時間がかかる(やりたいことそのものに時間かかる)
- そこで Hadoop 環境でやってみる
- Hive と Mahout について
- Mahout ではレコメンド、クラスタリング、分類が実装されている
- その一部がHadoopに対応している
➤ KDD Cup 2012 Truck2 の詳細
- データ規模
- モデル評価指標
- クリック予測をもとにROC曲線をもとめる
- データの定義(写真)
- ROC 曲線とAUC値について(写真)
- 検証の内容の説明(写真)
- 検証環境の説明
- Cloudera Manager使った
- CDH4
➤ 検証のポイント
あとでここは書く
- 事前処理の概要の説明(写真)
- WPS から Hiveへの移植
- 実行結果1
- Hive 1台でも3倍はやくなっている
- DELL の最新機をつかっていることもあるが
- ただし
- それほどスケールしていない
- 入力データがそれほど大きくない
- 実行結果2
- データ量がすくないためMRの段数が多いとノード追加によるスケールメリットを得られない
- 事前処理のまとめ★
- データ処理には Hiveが効果的
- Impalaもでてきたし
➤ 分類処理について
- 処理の概要
- Random Forest の概要
- 決定木をつくっていく
- Mahoutに実装済み
- 決定木ごとに独立、並列処理可能
- 処理の流れ
- 最終的には多数決で決まる
- 検証1:SLFD vs Mahout
- 実行時間は短縮できたが精度が落ちた
- 検証2:Inmemory モードと Partialモード
- Partialモードで、精度はあがったが処理に時間かかりすぎた
↓
決定木の数を減らしてみる
処理時間は減ったがやはり、モデルの精度が落ちてしまった
↓
データの分割数をあげたらどうか
Mapが増えて実行多重度が増す
1Mapあたりのデータ量が減る
時間は圧倒的に速くなった上に、モデルも今回のケースではよくなっていた
少数精鋭の決定木<多種多様な木
- Partialモードで、精度はあがったが処理に時間かかりすぎた
- 分類処理のまとめ(写真)
➤ まとめ
- Hadoop サイコー
➤ データ分析におけるHadoop活用のメリット
- 抽出、蓄積、分析が同一環境で実現できるということ
➤ つづきはWebで
セミナーの紹介、配布資料
B-2 「オープンソースで始めるビッグデータのプラットフォーム」 レッドハット株式会社 マーケティング本部 部長 中井雅也 氏
米国の著名SNSサイトなどの、億単位・ペタバイトクラスのビッグデータを扱うシステムにおいてはHadoopに代表されるオープンソースソフトウェア(OSS)が標準的に選択となっています。本セッションでは、ビッグデータのプラットフォームを迅速かつ低コストで構築するために役立つ多数のOSSをご紹介します。特に日本の企業が安心して使えるべくレッドハットがサポートを提供するスケールアウト型OSSソリューションについて事例を交えつつご紹介します。
➤ 事業内容等
- クラウド、ミドルウェア、OS、仮想化、ストレージ
- 今日、一番紹介したいのはストレージ
- GlasterをRedhatは買収している
- Redhatはもはや Linux だけの会社ではない
➤ ビッグデータ時代
- 非構造データの増大
- まわりを見渡せば、データに囲まれた生活が普通になってきている
- 音声、画像、動画
➤ ビッグデータの先駆者はどうしているのか?
- Googleが元祖(データが原資の企業)
- >GoogleFS
- >MapReduce
- >BigQuery
- >BigTable
- 一説だとサーバをすでに100万台所有?
- マシンが壊れる前提で冗長化
- Twitter
- すべてを OSS で実現
- >Linux
- >MySQL
- >Hadoop
- >Cassandra
- Facebook
- 数十PBのデータをHadoopで分析
- >MySQL
- >Hadoop
- >Cassandra
- >HBase
➤ もしも明日、ビッグデータ担当者になったら?
- どのベンダーに相談するか?
- OSSでビッグデータをはじめてみないか?(低コストで小さく始めるビッグデータ)
➤ OSS のビッグデータプラットフォーム
- 写真:赤い部分が Redhat が提供可能な領域
- データの収集、蓄積、分析に分類
- 分析のところは何も Redhat はもっていない
- そこは Pentaho などを使ってみてはどうか
➤ OSS データ蓄積ソリューション
- Redhat Storage
- OSS ストレージソフトウェア(GFSに相当する)
- 大容量ストレージを x86 サーバで実現
- スケールアウト型
- 非構造データ蓄積に最適
- Glaster を手にいれたことによって手に入れた技術
- 今のバージョンではできていないが、HadoopにおけるHDFSの代わりになるようになる
- こちらは Linux のFSと同様、マウントして使える
- SPOFの心配もない
- ただし、HDFSのようにHadoopに最適化はしていない
- 使用事例
- PANDORA、インターネットラジオ
- 1.2 PB の音声ファイルを提供、1300万ファイル、80ストレージノード、ピーク時のトラフィック50GB/秒以上
➤ OSS データ蓄積ソリューション
- OSS RDBMS
- PostgreSQL、MySQL
- どちらも RH に入っているよ、と。
- PostgreSQLは日本での実績多し
- MySQL + memcached で高速大容量処理で実績多し
- JBoss Data Grid
- OSS NoSQL DB
- RH が企業サポート開始
- 高速なインメモリー処理
- スケールアウト型
- 使用事例
- MySQL でいうところの memcached のような使い方
- MongoDB
- RH の PaaS 「OpenShift」で提供(現在は無料で使用可能だよ、あくまで開発者向けだけどね。つくったアプリケーションはEC2に無料でデプロイ可能)
- スケールアウト型
- スキーマレス
- 時間がなくなってきたので終盤は高速に…
- ホントに駆け足になったのであとで写真をみる
- スライドがあがればスライドを
- 営業色強し
A-3 「Hadoopのシステム設計・運用のポイント」〜Hadoop運用・管理のベストプラクティス〜 Cloudera株式会社 カスタマーオペレーションズエンジニアHadoopエバンジェリスト 嶋内 翔
Hadoopを中心に、CDHクラスタの運用や構築における、よくある失敗とその対策についてご紹介します。
➤ 構築と運用のポイント
- Hive、HBaseで問題がありましたということも、大抵はその基盤で動いている Hadoop に問題があることが多い
➤ HW の話
- コモディティサーバを使ってください
- コモディティとは安いではない
- Master
- 従来の高信頼性のサーバをつかってくれ
- NWはよしなに
- infiniband だって場合によってはあり
➤ HW選定:Slave
- RAIDなしで
- 3.5inch 7200rpm SATA で十分
- CPU 6Core x 2
- ECCは必須
➤ マスターノード
- RAIDは必ず組むこと
- 3.5 inch 7200rpm で十分
- ECCは必須
➤ クラスタ構成
- スレーブ最低4ノード
- マスター2台
- ZK、Journalnode マシン1台
➤ HW選定のアンチパターン
- RAIDは絶対禁止
- RAIDコントローラーのバグでデータとんだことも
- マスターのディスク容量も十分に確保すること
- CPUを減らす
- ECCメモリを使わない(これはもはやECCメモリ使うのが当たり前になっている)
- 構築時にHBaseを想定せずにHW選定し、HBaseを追加する
→メモリ不足になる
➤ 運用のポイント
- スレーブノードはすぐ壊れる
- Disk壊れる、サーバ落ちる、それ前提
- スレーブノードは壊れても慌てない
- 構築時にはサーバ台数、容量には十分に余裕をもたせること
➤ CDH3からCDH4への変更点
- パラメタ名の変更、CM使えば自動変換
- コマンド名が大きく変更
- そのままでも大丈夫だが、deprecated の WARNがでるだけ
➤ OSコンポーネント共通チェックポイント
- Oracle Java 6をつかうこと
- 7には現在、未対応
- Hadoopのwikiに対応Javaが書いてある
- DNSで名前解決できるようにしておけ
➤ 圧縮
- 圧縮は絶対に使ってくれ
- 容量が削減できる
- 下手すれば100台サーバ分節約できることも
- MRはDiskボトルネックなのでCPUはあまる
- 速度もむしろあがる
- Snappy圧縮を今は推奨
→Apacheライセンスだから最初から使える
➤ HDFSの話
- DNのブロック数をすくなくすること
- DNのヒープサイズを十分に確保
- NNのヒープサイズも十分に
- SNNのヒープはNNと同じにすること
- CDH3u2以前では2万ブロックDNが限界
- 128MB
➤ サイジングについて
- どれくらい必要なの?
- 実データよりもはるかに多いと認識する
- レプリケーションファクターは3
➤ NNの最大ヒープサイズ
- 大体60GBが限界
- それ以上になるとGCが長くなり氏ぬ
➤ フェデレーション
- どのくらいから必要なのか
- 2000ノードくらいまでなら単一のNNで管理可能
- 1000ノード、10PB以下ならフェデレーションは必要ないだろう
➤ NNメタデータ
CDH4から
カンマくぎりで 3つ指定、ひとつはNFSがセオリーだった
QJMを使う場合、コストパフォーマンス的にはNFSなしでも問題ない
予算との相談
➤ DNNのディレクトリ
ディスクのマウントポイントごとにカンマくぎり
➤ MR について
チューニングの基本的な考え方
早いのであとでスライドを。
➤ タスクスロット
最適なタスクスロット数の計算方法
map, reduce のタスク数比はあくまでスタートライン
タスク数>ディスク数になるとIO性能落ちる
➤ スレーブノードのメモリの計算方法および例
- 再度、復習のためにあとで確認
➤ トラブルシューティングの話
- とりあえずこれは確認しておきやがれ
- hadoop fsck /
- hadoop dfsadmin -report
- hadoop fs -lsr /
- 動作確認 Put、Getできるか
- セーフモードにはいってないか
- ブロックスキャナレポート
- 直たたきしなさい
➤ メタデータ破損の疑いがある場合
- わかる人がくるまで絶対にシャットダウンするな
- シャットダウンするとメモリから正常なメタデータが失われる場合かある
- hadoop dfsadmin -fetchImage
で fsimage 保存
- hadoop dfsadmin -fetchImage
➤ 最後の手段、HDFSリカバリーモード
- 多少のデータロストは覚悟すること
- 日本語でブログ記事がある
- hadoop namenode -recover
➤ hdfs command
- hdfs oiv, hdfs oev
- hdfs getconf
➤ Too many open files
- file discriptor がたりないっていうやつ
➤ ノードの名前を変更したのに古い名前で見えてます
➤ トラブルシューティング
- MRトラブルシューティング101に書いてあることをもう一回
- ちょっとだけ update あるよ
- Reduce側でOOME
- JTでOOME解決策
- not able to place enough replicas
- デフォルトで5ブロック分の空きが必要(ハードコーディングされている)
- ENOENT: No such file or dir
- ディスク領域がいっぱい、あるいはパーミッションエラー
親切ではないメッセージ、わたしもハマった。最終的にはここに書いてある理由ででていたわけではなかったが。
- ディスク領域がいっぱい、あるいはパーミッションエラー
- JTが起動できない
- とりあえず、まずは core-site みなよ
➤ Upgrade
- メリット多いからやってみてほしい
- データロストの危険があるというのは誤解(それ自体ではないという意味)
- 途中でロールバックできないというのも誤解(finalizeUpgrade をするまではロールバック可能、finalize は古い方のハードリンクを消している)
➤ もっと知りたい人は
- 象本読めや
- Hadoop Operations も出たよ(今日の内容も書いてあるぞ)
- 読むのもめんどくさいっていう人は時間をトレーニングで買えるよ
硬派すぎたw
既知がほとんどではあったけど、書くのが速すぎておいつけないw
A-4 【再入門編】「ゾウは××が嫌い 〜 2頭目のゾウはやんちゃです 〜」 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリスト 政谷好伸 氏
今だから押さえておきたいHadoopのきほん、Hadoopが注目を浴びる一方、それが実現する処理、特性、具体的な活用方法などの理解に不安を覚えておられる方もまだまだ少なくないと思います。本セッションでは「いまさら」と思われがちなテーマについて、世間でよくある誤解を解消する形で解説します。
- ビッグデータをOSSの延長ではじめたところがあるのでそういう意味の再入門
➤ イベントの紹介
- 今年もHadoop Enterprise Solution Seminar やるよ一匹目の象は青い象、PostgreSQL
➤ Hadoopへの取り組みはOSS起点
- OSS取り組みの目標
- Commodityを使い切る
- Scalabilityを追求する
- Hive の metadata は PostgreSQL だったり
➤ Hadoop のユーザーは大きく2つに分かれる
- 大規模データの活用(通信系)
- 既存処理の高速化(メディア、金融、公共)
➤ OSS視点からみたHadoop
- コンサバに枯れた技術を使い切るという形だったのが
- 従来技術では困難だった領域へのチャレンジが必要になった(リスクをコントロールして使いこなす)
➤ PostgreSQLと比べるとどんだけ Hadoop がやんちゃか分かる
- PostgreSQL、コミュニティベースによる開発、保守
- Roadmapをみても順当に必要なことをこなしているイメージ
- それとくらべて
- Hadoopはやんちゃ
- facebook の事例 Hadoop World NYC 2009
➤ ゾウの嫌いなもの
- ファイルシステムという誤解(Distribution FileSystem という名前から誤解を)
- 高速なDBMSではない
- 大量データに特化したバッチ処理システム
- 検索エンジンでももちろんない
➤ ビッグデータと分散処理の関係
- 真に大きなデータは1台のマシンにははいりきらない
- 分散せざるをえない
- 重要なのは大きなデータにたいする処理をどうやって実現するか
- HDFSとMRは強結合
➤ ゾウの嫌いなもの・つづき
- 檻の掃除は嫌い
- Full GCを起こさせない工夫
- Concurrent GC を使ってこまめにメモリを掃除する
- G1 GCに期待
- 僕を止めないで
- NN 起動・再起動はn時間
- safemode, block report
- NN 起動・再起動はn時間
- 小さいエサは消化不良、エサは大きく
- ブロックサイズがそれなりに大きいので、何らかの方法でデータ集約をする
- 不公平な餌配分
- Reduce フェーズでばらつきがないように
- 遅いものにひきづられてしまう
- タスク中の外部アクセス
- バッチ処理の順序制御
- ジョブ自体の順序制御、Hadoop自体はノーケア
- 外付けでのジョブコントローラーなどを組み合わせて使う必要がある
- 中間データの単調増加
- Map 、Shuffle のところで NW帯域をつかうため
- データの管理
- RDBMSと違う
- 管理するという発想がそもそもない
- むしろスループットをあげるために非正規化
- 無駄にデータをコピーしてでもスループットをあげる
➤ ビッグデータ活用とは?
- ビッグデータというよりはビッグデータ活用
- 従来の技術ではデータが大きくなりすぎてコストがかかりすぎるようになってしまったことを解決する
- ユーザーやサービスにFBする仕組み
- データ収集、データ蓄積・処理、「ユーザーへのFB」のループ→ ビジネス上のアイデアをもとにこの仕組みをつくる
- データを溜めた後、どうするのか?といった発想が必要
- ほかの OSS も適宜、組み合わせて
➤ まとめ
- 大量データの処理が現実的なものになってきた
- データ収集、FBの仕組みなどをあわせて整備することが重要
- リクルートさんの三位一体でデータにとりくむのはとても理にかなってる
一匹目の象がPostgreSQLという意味で二匹目の象が Hadoop だったのか
A-5 「Hadoop World in NY」 〜グローバルHadoop最新情報〜 Cloudera株式会社 カスタマーオペレーションズエンジニア 小林大輔
10/23-25、米国NYで開催されたHadoop Worldのトピックスをご紹介します。
➤ 自己紹介
- ジュゼッペさんとは血縁関係ありませんw
➤ Strata + Hadoop World
- スポンサー企業76社
- 2000人以上の参加者
- 世界最大のHadoopイベント
- Hadoop Worldとは?
- 今年で4年目
- Strata Confとは?
- Oreillyが開催
- Bigdata、Data Science
- Making Data World
- テーマ
- データを役立つものにするためのツールとテクノロジーを紹介
- データの解析をすることによって何が可能になったかといった話
- Hadoop を使用しないケースもみられた
- (このセッションではHadoopを使用した事例を)
- 参加者は多様性を帯びてきた
- ビジネスリーダーや専門家とのネットワーキングの機会として使えるのではないか
➤ Keynote いくつか紹介
- Cloudera Mike Olson (CEO)
- 社会はさまざまな解決すべき問題に直面している
- 高速クエリエンジン「Impala」の発表
- Cloudera Doug Cutting (Cheif Architect)
- Hadoop の父
- Hadoopはバッチ処理からスタート
- Googleが道しるべとなってくれた
- ビッグデータはバッチだけではない
➤ Case study
- Opower社
- 電力の可視化するサービスを提供するベンチャー
- Cleantech Company of the year 2012
- machine learning 、信号処理、予測モデルを使用して顧客にエネルギーの使用状況をレポート
- データサイエンティストは配管工であるというメタファー
- 10%割引のクーポンを誰に配ればいいのかを割り出すためにデータサイエンスを活用
- モデル化して購買行動を予測する
- データをすべてHadoop に
- 解析のためのデータ取得にはHive
- R言語とも連携
- Hadoopは配管作業を効率的にしてくれた
- Cerner社の事例
- 医療機関向けのIT提供
- ヘルスデータは断片化しているので、それを一箇所にまとめて処理したい
- データセットは数百GB/day で増加
- スピードが求められる要件にはStormを
- バッチ処理要件にはMRを
- Stormとは?
- リアルタイム分散処理システム
- TwitterによるOSS
- ストリーム処理、継続的な計算
- システム構成 (写真)
- 複雑なアプローチなのでまだ改善の余地はあるとのこと
- Impala について
- Expedia 社も使用している
- 最も人気のあったセッション
- 2013Q1に正式リリース予定、現在はパブリックβ
- データサイエンティストのためのツール、R&D目的に使える
- 「思考と同等の速度」
- 条件によっては Hive よりも10-100倍速い
- バッチ処理を置き換えるものではない
- UDFはない
- 用途によって選択して欲しい
- βユースとしてすでにproduction で10社ほどつかっている(写真)
- Expedia も一例
- 日本でもβユースしてくれる顧客を探してる
➤ まとめ
- データサイエンティストのためのツール、テクノロジーは充実しつつある
あとで今回紹介されていた事例は資料を実際に読もうと思う。
また先日 keynote の動画は集めてあるのでそれも観よう
References.
- Cloudera World Tokyo | Cloudera Japan
資料はこちらからダウンロードできるようになってます。 2012-11-13 追記 - Impala Q&A - still deeper
懇親会で Impala の疑問に Cloudera CTO が直で答えてくれたらしいです - ニュース - 「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO:ITpro
Impala 紹介記事。 - Cloudera World Tokyoにいってきた - tagomorisのメモ置き場
CDH4.1 と Impala の所感がとても参考になります - Cloudera World Tokyoご来場ありがとうございました イベントレポート | Cloudera Japan
-2012-11-30 追加