Source: cloudera.com via garage-kid on Pinterest
今日はそのときわたしがとったメモを公開しようと思います。
〜Clouderaトレーニングコース受講者様向けCDH4説明会 概要〜
▼ 日時:2012年7月6日(金)
▼ 会場:ベルサール八重洲 3階ルーム4 (http://www.bellesalle.co.jp/bs_yaesu/access.html)
▼ タイトル: 進化するHadoop:CDH4とCloudera Enterprise4.0のご紹介
Cloudera のトレーニングを受けた人に対するインセンティブのようなものとして開催された催しでした。
雨の中にも関わらず、50名近い参加者があったことは正直にすごいな、とわたしは思いました。
Cloudera Japan さんでは、こういった催しを定期的に行なっていく予定ということなので、今後にも期待したいと思います。
Contents
19:00 開会のご挨拶 by ジュゼッペさん
Hadoopのエンジニア、米では年収2000万現状もその状況は続いている
*
日本で始めてCDH4の話をする場
日本でトレーニングを受けて認定を受けた人間のみをまずは招待
トレーニングを受けてお終いではなく、おつきあいを続けて行きたい
使ってもらっている中からのFBを受けたい
今日、きてもらっている人には親戚関係にある気持ちをもっている
今後もこうした催しを続けて行きたい
Cloudera、3年目、
スタートアップだが、着々と企業としての形を整えていっている
日本法人は現在5名、7名になる予定
Hadoop を扱えるトップエンジニアならば、たしかに年収 2,000 万は嘘ではない話。
当然ですが誰でもというわけではない、と。
19:10 CDH4とCloudera Enterprise4.0 〜エンタープライズにおけるHadoopの標準〜 by 川崎さん
CDH4で何が変わったのか全体的な概要
▶ 製品テーマ
2010
ClouderaはEnterpriseにHadoopを提供します
2011
ClouderaはHadoopのリーダーです
2012
ClouderaはEnterpriseにおけるHadoopの標準です
▶ なぜ?
ポジション
すべての領域においてリードしている
様々なコンポーネント
イノベーション
CDH4+Cloudera Enterprise
▶ 完全なソリューションをもつ唯一のベンダー
CDH4
ストレージ、計算処理、アクセス、インテグレーション
▶ 最高のプラットフォーム、100%OSS
Cloudera Enterprise 4.0
構築、設定、監視、調査とサポート
▶ 専門性で比肩するものなし
製品サポート
問題解決、エスカレーション、最適化、ナレッジベース
▶ パートナーエコシステムとの連携
▶ CDH4+CMS4.0 エンタープライズの要件とは?
1 他のITとの統合
2 セキュリティ
3 スケーラビリティと拡張性
4 高可用性 ★
→ NN
5 設定と構築の単純化
6 グローバルサポートとサービス
▶ もっとハードルをあげてみる
CDH4
高可用性、セキュリティ、拡張性
*
Cloudera Enterprise 4.0
簡単、強力、統合
→より運用を簡単に
▶CDH4 :高可用性
高可用性NN
→SNNをホットスタンバイとして、FOできる
*
ヘテロジニアスクラスタ
→ローリングアップグレードの仕組み、ダウンタイムの軽減
▶CDH4:セキュリティ
HBaseのテーブルおよびカラムのパーティション
ユーザー、グループのHBaseテーブルとカラムのアクセス制御
*
FairSchedulerのACL
▶CDH4:拡張性
HBaseコプロセッサ
*
オープンリソースマネジメント(MR2)
→既存のMRも使える
▶CDH4:その他の機能
Snappy、Avro …
NN Federation
性能向上は根拠が不明w
→サポートに問い合わせるとでてくるかも、と
▶MR2
Resource Manager と Node Manager
Job を複数に振り分けて、それぞれで実行させる
*
CDH4はMR1も動くのでまずはMR1で実行させ、必要がある処理をMR2に徐々に移行させて行くという方法をとってほしい。
*
設定も大分変わっている
▶Cloudera Manager 4:簡単
立ち上げるまでは簡単に。
設定ファイルの編集は相変わらず大変。
*
3 STEPのHA設定
複数クラスタ管理
後方互換性
*
楽したい人向け
▶Cloudera Manager 4:強力
ヒートマップ
→どこで負荷が高いのか
*
NNのFederation
▶Cloudera Manager 4:統合
API
→手持ちの監視ツールから呼ぶこともできる
*
LDAP認証
*
様々な環境のサポート
▶Cloudera Manager 4.0 :その他
日本語使える(必要なら)
▶なぜ Cloudera か?
完全、革新、安定、公開、標準
▶Cloudera トレーニングと認定資格
アップデート
開発者
MRUnit、Oozie
*
管理者
完全分散クラスタを使用
*
エッセンシャル
Hadoop知らない人向け
*
認定資格
独立した認定資格に変更
▶HBaseのコースが7月から始まる
認定資格(英語)
CDH4対応
9月の実施コースから順次対応
19:50 CDH4はなぜエンタープライズに適しているのか 〜新しく導入された技術から読み解く〜 by 嶋内さん
▶ アジェンダ
エンタープライズにおけるソフトウェアの要件
hdfs HA
Cloudera Manager
▶ エンタープライズにおけるソフトウェアの要件
6つの要件
とくに高可用性
次に設定と構築の単純化、そしてサポート
▶HDFS HA
そもそも可用性とはなにか?
信頼性、保守性、可用性
信頼性
故障する間隔の長さ
保守性
素早く復旧する方が保守性が高い
→可用性はその2つを組み合わせたもの
▶ 信頼性
データの信頼性
10クラスタ、20000ノード上の3.29億ブロックのうち19ブロックがロスト、2009年
→同一ファイルのブロックがすべてロストする可能性はほぼ0*
18ヶ月で25クラスタのあいだで22回の障害
1クラスタあたり年間、0.58回の障害
▶ 保守性
NN起動時間
通常1ー2分、大きなクラスタだと15分
計画停止のたびにこれだけの時間停止する
→MTTR増える
*
DNの保守性
ディスク、3ヶ月に一回の割合で一斉にいれかえ ーY!
▶ 可用性
HAがなくても障害停止における可用性は十分に高い
▶ 可用性はなぜいるのか?
ダウンタイムなく計画停止するための仕組みが必要だから
▶ HDFS HA
どういったデザインなのか
Active x Standby 型
自動FO
起動時にアクティブなNNを選出
スプリットブレイン時のデータ破壊防ぐ
→NNのフェンシング
▶NN外からのFO操作
NN外にHAデーモンが存在する
▶アーキテクチャ概要
イメージ
ZK→リーダーの選択
▶Client FOの設計
ユーザは論理URIを使い、クライアントは正しいNNに接続しに行く
▶自動FOの設計
ZKを使う
アクティブNNの障害検知が簡単になる
アクティブNNの選定が簡単になる
*
ZKFCが状態監視
▶Cloudera Manager 4
これからのBigdata時代のデータ管理に必須のツールだとおもっている
▶Cloudera Managerとはなにか?
CDHをひとつのシステムとして扱い、あらゆる構築、運用のシナリオを統一されたIFから行うための運用管理ツール
*
CMなしのCDHのイメージ
と導入後のイメージ
導入後は、クラスタごとの大きなくくりで認識できる
全体としてとらえられるようになる。
▶アーキテクチャ
集約型管理サーバー
すべてのノードでエージェントが稼働する
サーバから指示されたコマンドを実行
▶CM用語集
Service Type
サービスの種類、HDFS、MR、HBaseなど
*
Service Instance
サービス単位を表す、hdfs1、mapred1
*
Role Type
サービスを構成するコンポーネント
…
▶スクリーンショット
クラスターの単位で管理できる
▶CM4の新機能
ホスト監視
複数クラスタ管理
API
LAN内でインターネット接続できなくても利用可能
Ubuntu、Debian Support
…
▶Service And Configration Manager
プロセスの起動停止
…
▶CMのAPI
RESTful
APIドキュメントあり
Python API ライブラリが github で公開されている
▶CM API まとめ
WebUIでつかえることは API経由でつかえる
▶Enterprise Edition
Free Edition に監視やログ検索、Kerberos認証を追加したもの
*
サービスモニタ
サービスの状態をグラフィカルに表示する機能
黄色いフラグ
→なにか問題が発生したところ、管理者は確認が可能
赤いフラグ
→警告
*
アクティビティモニタ
実行したジョブを監視可能
MR、Pig、Hive、など
★類似ジョブの比較が可能
→徐々に性能劣化していく、特定の日だけ遅いなどがわかる
*
ログ検索
クラスタ全体のログを高速に検索可能
*
ヘルスチェック
サービスの状態を細かくチェック
問題がある場合にはアラートをあげる
ヒートマップみたいなものをつくれる
*
イベント
ヘルスチェックにおいて、イベントの閾値を柔軟に設定可能
重要、致命的の2段階
→これも検索可能
GCがどれくらいの時間かかったかという閾値を設定したり、と。
*
サポート連携:Cluster Stats
ユーザはボタンひとつでクラスタの情報を Zip 形式に圧縮できる
ログ、設定、メトリクス、イベント、ホスト情報など。
Cloudera への自動定期送信の設定したりできる
▶まとめ
HA
HDFSの弱点、NNのSPOFを解決
CMをつかえば3ステップでできる
*
CM
構築、運用が大変なHadoopの運用を楽に。
数百ノードのクラスタを数分で構築可能
技術不足を解決する
より優秀な技術者をまつよりは、こういったものを使ったほうがよいのではないか
値段がつけられない技術者(見つけるのも難しい)よりもお金で買える Cloudera Manager を使って運用を簡単にすることで、もっと会社や現場のエンジニアが本当にやらなければならないことに集中できる、という嶋内さんの意見には禿同。
(もちろん、 Cloudera Manager を実際に採用する前に評価することが必要なのは言うまでもないことですが)
おまけ
内容として濃い内容だったかどうかは別として、写真のマグカップを頂いたり、ピザやビールをご馳走していただいたり、アットホームな雰囲気でとても好感のもてる説明会だったと思います。
個人的に Cloudera さんのビジネスの考え方が好きなので、今後も機会があれば、顔を出させてもらいたいなと思っています。
ちなみに、わたしは内向的な人間なので、自分からあまりネットワーキングするみたいなことが苦手*1なのですが、参加者のそれぞれが誰ぞというのが、分かるような工夫があると、嬉しいのかなぁなんて思ったりはしました。
※ 自分でできることとしては「オフ会ですぐに自分を認識してもらうためのもっとも簡単な方法。」みたいなことを試すのもいいのかなぁ、なんて…。
- Added 120708.
CDH4説明会に行って参りました。 - 急がば回れ、選ぶなら近道
ご意見がとても参考になります。 - Added 120714.
すごいいまさら2012/7/6のCDH4説明会について書きます。 - へなちょこHadooperの戯言
ご自身のされた質問とそれへの回答がまとめられている。素晴らしい。
✔ こちらもあわせてどうぞ
*1:そんなの知るか、という言い方もありますが…