#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

#hcj13w A会場 午後 (6) "トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール" のメモ

スポンサーリンク

このエントリーをはてなブックマークに追加 全体のまとめは ➤ こちら
#hcj13w のメモのシェアはこれで最後、6つ目のセッションは、Hadoop の状態可視化ツール halook の話を聞いて来ました。
正直なところをいうと発表者の落合さんの異様な出で立ちばかりが記憶にのこったセッションでした。
どなたか写真を up しないですかねw

↓ その落合さんの出で立ちを tweet されている方を見つけました。 (追記:2013-01-24 0:52 )

ちなみに次のエントリで最後のまとめをします。

17:20 (7F 国際会議場) トラブルシューティングのために欲しかった、Hadoopがまるっと分かる可視化ツール 落合 雄介(Acroquest Technology)

➤自己紹介
  • @taro_x
  • halook の開発メンバー
  • ロゴをあしらったコスプレww
➤ Hadoop World 2012 NYCで発表してきた
  • User group meetup.
➤ Hadoop 可視化の動機
  • アクロクエストが手がけるプロダクト
  • ENdoSnipe、Java トラブルシューティングをパッケージ化
  • 解決できなければお金半額お返しする
    →いまのところ100%の解決率
  • ENdoSnipeのプラグインとして開発→halook
  • halook 公開と同時に、ENdoSnipe も OSSにしてしまった
➤ halookでわかること
  • Hadoop、HBase の難しさ
  • 動きを把握するだけでも大変
  • 期待した動作をしているのか?設定ミスは?

  • HDFS、MR、Resionの状態

  • HDFS の使用量を表示する→ロゴの由来にもなった図示方法
  • 実行ジョブの実行状況をガントチャートで表示(いつ開始していつ終了したか)
  • ジョブの特性をバブルチャートで表示
  • HBase のリージョン数の推移をグラフ化(成長の様子、Split のタイミング)
  • HBase のリージョンの分布をサーバごとに表示
  • ENdoSnipeの監視対象とあわせられる
➤ 事例
  • デモ

  • HDFS の偏り解消
  • rebalance を実行した時の様子を可視化
  • 帯域とデータ転送量の設定によってコマンド実行してすぐに効果がみえなかった

  • HBase の Export に失敗した事例
  • 実行されていたジョブの数、様子をみることができた

  • Resion Server の障害による MR ジョブの失敗
  • ある時点から Resion Server が落ちて行く
  • いつごろから起こっていたのか、ログをみにいくあてをつけるのに役立てる

  • ASAKUSA のサンプルプログラムを動かして見た時の見える化
  • 分散処理されている様子が確認できた
➤ アーキテクチャ
  • データ蓄積部分は ENdoSnipe Javelin, DataCollector
  • DB は PostgreSQL
  • halook server (WGP を使用)がリアルタイムに画面表示、過去のデータもDBから取得できる
➤ 適用方法(詳しくは資料をみたい)
  • マスターノードの設定
  • データ収集サーバの設定
➤ 参考
➤ QA
  • ノード数が多くなると表示上の性能などの問題があるんじゃないか?
  • 課題としてあがっていることではある
  • 数千ジョブならまだ問題ないが、数万それ以上になるとどうなるかわからない
  • 見た目の問題も認識はある(台数に応じた見せ方)

  • 他と比べた売りはどこか?
  • より細かい情報をとるようにすること(Tobe)
  • 見せ方の工夫

  • トラブルシューティング支援は考えているか?
  • サジェスチョン
  • halook はそこまでいたってないが、そこまでやりたいという気持ちはある
  • ENdoSnipe は障害を予見してレポートする機能があったりしたので。