1 ヶ月に一回は外のセミナーや勉強会に出ようと思っている garage-kid@76whizkid です、こんばんわ。
今日は Hadoopクラスタの課題と解決「Cloudera運用事例セミナー」に参加してきましたので、いつもどおり今日もノートを公開したいと思います。
セミナーのアジェンダは以下のとおりでした。
【アジェンダ】
18:15 受付開始
18:30 開会・ご挨拶 (代表取締役社長 ジュセッペ小林)
18:40 Hadoopクラスタの課題と解決(サポートディレクター Angus Klein&エンジニア Linden Hillenbrand・Jeff Lord)
19:50 Q&A
20:00 懇親会
21:30 閉会
では、今回はちゃんと所感から
Hadoop クラスタの課題と解決「 Cloudera 運用事例セミナー」の所感
- いつのまにか定員も増員されていたようで、関心は高いセミナーだったのかな、と。通訳さんもいつもどおりいらっしゃいました。
- Hadoop で実際に活用した時にどういったことが起きるかということを紹介するセミナーという触れ込みでしたが、Clouderaのプロアクティブサポートチームのメンバーが普段どのような仕事をしているのか、という内容でした。
- Clouderaさん、仕事してるなぁという感心反面、もうすこし Tips を2−3共有してほしかったなぁ反面といったところでしょうか。
- プロアクティブサポートという考え方はとてもいいな、と思いました。問題が起こってから対応するリアクティブサポートと、豊富なナレッジベースをもとに事前に問題が起こることを防ぐプロアクティブサポート、その相互補完ができるのはClouderaさんならではですね、と。
- より突っ込んだ質問は懇親会で受け付けるということでしたが、今回、わたしは残念ながら懇親会には参加しませんでした。
- とりあえず、これまでどおり、Google group や JIRA から情報収集するのがいいかな、というのが個人的結論でした。
そして、以降はセミナーのノートです。
18:30 開会・ご挨拶 (代表取締役社長 ジュセッペ小林氏)
- たびたびこういった形でClouderaではHQからきたメンバーからのFBをするセミナーを行なっていきます。
- 今日はサポートの人間がきているので、そのサポートのメンバーからのプレゼン。
- 日本で言うところの保守とはサポートの意味合いがちがうので、その違いを感じ取ってもらいたい。
- 設立5年のCloudera、Hadoopとともに成長してきた、お客様と一緒に。そのほとんどがサポート。
- 積み重ねてきたサポートのナレッジを共有したい。
- どうしてサポートが必要と思っているかも知ってもらいたい。
18:40 Hadoop クラスタの課題と解決(サポートディレクター Angus Klein 氏/ エンジニア Linden Hillenbrand 氏、 Jeff Lord 氏)
まずは Angus 氏から
➤ なぜClouderaサポートなのか
- OSS の SW になんでサポートが必要なのかとよくきかれる
- 優位点は優れたチーム4年間以上、数千Nodeのクラスタを運用してきている
➤ 専任のグローバルサポートチーム
- アメリカ、インド、日本、イギリスに重点をおいているイメージ
- (なかでもほとんどはアメリカ西・東海岸)
➤ Cloudera でサポートを受けるメリット
- Doug Cutting氏をはじめとする優秀なスタッフ陣
- (Communityへの貢献度合いをアピール)
- コミット数が多いのは Cloudera, MapR, IBM, Hortonworksというのは変わっておらず
➤ エンタープライズレベルのサポート
- ひとりのサポートエンジニアがすべてを把握しているわけではない。専門体制をとっていてひとりあたり2-3のプロジェクト割り当てをしている。
- 同じチームのなかの他のメンバーにエスカレーションしたり、開発陣へのFBもしたりしている。
- Subscriptions 契約をすればそのナレッジベースにアクセスできる
➤ なぜ貢献が大事か?
- お客様の要求にできるだけそえるように。
- ナレッジ、サポート、(コミュニティの中での)影響力。
➤ Cloudera Enterpriseの紹介
- Cloudera Enterprise
- Cloudera University(教育)
- Professional Services(サポート)
Linden 氏より(プロアクティブサポートチーム)
➤ Cloudera が提供するプロアクティブサポートチームについて
➤ サポートチーム体制
- サポートチームは Cloudera の中でも大きな割合をしめる
- COTT ツールチーム(CSI、デバッグツール、etc)
- カスタマーオペレーションエンジニアチーム(お客様からのトレースデータを分析して問題解決する)
- プロアクティブチーム(サポート担当と顧客のかけはし、ユースケースの共有をしたりとか)
- サポートチーム
➤ プロアクティブサポートチーム
- 3人体制で全員GEの出身者
- 顧客満足度の向上を目的としているチーム
- プロアクティブサポートが重要だとおもう理由:
- Hadoop は日進月歩で変わるので、そもそもの使い方をユーザに教えたり、ベストプラクティスをできるだけ早く伝える必要がでてくるとおもっている
➤ プロアクティブの位置づけについて
- プロアクティブとリアクティブの違いとは?
- リアクティブのサポートは 24/7 稼働には(問題があれば解決するというサポート)重要だが、プロアクティブのサポートはそもそも問題に直面しないですむようにすることがミッション
➤ カスタマーライフサイクルコミュニケーション
- 技術課題を解決するという枠組みをこえて、Clouderaとユーザの間でコミュニケーションをひろげるために定期的、計画的なプログラムを組んでいる
- ユーザのことをよりよくしるための仕組みになっている
➤ Hadoopの運用上、考慮すべきこと
- 4つの構成要素にClouderaはわけている
- クラスタの保守(モニタリング)
- アプリケーション(DR)
- HW(OSの設定、カーネルチューニング、ディスク設定)
- プラットフォーム(アップグレード設定、ロールバック設定)
➤ どれだけサポートが発生するのか?
- 今日現在でこの 1 年で 3,085 チケットある
- 過去7日 240
- 過去30日 825
- 過去90日 2,286
- どれだけそのチケットを早く解決するということも大事だが、そもそもチケットを発生させないことも大事だと思っている
➤ サポートのプライオリティ
- 4つのプライオリティにランク付けしている
- production, dev/stg に影響のあるランクに振り分けられるものをいかに早く切り分けられるかを重要視している
➤ 実際の現場における事例
- (事例を使って)プロアクティブの効果の説明
- 新しいユースケースの設計→プロアクティブタッチポイントで議論→クラスタのアーキテクチャが問題→改善を指南→スケールとCSATに即効果
- ※とにかくサポートの関与によって、設計時点で事前に問題が起こらないようにできるよと言っていた
➤ NetAppの事例
- 広告データを時系列データ分析用としてHBaseを使おうとしていた
- HBaseはKey Designがポイントで、それが問題だったということ
(詳細は、実際にどうやって問題を解決したか話していたが、早くて書き取るのはむずかしかった)
➤ HadoopのUpgradeの事例
- Cloudera Managerを使えば少しはマシかもしれないがそれでもむずかしいだろうという
- プロアクティブサポートを利用すればさらにもうすこし楽になるかも
- 1200ノード、CDH4へのUpgradeを考えていたBlackberryの例
- 6週間の移行期間(準備期間も含めて)を推奨した
- その移行期間内にさまざまなボトルネックに直面したが、プロアクティブサポートによって解決した
- このサポート自体はSubscriptionsのなかに含まれているもので、追加料金は発生しないよ、と言っていた
➤ プロアクティブの効果
- 満足度が10点満点で9.04だと。
➤ Clouderaの専門性
- どんな課題を解決したのか?
- editsの書き込みに失敗し、NNに障害が発生
- リージョンサーバのカスケーディングに失敗
- 再起動後のNNの不調
- セキュリティの設定導入
- などなど(詳細がない・・・)
Jeff 氏より(カスタマーオペレーションエンジニア)
- 以前は分析畑の小さな企業で働いていて、 Clouderaのユーザでした、と
➤ The Value of Hadoop Support
➤ 自己紹介と以前の会社でHadoopをつかっていたときの回顧
- CDHを選んだ理由を話していた
- Apacheライセンス下のOSSであることはもちろん、必要に応じてはサポートが受けられる
- もちろんHadoopの知識を知りたいと思えば、Definitive Guideなどもあるが、電話をかければ知ってる人がいるかもしれないというのは魅力だった。
➤ 業務の例
- チケット管理システムを独自にもっている
*
- まずは受け取ったデータを確認し、ログを確認する(JT、TTのログ)
- WebExを使って画面をユーザおよびほかのエンジニアと共有する
参考:WebEx - Cisco Web Meetings - Cisco Systems - MapTaskのOutofmemory Error
- 何か設定を変更しなかったかと顧客に確認した
- 何も変更してないよと言われたが、CMには監査の機能があるので、遡って設定の変更を確認した
*
- 2つめの例:NNの障害 HDFS-3652の話だった模様
- クリティカルなチケットにはエンジニアリングチームが参加することになる
- 実際の問題としてBugとして発見されればアップストリームのJIRAにも登録して、情報を公開するよ
*
- 3つめの例:TTの障害
- Blacklistにどんどん入ってしまう問題
以上でした。
では、今日はこんなところで。