わたし、普段から参加した勉強会などのメモを必ず公開してるんですが、そうしたら今回、 @kernel023 のとっつぁ〜んにとっつかまってしまいました。
ってわけで(どんなわけなんだろうか)、わたしからはウルトラ Casual に今から Hadoop はじめる方用の情報源をまとめさせていただきました!
題して
※ ちなみにきいろいゾウとはきいろいゾウのことじゃなく、 Hadoop のことです。はい、ではこのエントリでは以下の内容をカバーしますよ、と。
では、はじめます。
- はじめに
- ドキュメントどこ?
- ハマったときにみるべき情報源
- 頼りになる日本の Hadooper たちの Twitter アカウントリスト
- ブログ
- いってみる価値のあるカンファレンス
- おすすめ書籍
- さらにショートカットしたかったら…
1. はじめに
このエントリを書こうと思ったのは、先日の Cloudera World Tokyo 2013 で Cloudera の CTO の方が「これからの時代、データドリブンじゃない企業は負け組だよ。 Hadoop やってない?はじめるなら今でしょ?!」(意訳) といったことを言っていたので、Hadoop はメジャーになったとは言えど、まだ触ったこともない方もそこそこいるんじゃないかなと思ったことがきっかけです。
というわけで、このエントリはこれから Hadoop を触ってみようと思っている方の情報収集の一助になればと書いたものになります。
※ Hadoop の Distribution は本家 Apache 版、 CDH 、 MapR*1 とありますが、このエントリが CDH よりなのは、単純に CDH が現状もっともメジャーな OSS の Distribution だとわたしが思っているからです。 CDH でなければならない理由はどこにもないので、実際にお使いになる際にはよくよくご自身の要件と照らしあわせてよいと思う Distribution をお選びください。
※ 日本の Hadoop Advent Calendar なので、できるだけ日本のコンテンツを集めるように心がけてみました。
2. ドキュメントどこ?
次に Hadoop をはじめたいとおもったら、ドキュメントどこじゃいという話になると思うので、ドキュメントの在処と Distribution のダウンロード元のリンクを書いておきます。
本家 Apache Hadoop
- Welcome to Apache™ Hadoop®! にドキュメント
- Hadoop Releases からダウンロード
CDH なら
- CDH Documents にドキュメント
- Downloads からダウンロード
参考:じつは何も分かってなくても Cloudera Manager を使えば、小一時間もしないうちに環境はつくれちゃうと思います。
※ もちろん何もしらなくていいわけではないので、立ち上げた後、いろいろキャッチアップが必要なのは言うまでもないですが…
3. ハマったときにみるべき情報源
もちろん Hadoop は Open Source ですんで、何かエラーに遭遇したら Source 読めやということもできますが、 Apache Hadoop も CDH も JIRA で Issue 管理されているので、まずはそれをみてみるのをオススメします。
そして、 CDH の JIRA
ML もあるので、ここを活用していろいろ質問してみることも可能です。日本の場合、 以下の 2 つがあります。
また、 Cloudera さんの米本家のほうにも ML があります。英語アレルギーのない方はこちらにもチャレンジしてみましょう。 (リストはこちらのページから)
4. 頼りになる日本の Hadooper たちの Twitter アカウントリスト
わたしが頼りになる日本の Hadooper だなぁと思ってる方々をリストにしてみました。
JP 50 Hadoopers 2013
( 50 ってなってるのは 50 アカウント集めようとしたからなんですが… 38 アカウントしか集められませんでした… この人がいるぞ、というのをご存知の方がいれば是非教えて下さい!)
ちなみに Cloudera の以下のお三方はお仕事なんで、確実に頼りになります!*2
- @shiumachi さん
- @kernel023 さん
- @d1ce_ さん
※ このなかには実は勉強会会場などでマサカリをビュンビュンふりまわす人がいるんですがw きっとユーモアのはずです((((;゚Д゚))))ガクガクブルブル
5. ブログ
一番、わたしがいいと思うのは以下の 2 つのブログだと思っているんですが、どちらも英語です。
JP 50 Hadoopers 2013で選ばせていただいた方々のブログももちろん参考になります。
あとこの Hadoop Advent Calendar ももちろん参考になりますね!
6. 行ってみる価値のある勉強会・カンファレンス
最近は、 Hadoop そのものにフォーカスをあてたカンファレンスは少なくなって *3 ますが、日本および海外で行われている Hadoop 関連の勉強会・カンファレンスを列挙しておいてみます。
Cloudera さんがらみが大きく 2 つ、
- Cloudera 勉強会
Cloudera Manager 勉強会が頻繁に開催されているようですが、他にも Cloudera 本社のエンジニアを講師に CDH のプロダクトロードマップの説明等が行われたりしています。 Hadoop 関連で一番、今頻繁に行われている勉強会はこちらかな、と。 - Cloudera World Tokyo
先日、11月7日に第 2 回目が行われた Cloudera World Tokyo 2013 | Cloudera Japan 。2 回目にして目黒雅叙園で開催されるほど大規模に。今後も年一では行われることが期待されるカンファレンス。
Hadoop ユーザ会関連が 2 つある認識でわたしはいます。
- Hadoop ソースコードリーディング
一時期に比べると開催の頻度が下がっていますが、Hadoopや周辺プロダクトのソースコードを読んだり、Hadoopの基礎知識や使い方を学ぶ会。ただ最近はソースコードを読む... ということはあまりなく途中から軽食・ビールでワイワイやりながらの勉強会... という柔らかい集まりになっています。 おそらく直近では 第14回が最後かと。 - Hadoop Conference Japan
コミュニティ主催とは思えないほど大規模に行われている日本の Hadoop の祭典。こちらも以前は年に2回とかやっていましたが、今年は年初のHadoop Conference Japan 2013 Winterのみの開催のよう
最後に海外で行われているメジャーな Hadoop 関連のカンファレンスを紹介しておきます。
- Hadoop World ( 現在は Strata Conf + Hadoop World )
Oreilly と Cloudera (米)が主催する世界規模の Hadoop の祭典、もう片方の Hadoop Summit とくらべてもこちらのほうが大規模な印象をわたしはもっています。 Hadoop Summit とどっちか選べと言われたら、こっちにいくほうがいいんじゃないかなぁと個人的には思っています。 - Hadoop Summit
米と欧でそれぞれ行われているよう、こちらは Horton Works および Yahoo! が主催している。米で開催された方にわたしはいったことがありますが、 Hadoop World の方がパワーを感じました。
参考までにそれぞれに参加したときのわたしのメモは Hadoop World がこちらで、 Hadoop Summit が こちらです。
※ Hadoop Advent Calendar 2013 初日のエントリとすこしかぶった内容になっちゃいましたネ…
7. おすすめ書籍
ドキュメント読んでもわからへんがな、という方用におすすめ本を紹介しておきます。特に今年リリースされた、ないし版を重ねた本を紹介しておきます。
日本オリジナルの書籍で一番分かりやすい本です。 Hadoop を今からはじめるならまっさきに買うべしな本です。 700p を超えて紙の本で買ったら完全に鈍器な一冊。その分、一番 Hadoop について肉厚に知ることのできる鉄板の書籍! Hadoop 運用に特化した書籍。個人的には Kerberos 認証についても書いてあったのが役に立った一冊。 Hive をやってる、ないしはじめる人なら必携の一冊!これ一冊あれば Hive についてはまず解決かと。参考 (1):#oreilly0724 100人が100人かわいらしいと感じるロゴが有名な Hiveの「プログラミング Hive 」と700p 越えで鈍器と化した Hadoop「象本」の第三版の刊行記念 Hadoop セミナーにいってきた - #garagekidztweetz
参考 (2) : ちなみに昨年 @shiumachi さんが書いていた記事ですが、 これから Hadoop を学ぶ人向け読書ガイド - 科学と非科学の迷宮 も参考になります。
※ こちらもHadoop Advent Calendar 2013 初日のエントリともかぶっちゃいましたネ…
8. さらにショートカットしたかったら…
自分で一から勉強するのは、きついと思ったら、 Cloudera さんのトレーニングを受けてみるのがオススメです。
わたしも Cloudera Apache Hadoop 管理者向けトレーニングを以前に(米でですが…)受けましたが、日本でも @kernel023 氏がかなり上質なトレーニングをやっておられてると聞いてますw
お金に見合ったスキル獲得の時間短縮になると思います!
※ 上述の Cloudera 勉強会にでているとたまに Discount Code を教えてくれたりもします。
Horton Works もトレーニングを提供してますが、日本では提供されていない認識ですので、現状は Cloudera さんのトレーニングに出るのが一番のショートカットになるとわたしは思ってます。
といったところで、わたしからは以上です。最後に、ひと言、冒頭で書いたとおり、先日の Cloudera World Tokyo 2013 で Cloudera の CTO の方が「これからの時代、データドリブンじゃない企業は負け組だよ。 Hadoop やってない?はじめるなら今でしょ?!」(意訳) というのはまっったくおっしゃるとおりだとわたしも思うので、乗るしかないこのビッグデータに!ってことで、、、、
三日目は @shiumachi さんにバトンタッチしようと思います。昨日の写真データの整理をしていたら、こんなものが・・・ @shiumachi さんよ・・・ #cwt2013 pic.twitter.com/S0JsxSYXIx
— Kenichiro HAMANO (@hamaken) November 8, 2013
そんでは、わたしはこんなところで。