Hadoop 関連のイベントの中でも頂上(テッペン)を冠するイベント Hadoop Summit が東京にやってくるというので、 2016-10-26, 27 と参加してきた。
今回で4年目という同イベント、受付の仕方もろくすっぽアナウンスがされてなくて、始まる前からかなりグダグダ感がハンパなかったのだが、それはさておき折角行ってきたので、個人的総括のようなものと勉強になったセッションのみのメモを残しておこうと思う。
Hadoop Summit Tokyo 2016 個人的総括。
個人的な総括から。
今回のイベントで一番わたしが心に残った言葉は "Data for everyone." だった。
この言葉からもそうなのだが、Hadoop Summit は次回から Data Works Summit と名前を変えデータの総合イベントとなるようだし、 Hadoop とそのエコシステムというだけではネタ切れ感があるのも手伝って参加者の垣根を広げようとしている印象を受けた。そもそも Hadoop Summit はもう一つの Hadoop のビッグイベントである Hadoop World には一歩遅れている印象のあるイベントだったが、そういう意味では早々に Strata + Hadoop World に転身していた Hadoop World を遅ればせながら追従した感も否めない。
"Data for everyone."
その言葉自体は何も別に新しい言葉でも何でもないが、これ言うは易く行うは難しなので「こんなことできたらいいよねー」的な話はよく耳にするが、実際にやれているところはほとんどないとわたしは思っている。
(この言葉自体、ネタ的に出してみたというところなのだろう。実際、キーノートでパネルで話していたコカ・コーラとダイムラーの方の話を聞いていてもまだまだ道半ば感かな、と。 "Data for everyone." のお題目のもとに垣根を広げている事例であることは間違いないのだろうけども、文字通りの "Everyone" にデータが行き渡っている印象は皆無だった。)
まずどんな企業も保有するデータは当初はサイロ化しているものだ(マルチビジネスであれば当然のこと、単一のビジネスを行っている企業でも各ビジネス、担当業務ごとに)。それをクロスファンクショナルに利用して付加価値をつけようとすると、それらのデータを一箇所に集める必要がでてくるわけだが、仮に一箇所に集めることができたとしても、
- 利用者側からは自分の見たいデータはどこにあるのか?
- そもそもそのデータはみてよいものなのか?
- そもそもそもそも利用者にそのデータを扱うだけのスキルがあるのか?スキルがないならスキルがない利用者でも簡単にデータを扱えるツールがあるのか?
などなど、集めた先で解決しないといけない問題がまだまだ山積している。
その山積している問題を解決できているソリューションが出揃ったという印象はカンファレンス全体を通じても正直わたしは受けなかった。
とりあえず、Apache のプロジェクトと HDP のコンポーネントとしては、それら山積している問題を解決するアプローチとして以下のものを推し進めているというのは理解できた。
- Apache Ranger (For Authorization)
Hadoop そのものの認証の仕組みは貧弱なので、この認証の機構はかなり有用。なによりデータマスキングができるというのが大きな魅力に感じられた。 - Apache Atlas (For Data Governance)
自分の見たいデータはどこにあるのかを解決する。 Data Classification や Search & Lineage を実現するものらしい。あまりこの Atlas については細かくは触れられるセッションはわたしが参加したものの中にはなかったが。 Data For Everyone を実現するには Ranger 同様中核になる機能。 - Apache Nifi (For Data Flow Management)
トラディッショナルな ETL との違いは?と言われると OSS であること以外はなさそうではあったが、逆に OSS でここまで高機能の Data Flow Management Tool はありがたい。 Non-Programmer が直感的にデータフローを定義、実行できるようになれば Data For Everyone. の実現にはかなり近づく。
今後しばらくこれらのプロダクトの動向*1を個人的には注視していきたいかな、と。
少し "Data for everyone." の方向性が違うが、
- Hadoop on the Cloud.
という話も今後は面白くなりそうな話ではある。わたしが聞いたのは Hadoop 3.0 の説明の中でストレージのオプションとして Cloud をいう話だったが、 Hadoop on AWS といった話も二日目のキーノート中にあったようだ。より Hadoop を幅広い予算の限られた企業にもポピュライズしていくのにこのあたりは役立つのではなかろうか。
Apache Zeppelin や Phoenix with HBase などの話も聞いたは聞いたが、この "Data for everyone." の文脈からすると大幅にデベロッパーよりなので、この総括では割愛する。
以上が総括。
ちなみに Data Management や Data Governance に関してはわたしが読んだ中では、上の本がわかりやすいししっくりくるのだが、これが出来ている企業をわたしは少なくとも知らない。著者はやっているそうなのだが、眉唾である。
本エントリも半ばではあるのだが、ここで目次を挟んでおく。
- Hadoop Summit Tokyo 2016 個人的総括。
- Data for everyone の文脈で興味深かったセッションのメモ。
- 最後にイベント運営に対する意見。
- 参考:他の参加者の方のまとめ等。
では、以下に Ranger, Atlas そして Nifi についてそれぞれ参加してきたセッションのメモを残しておく。 (それ以外にも聞いてよかったとおもったセッションはあったのでそれらについては別の個別エントリとしてメモを公開するつもり。)
Data for everyone の文脈で興味深かったセッションのメモ。
Security and Data Governance using Apache Ranger and Apache Atlas.
5:00PM - 5:40PM Day1: Yamato Higashi & Minami (3rd Floor)
Speaker: Madhan Neethiraj, Hortonworks Inc.
- Apache Ranger.
- Overview.
- Centralized authorization and auditing across Hadoop components.
- HDFS, Hive, Knox, Storm, YARN, Kafka, Solr,,,,,,
- Audit logs to: HDFS, Log4j,,,,,
- Authorization based on Resources, Resource Classification.
- Policies for specific set of resources - like Hive databases/tables/columns.
- Policies for resource classifications - like PII, PHI, PCI.
- Row-filter, Column-making based on policies.
- Restrict the rows accessible in a table based on users/groups/runtime-context.
- Ex. restrict users to access customer records for specific regions only.
- Mask or anonymize sensitive columns based on users/groups/runtime-context.
- Ex. only last 4 digits of account number should be available to few user-groups.
- Restrict the rows accessible in a table based on users/groups/runtime-context.
- Extensible Architecture.
- Custom policy conditions, context enrichers.
- Easy to enable Ranger authorization and auditing for new components.
- Engcyption keys management to support Transparent Data Encryption.
- Centralized authorization and auditing across Hadoop components.
- Overview.
- Apache Atlas.
- Overview.
- Metadata Repository.
- Flexible type system to capture schema/metadata of multiple components.
- Out-of-box models for Hive, HDFS, Storm, Sqoop.
- Data Lineage/Provenance.
- Captures data lineage across components.
- Classification.
- Use tags to classify the data - like PII, PHI, PCI, EXPIRES_ON.
- Support for attributes in tabs - like expiry_date.
- Search.
- Search using classifications, attributes.
- Advanced search using DSL; convenient full-text search.
- Integrations.
- With Apache Hive, Apache Storm,Apache Sqoop for metadata and lineage.
- WIth Apache Ranger for classification based security.
- APIs to add support for more components.
- Metadata Repository.
- Overview.
Apache NiFi 1.0 in Nutshell.
11:10AM - 11:50AM Day2: @ Asuka (3rd Floor)
Speaker: Koji Kawamura, Hortonworks Japan Co., Ltd. & Arti Wadhwani, Hortonworks
- What is Nifi?
- Nifi is a tool for Data Flow Management.
- Processors.
- Flow Management.
- Acquire data from various Wearable Device’s Cloud Instances.
- Move Data from Customer Cloud Instances to on-premise instance
- Perform intelligent Routing & Filtering of data. The routing and filtering rules will be often changed at run-time.
- Parse the device data to standardized format that downstream sysem can understand
- Enrich the data with contextual information including patient/customer info (age, gender, etc..)
- Steam Processing & Analysis.
- Recognize the pattern when the resting heart rate exceeds a certain threshold (the insight), and then create an alert/notification.
- Run a Outlier detection model on streaming heart rate that comes in. If the score is above certain threshold, alert on the heart rate.
- Nifi is a tool for Data Flow Management.
- Nifi 1.0 Enhancement.
- Modernized UI.
- Multitenant Authorization.
- Zero Master Clustering.
- And more (should refer the slide).
- Common Issue.
- The common pitfalls users faced with Nifi.
- NiFi Repo configuration issues
- NiFi SSL configuration or certificate issues.
- ExecuteStreamCommand Processor getting stuck.
- OutOfMemory Issues with NCM or processors.
- Best practices.
- Debug Logging in case of Processor issues
- Core Properties and JVM tuning
- The common pitfalls users faced with Nifi.
最後にイベント運営に対する意見。
今回の Hadoop Summit Tokyo 、わたしは Super Early Bird 価格で 32,000 円+ Taxでチケットを購入したのだが、オンサイトで申し込むと ¥64,000 + Tax かかるイベントだった。
もちろん場所がヒルトン東京なので、場代が多くを占めているにしても参加費用をペイできる内容だったのかというと甚だ疑問なイベントだった。正直、今回の内容*2だったらもうすこしスポンサー企業が負担した方がよいのでは?と思わなくもなかった。来る11月には無料で Cloudera World Japan が開催されるわけで、 Horton Works はこれで勝つる!と本気で思っているのだろうか(OSSのカンファレンスという体裁だが、これはもう完全に Horton Works のカンファレンスだろう、と)。
もちろんペイする内容にできるかどうかは自分の行動次第ではあるわけだが、自分がコントロールできる以外のところで不愉快な行為が目立ちすぎた。
なにより不愉快だったのは、カメラ。
参加者側のカメラについて。
参加者が iPhone (特に iPhone7/7Plus を使ってる人たち)でスライドの写真を撮っている音はあまりにもうるさすぎた。
参加者側のスライドの写真を撮る行為は、あとでスライドをすべて絶対に公開することを約束していればなくせる(なくせないまでも減らせる)ものだと思うので、どうしてそうしないのか?というのが気になった。
(日本のスマホのカメラはデフォだとシャッター音が鳴るようにされてしまっているので、海外とはそのあたり事情が違うところはあるが、そのあたりの事情がわかる人間が誰もいなかったということなのだろうか。そんなことはないと思うのだが)。
ちないにカンファレンスが終了した翌日の時点で #HS16Tokyo のハッシュタグでスライドをあげました、というツイートはまばらにしか見受けられなかった。正直、これでは聴衆の側に写真撮るな、は厳しいと言わざるを得ない。
このエントリを書いている途中で上述のようなことをTwitterでつぶやいていたら、主催サイドと思しき方から Reply をいただいた。実際にスライドがあがるのは 1-2 週間の後になるらしい。どのようにスライドがあがったことをアナウンスされるのか分からないが、せめてこのカンファレンスに登録した際に登録した連絡先に連絡がくることを願いたいところだ。
どうでもいいことだが日本において携帯電話にシャッター音をつけるという自主規制が行われることになったのは田代のマーシーの事件が発端なので、この一点において彼は許しがたい。
わたしもスライド写真は撮っていたが静音カメラを使っていた。イベント主催者がわのカメラマンについて。
そしてなにより参加者のカメラよりも不愉快だったのはプレスなのかスポンサー側の人間なのか一眼レフで延々とセッションの部屋をまわって写真を撮っていたカメラマン。
参加者がプレゼンを聞いている視界をさえぎるようなアクロバティックなカメラワークで写真を撮る行為はどう考えても迷惑行為にしかわたしには映らなかったのだが、他の聴衆の方は気にならなかったのだろうか。
何よりそのカメラマンが聴衆の側(後ろからではなく斜め正面から)もセッション中にバシャバシャと写真を撮っていたのにも腹が立った。少なくともわたしはカネを出してカメラマンにセッション中に写真を撮られに行ったのではない。
このカメラマンが撮ったセッション中の聴衆の写真(斜め正面から撮っているもの)についてはきちんと消しておいてもらいたい。
日本で今後 Hadoop Summit Tokyo あらため Data Works Summit が行われることがあるのかどうか分からないが、今後 Hadoop Summit の運営側には、カメラについては特に対応を考えてもらいたい。
(あまりにも腹がたったのでこのエントリのアイキャッチはいらすとやさんのパパラッチのイラストを使わせていただいた。)
(了)