2016-11-08

日本の握力王新沼大樹氏語る「（データ活用で）日本の筋肉の総重量が増えて欲しい！」 #cwt2016 は最高のイベントだった。

f:id:garage-kid:20161108184307j:plain:w500

　イベントの締めに行われた日米肉体派エンジニア夢の腕相撲対決！結果は新沼氏の勝利！！この歴史的対決は長い歴史に名を刻む一戦となったことだろう！

　今日は下記のイベントに参加するのをメインの目的に（え゛？）Cloudera World Tokyo 2016 に行ってきた*1。

www.cloudera.co.jp

　イベントの詳細は当該リンクを参照されたいが、そのイベントにてウェブ魚拓の開発者であり日本の握力王こと新沼大樹氏とHadoopの生みの親である Doug Cutting 氏の日米肉体派エンジニア対談が行われたので、こんなきっちょーな機会はないと思ったため、可能な限りでメモを取ってみた（iPhoneでEvernoteにとったので全部はとりきれていないのでそこはご容赦ねがいたい）。

　というわけでその知見をシェアさせていただきたいと思う。

　ちなみに先に個人的俺得で言うと新沼大樹氏の「（データ活用で）日本の筋肉の総重量が増えて欲しい！」はまさに金言だった。まさに氏だからこそのキャラの立った素晴らしいメッセージ。わたしも一日腕立てトータル500回を目標*2にトレーニングは継続しているので、その筋肉の総重量を底上げする一助に貢献しようと心に誓った！

　素晴らしいイベントだった！ありがとう、Cloudera！ありがとう新沼大樹氏！！

　では、末尾ながらそれぞれ新沼大樹氏とDoug氏のコメントを取れた限りで以下にシェアさせていただこう！（ちなみに完全に新沼氏に喰われてしまっていたのでDoug氏のコメントのメモが若干おざなりになっている点は許されたい。。。）

新沼大樹氏のインタビューのメモ

ウエイトトレーニング20年
- きっかけは実家の食事が多すぎて太っちゃったから痩せようと思ってｗ
- 急いで痩せようと思ったから腕立て伏せ、懸垂を延々とやった！
目標は毎日ジムに行くこと。
- 下手に（ウエイトの）重さを目標にするとモチベーションが落ちてしまう。
- ジムではその日にやれることをやる。
データを取るので一番苦労してるのは食事。
- ガックリくる食事からしか選べないとき苦労する。
- 本当にいいタンパク質とってる人の方がガックリなタンパク質とって運動してるヒトよりもいい筋肉がつくジレンマ。食事マジ重要。
データは間違いなく役に立つぜ！
- データから（体を鍛える際の）正しい判断が知見として得られるようになったら革命だぜ。
- ライト層が経験知からはじめられるようになるからな。
慢性痛に対する治療にもデータ利用は役に立つぜ。
- 腰痛治療。根拠の無い治療法を医者から強いられたことあったぜ。きっつー。
- 自殺率は腰痛持ちの方が多いとか。
データ利活用でどんなことを望むかって？
- 日本の筋肉の総重量が増えて欲しい！
もちろん高齢化でもデータ活かして欲しいぜ！！
継続のためには継続のためにはまずは好きなスポーツを見つける。
- そして毎日すこしずつ進化を確認する。
- マンネリ化したら変化を加える（道具買かったりもろもろ工夫をするんだぜ）

Doug Cutting 氏へのインタビューのメモ

サイクリング歴18年（週三日）
- 奥さんに尻叩かれてモチベーション高めてるんだぜｗ
- 家の周辺をサイクリングしてる。
- GPS使ってパフォーマンスはかってるんだぜ！
他の人がどんなデータとってるかってのがデータ利活用の参考になるんだぜ！
日米でデータの利活用には差はないと思うよ（少しだけ米が進んでると思うけどね）
米も日もデータの利活用はもっと発展していくぜ、きっと。
Cloudera のヘルスケアデータの取り組みは例えば癌治療とかに活かされてるぜ。
今後10年、健康とビッグデータでどんなこと起きるかって？
- ピンポイントで治療方法を適用するようなオーダーメイド医療とかがあると思うぜ。
ヘルスケアのビジネス機会はでっかいぜ。
高齢化にビッグデータ？
- データ使って健康で長生きできるようになるといいよね！

参考

　世紀の大対決は動画を撮られていた方のものを Cloudera Japan 公式がリツイートしていたので埋め込ませていただいた。

RT @amanojerk ウェブ魚拓の新沼大樹さんとClouderaのダグ・カッティングさんの日米健康志向エンジニアによるアームレスリング対決。 #CWT2016 #日本の筋肉の総量 pic.twitter.com/KRCrLuxfsE
— Cloudera Japan (@ClouderaJP) November 8, 2016

　もう最初からこの対決だけでよかったのではないかと思うほどの熱く素晴らしい対決。

　最後お二方、熱い握手を交わしていた！

握力王に握手してもらって、ちょっと力入れてくださいよ、って言ったら手の形がなくなる恐れがあったので、即止めてもらった、この腕はヤバい #CWT2016 pic.twitter.com/zaexGz6J1I
— descico (@descico) 2016年11月8日

　他のソースによると新沼氏は格闘の経験はないそうだが、こんな腕でチョークスリーパーは絶対にされたくないな、と。

ヘルシープログラマ ―プログラミングを楽しく続けるための健康Hack

posted with ヨメレバ

Joe Kutner オライリージャパン 2015-07-23

　最後に余談ですが、新沼氏ご本人のYoutubeチャンネルがあるんですね、、、。

www.youtube.com

（了：4206文字）

*1:ちなみに後日にはなるが総括のブログは書こうと思っている

*2:大体300-1,000回の間でブレがあるのだが

2016-11-08

Cloudera World Tokyo 2016 に参加してきました。

conference conference-bigdata conference-clouderaworldtokyo hadoop cloudera lifelog

　この日（2016-11-08）は以下のリンクのイベント（ Cloudera World Tokyo 2016 ）に参加してきましたので、そのことについて書こうと思います。

www.clouderaworldtokyo.com

Cloudera World Tokyo 2016 の総括（というより個人的感想）。

　まずは感想から。

　そんなに技術技術ガッツンガッツンなセッションに当たらなかった（おそらくそういうセッションもあったのだとは思いますが）ので、本当に個人の感想的なものです。

　まずは、月並みではございますが、 Hadoop生誕10周年おめでとうございます！ついにこのプロダクトも一区切りまできましたね。

　今回の Cloudera World Tokyo 2016 はまさにHadoop生誕10周年を祝う場でとして大成功なイベントだったのではないでしょうか。黎明期の Hadoop から一貫して高い技術力でそのディストリビューターとして存在感を市場に示してきた Cloudera さんですが、思えばわたしが Cloudera さんのイベントにはじめて参加したのは2011年06月の Hadoopエンタープライズソリューションセミナーだったようなので5年超も前のことになるようです。Hadoop はもちろん Cloudera さんもこのときのイベントから比べると隔世の感があります（わたしのブログの書き方もだいぶ様変わりしたもんだな、と）。まさに月日は百代の過客。当時、 Cloudera といえばわたしの中では嶋内氏と川崎氏のお二方のイメージが強かった（お二方が Cloudera そのものだった感が個人的にはあります）ものですが、今やスタッフの方々も増え会社の成長が第三者からみても明らかに見えるところにはお世話になったことのある者としても感慨の深いものを感じます。当時から川崎氏のHadoopトレーニングは懇切丁寧でネ申と言われていてそれは今もいい意味でお変わりなくすばらＣですが、男子三日あわざれば刮目してみよとはまさに嶋内氏のためにあるような言葉で、当時マサカリ担いだ金太郎よろしく触れるもの皆きずつけるようなトッキョダイヒョトップランカ*1なマサカリ族だった氏がいまやセールスエンジニアといえば嶋内翔とその勇名を日本中に轟かせているのには、当時真っ二つに叩き切られてきっつー涙な経験をしたことがある一人として感慨の深いものを感じています。

参考（嶋内氏のブログ）：セールスエンジニアという仕事 - 科学と非科学の迷宮

重要なことなのでたっぷりと言っておきますが、とてもとても感慨深いものを感じています（これを読んだ嶋内氏の反応がこわいです。 gkbr です。大変恐縮です）。

　おっと、話が脱線しました。それくらいわたしの中では Cloudera と言えばお二方だったもので。わたしとしたことが感極まってむせび泣き、取り乱してしまいました。失礼いたしました。

　さて、すこし五月雨式にはなるのですが本イベントの個人的な感想を述べていこうと思います。技術ガッツンガッツンなセッションにわたしが当たらなかったこと（マサカリを投げられないための予防線です、恐縮です）、前述したようにHadoop10周年のお祝い色が強かったことから、以降の本イベントの総括（感想の色合い強し）は、

イベントの運営の仕方や、
Cloudera さんそのものについてわたしの個人的にもっている現在のイメージ、
そして本イベントから感じた Hadoop とそのエコシステムの今後

以上の3つの観点から自分本位な記録として書いていこうと思います。

　では第一に、イベントの運営ですが、このイベントの前の週に有料の Hadoop Summit 2016 Tokyo に実はわたしは参加していたのですが、このイベントの運営があまりにもひどくて辟易したということがあったもので、そちらに比べると、無料*2のイベントにも関わらず管理の行き届いたイベントだったのではないかな、と思いました。強いてマイナス面をあげるなら、キーノートで Cloudera さんの CTO Amr Awadallah 氏のお話がヒートアップ（データをオカズに何時間でも話せるアツい方なのだと思います。これもご愛嬌ですね）して時間がかなり押す一幕があったり、最近の技術系の大きなイベントは有/無料によらず見られる傾向だと思っていますが、このイベントでも類なくカメラマンが延々とカメラ音を響かせながら写真を撮っていた（こちらはどこのイベントに行ってもいいかげんにしてほしいものですが）のがうるさいなあと思った程度かな、といったところでした。それだけで済むことが素晴らしいとわたしは思っていて、一重に Cloudera さんが資料は一週間以内に当該イベントのページに公開されることをアナウンスされたりといったイベントの管理を徹底していたことによるところが大きいと思います。ちなみに個人的な俺得は別途先立って公開させていただいた日本の握力王新沼大樹さんを招いたトークイベントでこれでわたしの心はがっちりマンデー。掴みは完璧でした。ホントすばらＣ。

　二つ目、Cloudera さんそのものについてわたしの個人的にもっている現在のイメージの話をしてみます。そもそも Cloudera さんは嶋内氏が一人で日本のサポートエンジニアをやりはじめた当初から日本市場を米と同様に重要視しているという言葉を継続的にアッピールしてきたとおり、本当に日本の市場を獲得したい、日本でのプレゼンスを大きくしたいという意思をビンビン感じるなといったところですかね、と。さきほど引き合いにだした Hadoop Summit のホストは主に Horton Works さんがやっておられるわけですが、 Horton Works さんと比較した際に、圧倒的にその日本市場を獲得したいという気持ちのアッピールに成功している印象をわたしは受けています。ちなみにどんなところからそれを感じているかというと、たとえば本国の方のプレゼンテーションから見て取れます。モニターに投影する資料は事前にすべて翻訳が入っているところとかからですね（以前はわたしも変に尖っていたものでそんなものはいらんやろーなんて思っていたものですが、日本でプロダクトを売りたいわけなのですから、その国の言葉で伝えるというのはとても大事なことですよね）。翻訳、当たり前なんじゃね？と思う方いるかもしれませんが、わたしの知る限り、米に本拠地を置く企業が日本でプレゼンテーションを行う場合、同時通訳くらいはいれてくれたりしますが、資料は英語のままということが多いと思っています。Clouderaさんの場合、Clouderaさんが主体で行うイベントの場合、自分たちのプレゼンテーションは少なくとも、資料を毎回全部翻訳いれているので、そのあたり本気度が強いなというのをわたしは強く感じてますね。あとキーパーソンを本国から定期的に呼んでいる点もポイントして高いように思います。 CTO の Amr Awadallah 氏はもちろん、 Hadoop の生みの親である Doug Cutting 氏を定期的に呼ぶあたりからも日本を市場として Cloudera が大事に思っている本気度を感じます。まあ、わたしは第三者なので Horton Works さんにも助け舟を出しておきますが、 Horton Works さんも日本市場で本気で勝ちたいなら、競合である Cloudera さんのイベント運営は学ぶところが大きいと思いますよー、と書いておこうと思います。

　最後に Hadoop とそのエコシステムの今後的な話でいうと、ことここに限っては、 Hadoop Summit 2016 Tokyo の方が示唆に富んでいたように思いました。わたしは大したことはそちらのイベントについても書けませんでしたが一応、 Hadoop Summit 2016 Tokyo の総括はしてみています。以下にリンクをはっておきますので、興味があればお読みください。

参考（弊ブログ）：Hadoop Summit Tokyo 2016 の個人的総括

とはいえ、今回のイベントでも言われていたHadoop とそのエコシステムの今後的な話、言われ尽くされている話の観はありますが一応書いておきます。まとめると以下のような感じです。

「IoT が一般化すると身の回りのあらゆるものからデータが得られるということになるので、データも一般化する。そのデータは AI / 機械学習によって利活用される。その基盤を今後も支えていくのは Hadoop とそのエコシステムで揺らぎないはず。そしてその発展は今後しばらく止まることはない。ようは食いっ　ぱぐれない！*3」

といったようなことが言われていたと個人的には解釈しました。ちなみにこれはあくまでわたしの解釈です。末尾ながら念のためマサカリをなげられない予防線をもう一回はっておいてみました。恐縮です。

　と、以上がわたしの本イベントに参加して抱いた感想のシェアになります。

　続いて、ちょっと末尾としてはかなり長いのですが、、、、本イベントの午前の部：基調講演でわたしがとってきたメモをシェアしておきます（ブレイクアウトセッションについては面白かったと思ったもののみ個別のエントリとして別途エントリを公開します）。資料そのものは上述の感想の中でも述べたとおり後日公開される（公開されたらリンクを本エントリにも載せるつもりです）そうなので、そんなに熱心にはとっていないですが、参考までにといったところでご理解いただけるとありがたいです。
※ここからまだ長いので目次を挟んでおきます。

Cloudera World Tokyo 2016 の総括（というより個人的感想）。
Cloudera World Tokyo 2016 午前の部：基調講演、各セッションのメモ。
参考リンク：

Cloudera World Tokyo 2016 午前の部：基調講演、各セッションのメモ。

スペシャルオープニングインタビュー

Speaker: Accenture Data Science Center of Excellence グローバル統括兼アクセンチュアアナリティクス日本統括マネジング・ディレクター工藤卓哉氏
End to End Data Science Business.
OSS 活用
北米はサイロになっていて、業界をまたいだスタンダードをつくるのは難しい。
- 日本の方がその点においては長けている印象があるという。
Data Science の市場は青天井で伸びている実感がある。
AI, 機械学習の投資
- FINTECH 市場。
- 実際になにかものをつくってみようという意味では日本ではまだまだなのかなあ、と。
  - 北米はブロックチェーンはじめ始まっている印象がある反面。
日本は横並び意識をなくす。規制を取り外すが弾けるためのきっかけになるのではないか。
アクセンチュアの取り組み
- ファストリとのとりくみ
- Intel
データサイエンスの人材育成
- 内部の人材育成という意味ではそのとおりだと思う。
  - 開発する側としてはクライアントに対する訴求ポイントが低くなってしまう。
  - 高いコミットメントができなくなってしまう。
  - アクセンチュアにはデータサイエンティストを育てるイニシアチブがある。
    - ハーバード大 x 東大 x アクセンチュア
- Cloudera の宣伝
  - データサイエンティストの育成プログラム。
さいごに
- 全世界中のトレンドでみると一般化線形モデルは消費財のデータを使ってやる。過去のデータを使って線形モデルをつくるだった。
- 今後は、お客さんとのタッチポイント。ゲートウェイサーバを増やすこと（車、スマホ、アクセスポイント等）。ストリーミング処理でデータをインタラクションしていく。

ご挨拶

Speaker: Cloudera株式会社　カントリー・マネージャー　田村研三郎
イベント登録者 1000+ (-20%増加)
協賛パートナー15社
ビッグデータ分析はビジネスを変革。
- IoT 時代の到来。
  - センサーデータはすべてを保存することができず捨ててきた。
幅広い業種でのユースケース。
- 金融
- 政府
- Telecom
- 製造業
- 電力
- ヘルスケア
フォレスター社：今後2年以内に大手企業の100%ビッグデータ分析技術を導入すると予測
- Hadoopはもはや単体のプロダクトをしめすのではなく eco システムを含めて呼ぶようになった
- それらがビッグデータ分析のデファクトとなっているということ
Clouderaの日本を大事にしている姿勢をアピール
- 日本語でのサポートを強調。
  - 大事だよね。言及される川崎氏カコイイ。

ビッグデータの新次元（新しいビッグデータの焦点、アプローチと原動力について）

Speaker: Cloudera, Inc. CTO Amr Awadallah @Awadallah
Three main Theme.
- AI, Machine Learning
  - 歴史と偉人
    - アラン・チューニング
    - ジョン・マッカーシー
    - マービン・ミンスキー
  - 1970：テリー・ウィノグラードがMITで開発したSHRDLU
  - 80 年代 AI の冬の時代
  - しかし現在の機械学習は人々の生活の中から返り咲いた
    - skype, facebook, AlphaGo,,,,
  - ではなぜ AI や機械学習が復活したのか？
    - 大規模なデータ収集が可能になった（オンライン、オフライン）
      - ビッグデータとは ATM で説明できる
        
        以前はトランザクションだけだった
        
        今は ATM 前の人間の動作をトラッキングしたりするようになっている
        
        そういったことでもっと精度のたかいサービスを ATM 前の人間に提供できるようになっているということ
        
        逆に泥棒にも対策できる。挙動からわかる。
      - ますますデータは巨大化。
    - 十分にスケーラブルな計算。
      - 急速に進化を続けるHWが支える
    - (OSS)によるアルゴリズムの民主化
      - Google に感謝。 (GoogleFS と Google MR、 Hadoop のオリジン、ビギニング)
      - ビッグデータプラットフォームの進化
        
        ソリューションスタックは日進月歩で増えていく
  - コンピュータは人間よりも遥かに上手にBigdataを処理する（以下に例示するようなものを）
    - 異常値の検出
    - 予測分析
    - クラスタリング
    - 最適化
- Their BigData Technologies.
  - 日々進化を続ける Spark MLib.
  - Cloudera の目指すところ
    - より多くのソースから
    - より多くのデータポイントを取得し
    - より多くの次元でクエリを行い
    - より迅速に、より優れた予測を行うこと
  - そのためにはビッグデータにおけるスマートフォンが必要と思っている。
    - データに対するアプリケーションの提供。
      - あらゆるデータを扱い
      - 様々なデータ構造を統合
    - Agility の重要性。
  - Cloudera のパワフルなデータベースをひとつのプラットフォームで提供する
    - マルチイン
      - 構造化、半構造化、非構造
    - スケーラブル
    - マルチアウト
      - SQL, Solr, Spark,,,,
  - Cloudera はクラウドをサポートするか？
    - するよ。
      - AWS, GCP, MS Azure はサポートしているよ。
    - オンプレとのハイブリッドもありですぜ。
      - オンプレからクラウドへの移行、逆も可能。
- UseCases. (資料読むのがよさげ)
  - 顧客行動の把握
    - 静的なセグメンテーションから動的なセグメンテーションへの進化
    - MARKS&SPENCER の例。
    - TELKOMSEL の例
    - 個別化医療への取り組み
    - GoPro の例
  - 製品サービスの改善
    - Cerner の例
  - ビジネスリスクの低減
  - アーキテクチャの近代化
- さいごに
  - Cloudera の PR.

10年目を迎えたApache Hadoop （Apache Hadoop のこれからの１０年）

Speaker: Cloudera, Inc. Chief Architect Doug Cutting @cutting
歴史の話。どこにいくのか？
- 今年はいろんな 10 周年の年
  - Hadoop, Cloud, そしてデジタルトランスフォーメーション
- 10 年前のシステムと比べるとだいぶ今は様変わりした
  - HW
  - SW
  - データ
  - 対象領域
  - デザイン手法
- データ革命
  - ムーアの法則などとともにデータは指数的に増加
  - デジタルトランスフォーメーションによってデータのビジネス価値増大
  - 波及効果
    - データはマシンが生成
    - ビジネスのあらゆる場面
    - 拡張性に富んだ汎用的なデータシステムが必要
- Lucene で得た教訓
  - Dugg 氏の鉄板っすね。
- そして Hadoop に至り今までの歴史の話。
  - Nutch が Yahoo 入りし、氏の息子の黄色いゾウのぬいぐるみの名前から Hadoop の名前がきまったこととか。
- そして現代のシステムを支える環境はどう様変わりしたか。
  - あらゆるデータから恩恵を得ることが可能になったと。
    - HW: commodity.
    - SW: 柔軟、OSS
    - データ:
    - 対象領域
    - デザイン手法
- 新しいデータソフトウェアエコシステム Spark が MR をリプレースしようとしている。汎用的なエンジンとして。 Kudu とオブジェクトストアが HDFS を補完。
- OSS プロジェクト間のゆるい同盟関係
  - 集中管理や調整なし
  - 適者生存
  - ユーザニーズ対応
  - etc,,,
- 将来のことはわからないけど、以下のようなものは継続進化していくとみている
  - クラウド
  - コンテナ
  - HW

ビッグデータ分析のビジネスインパクトについて

Speaker: Cloudera, Inc. Senior Director APAC Daniel Ng
ビッグデータはさまざまな業界に普及
ビッグデータの活用によるデータドリブンなインサイトの強化、データドリブンなインサイトによるビジネスの変革
- 日本のAPECでの市場は魅力的だ。
データは役にたつ。みなさんのデータはどのように役立ちました？
あらゆる場所にデータはある。なのであらゆる場所でデータ変革が起こる。
なのであらゆる業界で Cloudera の顧客層は広がっている
- MasterCard
- EARLYWARNING (グローバルのファイナンスシステムの保護)
Cloudera は高速、簡単、セキュア [PR]
Cloudera 以上に Hadoop 知ってるものはいないぜ (ﾄﾞﾔ [PR]
Cloudera 以上のビッグデータ導入でエクスペリエンスを体験できないぜ (ﾄﾞﾔ [PR]
- 川崎氏のトレーニングはさいっこーだぜ。
最大のパートナーエコシステムを持っている。
- Cloudera の強力なパートナーエコシステム [PR]
もっとデータに期待しよう。大きな質問がさらに大きな回答を生み出し、可能にするよ。
このセッションは残念ながら PR 色が強かったのだが、そもそも無料のイベントですから。

大変革の渦のなかで - デジタル化する金融業界と今後

Speaker: インテル株式会社インダストリー事業本部アジア地区シニア金融アーキテクト郡司茂樹氏
このセッションは、写真を撮ってすませています。資料が公開されたら、リンクをこちらに貼らせてもらおうと思っています。

IoTとビッグデータをビジネスインパクトにつなげた国内外の事例

Speaker: 株式会社インテックプリンシパル大阪大学招聘准教授 Tクラウド研究会発起人・幹事中川郁夫　氏
デジタルイノベーションの３つの形についての話。こちらも写真を撮って聞くのに集中していました。
全体的に興味深い内容でしたが、特に Alipay の話がとても興味深かったですね。資料公開が楽しみです。

わたしのメモは以上です。

参考リンク：

最後にイベントに関連した参考のリンクを記載しておきます。

Ironmind(アイアンマインド) Captains of Crush(キャプテンズ・オブ・クラッシュ) ハンドグリッパー正規品製品保証付 (スポーツ)

posted with カエレバ

Ironmind(アイアンマインド)

Amazon

楽天市場

　筋肉は全てを解決するので、COCハンドグリッパーで新沼氏のように握力鍛えましょう。

それでは、今回はこんなところで。

（了：11624文字）

※今回のアイキャッチは金太郎のイラスト「クマに乗る金太郎」です。嶋内氏、よろこんでくれるかなー。

*1:東京代表トップランカー（Grateful Days/Dragon Ash の歌詞より

*2:その代わり Cloudera さんとそのビジネスパートナーさん方の PR ありまくりなのはご愛嬌

*3:このネタがわからない人はアオイホノオを観てほしい

2016-10-27

Hadoop Summit Tokyo 2016 に行ってきた。

lifelog hadoop conference conference-bigdata conference-hadoopsummit

Hadoop 関連のイベントの中でも頂上（テッペン）を冠するイベント Hadoop Summit が東京にやってくるというので、 2016-10-26, 27 と参加してきた。

今回で4年目という同イベント、受付の仕方もろくすっぽアナウンスがされてなくて、始まる前からかなりグダグダ感がハンパなかったのだが、それはさておき折角行ってきたので、個人的総括のようなものと勉強になったセッションのみのメモを残しておこうと思う。

Hadoop Summit Tokyo 2016 個人的総括。

個人的な総括から。

今回のイベントで一番わたしが心に残った言葉は "Data for everyone." だった。

この言葉からもそうなのだが、Hadoop Summit は次回から Data Works Summit と名前を変えデータの総合イベントとなるようだし、 Hadoop とそのエコシステムというだけではネタ切れ感があるのも手伝って参加者の垣根を広げようとしている印象を受けた。そもそも Hadoop Summit はもう一つの Hadoop のビッグイベントである Hadoop World には一歩遅れている印象のあるイベントだったが、そういう意味では早々に Strata + Hadoop World に転身していた Hadoop World を遅ればせながら追従した感も否めない。

"Data for everyone."

その言葉自体は何も別に新しい言葉でも何でもないが、これ言うは易く行うは難しなので「こんなことできたらいいよねー」的な話はよく耳にするが、実際にやれているところはほとんどないとわたしは思っている。

（この言葉自体、ネタ的に出してみたというところなのだろう。実際、キーノートでパネルで話していたコカ・コーラとダイムラーの方の話を聞いていてもまだまだ道半ば感かな、と。 "Data for everyone." のお題目のもとに垣根を広げている事例であることは間違いないのだろうけども、文字通りの "Everyone" にデータが行き渡っている印象は皆無だった。）

まずどんな企業も保有するデータは当初はサイロ化しているものだ（マルチビジネスであれば当然のこと、単一のビジネスを行っている企業でも各ビジネス、担当業務ごとに）。それをクロスファンクショナルに利用して付加価値をつけようとすると、それらのデータを一箇所に集める必要がでてくるわけだが、仮に一箇所に集めることができたとしても、

利用者側からは自分の見たいデータはどこにあるのか？
そもそもそのデータはみてよいものなのか？
そもそもそもそも利用者にそのデータを扱うだけのスキルがあるのか？スキルがないならスキルがない利用者でも簡単にデータを扱えるツールがあるのか？

などなど、集めた先で解決しないといけない問題がまだまだ山積している。

その山積している問題を解決できているソリューションが出揃ったという印象はカンファレンス全体を通じても正直わたしは受けなかった。

とりあえず、Apache のプロジェクトと HDP のコンポーネントとしては、それら山積している問題を解決するアプローチとして以下のものを推し進めているというのは理解できた。

Apache Ranger (For Authorization)
Hadoop そのものの認証の仕組みは貧弱なので、この認証の機構はかなり有用。なによりデータマスキングができるというのが大きな魅力に感じられた。
Apache Atlas (For Data Governance)
自分の見たいデータはどこにあるのかを解決する。 Data Classification や Search & Lineage を実現するものらしい。あまりこの Atlas については細かくは触れられるセッションはわたしが参加したものの中にはなかったが。 Data For Everyone を実現するには Ranger 同様中核になる機能。
Apache Nifi (For Data Flow Management)
トラディッショナルな ETL との違いは？と言われると OSS であること以外はなさそうではあったが、逆に OSS でここまで高機能の Data Flow Management Tool はありがたい。 Non-Programmer が直感的にデータフローを定義、実行できるようになれば Data For Everyone. の実現にはかなり近づく。

今後しばらくこれらのプロダクトの動向*1を個人的には注視していきたいかな、と。

少し "Data for everyone." の方向性が違うが、

Hadoop on the Cloud.

という話も今後は面白くなりそうな話ではある。わたしが聞いたのは Hadoop 3.0 の説明の中でストレージのオプションとして Cloud をいう話だったが、 Hadoop on AWS といった話も二日目のキーノート中にあったようだ。より Hadoop を幅広い予算の限られた企業にもポピュライズしていくのにこのあたりは役立つのではなかろうか。

Apache Zeppelin や Phoenix with HBase などの話も聞いたは聞いたが、この "Data for everyone." の文脈からすると大幅にデベロッパーよりなので、この総括では割愛する。

以上が総括。

Data Stewardship: An Actionable Guide to Effective Data Management and Data Governance[Kindle版]

posted with ヨメレバ

David Plotkin Morgan Kaufmann 2013-09-16

Kindle

Amazon[書籍版]

ちなみに Data Management や Data Governance に関してはわたしが読んだ中では、上の本がわかりやすいししっくりくるのだが、これが出来ている企業をわたしは少なくとも知らない。著者はやっているそうなのだが、眉唾である。

本エントリも半ばではあるのだが、ここで目次を挟んでおく。

Hadoop Summit Tokyo 2016 個人的総括。
Data for everyone の文脈で興味深かったセッションのメモ。
- Security and Data Governance using Apache Ranger and Apache Atlas.
- Apache NiFi 1.0 in Nutshell.
最後にイベント運営に対する意見。
- 参加者側のカメラについて。
- イベント主催者がわのカメラマンについて。
参考：他の参加者の方のまとめ等。

では、以下に Ranger, Atlas そして Nifi についてそれぞれ参加してきたセッションのメモを残しておく。（それ以外にも聞いてよかったとおもったセッションはあったのでそれらについては別の個別エントリとしてメモを公開するつもり。）

Data for everyone の文脈で興味深かったセッションのメモ。

Security and Data Governance using Apache Ranger and Apache Atlas.

5:00PM - 5:40PM Day1: Yamato Higashi & Minami (3rd Floor)
Speaker: Madhan Neethiraj, Hortonworks Inc.

Apache Ranger.
- Overview.
  - Centralized authorization and auditing across Hadoop components.
    - HDFS, Hive, Knox, Storm, YARN, Kafka, Solr,,,,,,
    - Audit logs to: HDFS, Log4j,,,,,
  - Authorization based on Resources, Resource Classification.
    - Policies for specific set of resources - like Hive databases/tables/columns.
    - Policies for resource classifications - like PII, PHI, PCI.
  - Row-filter, Column-making based on policies.
    - Restrict the rows accessible in a table based on users/groups/runtime-context.
      - Ex. restrict users to access customer records for specific regions only.
    - Mask or anonymize sensitive columns based on users/groups/runtime-context.
      - Ex. only last 4 digits of account number should be available to few user-groups.
  - Extensible Architecture.
    - Custom policy conditions, context enrichers.
    - Easy to enable Ranger authorization and auditing for new components.
  - Engcyption keys management to support Transparent Data Encryption.
Apache Atlas.
- Overview.
  - Metadata Repository.
    - Flexible type system to capture schema/metadata of multiple components.
    - Out-of-box models for Hive, HDFS, Storm, Sqoop.
  - Data Lineage/Provenance.
    - Captures data lineage across components.
  - Classification.
    - Use tags to classify the data - like PII, PHI, PCI, EXPIRES_ON.
    - Support for attributes in tabs - like expiry_date.
  - Search.
    - Search using classifications, attributes.
    - Advanced search using DSL; convenient full-text search.
  - Integrations.
    - With Apache Hive, Apache Storm,Apache Sqoop for metadata and lineage.
    - WIth Apache Ranger for classification based security.
  - APIs to add support for more components.

Apache NiFi 1.0 in Nutshell.

11:10AM - 11:50AM Day2: @ Asuka (3rd Floor)
Speaker: Koji Kawamura, Hortonworks Japan Co., Ltd. & Arti Wadhwani, Hortonworks

Apache NiFi 1.0 in Nutshell from Koji Kawamura

What is Nifi?
- Nifi is a tool for Data Flow Management.
  - Processors.
- Flow Management.
  - Acquire data from various Wearable Device’s Cloud Instances.
  - Move Data from Customer Cloud Instances to on-premise instance
  - Perform intelligent Routing & Filtering of data. The routing and filtering rules will be often changed at run-time.
  - Parse the device data to standardized format that downstream sysem can understand
  - Enrich the data with contextual information including patient/customer info (age, gender, etc..)
- Steam Processing & Analysis.
  - Recognize the pattern when the resting heart rate exceeds a certain threshold (the insight), and then create an alert/notification.
  - Run a Outlier detection model on streaming heart rate that comes in. If the score is above certain threshold, alert on the heart rate.
Nifi 1.0 Enhancement.
- Modernized UI.
- Multitenant Authorization.
- Zero Master Clustering.
- And more (should refer the slide).
Common Issue.
- The common pitfalls users faced with Nifi.
  - NiFi Repo configuration issues
  - NiFi SSL configuration or certificate issues.
  - ExecuteStreamCommand Processor getting stuck.
  - OutOfMemory Issues with NCM or processors.
- Best practices.
  - Debug Logging in case of Processor issues
  - Core Properties and JVM tuning
    - HDF/NIFI Best practices for setting up a high performance NiFi installation. - Hortonworks

最後にイベント運営に対する意見。

今回の Hadoop Summit Tokyo 、わたしは Super Early Bird 価格で 32,000 円+ Taxでチケットを購入したのだが、オンサイトで申し込むと ¥64,000 + Tax かかるイベントだった。

もちろん場所がヒルトン東京なので、場代が多くを占めているにしても参加費用をペイできる内容だったのかというと甚だ疑問なイベントだった。正直、今回の内容*2だったらもうすこしスポンサー企業が負担した方がよいのでは？と思わなくもなかった。来る11月には無料で Cloudera World Japan が開催されるわけで、 Horton Works はこれで勝つる！と本気で思っているのだろうか（OSSのカンファレンスという体裁だが、これはもう完全に Horton Works のカンファレンスだろう、と）。

もちろんペイする内容にできるかどうかは自分の行動次第ではあるわけだが、自分がコントロールできる以外のところで不愉快な行為が目立ちすぎた。

なにより不愉快だったのは、カメラ。

参加者側のカメラについて。

参加者が iPhone （特に iPhone7/7Plus を使ってる人たち）でスライドの写真を撮っている音はあまりにもうるさすぎた。

参加者側のスライドの写真を撮る行為は、あとでスライドをすべて絶対に公開することを約束していればなくせる（なくせないまでも減らせる）ものだと思うので、どうしてそうしないのか？というのが気になった。

（日本のスマホのカメラはデフォだとシャッター音が鳴るようにされてしまっているので、海外とはそのあたり事情が違うところはあるが、そのあたりの事情がわかる人間が誰もいなかったということなのだろうか。そんなことはないと思うのだが）。

ちないにカンファレンスが終了した翌日の時点で #HS16Tokyo のハッシュタグでスライドをあげました、というツイートはまばらにしか見受けられなかった。正直、これでは聴衆の側に写真撮るな、は厳しいと言わざるを得ない。

このエントリを書いている途中で上述のようなことをTwitterでつぶやいていたら、主催サイドと思しき方から Reply をいただいた。実際にスライドがあがるのは 1-2 週間の後になるらしい。どのようにスライドがあがったことをアナウンスされるのか分からないが、せめてこのカンファレンスに登録した際に登録した連絡先に連絡がくることを願いたいところだ。

どうでもいいことだが日本において携帯電話にシャッター音をつけるという自主規制が行われることになったのは田代のマーシーの事件が発端なので、この一点において彼は許しがたい。

OneCam 高画質マナー〜フリックで簡単シェア〜

Walker Software
写真／ビデオ
¥240

わたしもスライド写真は撮っていたが静音カメラを使っていた。

イベント主催者がわのカメラマンについて。

そしてなにより参加者のカメラよりも不愉快だったのはプレスなのかスポンサー側の人間なのか一眼レフで延々とセッションの部屋をまわって写真を撮っていたカメラマン。

参加者がプレゼンを聞いている視界をさえぎるようなアクロバティックなカメラワークで写真を撮る行為はどう考えても迷惑行為にしかわたしには映らなかったのだが、他の聴衆の方は気にならなかったのだろうか。

何よりそのカメラマンが聴衆の側（後ろからではなく斜め正面から）もセッション中にバシャバシャと写真を撮っていたのにも腹が立った。少なくともわたしはカネを出してカメラマンにセッション中に写真を撮られに行ったのではない。

このカメラマンが撮ったセッション中の聴衆の写真（斜め正面から撮っているもの）についてはきちんと消しておいてもらいたい。

日本で今後 Hadoop Summit Tokyo あらため Data Works Summit が行われることがあるのかどうか分からないが、今後 Hadoop Summit の運営側には、カメラについては特に対応を考えてもらいたい。

（あまりにも腹がたったのでこのエントリのアイキャッチはいらすとやさんのパパラッチのイラストを使わせていただいた。）

（了）

参考：他の参加者の方のまとめ等。

*1:HDP絡みではという意味だが

*2:しかたがないことだが Horton Works に内容が偏りすぎ

2016-07-13

db tech showcase 2016 (Day1) で参加したセッションのメモ

conference conference-dbtechshowcase conference-database conference-bigdata

最近は、技術系の勉強会やイベントには参加していなかったので、大分久方ぶりの勉強会、イベントのメモの公開となってしまった。そんな今日は、秋葉原の秋葉原UDX Conference 6F で開催された db tech showcase 2016 に参加してきたので、参加してきたセッションのメモを公開しておこうと思う。

参加してきたセッションは以下の 3 セッション。

A11: (Panel Discussion) データ収集から予測モデルまで, テクノロジー最前線で戦うエキスパートが語る
B13: Machine Intelligence at Google Scale. (Googleスケールの機械学習テクノロジー)
E14: Machine Learning Made Easy by using Hivemall

同イベントは 2016-07-13,14,15 の 3 日間の開催なのだが、わたしが都合がついたのは本日だけなので、本日分以降については気になるセッションのスライドの公開等をおっかけてみようと思っている。

また、残念ながら、本日参加した最初のセッション 2 時間にも及んだパネルディスカッションについては、メモはおろかTweetすら自重してほしいということを言われてしまったので、 A11 の Panel Discussion のセッションについてはあたりさわりのないワタシ的超サマリを書いておくだけのものとしておく（超サマリな上に、誰が言ったということも書かないので、問題ない認識だが、これですら消してほしいということを言われたら、消そうとは思っている）。

では以降より、それぞれわたしのとってきたメモである。

A11: (Panel Discussion) データ収集から予測モデルまで, テクノロジー最前線で戦うエキスパートが語る

メモを公開してはダメということだったので、ワタシ的超サマリ。
(neta1) データ分析の課題は？
- データマネジメントが課題。
  - ログフォーマットが統一されていなかったり、マッピングテーブルがなかったり。データクレンジング超大変。
  - ここに関しては、データ分析チームそのもののマネジメントも課題という話がでてくるかと思ったんだが、それはなかった。
(neta2) いま、気になるホットテクノロジーは？
- Google Cloud Machine Learning.
- 人工知能
- IoT
(neta3) 2020 年のキャリアを考える。
- そんな未来のことなんて誰も分からない。変化に対応することが大事。もし仮に今、自分がやっていることが陳腐化しているなら、また学び直せばいいだけだと思うよ。

B13: Machine Intelligence at Google Scale. (Googleスケールの機械学習テクノロジー)

@kazunori_279 : GCP のチームに所属。今はエヴァンジェリストのような仕事。
What is Nueral NW and Deep learning.
- Neural NW is a function that can learn.
- Currently just a function.
- あらゆる関数を真似できる関数。
  - ベクトルを入れるとベクトルが出てくる関数
- 任意のデータを処理することが可能。画像、音声に限らない。
  - ゲームのプレイヤーの行動ログからチートしているユーザを導き出す。
- Inspired by the behavior of biological neurons.
- Demo. ( TensorFlow: Playground Example. )
  - Need to specify the parameters.
    - Human need to decide weights and thresholds.
  - A neuron classifies a data point into two kinds.
    - The computer tries to find the best parameters.
  - Gradient Descent: changing the params gradually to reduce errors.
    - Error が減る方向に重みを調整していく。
  - e.g. OCR.
  - e.g. 非線形
    - ニューロンを増やすとその分、複雑性が増すが、その分賢くなる。
    - more neurons -> more features will be extracted.
  - e.g. 二重らせん
  - e.g. 猫
  - Hidden Layers.
    - mapping inputs to a features space, classifying with a hyperplane.
Machine Learning use cases at Google services.
- more than 60 production services at Google.
  - Google Search.
    - Rank Brain.
  - Google Photos.
  - Gmail
    - Smart reply.
  - Google Translate.
    - OCR.
Externalizng the power with ML APIs.
- ML APIs.
  - 学習済みなので学習できない。ただし、
  - Cloud Vision API.
    - Image alalysis with pre-trained models.
    - REST API
    - GA.
    - Features.
      - Faces
      - Label
      - OCR
      - Logos
      - Safe Search
      - Landmarks and Image Properties.
    - Pricing table.
  - Cloud Speech API.
    - Pre-trained
    - REST API
    - 80+ languages.
    - [PR] What is Cloud Speech API? (youtube)
      - only need 50 lines of code to realize above video.
    - コールセンターの文字起こしとかに使われ始めている。
  - Cloud Natural Language API (this is still not open information)
    - Pre-Trained.
TensorFlow: the OSS library for Machine Intelligence.
- TensorFlow.
  - OSS library for machine intelligence.
  - tensorflow.org launched in Nov 2015.
  - #1. repository.
    - Github: Machine learning category.
  - After TensorFlow. (Simplified.)
    - Easy NW design and impl.
    - Train with single machine.
    - Train on the cloud.
    - Prediction on the cloud or mobile/IoT devices.
  - TensorBoard: visualization tool.
  - Portable and Scalable.
    - enabled to train on
      - Mac/Win
      - GPU server
      - GPU cluster / Cloud
    - Prediction enabled on
      - Androids and iOSs
      - RasPi and TPU
  - Distributed TensorFlow.
  - Use cases.
    - からあげロボット
    - 自動運転車
    - アイドル顔認識（すぎゃーん氏）
    - 漢字
    - アート (漢字っぽいなにか)
Distributed Training and Prediction with Cloud ML.
- Jupiter Network.
  - 10GbE x 100K = 1Pbps.
- Google Cloud + Neural NW = Google Brain.
  - RankBrain: 300x with 500nodes.
  - Inception / ImageNet: 40x with 50GPUs
- Cloud ML
  - distributed training and prediction
  - Training at local 8.3hr becomes 32min.
  - Tensor Processing Unit.

E14: Machine Learning Made Easy by using Hivemall

@myui
- 201504 joined TD.
  - Research Engineer at TD.
- TD cloud services.
  - fluentd
  - embulk
  - JS SDK
  - 900,000 records stored per sec. 100x twitter's tweets.
  - ML
    - Hive Batch
    - Presto
What is Hivemall.
- scalable machine learning library built as a collection of Hive UDFs.
- Apache License V2. OSS.
- List of supported Algorithms
  - Red colored algorithms are popular algorithms.
  - Soft confidence Weighted (SCW) is a good first choice. Try RandomForest if SCW does not work.
  - Logistic regression is good for getting a probability of a positive class.
  - Factorization Machines is good where features are sparse and categorical ones.
- List of ALgorithms for Recommendation.
  - K-nearest Neighbor.
  - Matrix Completion.
    - Matrix Factorization.
- Other supported Algorithms
  - Feature engineering.
  - Anomaly Detection.
  - NLP.
    - kuromoji.
- Industry use cases.
  - Adtech
    - Freakout Inc., Fan communication, and more.
    - Replaced Spark MLlib w/ Hivemall at Company X.
  - Gender prediction of Ad click logs.
    - Scaleout Inc.
  - Value prediction of Real estates.
    - Livesense.
  - Churn Detection.
    - OISIX
Whye Hivemall.
- motivation for hivemall. make more easier to use ML.
  - Before hivemall he needed to use hive for preprocessing and Python for ML. Feels not EFFICIENT and ANNOYING. And those are not scalable.
  - Existing distributed ML frameworks are not easy to use.
    - Mahout.
    - Spark MLlib/MLI
    - H2O
    - Cloud Oryx
    - Vowpal Wabbit
- Hivemall vision.
  - ML made easy for SQL developers.
  - Interactive and Stable API w/ SQL abstraction.
- Hivemall on Apache Spark.
How to use Hivemall.
- Define a Hive table for training/testing data.
- Feature engineering.
  - Applying a Min-Max Feature Normalization.
- Training
  - ex. Training by logistic regression, Confidence Weight Classifier.
- Prediction.
  - LEFT OUTER JOIN between test data and prediction model.
    - No need to load the entire model into memory.
- Real-time Prediction.
  - Export prediction model to RDBMS (MySQL/PostgreSQL).
    - using TD export or Sqoop.
    - index lookups are very efficient in RDBMSs.
Conclusion
- Hivemall provides a collection of machine learning algorithm as Hive UDFs/UDTFs.
  - For SQL users needed ML.
  - For whom already using Hive.
  - Easy of use and scalability in mind.
  - Spark also compatible.
    - easy installation. just do following command.
      - $ spark-shell --packages maropu:hivemall-spark:0.0.6

では、メモは以上です。今回は、こんなところで。（資料等の公開があれば、リンクを載せたりはあとでしようと思う。）

2016-02-18

Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築〜のメモ

conference spark streaming kafka devsumi2016 bigdata

今日（2018-02-18）のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。

個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。

本エントリのコンテンツは以下。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田純一氏 [GMOインターネット]

資料埋め込み

関連リンク

devsumi2016 でわたしがとってきた他セッションのメモ

で、以下よりがメモ。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田純一氏 [GMOインターネット]

@n428dev
- Software Design 201511 号
- ConoHa を使った Hadoop 事例
目的
- NHK NEWS WEB のつぶやきビッグデータをつくりたい
  - 3月でこの番組なくなる？つぶやきビッグデータも？！
Spark について
- MR とは別のアプローチ、 DAG での並列分散処理
  - Job Scheduling Process
    - RDD Objects
    - Scheduler
  - ITPro の記事。 DAG と MR の違い
- インメモリ
- Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
Spark Streaming について
- リアルタイムに流れてくるストリーム対する集計ができる
- 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
- データソース
  - Kafka, Flume, HDFS/S3, Kinesis, Twitter ＞ Spark Streaming ＞ HDFS, DB, Dashboards
検証サービス説明
- Twitter ＞ Spark Streaming ＞ Mikasa, Ikazuchi
Spark Streaming を使用したオンライン Twitter 解析
- ここはスライドを参照したい
  - Streaming
    - Twitter Streaming API
      - 400 までの検索キーワードが指定可能
    - Spark Streaming
      - kuromoji: 形態素解析
        
        デフォルトの辞書にない情報は自分で追加する必要がある
      - ウィンドウ集計の活用
        
        直近 5 分
        
        直近 60 分
    - Apache Kafka
  - Recommendation
    - Kafka
      - Ruby
    - nginx
      - Data-Driven Document
    - Amazon Product Advertizing API
    - Trend Product Bot (Twitter account へ) @Akihabara_itso
- 完全スタンドアロン構成 (Mac or Linux)
  - ZK
  - Kafka
  - nginx
  - GraphX
  - Spark Streaming
  - Spark
  - Ruby
  - Java
  - Scala
Demo.

Apache Spark入門動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

posted with カエレバ

株式会社NTTデータ,猿田浩輔,土橋昌,吉田耕陽,佐々木徹,都築正宜翔泳社 2015-10-29

Amazon

楽天市場

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

devsumi2016 でわたしがとってきた他セッションのメモ

~~のちほど他のエントリを書いたら更新する予定です。~~ garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com

2016-02-18

乗り遅れるな！KafkaとSparkを組み合わせたリアルタイム分析基盤の構築〜のメモ

conference spark kafka devsumi2016 streaming

Developers Summit 2016 - Hack the Realで参加してきた三コマ目のメモを公開。

本エントリ、コンテンツは以下。

以降よりメモ公開。

【18-B-4】乗り遅れるな！KafkaとSparkを組み合わせたリアルタイム分析基盤の構築 / 田中裕一氏 [日本アイ・ビー・エム]

基盤の構築にフォーカスを当てた話。
講演のターゲット
- Spark をはじめたい、ビッグデータをはじめたいエンジニアのとっかかり
持ち帰りポイント
- Spark+Kafka をつかった解析基盤の概要の把握、オリジナルの基盤構築を行うことができる
- ビジネス担当の方にはこんなことができるんじゃないか？というビジネスの発想の種
Hadoop/Spark の広がりについて
- Spark のひろがり
  - Spark はイノベータ、アーリアダプタを超えて広がりつつある
- 業界に横串で展開される BigData
- BigData とはどんなものか
  - 毎日発生し続けるデータ
    - ウェブサイトデータ
    - ログデータ
    - オペレーションデータ
    - オフィスデータ
    - センサーデータ
    - カスタマーデータ
    - ソーシャルデータ
    - メディアデータ
従来の Hadoop 基盤のおさらいと問題提起
- DataSource＞HDFS＞YARN＞Hive,Mahout＞Batch＞Data＞RDB＞BI,API,Batch
- 問題
  - Input のタイミングの問題
  - 処理時間の問題
    - どうやってレイテンシーを下げるのか
  - データ反映の問題
    - つくったデータをどうやって提供していくのか？
Spark/Kafka の概要のおさらい
- Apache Spark
  - Component
    - SparkSQL, Datasets, DataFrames: SQL IF の提供
    - GraphX: グラフ操作を提供
    - Steraming: ストリーミング処理を提供
    - MLlib: 機械学習アルゴリズムを提供
    - on top of SparkCore.
  - 処理系
    - RDD & DAG, On-memory.
- Apache Kafka: 分散 MQ
  - Component
    - Producer
    - Broker
      - Topics の単位で処理をキューイング
    - Consumer
リアルタイム解析基盤について
- Kafka と Spark をつかったリアルタイム解析基盤
  - Data＞Kafka＞Spark＞RDB＞BI,Batch,API＞Kafkaに返す
  - Kafka をデータハブとして使う
- リアルタイム基盤ではキューが重要
  - キューによる処理系の分離ができる
    - データ
      - 多様なデータソース
      - 多彩なデータ
      - Sparkの障害から分離
    - Kafka
      - どんなデータでも一旦の終端になれる
    - Bigdata
      - Spark側はKafkaにのみ対応
      - データに合わせたロジック
      - 多様なデータソースの障害から分離 *キューをつかったストリーミングフロー制御
    - 処理を並べてフローを作成できる
  - キューを使った処理やアルゴリズムの検証
    - 同じデータから新たな処理を追加したい場合など
リアルタイム解析基盤の活用
- ログをKafkaにキューイング、Sparkで集計処理、Kafkaに返す
- 既存で HDFS/Hive をもっているときに SparkSQL が Hive の MetaStore を参照するようなインテグレーション例
- MLlib を利用した異常値の検知システム
- IoT の場合、大量書き込みが発生する、書き込み部分に HBase を使う事例
まとめ
- Sparkは利活用事例がこれからなサービス
DataPalooza が日本でも開催される
- サイエンティスト向けのイベント。
IBM の Hadoop Distribution
- Open Data Platform
- BigInsight
IBM は Spark に本気。
- IBMがApache Sparkプロジェクトに3500名を投入、未来に生きる道はオープンソースしかないと悟る | TechCrunch Japan

Apache Spark入門動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

posted with カエレバ

株式会社NTTデータ,猿田浩輔,土橋昌,吉田耕陽,佐々木徹,都築正宜翔泳社 2015-10-29

Amazon

楽天市場

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

devsumi2016 でわたしがとってきた他セッションのメモ

~~のちほど他のエントリを書いたら更新する予定です。~~ garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com

2016-02-18

失敗から学ぶデータ分析グループのチームマネジメント変遷〜のメモ

conference teammanagement bigdata datascience devsumi2016

今日（2016-02-18）のDevelopers Summit 2016 - Hack the Realでわたしが参加したセッションの中で一番タメになったセッション。

あるあるすぎる。

個人的には他にデータ絡みの組織活動で言うとデータガバナンスなども会社( Executive )からのサポートがないとまったくワークしないということを思っている。

今後、 Executive が会社の中におけるデータ関連の活動に理解がないと会社の継続そのものが難しくなっていくだろうという話にもつながるので、エンジニアよりむしろ経営層にこそ聞いてみて欲しかった内容。

では、メモを公開。本エントリのコンテンツは以下のとおり。

【18-D-3】データ分析グループのチームマネジメント変遷（ロングバージョン） / 中山ところてん氏 [Emotion Intelligence]

資料埋め込み

2015 秋の devsumi 版

devsumi2016 版

紹介されていた書籍

devsumi2016 でわたしがとってきた他セッションのメモ

以降よりがメモ。

【18-D-3】データ分析グループのチームマネジメント変遷（ロングバージョン） / 中山ところてん氏 [Emotion Intelligence]

タイトル改まってた→失敗から学ぶデータ分析グループのチームマネジメント変遷
@tokoroten
- 高機能雑用
  - EC データ分析、新規開発、営業
- ZenClerk というサービスを提供
  - リアルタイムでウェブ店舗に来店した顧客にクーポンを発行する
    - 機械学習でクーポンの最適配布をする
    - どのユーザにクーポンを渡すと売上が改善するかをリアルタイムに予測
      - クーポンを出されると買うユーザは誰なのか？
        
        人によってはクーポンを渡されると買うのをやめちゃう
2015秋のデブサミで LT で 15 分で話した内容の拡張版。
データ分析グループの仕事の範囲
- データ分析の流れ
  - 研究＞開発＞システム開発＞アプリ運用＞営業活動
  - データ分析グループ、アプリの運用でまれたログデータを解析改善活動を行っていくことでビジネスに活かす
  - 必然的にカバー範囲は研究からアプリ運用
データ分析グループの組成失敗例
- ex.1 データがないのにデータ分析しろ
  - 大企業はプロセスごとにプロセスがきれている
  - 会社の壁を超えてログデータを手に入れることが困難
  - しかし会社からはデータ分析しろという命令が
- ex.2 研究のための研究になってしまって、お金が儲からない
  難しい問題を難しく解くのは最終段階。
  - データサイエンティスト＝高学歴、研究者で採用
  - 雇ったら研究的な仕事しかしたがらない
  - 難しい問題を難しく解きたがる
  - 売上につながらない
- ex.3 組織の空中分解問題
  - 現場を改善するためにアナリストを雇う
  - 研究系とアナリスト系でデータ分析グループが空中分解する
  - 双方があいつら仕事してないといいあって対立
- ex.4 目の前の仕事におわれて本質的な仕事ができない
  - データ分析グループはスキルセット的に広範囲をカバー
  - エンジニアと営業の間に落ちた問題を拾う
  - SQL 叩いて Excel で集計するだけの簡単なお仕事
  - 同僚から感謝されるからやるが、本質的な仕事ができない
- ex.5 価値を生むコードとシステム安定稼働を生むコードの対立
  - データ分析グループが本来の領分で仕事をしようとすると、エンジニアの領分と重複
  - 言語や品質の面でエンジニアと対立
  - いくら分析をしても本番に導入することができない
- ex.6 データレイク不在問題
  - データ分析インフラに対する投資をしないで人を雇う
  - データ分析以外のところに多大な工数がかかる状態
  - データレイク（データ蓄積基盤＋データ処理基盤）の不在
- 何が問題なのか？
  - データ分析グループは新しく出来た組織形態
    - その運用方法を知ってる人が少ない
  - データ分析グループとはなにか？
    - 研究からアプリ運用まで一気通貫で PDCA
    - 他の職種の領域と重複する（これ重要）
      - これをわかってないとないと組織内で衝突が起こる
    - 膨大なデータを取り扱うためのシステム投資が必要
データ分析グループを正しく運用するには
- Exective のサポートが必要
  - カバー範囲の明確化
    - 会社としてデータ分析グループ範囲を明確にして周知する
    - データ分析グループにもこの範囲を意識させる
      - 難しい問題を難しく解くことが仕事ではない
- システム面のサポート
  - データへの自由なアクセス
  - ログ収集インフラ、データ分析インフラの構築
  - データ分析者のつくったコードがサービスに影響を与えないようにアーキテクチャを設計、エンジニアとの対立を解消
- 会社としての十分なお膳立てがなければワークしない
  - 個人でどうにかできるものではない
  - データ分析グループは空軍のようなもの、陸軍と協力しなければワークしない
Emotion Intelligence 社で起こった事例
- マネジメントの変遷
  - マネージメントなし
  - ペイオフマトリクス
  - ....
- 第一の失敗
  - マネジメント無し
    - データ分析者が会社全体の雑用になってしまった
      - エンジニアと営業の間に落ちた問題をひろってるだけになってしまった
    - ペイオフマトリクス
      e.g. 【経営トレンドワード】ペイオフマトリックス | 経営全般 | 経営プロ
      - あるタスクをコストとインパクトで分析
        
        タスクやアイデアをポスト・イットに書き出してマトリクス状に配置
        
        右上から機械的に作業していく
      - 元ネタ：日産脅威の会議
- 第二の失敗
  - データ分析グループとペイオフマトリクスは相性悪かった
    - 研究、開発、運用をひとつのチームでまわす
    - イノベーションのジレンマ
      - たとえ3人の組織であっても合理的に意思決定することでイノベーションのジレンマに陥ってしまった
        
        ゆえに新しいことができなくなった
  - 日産で上手く言っていたのは、管理職の意思決定がボトルネックだったから
    - 人的資源は豊富でタスクをこなせば前進した
    - ベンチャーは逆
      - 手数の少なさがボトルネック
      - ビジネスを成功させるにはアイデアが必要
  - グラフで分かるイノベーションのジレンマ（面白い、スライドみたい
- 第三の失敗
  - どうやって合理性を無視したらいいのか？＞三段ペイオフマトリクスの導入
    - 研究、開発、運用でペイオフマトリクスをつくって、右上にあるものから順番に処理
  - 最初は機能したが、研究にはられたものの、どうやって検証していいかわからないものは脇によけていった。
    - 要ブレークダウンのチケットが増えていった
      - よくよくみたらそれが会社のコアだった
  - イシューからはじめよ
    - 本質的な問題をときにいかなければならなかった
- 第四の失敗
  - Github Issue で本質的な問題を解決しようとしたら、みんながいろんなことをそこに書き込もうとしてしまった。
    - 自転車置き場の議論に陥った
  - 問題を解くには十分な思考時間と決断が必要、 Github Issue のフォーマットは向いてなかった
    - あれは Github BBS だった
  - メンタルモデルの違いからエンジニアとデータ分析者の対立
    - データ分析者
      - 打率をベースにビジネスを考える
    - エンジニア
      - 曖昧耐性が低い
        
        Ref. ゲーム開発素人集団がゲーム作り始めていつのまにか40倍の組織になっていた話 by DMM Tokyo-des on Prezi
  - 何が問題だったか？
    - Issue を考える人がいなかった
    - ボールを全員でおっかける小学生サッカーのようなことを会社としてやってしまった
    - 職種間の利害対立を調整する人の不在
      - フラット組織とデータ分析組織の相性が悪い
        
        フラットだと個人の対立になってしまう
  - どうしたのか？
    - 会社組織をフラットから普通のハイラキー組織に
    - フラット組織を反省する
      - ピザ二枚の理論のまま会社を大きくしてしまった
      - マネージメントしないことをフラット組織と呼んでしまった
    - データ分析内で人と役割を分けた
      - 新規系
      - 運用系
      - アプリケーション運用系
    - データレイクの構築
      - Redshift にサービスのDBをコピー、 Redshift で分析可能に
まとめ
- データ分析グループは研究、開発、運用を一気通貫で回してサービスを改善
  - 会社としてのサポートが必要
- イノベーションのジレンマはどこでもおきる
  - チーム内でもチーム間でもおきる
  - フラット組織はイノベーションのジレンマに容易に陥る
- 普通の会社になることは悪いことじゃない
  - イノベーションのジレンマの回避には十分な思考と決断が必要
  - データ分析グループの運用には適切な強権が必要