招待状がきたので #Hortonworks の「Hadoopと次世代・モダンデータアーキテクチャMDA」セミナーに参加してきました（前編）

おそらく以前に参加した某かのセミナーの関係で大分早くから「招待状」と題したメールが届いたので、今日は Hortonworks さんが主催する Hadoop and the Modern Data Architecture セミナーに参加してきました。

最近、タイトルに「招待状」っていれるの流行ってるんですかね、、、悪い気はしないですが、みんなに送ってるんだろうから微妙な気はしたんですが、にわかに日本での活動が活発になってきている Hortonworks の動向も気になるし、釣り針に釣られて行ってみた感じです、ハイ。
（正直、リッツカールトン東京での開催で朝・昼食がついてくるというのに釣られたというのもあります。）

事前告知のアジェンダは以下のとおりでした。（午後はビジネスと技術トラックに分かれていて、わたしは技術トラックを選びました）。
※ 今回、自分が公開するメモは午前中までを前編、午後を後編としています。

9:30-9:40am 開演のご挨拶

9:40-10:00am 次世代・モダンデータアーキテクチャMDA/データレイクへの道のり

10:00-10:20am YARN：Hadoopの概念を根底から変えた技術

10:20-10:40am YARN：デモ

10:40-10:50am MDA午前中セッションまとめ

10:50-11:15am スポンサーセッション（ Microsoft ）

11:15-11:35am カスタマーセッション（ Y! Japan ）

11:35-12:00pm スポンサーセッション（ TERADATA ）

12:00–1:00pm 昼食

1:00-1:40pm Hadoopセキュリティ

1:40-2:20pm Hadoop開発者の啓蒙

2:20-3:00pm Hadoopにおけるデータサイエンス

3:00-4:00pm カクテルレセプション

ダラダラ書くのもなんなので、先にわたし的な総括を書いてしまっておきます。
※言いたい放題言っている点は平にご容赦を・・・

今回のセミナーでは「釣り針デカいなぁ〜」ということを一番強く感じました。

そう思ったのは、今回のセミナーで繰り返されていた文言のような内容の繰り返しだったから、ですね。
嘘は言ってないと思いますがｗ釣り針はデカイなぁ、と。

YARN と HDP で Hadoop がみんなの手の届く存在になったよ。こわくないよ。簡単だよ。

Governance も Security も Operation も多種多様な企業の痒いところに手がとどくようになったよ

ちなみに Governance に関しては具体的な話はなかったですが
Security と Operation の話は具体的な話が午後の技術セッションでありました。
余談ですが、個人的には Bigdata で Governance を考慮という文言は時折聞きますが、具体的それを実現できるプロダクトっていうのは今のところこれというのにお目にかかったことはないんで、何かあるのかな、と思ったんですが、少なくともわたしが聞いた中ではでてきませんでした。

Hortonworks 余裕なのか？と思ったのは、あまりビジネスの話を午前中にしなかったこと。

どちらかというとスポンサーに今回ついてくれている企業の提供するプロダクト内部に HDP を提供したり、 Y! Japan との提携にみられるような大元、大手との契約に力をいれていて余裕があるのか、午前中では自分たちが何者なのかということ、 HDP で何ができるようになるのかの話はしてましたが、それ以外、サブスクリプションのサポート契約の話の類は一切してなかったので、抜けてるのか、余裕があるのかどっちなんだろ、と思ったりしました。

セミナーのストーリーとしてはすごくよく出来ていたように思いました。

YARN と HDP で Hadoop がみんなの手の届く存在になったよ。こわくないよ。簡単だよ。
と午前中に刷り込みしておいて、午後にその詳細として
Governance も Security も Operation も多種多様な企業の痒いところに手がとどくようになったよ
の詳細を詰めるという進行はなかなかストーリーとして一貫性があってよくできていたなぁ、とは思いましたね。

タブーなのかもしれないですが、競合との比較みたいなのがなかったのは物足りなかったですね。

Tez の話がもうすこし詳しく聞けたりするかなぁ、と思ったりもしてたんですが、それはなかったですね。

と、まあ、こんなところです。

では、午前中の各セッションのメモを以下に公開しておきます。

9:30-10:00am 開演のご挨拶および次世代・モダンデータアーキテクチャMDA/データレイクへの道のり

Sponsers
- actian
- bmc
- MS
- SAS
- TERADATA
- wanDISCO
Topic today
- Who we are, Hortonworks
  - 2011 設立
  - Y! の Hadoop Operatator
  - Hadoop Community Leader
  - 500 over employee
  - 顧客モメンタム
    - 300 人以上の顧客 (7四半期) 四半期ごとに 75 人以上の成長
      - Hadoop is still the growing business.
  - Hortonworks と大規模 Hadoop
    - 世界最大のクラスタで稼働中の HDP
      - e.g. Spotify
  - ミッション
    - 最新のデータアーキテクチャに原動力を与え世界中のデータの半分を処理する
  - Hortonworks のコミットメント
    - 戦略：企業向け Hadoop へのコミットメント
      - コアを革新する
        
        Hadoop コアでのアーキテクトとイノベーション
      - Hadoop を企業向けのデータプラットフォームとして拡張
        
        Governance, Security, Operation: 企業の機能との組み合わせ
      - エコシステムの可能性を引き出す
        
        みなに使える Hadoop
        
        共同エンジニアリング
        
        MS
        
        SAP
        
        TERADATA
        
        Pivotal
        
        etc....
      - すべて完全に OSSatu * コミュニティの力で企業を革新する
        
        コニュニティへの貢献の大きさをアピール
  - データは二年ごとに倍増している
    - 2020 年、デジタルユニバース 44ZB & Hadoop 市場 $50B
      - 機械が生み出すデータによるデータ増加の加速
  - ビッグデータ & Hadoop 市場ドライバと市場機会
    - ビジネスドライバ
      - 攻めの分析、顧客インタラクション
    - テクニカルドライバ
      - データの急激な伸び
    - 金融ドライバ
  - 守りから攻めに転じるには？
    - トランザクション後からではなく、決定以前へのシフトが必要
      - 広告なら個々へのターゲティングへ
      - 機械なら、故障する前にアラート
  - 既存のサイロがあたらしいデータ・ソースに圧迫されている
  - 最新のデータアーキテクチャのための企業目標
    - 構造化、非構造にかかわらずサイロ化データ・セットを統合
    - 顧客、製品、サプライチェーンの単一ビューを提供
    - 共有データセット上で、バッチ、インタラクティブ、リアルタイムアプリケーションを供給
    - ...
  - YARN と HDP によって最新のデータアーキテクチャが可能に
    - YARN が中心
    - HDP によって企業に必要な機能も追加
      - Governance
      - Security
      - Operation
        
        Simple to use
      - 製品化
  - Hadoop のキードライバー
    - 新しいアプローチによる分析
    - 投資の最適化、コスト削減
    - 最新のデータアーキテクチャを可能に
      - Financial company: need to store all historical data.
        
        Enable to realize more and more cheaper than the original Hadoop.
  - 新しいタイプのデータから新しいアプリを作成（の例、業界別)
    資料が公開されるならそちらをみたい
    - Financial
    - telecom
- Introduction Business and Technical
  - HDP による最新のデータアーキテクチャの構築
  - MS のビッグデータ活用基盤
  - Y! Japan ビッグデータ利活用

とてもゆっくりな英語で大変聴きやすかった。スライドは日本語。

10:00-10:20am YARN：Hadoopの概念を根底から変えた技術

Details about YARN
- How it came out.
はじめに (Very Biginning, for the beginning)
- 従来の Hadoop では Hadoop を早期導入した企業の大規模データへの対応を可能にするため
  - MR
    - 主にバッチを主眼
  - 単一目的のクラスタ、特定のデータセット
- しかし、
  - インタラクティブ、リアルタイムを統合する直接の方法がなかった
  - 限られた企業向けの機能
    - Operatoin, Security, Governance の課題
- MapReduce-279
  - About Resource Negotiation
    - memory
    - CPU
    - NW I/O
    - Hadoop Cluster itself
  - Hadoop 採用の増加と Usecase の増加に伴った新しいアプローチの必要性が高まった
    - 企業向けの Hadoop 時代のはじまり
      - 2013-10-23
        
        企業向けの Hadoop コアを
        
        batch, interactive, realtime と位置づけ
        
        YARN を設計、開発し、最新のデータアーキテクチャが可能に
    - YARN は根本から Hadoop を変えた (Not Just Batch)
      - 企業向けの Hadoop になること
        
        より多くのワークロード
        
        より多くのデータ
        
        より多くの価値
  - MDA と YARN が可能にした利点
    - batch processing is still been there though
      - Batch
        
        Pig
        
        Spark (in memory)
      - Interactive
        
        Hive -> Hive on Tez
        
        someday in the future, Hive will become also possible to query from Spark(?)
        
        For Excel user
        
        connecting Hive with ODBC
        
        Hortonworks believes that make Hive better everything will become better.
        
        Storm (realtime stream)
      - Realtime
        
        HBase
        
        Most of the their customer separate HBase cluster, but YARN enable us to run HBase on the same cluster.
      - said like,,,, All these things above run on top of YARN, will cover all requirement of any kind of the company demands/requirment (スキルセット、投資資源の活用).
    - 単一クラスタ、複数のワークロード
      - コンピュータリソースを最大限に利用 (TCO 削減)
      - スタンドアロンなし (サイロ化されたクラスタ)
      - シンプルな管理、 Operation
  - Hadoop は interactive 、 Realtime に対応している
    - トラック運送会社の事例 demo
      - ドライバーごとの運送状況をリアルタイム表示
      - JBOSS app on top of YARN
        
        Not just a batch only system
      - YARN で可能となった運送会社のアーキテクチャ
        
        Browzing app / MS Excel
        
        Inbound Messaging (Kafka)
        
        Interactive Query (Hive on Tez)
        
        Stream Processing (Storm)
        
        Realtime Serving (HBase)
        
        ALerts and Events (ActiveMQ)

こちらもゆっくりの英語で大変聴きやすかった。

10:50-11:15am MS の Bigdata 活用基盤次世代型 BI ソリューションによるビジネス価値

HDInsight の中で HDP を使用している
スモールスタートから支えるクラウド
- データが大量生成
- 生成されるデータからビジネスに貢献できる
  - 洞察 (insight) を得ることが重要
- Microsoft Azure, Power BI on top of Microsoft Cloud
分析のタイプ
MS はもともと強力な BI ツールをもってる = Excel
- 過去のデータを可視化 (Traditional BI)
  - セルフサービス BI (Power BI) : Excel
  - 定型レポート (SSRS)
- 過去から将来を予測
  - Machine Learining
    - Azure ML
洞察を得る
- 保有するデータを活用して機械学習モデルをトレーニングし洞察を得る
  - 不十分な顧客属性を利用して不明部分を補完
  - 特定の商品を購入しそうなターゲットを分類する
- トレーニング済みのモデルは Web Service から呼び出せるため既存のアプリケーションに統合可能
  - MS の機械学習はブラウザからすべて操作可能
  - API からの呼び出しも可能
Demo: Microsoft Azure ML
- 会場内で Azure 使ったことある人、ほとんどいなかった
- つくったモデルは、ワークフローを定義するような形でデータ加工を定義できる
  - MS が提供する Initial Model を使う分には Programming はいらない
    - 自分で作りたい場合は R language module を使う
- C#, Python, R でサンプルコードを生成できる
欠かせないポイント
- 保有するデータを素早く分析しやすい形に変換すること
  - Azure で使えるもの : HDIsight
    - HDP
    - Hadoop Job: C#, Java, .NET
    - Spark, R, Giraph, Solr
    - Apache Storm 利用可
    - HBase トランザクション機能搭載
    - DocumentDB 用の HadoopConnector 提供
- そして素早くデータを可視化する
  - そこには PowerBI が使用できる
    - 素早く可視化
    - 全社員で共有、を目的とした BI
  - Demo: PowerBI
    - Version Excel 2013 でないと使えない
    - POWER QUERY という機能を使う
      - さまざまなデータソースから直接データを取得することができる
        
        裏側に PowerPivot というインメモリエンジンを搭載しているとのこと
        
        もちろん Azure からも取得できる
    - POWER VIEW
      - Interactive にデータ可視化
    - Sharepoint を使って ActiveDirecotory を介してデータ共有
      - Sharepoint 上にデータをおくと自然言語での検索も可能に

11:15-11:35am Y! Japan のビッグデータ利活用 Hortonworks への期待

データ利活用、課題、そして Hortonworks への期待
今年で 20 年目の Y! Japan
- 17 期連続増収増益
- 広告がメインの事業
  - つづいて EC
- 最近ではアプリにも注力
  - カーナビ、キーボード
- 展開サービス 100 以上
  - それだけ多種多様なデータが集まってくるということ
    - 検索キーワード
    - Y! トピックス
    - Twitter
  - マルチデータカンパニーを標榜
- 50,000 access/sec 最大瞬間風速
- データに恵まれている、なのでいかにして利活用するか、が課題
ビッグデータを利活用する、とは？
- ユーザや市場をより良く理解すること
  - VDS にのっとって
    - 検索キーワードからニーズを読み込む例
    - AB テスト
    - 1to1 マーケティング : パーソナライズ
    - ニーズ発生場面での打ち手 : 検索キーワード補助
    - 取り組みの効果検証 : アクセス解析
      情報メッシュを細かく区切る
    - Y! Japan Bigdata Report
      景気予測、選挙結果予測
      Tweet など複合的なデータからの予測
技術的な課題
- スケール
  - データの量、発生頻度、多様性に対するスケーラビリティは計画可能
  - データに対する処理要求に対するスケーラビリティは確保が難しい
- コスト
  - 当然の通り ROI は高い方がいい
  - コストの指数関数的増加をいかにして抑えるかがポイント
- 一方で、ビッグデータ処理システムに求められる能力は指数関数的に増加している（独自試算）
  - なぜ？
    - サービス多様化
    - デバイス多様化
    - データ取得ポイントの詳細化
      - ワンアクションで取れるログの数がどんどん増える (タップ、スワイプ etc..)
そして Hortonworks との業務提携へ
- 自分たちだけでは追いつかない技術的課題を提携により解決
- そしてそれだけでなく共同で Hadoop の研究開発を実施していく予定

11:35-12:00pm そもそも Data Lake とは何か？ (TERADATA)

一般的な定義
- あらゆるデータを格納する
- モデル化されていない生データ (ETL 等は通じず。遅延型バインド)
- アクセス性とデータ統合の慢性的な問題を解決する
事前のデータモデリングやデータ統合は困難で、時間とコストが高くつく。それならばこれらで頭を悩ますべきではない？
データの定義
- 明示的であれ暗黙的であれ、いつでも常に、かならず最低ひとつのスキーマが存在する
  - Shcema on load : ロード時に定義するか
  - Schema on read : 活用時に定義するか
- e.g.
  - ガートナー：論理 DWH
  - Forrester : エンタープライズデータハブ
  - TERADATA : Unified Data Architecture
TERADATA が提唱する Data Lake は Unified Data Architecture
- データマートから Integrated DWH へ、そして Data Lake へ
- TERADATA Unified Data Architecture
  - 多種多様のデータソースと、分析ツールおよびアプリの間をつなぐ
    - Data Platform
      - アプライアンス
      - ここに Hortonworks (HDP)
    - Integrated DWH
      - Teradata Database
    - Integrated Discovery Platform
      - データがたまるだけでは価値は創出できない
      - たまったデータに対する探索型
      - Teradata Aster
    - Realtime Processing