#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築〜のメモ

今日(2018-02-18)のDevelopers Summit 2016 - Hack the Realで最後に参加したセッション。

個人でこれをやったのは着想がすばらしいなと思ってただただ感心したセッション。

本エントリのコンテンツは以下。

で、以下よりがメモ。

【18-B-5】Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築 / 野田 純一氏 [GMOインターネット]

  • @n428dev
    • Software Design 201511 号
    • ConoHa を使った Hadoop 事例
  • 目的
    • NHK NEWS WEB のつぶやきビッグデータをつくりたい
      • 3月でこの番組なくなる?つぶやきビッグデータも?!
  • Spark について
    • MR とは別のアプローチ、 DAG での並列分散処理
      • Job Scheduling Process
        • RDD Objects
        • Scheduler
      • ITPro の記事。 DAG と MR の違い
    • インメモリ
    • Hadoop ecosystem の一部として扱われるが Hadoop と直接な関係はない
  • Spark Streaming について
    • リアルタイムに流れてくるストリーム対する集計ができる
    • 直近一時間のツイート数を毎分集計する、直近3時間でアクセスが多いIPを集計するなどの、 WINDOW集計が可能になる
    • データソース
      • Kafka, Flume, HDFS/S3, Kinesis, Twitter > Spark Streaming > HDFS, DB, Dashboards
  • 検証サービス説明
    • Twitter > Spark Streaming > Mikasa, Ikazuchi
  • Spark Streaming を使用したオンライン Twitter 解析
    • ここはスライドを参照したい
      • Streaming
        • Twitter Streaming API
          • 400 までの検索キーワードが指定可能
        • Spark Streaming
          • kuromoji: 形態素解析
            • デフォルトの辞書にない情報は自分で追加する必要がある
          • ウィンドウ集計の活用
            • 直近 5 分
            • 直近 60 分
        • Apache Kafka
      • Recommendation
        • Kafka
          • Ruby
        • nginx
          • Data-Driven Document
        • Amazon Product Advertizing API
        • Trend Product Bot (Twitter account へ) @Akihabara_itso
    • 完全スタンドアロン構成 (Mac or Linux)
      • ZK
      • Kafka
      • nginx
      • GraphX
      • Spark Streaming
      • Spark
      • Ruby
      • Java
      • Scala
  • Demo.

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

関連リンク

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com

失敗から学ぶデータ分析グループのチームマネジメント変遷〜のメモ

今日(2016-02-18)のDevelopers Summit 2016 - Hack the Realでわたしが参加したセッションの中で一番タメになったセッション。

あるあるすぎる。

個人的には他にデータ絡みの組織活動で言うとデータガバナンスなども会社( Executive )からのサポートがないとまったくワークしないということを思っている。

今後、 Executive が会社の中におけるデータ関連の活動に理解がないと会社の継続そのものが難しくなっていくだろうという話にもつながるので、エンジニアよりむしろ経営層にこそ聞いてみて欲しかった内容。

では、メモを公開。本エントリのコンテンツは以下のとおり。

以降よりがメモ。

【18-D-3】データ分析グループのチームマネジメント変遷(ロングバージョン) / 中山ところてん氏 [Emotion Intelligence]

  • タイトル改まってた→失敗から学ぶデータ分析グループのチームマネジメント変遷
  • @tokoroten
    • 高機能雑用
      • EC データ分析、新規開発、営業
    • ZenClerk というサービスを提供
      • リアルタイムでウェブ店舗に来店した顧客にクーポンを発行する
        • 機械学習でクーポンの最適配布をする
        • どのユーザにクーポンを渡すと売上が改善するかをリアルタイムに予測
          • クーポンを出されると買うユーザは誰なのか?
            • 人によってはクーポンを渡されると買うのをやめちゃう
  • 2015秋のデブサミで LT で 15 分で話した内容の拡張版。
  • データ分析グループの仕事の範囲
    • データ分析の流れ
      • 研究>開発>システム開発>アプリ運用>営業活動
      • データ分析グループ、アプリの運用でまれたログデータを解析改善活動を行っていくことでビジネスに活かす
      • 必然的にカバー範囲は研究からアプリ運用
  • データ分析グループの組成失敗例
    • ex.1 データがないのにデータ分析しろ
      • 大企業はプロセスごとにプロセスがきれている
      • 会社の壁を超えてログデータを手に入れることが困難
      • しかし会社からはデータ分析しろという命令が
    • ex.2 研究のための研究になってしまって、お金が儲からない
      難しい問題を難しく解くのは最終段階
      • データサイエンティスト=高学歴、研究者で採用
      • 雇ったら研究的な仕事しかしたがらない
      • 難しい問題を難しく解きたがる
      • 売上につながらない
    • ex.3 組織の空中分解問題
      • 現場を改善するためにアナリストを雇う
      • 研究系とアナリスト系でデータ分析グループが空中分解する
      • 双方があいつら仕事してないといいあって対立
    • ex.4 目の前の仕事におわれて本質的な仕事ができない
      • データ分析グループはスキルセット的に広範囲をカバー
      • エンジニアと営業の間に落ちた問題を拾う
      • SQL 叩いて Excel で集計するだけの簡単なお仕事
      • 同僚から感謝されるからやるが、本質的な仕事ができない
    • ex.5 価値を生むコードとシステム安定稼働を生むコードの対立
      • データ分析グループが本来の領分で仕事をしようとすると、エンジニアの領分と重複
      • 言語や品質の面でエンジニアと対立
      • いくら分析をしても本番に導入することができない
    • ex.6 データレイク不在問題
      • データ分析インフラに対する投資をしないで人を雇う
      • データ分析以外のところに多大な工数がかかる状態
      • データレイク(データ蓄積基盤+データ処理基盤)の不在
    • 何が問題なのか?
      • データ分析グループは新しく出来た組織形態
        • その運用方法を知ってる人が少ない
      • データ分析グループとはなにか?
        • 研究からアプリ運用まで一気通貫で PDCA
        • 他の職種の領域と重複する(これ重要)
          • これをわかってないとないと組織内で衝突が起こる
        • 膨大なデータを取り扱うためのシステム投資が必要
  • データ分析グループを正しく運用するには
    • Exective のサポートが必要
      • カバー範囲の明確化
        • 会社としてデータ分析グループ範囲を明確にして周知する
        • データ分析グループにもこの範囲を意識させる
          • 難しい問題を難しく解くことが仕事ではない
    • システム面のサポート
      • データへの自由なアクセス
      • ログ収集インフラ、データ分析インフラの構築
      • データ分析者のつくったコードがサービスに影響を与えないようにアーキテクチャを設計、エンジニアとの対立を解消
    • 会社としての十分なお膳立てがなければワークしない
      • 個人でどうにかできるものではない
      • データ分析グループは空軍のようなもの、陸軍と協力しなければワークしない
  • Emotion Intelligence 社で起こった事例
    • マネジメントの変遷
      • マネージメントなし
      • ペイオフマトリクス
      • ....
    • 第一の失敗
      • マネジメント無し
        • データ分析者が会社全体の雑用になってしまった
          • エンジニアと営業の間に落ちた問題をひろってるだけになってしまった
        • ペイオフマトリクス
          e.g. 【経営トレンドワード】ペイオフマトリックス | 経営全般 | 経営プロ
          • あるタスクをコストとインパクトで分析
            • タスクやアイデアをポスト・イットに書き出してマトリクス状に配置
            • 右上から機械的に作業していく
          • 元ネタ:日産脅威の会議
    • 第二の失敗
      • データ分析グループとペイオフマトリクスは相性悪かった
        • 研究、開発、運用をひとつのチームでまわす
        • イノベーションのジレンマ
          • たとえ3人の組織であっても合理的に意思決定することでイノベーションのジレンマに陥ってしまった
            • ゆえに新しいことができなくなった
      • 日産で上手く言っていたのは、管理職の意思決定がボトルネックだったから
        • 人的資源は豊富でタスクをこなせば前進した
        • ベンチャーは逆
          • 手数の少なさがボトルネック
          • ビジネスを成功させるにはアイデアが必要
      • グラフで分かるイノベーションのジレンマ(面白い、スライドみたい
    • 第三の失敗
      • どうやって合理性を無視したらいいのか?>三段ペイオフマトリクスの導入
        • 研究、開発、運用でペイオフマトリクスをつくって、右上にあるものから順番に処理
      • 最初は機能したが、研究にはられたものの、どうやって検証していいかわからないものは脇によけていった。
        • 要ブレークダウンのチケットが増えていった
          • よくよくみたらそれが会社のコアだった
      • イシューからはじめよ
        • 本質的な問題をときにいかなければならなかった
    • 第四の失敗
      • Github Issue で本質的な問題を解決しようとしたら、みんながいろんなことをそこに書き込もうとしてしまった。
      • 問題を解くには十分な思考時間と決断が必要、 Github Issue のフォーマットは向いてなかった
        • あれは Github BBS だった
      • メンタルモデルの違いからエンジニアとデータ分析者の対立
      • 何が問題だったか?
        • Issue を考える人がいなかった
        • ボールを全員でおっかける小学生サッカーのようなことを会社としてやってしまった
        • 職種間の利害対立を調整する人の不在
          • フラット組織とデータ分析組織の相性が悪い
            • フラットだと個人の対立になってしまう
      • どうしたのか?
        • 会社組織をフラットから普通のハイラキー組織に
        • フラット組織を反省する
          • ピザ二枚の理論のまま会社を大きくしてしまった
          • マネージメントしないことをフラット組織と呼んでしまった
        • データ分析内で人と役割を分けた
          • 新規系
          • 運用系
          • アプリケーション運用系
        • データレイクの構築
          • Redshift にサービスのDBをコピー、 Redshift で分析可能に
  • まとめ
    • データ分析グループは研究、開発、運用を一気通貫で回してサービスを改善
      • 会社としてのサポートが必要
    • イノベーションのジレンマはどこでもおきる
      • チーム内でもチーム間でもおきる
      • フラット組織はイノベーションのジレンマに容易に陥る
    • 普通の会社になることは悪いことじゃない
      • イノベーションのジレンマの回避には十分な思考と決断が必要
      • データ分析グループの運用には適切な強権が必要

資料埋め込み

資料が公開されたらこちらに埋め込ませて頂く予定。

2015 秋の devsumi 版

devsumi2016 版

公開されているのを発見したら、埋め込ませていただこうと思っている。

紹介されていた書籍

devsumi2016 でわたしがとってきた他セッションのメモ

のちほど他のエントリを書いたら更新する予定です。 garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com garagekidztweetz.hatenablog.com

デジタルマーケティングから IoT まで話題てんこ盛りな #devsumi 2015 Autumn に行ってきた

そうそうたるメンバーが登壇されるようだったので、今日は事前登録していた devsumi 2015 Autumn に参加してきました。

並行して マーケター必見!業界のトレンドを一日で学べる MarkeZine Day 2015 Autumn をやっていた関係もあったのかデータ絡みといいつつマーケティングよりのセッションが集まっているのかと思っていたりしましたが、その実はきちんとマーケティングによらず広くデータに関連するトピックが集められていて、とても有用なカンファレンスだったな、と思いました。 個人的には、最近にわかに熱い SORACOM の話を聞けて大満足!

続きを読む

マイナビニュースITサミットの伊藤直也氏の特別講演がとてもよかった!

f:id:garage-kid:20140915211909p:plain

もうすでにご本人がスライドを公開されているので、蛇足感満載なのだけれども、先週の金曜日(2014-09-)マイナビ IT ニュースサミットに参加してきて、そこで伊藤直也( id:naoya )氏が講演されたセッションがとてもよかったので、わたしの感想とメモを公開しておきたいと思います。

続きを読む

#Talend さん主催のビッグデータ分析のためのデータウェアハウス最適化ノウハウセミナーに参加してきた

営業色の強い製品紹介セミナーだったので、個人的には特筆した新しい知見はなかったんですが、昨日 (2014-06-19) に Talend さんが主催する「ビッグデータ分析のためのデータウェアハウス最適化ノウハウ」セミナーに参加してきたので、そのメモを公開しておこうと思います。
(少しあとで直したりしていきます。)

続きを読む

TERADATA さん主催の Big Analytics 2013 Roadshow に参加してきました

今日は、 TERADATA さん主催の Big Analytics 2013 Roadshow に参加してきました。
写真および収録禁止だったのが残念でしたが、とても興味深い話をきけたよいカンファレンスでした。基本的に全てのセッションにセールストークが入っていましたが、わたしは特に「ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐」というセッションがよかったと思います。

【開催概要】

  • 2013年 9月10日(火) 13:00〜19:00 (受付開始・ランチサービス 12:00 -)
  • シェラトン都ホテル東京 B2F バンケットルーム
  • 〒108-8640 東京都 東京都港区白金台1-1-50 (東京)
  • 03-3447-3111(代表)
    • 東京メトロ南北線・都営三田線 「白金台駅」 から徒歩約4分 (2番出口より左へ直進)
    • 東京メトロ南北線・都営三田線 「白金高輪駅」 から徒歩約5分 (1番出口より左方面)

参考:Big Analytics 2013 Roadshow - 【日本テラデータ株式会社】

ちなみにアジェンダは以下のとおりでした。

【アジェンダ】

  • 12:00 - 13:00 受付開始/展示ホール オープン - ご昼食(ビュッフェ)をご用意しています -
  • 13:00 - 13:10 ご挨拶 日本テラデータ株式会社 
  • 13:10 - 14:10【基調講演】ビッグデータのトレンド、アルゴリズムの争い、そして今後予想されるアプリケーションとは
  • 14:10 - 14:50 ビジネスに必要とされる「アート」と「サイエンス」‐ビジネス価値を高め、競合の優位性を生むビジネス・ディスカバリーとは‐
  • 14:50 - 15:05 休憩
  • 15:05 - 15:45 ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐
  • 15:45 - 16:15 ビッグデータ・アーキテクチャにおける Apache Hadoop の役割
  • 16:15- 16:30 休憩
  • 16 :30 - 17:15【ユーザー事例】マーケティングにおけるビッグデータ活用‐ かつてないスケールの情報をどう扱うか –
  • 17 :15 - 18:00【パネルディスカッション】テーマ: 企業におけるビッグデータの活用について考える

では、以降より、わたしのとったメモを公開しておきたいと思います。

13:00 - 13:10 ご挨拶 日本テラデータ株式会社

  • バズワードと言われてずいぶん久しくなり国内においてもビッグデータ活用の大きな効果を予測している
  • ビッグデータの知見を参加者によりひろめてほしい

*****

  • ビッグデータについての振り返り
  • その定義は?
  • 分析の対象としずらかった音声・映像、画像、テキスト、Webソーシャル、マシンログ・センサーログ
  • 大量・多構造のデータを分析の対象にできるようになった

*****

  • あらゆるユーザが活用できるビッグデータ分析環境を最小コストで実装するためには、データ収集・蓄積・加工から分析、そして業務への適用を最適なテクノロジーで行うことが必要

*****

  • Tera data では
  • 収集・加工は Hadoop
  • 分析は Aster を提案している
  • その基板となるのが TERADATA UNIFIED DATA ARCHITECTURE (UDA)
  • Hadoop, Aster, TERADATA を有機的に統合し、透過的シームレスなデータ・アクセスとデータ移動を実現

13:10 - 14:10【基調講演】ビッグデータのトレンド、アルゴリズムの争い、そして今後予想されるアプリケーションとは

Speakers: Mike Gualtieri, Principal Analyst Forrester Research @mgualtieri

すでにビッグデータを持っているのは強みですが、どのように活用するのかが重要です。 詳細に解析してまったく新しい知識や予測モデルを識別し、賢い意思決定、リスク軽減、画期的なカスタマー・エクスペリエンスの提供を行う必要があります。 知識や予測モデルを識別するためのアルゴリズムを最大限活用できる、高度で強力なアナリティクス・プラットフォームがなければこれは不可能なことです。 Forresterのプリンシパル・アナリスト、Mike Gualtieri氏が成功のために必要な4つのトレンドを説明します。

  • これは資料が配布されていた(印刷だけど)

*****

  • データに関する 4 つのトレンドの話

*****

  • ひとつ目のトレンド、 #Bigdata
  • 注目されるビッグデータ、70%がビッグデータに取り組んでいる
  • ビッグデータの定義はしていないが、なんらかこのワードに関連することを取り組んでいるのが 70%

*****

  • ビッグデータは企業の経営、意思決定、リスク軽減、顧客へのサービス提供のために必要なすべてのデータの保存、処理、アクセス能力の最たるもの

*****

  • Welcome to 23andMe - 23andMe
  • というサービスの紹介。 DeNA の解析。
  • つばをはいてそれを送り返す。
  • データそのもののサイズは 700MB だが遺伝子のパターンは何億通り
  • 量だけでビッグデータかそうでないかを論じるのは早計

*****

  • Bigdata++
  • ビッグデータとは手持ちのすべてのデータ++を意味する
  • 手持ちのデータとは?
  • 構造化テキスト:スキーマ記述データ, RDB, XML etc...
  • 非構造化テキスト:自由形式のテキスト, email, document, tweet etc...
  • バイナリ:オーディオ・画像・ビデオ

*****

  • 企業のデータは膨大でますます量が増えているわけだが、分析に活用できているのはたったの 12% と言われている

*****

  • 企業はデータ収集に勤しみつつ、低コストな分析のソリューションを探している

*****

  • データ++によって手持ちのデータが充実する(データ++ はスピーカーの造語のようだ)

*****

  • ビッグデータアーキテクチャは3つの主要な機能をサポートする必要がある
    • 保存:手持ちの data++ をすべて保存できるのか
    • 演算:データのクレンジング、エンリッチング
    • アクセス

*****

  • では、 Hadoop について話そう
  • Hadoop =ビッグデータではない
  • ビッグデータは単一のツールや技術を指すものではない

*****

  • 2つ目のトレンドは Discovery
  • 予測分析によって、ディスカバリが大幅に強化される
  • 機械学習、データマイニングもその一部
  • 予測分析によって、目に見えない知識や、予測モデルを検出できる
  • (レポート機能<解析<監視<予測)

*****

  • データの価値は均一ではないわけだがどうやって見分ければいいのか?
  • Hadoop が人気があるのはとりあえず放り込んでおくができるから
  • 十分なデータが蓄積されているならば、どのデータがホットでどのデータがコールドなのか予測分析が明らかにする
  • (BI が関連性のあるデータを見極めるのに対して、予測分析はデータに対してアルゴリズムを実行してモデルを検出する)
  • ちなみに BI と予測分析、どちらが優秀という話ではない、結局どちらも必要ではあるというスピーカーの意見。

*****

  • データサイエンティストがアルゴリズムを提供して予測モデルを特定するということになる
    • BI アナリスト:レポート
    • 統計担当者:統計情報
    • データサイエンティスト:機械学習

*****

  • データサイエンティストは Discovery に関する統計および機械学習アルゴリズムを使用する

*****

  • 実際の事例 (Target)
  • その人に最適なクーポンを30%多くの顧客に配布するためにはどうしたらよいか?
  • 娘が妊娠しているのを父親は知らなかったけど、Targetは予測してしまったという例

*****

  • 他の事例
  • 重要な社員の離職を食い止めるにはどうしたらよいのか?
  • 病気を予防、または治癒させる分子はどうすれば発見できるのか?
  • 個別化された、最適な、おすすめの製品を提示するには? (Netflix)
  • 顧客の使う金額の予測(Tesco)
  • 不正検出
  • 選挙活動(アップリフトマーケティングという手法)

*****

  • 3つ目のトレンド、 #DataScience
  • データサイエンティストは民主的でなければならない
  • 専門家の偏った見方を覆すこともできる(うつ病理解の例)
  • (予想に反して、客観的な医療判断が効果があり、

*****

  • データサイエンティストのスキル
  • ベースは数学
  • そして、統計、コンピュータサイエンス
  • ビジネス、サイエンス、エンジニアリング
  • そして、好奇心、
  • そしてトップに、クリエイティビティ

*****

  • ちなみにデータサイエンティストのためのツールがあれば、データ分析のライフサイクルは凝縮されよりスピードアップできるだろう

*****

  • 4つ目のトレンドは #Royalty の話
  • 顧客は個別対応をしてもらいたいと切望している
  • つまり企業は顧客のことをよりしらないといけないということ。
  • そしてそのためには、多くの情報が必要であることは言わずもがな
  • ビッグデータから、リアルタイムの知見を得る、デジタルおよび小売チャネルとの統合が必要

***

  • 個人データには4種類
  • 個人を特定するデータ、動作データ、派生データ、自己識別データ
  • 信頼を獲得する必要がある
  • 優れた執事の主な職務には裁量というものが含まれている(つまり一線を越えてはいけないわけだが、それを正しく判断できるということ)
  • 小さな実験をして、反応をみることをしているのが facebook や eBay がやってること (AB testing)

***

  • 予測アプリケーションはデジタル環境の混乱をもっとも論理的で必要不可欠な極限に到達させる

*****

  • まとめ
  • ビッグデータはイノベーションだが、活用しなければイノベーションは生まれない

14:10 - 14:50 ビジネスに必要とされる「アート」と「サイエンス」‐ビジネス価値を高め、競合の優位性を生むビジネス・ディスカバリーとは‐

Speakers: Mayank Bawa, Co-President TERADATA Aster, TERADATA Corporation

ビジネス・ディスカバリーとは、ただ大量のデータを分析することではなく、従来のテクノロジーではなし得なかったような複雑な分析を、より多くの種類のデータに対して行うことでもらたらされる「気づき」です。
このセッションでは、すべてのビジネスユーザーやアナリストが、次のアクションにつながる知見を得て、結果をもたらす方法をご紹介します。それはつまり、「サイエンス(データに基づく分析)」をどのように、ビジネスにおける「アート(状況や勘に基ずく判断)」と融合させるかということです。
すべての業界において存在する、デジタルマーケティングの最適化や、ソーシャル・ネットワーク分析による収益の改善などの具体的な例を用いて、ビッグデータの発見・分析がもたらす機会についてご紹介します。

  • ビッグデータの衝撃
  • より好ましい成果をあげるためにビジネスへ与える影響力

*****

  • ディスカバリーによって影響力が生まれる
  • パターン発見

*****

  • いったんパターンがみつかるとビジネスバリューへとつながる
  • ウェルス・ファーゴ銀行を引き合いにだして
  • 自動車メーカー

*****

  • ディスカバリーを加速することができるか?
  • 生産性の高い予測はどのように実現できるのか?
  • それは TERADATA Aster が実現する

*****

  • ディスカバリーにはプロセスがある
  • データ取得>データ準備>分析>可視化
  • どのようなディスカバリーエンジンをつくればこのプロセスを最速で実現できるか? (Aster ならできるといてる)

*****

  • ディスカバリープロセスの要件
  • あらゆる種類のデータ
  • あらゆる種類のアナリティクス
  • あらゆる種類のエンタープライズユーザー
  • そして、高速な探索
  • (それが Aster だといいたいわけですね)

*****

  • あらゆる種類のデータ、あらゆる種類のアナリティクスの話
  • ✔複数のデータ・セットを同時に活用することによって新たな発見をする
  • (ソーシャルグラフ x メッセージストリング で 影響度マトリクスになる、など)
  • 組み合わせの分析によって、発見できる結果がふえる
  • カナダの企業、通信業界における顧客離反率の予測モデルを作った、その例のはなし

*****

  • エンタープライズユーザについて (3つの層)
  • パワーユーザには Work bench, IDE, lib が必要
  • セルフサービスユーザには BI
  • サービス提供が必要なユーザにはアプリケーションが必要

*****

  • 高速な探索の話
  • アナリティクスだけにフォーカスするのだけではなくディスカバリーのプロセス全てに注意を払う必要がある
  • (Aster はそうだといっている)

*****

  • Aster Data Platform
  • 離反分析: SQL + 統計分析 + パス分析 + テキスト分析
  • 不正検出分析: SQL + 統計分析 + グラフ分析
  • デジタルマーケティング分析: SQL + 統計分析 + パス分析 + テイスト分析 + グラフ分析
  • などなど

*****

  • 離反分析の例:時間 + 統計
  • Discover Time Series Pattern -> Statistics to Validate Patterns -> Filter + Score

*****

  • 実証済みのディスカバリー・メソドロジー
  • 最も包括的なディスカバリープラットフォーム
  • ディスカバリーのベスト・プラクティス
  • の2つの歯車で
  • 確立したディスカバリーエコシステム
  • の大きな歯車を回す

*****

  • TERADATA Unified Data Architecture の紹介
  • Ater (データディスカバリー) x Hadoop (collect,store,process) x TERADATA (統合 DWH)

*****

  • 完全なオープンスタック
  • Horton Works とも密な連携をとっているということを強調
  • spotfire etc...

*****

  • ひとりごと:Churn って離反って意味に使えたのか Churn Potential で離反の可能性

15:05 - 15:45 ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐

Speakers: Bill Doyle, Vice President Channel Sales & Business Development, Tibco Software

ビッグデータに隠されている知見を理解することは、そこから価値を得るための最初の一歩に過ぎません。速度と可変性をもったビッグデータが溢れる中で、意味のあるアクションを起こすまでのタイムフレームは今までになく短くなっています。適切なタイミングで、正しい情報を掴み、それに基づいて先制したアクションを起こす能力は、確実に今日のビジネス価値と競争優位性をけん引するものとなっているのです。
このセッションでは、膨大なビッグデータのリアルタイムな活用と、それらがもたらす特有の機会と活用プロセスをご紹介します。

  • こちらも手元に印刷した資料が配布されていた。このセッションが一番おもしろかった。まさに鉄は熱いうちに打てという内容。

*****

  • Value にフォーカスしたプレゼンテーションとのこと

*****

  • トランザクションからインタラクションまで
  • ERP < CRM < WEB < BIGDATA

*****

  • 砂金集めの写真を見ながら。
  • もしかしたら、その川には金以外にもお宝があったかもしれないが、金にフォーカスしていたから見つけられなかった
  • 何かひとつだけを見つけることにフォーカスしていてはダメだという例

*****

  • ビッグデータは新たなアプローチを必要としている
  • すべてをキャプチャしているが、必要な情報はわからない

*****

  • インサイトがアクションに結びつかなければ何の価値もない
  • 測定>診断>予測と最適化>オペレーション化>自動化>トランスフォーム (変革)

*****

  • Data at rest (過去の蓄積データ) と Data in motion (今起きていること、リアルタイム)
  • いかにして Data in motion を活用するか?

*****

  • ✔データに価値がある間にアクションが必要だということ
  • ✔意思決定をどれだけ短いスパンの中でやれるようにするかということの重要性
  • ✔イベント処理によりアクションが迅速になり、ビジネスバリューが高まる
  • (遠出したさきで買い物をした客に、家についてからクーポンを配信しても意味が無いといったこと✔)

*****

  • イベント処理の使用事例
  • トランザクション
  • ルール
  • コンテキスト
  • そして、相関
  • (オーソライゼーション、支払い処理、モバイル支払い、サービス・アクティベーション ... )

*****

  • ここでもでてきた coorelate という言葉
  • パターンを見出して、次にいつ何が発生するかということを予測する

*****

  • これを spotfire のフレームワークにのせて説明
  • 非構造のデータ処理>ビッグデータストレージ(Hadoop)>DWH(TERADATA, Aster)>統計エンジン(R, Aster)>リアルタイムイベント(spotfireはここだと) (右にいくほど data in motion)

*****

  • これはあとで動画のリンクをはっておきたい

*****

  • キャプチャ(hadoop)>理解(spotfire, Aster, TERADATA)>モデル(R, spotfire, TERADATA, Aster)>予期(spotfire)でひとつのサイクル
  • 予期>意思決定(TIBCO)>アクション(TIBCO)>モニタリング(spotfire, TERADATA)でまたひとつのサイクル

*****

  • なにより重要なのは、これを実現は現状の技術で全然可能だということだ!

15:45 - 16:15 ビッグデータ・アーキテクチャにおける Apache Hadoop の役割

Speakers: John Kreisa, Vice President VP Strategic Marketing, Hortonworks @marked_man

Apache Hadoopは急激に進化し、ビッグデータ管理・処理のための主要なプラットフォームとなっています。もしあなたの組織において、データの蓄積、保存、変換、そして膨大な多構造化データの加工のためにどのようにHadoopを使おうか試しているのであれば、是非このセッションに参加ください。このセッションでは、以下についてご紹介します。
・"ビッグデータ"の台頭と、それが導き出すビジネスの価値と機会
・Apache Hadoopの進化と今後の動向
・Hadoop によるプラットフォームに必要とされる重要なコンポーネントについて
・Hadoop と既存のデータウェアハウス・プラットフォームの統合ソリューション・アーキテクチャ

  • ビッグデータの市場トレンドと予測

***

  • IDC の予測
  • 2010-2020 で x50
  • 85% は新しい種類のデータになるだろう
  • 40ZB のデータ
  • マシン生成データの量が x15 になるだろう (センサーログなど)

***

  • Gartnerの数字
  • 最新の情報管理システムを利用した組織は競合よりも優位に立つ割合は 20%

*****
新たな種類のデータにビジネスチャンスがある

  • センチメント
  • クリックストリーム (Webサイトの訪問者の足あと分析)
  • センサー・マシン (リモートセンサーとマシンから流れるデータのパターンを自動的に発見)
  • 位置情報
  • サーバーログ (異常診断、セキュリティ)
  • 非構造化データ (テキスト、ビデオ、画像等)
  • そして既存のデータを長期間保存も可能 (hadoop などを利用し)

*****

  • 新しいデータソースが登場してきたことにより、従来のアーキテクチャには様々なプレッシャー (性能、コスト etc...)
  • Hadoop はその既存のアーキテクチャに新しい能力を与えてくれるものだと考えればよい

*****

  • JP Morgan の Larry Feinsmith
  • Hadoop を既存の IT 投資と統合することが非常に重要
  • (直にきいていたかも・・・)

*****

  • つまり、既存ツールとの相互運用が大事だということ
  • そこで Horton Works の出番というわけ
  • Horton Works なら TERADATA や Aster と統合できるで!
  • 既存のスキルを活用し、よりスケーラブルによりスピーディーに価値を創出できるようになる
  • TERADATA の Unified Architecture は Horton Works の考えと激しく一致する

*****

  • Horton Works と TERADATA の統合ポイント
    • ポイント1
      • HCatalog - TERADATA SQL-H
      • Sqoop/Hive(export) - TDCH(load)
    • ポイント2
      • TERADATA viewpoint, TERADATA TVI

*****

  • 話はすこし変わって、新規適用分野への Hadoop の適用
  • すべてのデータをインフラストラクチャ - データの湖に放り込む
  • そこから、パッケージおよびカスタムの分析アプリケーションを構築する

*****

  • 20 企業での Apache Hadoop の利用事例
  • 金融、通信、小売、製造
  • もはや Hadoop を導入しない業界はないといっても過言ではない
  • (金融サービスでいえばサーバログを収集・蓄積・分析し、不正分析に活かす)

*****

  • 360度の顧客に関する視界を確保した例
  • ソーシャルメディアフィード、マシンデータ (クリックストリームとモバイル)、気象データフィード、競合データ、リアルタイム在庫データ
  • そこから顧客プロファイリング

*****

  • HDP の紹介
  • Hadoop は単体ではなく、周辺プロダクト全体のエコシステムとして機能していることを知ることが重要
  • そして、 Horton Works はそのエコシステム全体に影響力をもっているんやで、と。

*****

  • TERADATA と Horton Works の連携は強固だと強調
  • Hadoop 用の TERADATA ポートフォリオ

*****

  • Horton Works における Enterprise Hadoop への取り組み
  • エンタープライズ要件を把握し、パブリック・ドメインに取り入れ
  • コミュニティーと協力してOSSプロジェクトを推進、育成
  • エンタープライズの厳格な基準を適用、最も安定し、信頼性が高いディストリビューションを提供

16 :30 - 17:15 【ユーザー事例】マーケティングにおけるビッグデータ活用‐ かつてないスケールの情報をどう扱うか-

Speakers: Suresh Pillai, Head of Internet Marketing Analytics eBay International AG

・データ: eBayにおけるそれは、ずっと重要(BIG)な問題
・簡単ではないアトリビューション・モデルの構築
・マルチクリック・ユニバースとリアルタイム入札:そのマトリックスがここに

  • eBay について
  • 先日、 18 年目を迎えた 1995 に創業
  • 1億人のActiveユーザ
  • 686億ドルの2011取引総額 $2,100/sec 取引
  • 26min に一回フォード・マスタングが売れている

***

  • ウォーレン・バフェットとのランチはいかが?
  • 346万ドルで売れた (2012?)、最後の数秒で入札価格は一気に3倍に

***

  • イリノイ州の形をしたコーンフレークはいくら?
  • 1,350ドル

*****

  • 一日に 50TB の新しいデータ
  • 2.6 兆のテーブルデータ (最大規模のテーブルの話)

*****

  • では、データプラットフォームはどうなっているのか?
  • 構造化 SQL : EDW
  • 非構造化 SQL++ ;
  • 非構造化 Java/C : Hadoop

*****

  • では、マーケテイングはどうか
  • 村の市場を例に
  • 外から人を呼び込む
  • それは、インターネットマーケティングも変わらない
  • トラフィックをサイトに呼び込む
  • (オーガニック検索、ポータル、ソーシャル、アフィリエイト、ディスプレイ、検索広告)

*****

  • 相関関係=データの爆発的増加
  • eBayの2つの要素
  • クリック(サイト外の IM 行動) とコンバージョン (サイト内の ROI)
  • ここれでも correlation

*****

  • 購入:最後のクリックが勝利
  • 購入へのパスが多くの興味深いデータとなる

*****

  • アトリビューション・トイ・モデルのテストを実施
  1. 最後のクリック
  2. 最初のクリック
  3. 均一
  4. 指数関数的減衰
  5. 対数的減衰
  6. 冪乗則減衰
  7. 開始・影響・最終決定
  8. ランダムなアトリビューション
  • 最後のクリックを導き出した、チャネルはなんだったのか?

参考:Toy model - Wikipedia, the free encyclopedia

*****

  • Adhoc Simple Model
  • おおまかにみるとモデル間の違いはない (5%未満の違い)
  • ランダム・アトリビューションの場合、これより悪い結果はでない
  • すべての行動をカプセル化できるシンプルなルールはない

*****

  • クリックレベルに至る把握が必要
  • 完全なパス履歴を利用したデータマイニング

*****

  • 予測モデルの例
  • マイクロターゲティング
  • 課題:クリックレベルから全体的な洞察を獲得する

*****

  • データを理解するにはいくつかのレベルがある
    • 戦略レベル (strategic level) 予算
    • 戦術レベル (tactical level) チャネルがインタラクティブかどうか
    • 予測レベル (predictive level) 顧客行動、ターゲティング
  • それぞれのレベルでことなる知見が必要だということを理解することが重要
  • そしてそれぞれにそれぞれ固有のルール、ことなる共通言語
  • 矛盾するようだが、ローレベルからデータ分析すると失敗する(?) ハイレベルのことを理解しつつローレベルに落としていく必要がある。
  • 車が動く仕組みはしらなくても、車が運転できるといった論理らしい。

*****

  • RTB (リアルタイム入札)でのディスプレイ広告の例
  • どういう人か知っている人用のモデルと、まったくの未知の人用のモデル

*****

  • まとめ
    • データとは我々の DNA の一部だ

17 :15 - 18:00【パネルディスカッション】テーマ: 企業におけるビッグデータの活用について考える

Speakers:
Mayank Bawa, TERADATA Corporation
Bill Doyle, Tibco Software
Mike Gualtieri, Forrester Research
John Kreisa, Hortonworks
Suresh Pillai, eBay International AG

モデレーター:Dr. Judy Bayer, TERADATA Corporation
 ・新しい知見を得て、ビジネスにどう使うか
 ・欧米先進企業から学ぶビッグデータ活用の最前線
 ・新しいテクノロジーを導入する際のポイント

  • ビジネス上のアナリティクスの成功事例を教えてくれる?
    • 予測分析以外で言うと、集めてプロセスする、 Hadoop を使った事例。銀行で規制順守のためなどにレポートを分析しなければいけなくなった。こういう非構造化データを分析するのに Hadoop が役だった。
    • 10年くらい前の話、エンロン事件。フォレンジックを実行してみた。しかし予測できなかった。50TBのemailを解析した。キーワードを探した。今ならそれをリアルタイムで spotfire などをつかえばリアルタイムに検知できるだろう
    • 病院の事例、患者の治療を分析する。どういう傾向の患者にどういう対処をしてあげると効果的なのか。(患者の動きと職員の対応をトラッキングした事例)

*****

  • ビッグデータとエンタープライズDWHを統合することが重要なのはなぜか?
    • ここ15年はいろんなデータ分析の手法が洗練されてきて、その結果がエンタープライズの場面に取り込まれてきた。そのプロセスは今後もビッグデータ関係なく続けられるべき。データを活用するためには、データは分散されてあちこちに散在するべきではない。その意味で、ビッグデータとエンタープライズDWHは統合されるべき

*****

  • 課題は?
    • 今は、組織がサイロ化しているため、データもサイロ化しがち
    • 予測モデルにもレベルがあるので、各レベルの人材が協力できないといけない

*****

  • データサイエンティストに必要なスキルは?
    • 数学、統計、 SQL 、コンピュータサイエンスも不可欠
    • モデル構築の制約を理解すること (アルゴリズムを走らせるだけではないということを知るべき)
    • ユニコーンみたいなもんじゃないすか? (とてもみつけるのが難しい) Horton Works でも 1,2 人しかいない
    • 1 人でみつけるというのは本当に難しい
    • 仮にデータサイエンティストを雇ったなら、最初に組ませるのは、データの統合をやっているエンジニアと組ませるのがいいだろう (なぜなら、アサインされてもすぐには分析はできず、最初にはデータモデルの理解をするところからはじえないといけないから)
    • 最終的にはだれでもデータサイエンティストになれる (というかデータサイエンティストがいらないようにすること) がベンダーのすべきことだと思っている
    • ツールの進化は進むだろう

*****

  • Linkdedin の人のプレゼンにあった最後に必要なのは熱心さだと言っていたが、今はツールの進化もあるのね、と。

*****

  • コラボラティブ・アナリティクスというトレンドはあるか?
    • 同じアナリティクスのワークフローを共有できるようにする。実際に2人の人間が対話しているかのように分析できる。といったような考え。
    • 大学でも研究が進んでいるらしい。

参考: Collaborative Analytics: Creating Value for the Enterprise

*****

  • データサイエンティストは組織の中でどういった行動をとるべきか
    • 個人として各業務部門に配置されるモデル
    • もうひとつはアナリティクス専門のモデルをつくる
    • eBay の場合は、アナリティクスの部門はあるが、さらにひとりひとりが専門の業務部門をもつようになっている
    • 業種特有のデータサイエンティストは必要だという意見

*****

  • データサイエンティストの役割とは?
    • データの解釈を誰にでも分かる形で説明できる人でなければならない (役割じゃないんだが...)

*****

  • データ志向の意思決定は必要な一方で、クリエイティビティ (想像力) による意思決定を捨てていいというわけではない。
  • データの解釈をするのを怖がってもいけない。

*****

  • アナリスト (データサイエンティスト) を孤立させてはいけない。

*****

  • ETW と BigData は共存すべき (これは今日共通した意見のようだ) 要件によって使い分けるべきという理由で。

*****

  • Fail Fast について
    • 早く実験をできれば、その結果をすぐ知れる、それが Fail Fast だよね
    • 何が支障になるか?
    • データリサーチという予算をとるべき (目標も目的ももちろんある前提)
    • Customer Insight の一環としてするべきで、それ単体で ROI を求めるべきではない
    • Executive のサポートは不可欠
    • 実験場として Data Sandbox のようなものが必要だろう (本番と同じデータをもっている前提があるとおもうがその言及はなかった)
    • 実験のための支出を失敗と考えるべきではないし、調査の結果がうまくいかなかったとしても、うまくいかなかったということそのものが知見と考えるべき。

*****

  • ビッグデータは混乱をきたすものか?
    • 混乱をきたすものだ (ビジネスを次のレベルに引き上げるだけの力があるという意味で)
    • これまでの間違いをデータを新たに取得、分析できるようになったことで正せた、こういう状況を混乱と呼んでいるらしい (ひねくれてるな)

*****

  • 企業に対してのアドバイス、最初のビッグデータプロジェクトをやるならば?
    • 分析したら何か答えがすぐにでる、というのは誤解 (チェスのようなものだと思ってほしいらしい)。ただアルゴリズムを走らせてみればいいのではなく、クリエイティビティを働かせなければならない。
    • 過去のやり方を忘れる、ということがクリエイティビティだというニュアンスで使っている

*****

  • ビッグデータのプロジェクトをはじめるなら今が好機 (もはやそれがフツーになりつつあるとは思うが)

*****

  • データの取扱について、とくに個人情報の取扱について
    • その国の法に準拠すべき
    • まずは少しだけだすのも一手、そして反応をみる。これ鉄則。
    • その情報を提供してもらったことによって得られる価値を明示する。
    • 余談:例えば、国と Google 、自分の個人情報をもってもらうとしたら、わたしは Google に持ってもらいたい。なぜなら Google は自分に対して何もできないから (そんなことはないとおもうが)

では、今日はこんなところで。

こちらもあわせてどうぞ