2013-09-10

TERADATA さん主催の Big Analytics 2013 Roadshow に参加してきました

今日は、 TERADATA さん主催の Big Analytics 2013 Roadshow に参加してきました。
写真および収録禁止だったのが残念でしたが、とても興味深い話をきけたよいカンファレンスでした。基本的に全てのセッションにセールストークが入っていましたが、わたしは特に「ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐」というセッションがよかったと思います。

【開催概要】

2013年 9月10日(火) 13:00〜19:00　（受付開始・ランチサービス 12:00 -）

シェラトン都ホテル東京 B2F バンケットルーム

〒108-8640 東京都東京都港区白金台1-1-50 （東京）

03-3447-3111（代表）

東京メトロ南北線・都営三田線　「白金台駅」から徒歩約4分　（2番出口より左へ直進）

東京メトロ南北線・都営三田線　「白金高輪駅」　から徒歩約5分　（1番出口より左方面）

参考：Big Analytics 2013 Roadshow - 【日本テラデータ株式会社】

ちなみにアジェンダは以下のとおりでした。

【アジェンダ】

12:00 - 13:00 受付開始／展示ホールオープン - ご昼食（ビュッフェ）をご用意しています -

13:00 - 13:10 ご挨拶日本テラデータ株式会社　

13:10 - 14:10【基調講演】ビッグデータのトレンド、アルゴリズムの争い、そして今後予想されるアプリケーションとは

14:10 - 14:50 ビジネスに必要とされる「アート」と「サイエンス」‐ビジネス価値を高め、競合の優位性を生むビジネス・ディスカバリーとは‐

14:50 - 15:05 休憩

15:05 - 15:45 ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐

15:45 - 16:15 ビッグデータ・アーキテクチャにおける Apache Hadoop の役割

16:15- 16:30 休憩

16 :30 - 17:15【ユーザー事例】マーケティングにおけるビッグデータ活用‐ かつてないスケールの情報をどう扱うか –

17 :15 - 18:00【パネルディスカッション】テーマ：企業におけるビッグデータの活用について考える

では、以降より、わたしのとったメモを公開しておきたいと思います。

13:00 - 13:10 ご挨拶日本テラデータ株式会社

バズワードと言われてずいぶん久しくなり国内においてもビッグデータ活用の大きな効果を予測している
ビッグデータの知見を参加者によりひろめてほしい

＊＊＊＊＊

ビッグデータについての振り返り
その定義は？
分析の対象としずらかった音声・映像、画像、テキスト、Webソーシャル、マシンログ・センサーログ
大量・多構造のデータを分析の対象にできるようになった

＊＊＊＊＊

あらゆるユーザが活用できるビッグデータ分析環境を最小コストで実装するためには、データ収集・蓄積・加工から分析、そして業務への適用を最適なテクノロジーで行うことが必要

＊＊＊＊＊

Tera data では
収集・加工は Hadoop
分析は Aster を提案している
その基板となるのが TERADATA UNIFIED DATA ARCHITECTURE (UDA)
Hadoop, Aster, TERADATA を有機的に統合し、透過的シームレスなデータ・アクセスとデータ移動を実現

13:10 - 14:10【基調講演】ビッグデータのトレンド、アルゴリズムの争い、そして今後予想されるアプリケーションとは

Speakers: Mike Gualtieri, Principal Analyst Forrester Research @mgualtieri

すでにビッグデータを持っているのは強みですが、どのように活用するのかが重要です。詳細に解析してまったく新しい知識や予測モデルを識別し、賢い意思決定、リスク軽減、画期的なカスタマー・エクスペリエンスの提供を行う必要があります。知識や予測モデルを識別するためのアルゴリズムを最大限活用できる、高度で強力なアナリティクス・プラットフォームがなければこれは不可能なことです。 Forresterのプリンシパル・アナリスト、Mike Gualtieri氏が成功のために必要な4つのトレンドを説明します。

これは資料が配布されていた（印刷だけど）

＊＊＊＊＊

データに関する 4 つのトレンドの話

＊＊＊＊＊

ひとつ目のトレンド、 #Bigdata
注目されるビッグデータ、70%がビッグデータに取り組んでいる
ビッグデータの定義はしていないが、なんらかこのワードに関連することを取り組んでいるのが 70%

＊＊＊＊＊

ビッグデータは企業の経営、意思決定、リスク軽減、顧客へのサービス提供のために必要なすべてのデータの保存、処理、アクセス能力の最たるもの

＊＊＊＊＊

Welcome to 23andMe - 23andMe
というサービスの紹介。 DeNA の解析。
つばをはいてそれを送り返す。
データそのもののサイズは 700MB だが遺伝子のパターンは何億通り
量だけでビッグデータかそうでないかを論じるのは早計

＊＊＊＊＊

Bigdata++
ビッグデータとは手持ちのすべてのデータ++を意味する
手持ちのデータとは？
構造化テキスト：スキーマ記述データ, RDB, XML etc...
非構造化テキスト：自由形式のテキスト, email, document, tweet etc...
バイナリ：オーディオ・画像・ビデオ

＊＊＊＊＊

企業のデータは膨大でますます量が増えているわけだが、分析に活用できているのはたったの 12% と言われている

＊＊＊＊＊

企業はデータ収集に勤しみつつ、低コストな分析のソリューションを探している

＊＊＊＊＊

データ++によって手持ちのデータが充実する（データ++ はスピーカーの造語のようだ）

＊＊＊＊＊

ビッグデータアーキテクチャは3つの主要な機能をサポートする必要がある
- 保存：手持ちの data++ をすべて保存できるのか
- 演算：データのクレンジング、エンリッチング
- アクセス

＊＊＊＊＊

では、 Hadoop について話そう
Hadoop ＝ビッグデータではない
ビッグデータは単一のツールや技術を指すものではない

＊＊＊＊＊

2つ目のトレンドは Discovery
予測分析によって、ディスカバリが大幅に強化される
機械学習、データマイニングもその一部
予測分析によって、目に見えない知識や、予測モデルを検出できる
（レポート機能＜解析＜監視＜予測）

＊＊＊＊＊

データの価値は均一ではないわけだがどうやって見分ければいいのか？
Hadoop が人気があるのはとりあえず放り込んでおくができるから
十分なデータが蓄積されているならば、どのデータがホットでどのデータがコールドなのか予測分析が明らかにする
（BI が関連性のあるデータを見極めるのに対して、予測分析はデータに対してアルゴリズムを実行してモデルを検出する）
ちなみに BI と予測分析、どちらが優秀という話ではない、結局どちらも必要ではあるというスピーカーの意見。

＊＊＊＊＊

データサイエンティストがアルゴリズムを提供して予測モデルを特定するということになる
- BI アナリスト：レポート
- 統計担当者：統計情報
- データサイエンティスト：機械学習

＊＊＊＊＊

データサイエンティストは Discovery に関する統計および機械学習アルゴリズムを使用する

＊＊＊＊＊

実際の事例 (Target)
その人に最適なクーポンを30％多くの顧客に配布するためにはどうしたらよいか？
娘が妊娠しているのを父親は知らなかったけど、Targetは予測してしまったという例

＊＊＊＊＊

他の事例
重要な社員の離職を食い止めるにはどうしたらよいのか？
病気を予防、または治癒させる分子はどうすれば発見できるのか？
個別化された、最適な、おすすめの製品を提示するには？ (Netflix)
顧客の使う金額の予測(Tesco)
不正検出
選挙活動(アップリフトマーケティングという手法)

＊＊＊＊＊

3つ目のトレンド、 #DataScience
データサイエンティストは民主的でなければならない
専門家の偏った見方を覆すこともできる（うつ病理解の例）
（予想に反して、客観的な医療判断が効果があり、

＊＊＊＊＊

データサイエンティストのスキル
ベースは数学
そして、統計、コンピュータサイエンス
ビジネス、サイエンス、エンジニアリング
そして、好奇心、
そしてトップに、クリエイティビティ

＊＊＊＊＊

ちなみにデータサイエンティストのためのツールがあれば、データ分析のライフサイクルは凝縮されよりスピードアップできるだろう

＊＊＊＊＊

4つ目のトレンドは #Royalty の話
顧客は個別対応をしてもらいたいと切望している
つまり企業は顧客のことをよりしらないといけないということ。
そしてそのためには、多くの情報が必要であることは言わずもがな
ビッグデータから、リアルタイムの知見を得る、デジタルおよび小売チャネルとの統合が必要

＊＊＊

個人データには4種類
個人を特定するデータ、動作データ、派生データ、自己識別データ
信頼を獲得する必要がある
優れた執事の主な職務には裁量というものが含まれている（つまり一線を越えてはいけないわけだが、それを正しく判断できるということ）
小さな実験をして、反応をみることをしているのが facebook や eBay がやってること (AB testing)

＊＊＊

予測アプリケーションはデジタル環境の混乱をもっとも論理的で必要不可欠な極限に到達させる

＊＊＊＊＊

まとめ
ビッグデータはイノベーションだが、活用しなければイノベーションは生まれない

14:10 - 14:50 ビジネスに必要とされる「アート」と「サイエンス」‐ビジネス価値を高め、競合の優位性を生むビジネス・ディスカバリーとは‐

Speakers: Mayank Bawa, Co-President TERADATA Aster, TERADATA Corporation

ビジネス・ディスカバリーとは、ただ大量のデータを分析することではなく、従来のテクノロジーではなし得なかったような複雑な分析を、より多くの種類のデータに対して行うことでもらたらされる「気づき」です。
このセッションでは、すべてのビジネスユーザーやアナリストが、次のアクションにつながる知見を得て、結果をもたらす方法をご紹介します。それはつまり、「サイエンス（データに基づく分析）」をどのように、ビジネスにおける「アート（状況や勘に基ずく判断）」と融合させるかということです。
すべての業界において存在する、デジタルマーケティングの最適化や、ソーシャル・ネットワーク分析による収益の改善などの具体的な例を用いて、ビッグデータの発見・分析がもたらす機会についてご紹介します。

ビッグデータの衝撃
より好ましい成果をあげるためにビジネスへ与える影響力

＊＊＊＊＊

ディスカバリーによって影響力が生まれる
パターン発見

＊＊＊＊＊

いったんパターンがみつかるとビジネスバリューへとつながる
ウェルス・ファーゴ銀行を引き合いにだして
自動車メーカー

＊＊＊＊＊

ディスカバリーを加速することができるか？
生産性の高い予測はどのように実現できるのか？
それは TERADATA Aster が実現する

＊＊＊＊＊

ディスカバリーにはプロセスがある
データ取得＞データ準備＞分析＞可視化
どのようなディスカバリーエンジンをつくればこのプロセスを最速で実現できるか？ (Aster ならできるといてる)

＊＊＊＊＊

ディスカバリープロセスの要件
あらゆる種類のデータ
あらゆる種類のアナリティクス
あらゆる種類のエンタープライズユーザー
そして、高速な探索
(それが Aster だといいたいわけですね)

＊＊＊＊＊

あらゆる種類のデータ、あらゆる種類のアナリティクスの話
✔複数のデータ・セットを同時に活用することによって新たな発見をする
(ソーシャルグラフ x メッセージストリング　で影響度マトリクスになる、など)
組み合わせの分析によって、発見できる結果がふえる
カナダの企業、通信業界における顧客離反率の予測モデルを作った、その例のはなし

＊＊＊＊＊

エンタープライズユーザについて (3つの層)
パワーユーザには Work bench, IDE, lib が必要
セルフサービスユーザには BI
サービス提供が必要なユーザにはアプリケーションが必要

＊＊＊＊＊

高速な探索の話
アナリティクスだけにフォーカスするのだけではなくディスカバリーのプロセス全てに注意を払う必要がある
(Aster はそうだといっている)

＊＊＊＊＊

Aster Data Platform
離反分析： SQL + 統計分析 + パス分析 + テキスト分析
不正検出分析： SQL + 統計分析 + グラフ分析
デジタルマーケティング分析： SQL + 統計分析 + パス分析 + テイスト分析 + グラフ分析
などなど

＊＊＊＊＊

離反分析の例：時間 + 統計
Discover Time Series Pattern -> Statistics to Validate Patterns -> Filter + Score

＊＊＊＊＊

実証済みのディスカバリー・メソドロジー
最も包括的なディスカバリープラットフォーム
ディスカバリーのベスト・プラクティス
の2つの歯車で
確立したディスカバリーエコシステム
の大きな歯車を回す

＊＊＊＊＊

TERADATA Unified Data Architecture の紹介
Ater (データディスカバリー) x Hadoop (collect,store,process) x TERADATA (統合 DWH)

＊＊＊＊＊

完全なオープンスタック
Horton Works とも密な連携をとっているということを強調
spotfire etc...

＊＊＊＊＊

ひとりごと：Churn って離反って意味に使えたのか Churn Potential で離反の可能性

15:05 - 15:45 ビッグデータの価値に基づいて行動せよ ‐データは熱いうちに使え‐

Speakers: Bill Doyle, Vice President Channel Sales & Business Development, Tibco Software

ビッグデータに隠されている知見を理解することは、そこから価値を得るための最初の一歩に過ぎません。速度と可変性をもったビッグデータが溢れる中で、意味のあるアクションを起こすまでのタイムフレームは今までになく短くなっています。適切なタイミングで、正しい情報を掴み、それに基づいて先制したアクションを起こす能力は、確実に今日のビジネス価値と競争優位性をけん引するものとなっているのです。
このセッションでは、膨大なビッグデータのリアルタイムな活用と、それらがもたらす特有の機会と活用プロセスをご紹介します。

こちらも手元に印刷した資料が配布されていた。このセッションが一番おもしろかった。まさに鉄は熱いうちに打てという内容。

＊＊＊＊＊

Value にフォーカスしたプレゼンテーションとのこと

＊＊＊＊＊

トランザクションからインタラクションまで
ERP < CRM < WEB < BIGDATA

＊＊＊＊＊

砂金集めの写真を見ながら。
もしかしたら、その川には金以外にもお宝があったかもしれないが、金にフォーカスしていたから見つけられなかった
何かひとつだけを見つけることにフォーカスしていてはダメだという例

＊＊＊＊＊

ビッグデータは新たなアプローチを必要としている
すべてをキャプチャしているが、必要な情報はわからない

＊＊＊＊＊

インサイトがアクションに結びつかなければ何の価値もない
測定＞診断＞予測と最適化＞オペレーション化＞自動化＞トランスフォーム (変革)

＊＊＊＊＊

Data at rest (過去の蓄積データ) と Data in motion (今起きていること、リアルタイム)
いかにして Data in motion を活用するか？

＊＊＊＊＊

✔データに価値がある間にアクションが必要だということ
✔意思決定をどれだけ短いスパンの中でやれるようにするかということの重要性
✔イベント処理によりアクションが迅速になり、ビジネスバリューが高まる
（遠出したさきで買い物をした客に、家についてからクーポンを配信しても意味が無いといったこと✔）

＊＊＊＊＊

イベント処理の使用事例
トランザクション
ルール
コンテキスト
そして、相関
（オーソライゼーション、支払い処理、モバイル支払い、サービス・アクティベーション ... ）

＊＊＊＊＊

ここでもでてきた coorelate という言葉
パターンを見出して、次にいつ何が発生するかということを予測する

＊＊＊＊＊

これを spotfire のフレームワークにのせて説明
非構造のデータ処理＞ビッグデータストレージ(Hadoop)＞DWH(TERADATA, Aster)＞統計エンジン(R, Aster)＞リアルタイムイベント(spotfireはここだと) (右にいくほど data in motion)

＊＊＊＊＊

Mlife の事例
- TIBCO Software Inc.
TUCON での MGM の keynote video

これはあとで動画のリンクをはっておきたい

＊＊＊＊＊

キャプチャ(hadoop)＞理解(spotfire, Aster, TERADATA)＞モデル(R, spotfire, TERADATA, Aster)＞予期(spotfire)でひとつのサイクル
予期＞意思決定(TIBCO)＞アクション(TIBCO)＞モニタリング(spotfire, TERADATA)でまたひとつのサイクル

＊＊＊＊＊

なにより重要なのは、これを実現は現状の技術で全然可能だということだ！

15:45 - 16:15 ビッグデータ・アーキテクチャにおける Apache Hadoop の役割

Speakers: John Kreisa, Vice President VP Strategic Marketing, Hortonworks @marked_man

Apache Hadoopは急激に進化し、ビッグデータ管理・処理のための主要なプラットフォームとなっています。もしあなたの組織において、データの蓄積、保存、変換、そして膨大な多構造化データの加工のためにどのようにHadoopを使おうか試しているのであれば、是非このセッションに参加ください。このセッションでは、以下についてご紹介します。
・"ビッグデータ"の台頭と、それが導き出すビジネスの価値と機会
・Apache Hadoopの進化と今後の動向
・Hadoop によるプラットフォームに必要とされる重要なコンポーネントについて
・Hadoop と既存のデータウェアハウス・プラットフォームの統合ソリューション・アーキテクチャ

ビッグデータの市場トレンドと予測

＊＊＊

IDC の予測
2010-2020 で x50
85% は新しい種類のデータになるだろう
40ZB のデータ
マシン生成データの量が x15 になるだろう (センサーログなど)

＊＊＊

Gartnerの数字
最新の情報管理システムを利用した組織は競合よりも優位に立つ割合は 20%

＊＊＊＊＊

新たな種類のデータにビジネスチャンスがある

センチメント
クリックストリーム (Webサイトの訪問者の足あと分析)
センサー・マシン (リモートセンサーとマシンから流れるデータのパターンを自動的に発見)
位置情報
サーバーログ (異常診断、セキュリティ)
非構造化データ (テキスト、ビデオ、画像等)
そして既存のデータを長期間保存も可能 (hadoop などを利用し)

＊＊＊＊＊

新しいデータソースが登場してきたことにより、従来のアーキテクチャには様々なプレッシャー (性能、コスト etc...)
Hadoop はその既存のアーキテクチャに新しい能力を与えてくれるものだと考えればよい

＊＊＊＊＊

JP Morgan の Larry Feinsmith
Hadoop を既存の IT 投資と統合することが非常に重要
(直にきいていたかも・・・)

＊＊＊＊＊

つまり、既存ツールとの相互運用が大事だということ
そこで Horton Works の出番というわけ
Horton Works なら TERADATA や Aster と統合できるで！
既存のスキルを活用し、よりスケーラブルによりスピーディーに価値を創出できるようになる
TERADATA の Unified Architecture は Horton Works の考えと激しく一致する

＊＊＊＊＊

Horton Works と TERADATA の統合ポイント
- ポイント1
  - HCatalog - TERADATA SQL-H
  - Sqoop/Hive(export) - TDCH(load)
- ポイント2
  - TERADATA viewpoint, TERADATA TVI

＊＊＊＊＊

話はすこし変わって、新規適用分野への Hadoop の適用
すべてのデータをインフラストラクチャ - データの湖に放り込む
そこから、パッケージおよびカスタムの分析アプリケーションを構築する

＊＊＊＊＊

20 企業での Apache Hadoop の利用事例
金融、通信、小売、製造
もはや Hadoop を導入しない業界はないといっても過言ではない
(金融サービスでいえばサーバログを収集・蓄積・分析し、不正分析に活かす)

＊＊＊＊＊

360度の顧客に関する視界を確保した例
ソーシャルメディアフィード、マシンデータ (クリックストリームとモバイル)、気象データフィード、競合データ、リアルタイム在庫データ
そこから顧客プロファイリング

＊＊＊＊＊

HDP の紹介
Hadoop は単体ではなく、周辺プロダクト全体のエコシステムとして機能していることを知ることが重要
そして、 Horton Works はそのエコシステム全体に影響力をもっているんやで、と。

＊＊＊＊＊

TERADATA と Horton Works の連携は強固だと強調
Hadoop 用の TERADATA ポートフォリオ

＊＊＊＊＊

Horton Works における Enterprise Hadoop への取り組み
エンタープライズ要件を把握し、パブリック・ドメインに取り入れ
コミュニティーと協力してOSSプロジェクトを推進、育成
エンタープライズの厳格な基準を適用、最も安定し、信頼性が高いディストリビューションを提供

16 :30 - 17:15 【ユーザー事例】マーケティングにおけるビッグデータ活用‐ かつてないスケールの情報をどう扱うか-

Speakers: Suresh Pillai, Head of Internet Marketing Analytics eBay International AG

・データ： eBayにおけるそれは、ずっと重要(BIG)な問題
・簡単ではないアトリビューション・モデルの構築
・マルチクリック・ユニバースとリアルタイム入札:そのマトリックスがここに

eBay について
先日、 18 年目を迎えた 1995 に創業
1億人のActiveユーザ
686億ドルの2011取引総額 $2,100/sec 取引
26min に一回フォード・マスタングが売れている

＊＊＊

ウォーレン・バフェットとのランチはいかが？
346万ドルで売れた (2012?)、最後の数秒で入札価格は一気に3倍に

＊＊＊

イリノイ州の形をしたコーンフレークはいくら？
1,350ドル

＊＊＊＊＊

一日に 50TB の新しいデータ
2.6 兆のテーブルデータ (最大規模のテーブルの話)

＊＊＊＊＊

では、データプラットフォームはどうなっているのか？
構造化 SQL ： EDW
非構造化 SQL++ ；
非構造化 Java/C ： Hadoop

＊＊＊＊＊

では、マーケテイングはどうか
村の市場を例に
外から人を呼び込む
それは、インターネットマーケティングも変わらない
トラフィックをサイトに呼び込む
(オーガニック検索、ポータル、ソーシャル、アフィリエイト、ディスプレイ、検索広告)

＊＊＊＊＊

相関関係=データの爆発的増加
eBayの2つの要素
クリック(サイト外の IM 行動) とコンバージョン (サイト内の ROI)
ここれでも correlation

＊＊＊＊＊

購入：最後のクリックが勝利
購入へのパスが多くの興味深いデータとなる

＊＊＊＊＊

アトリビューション・トイ・モデルのテストを実施

最後のクリック
最初のクリック
均一
指数関数的減衰
対数的減衰
冪乗則減衰
開始・影響・最終決定
ランダムなアトリビューション

最後のクリックを導き出した、チャネルはなんだったのか？

参考:Toy model - Wikipedia, the free encyclopedia

＊＊＊＊＊

Adhoc Simple Model
おおまかにみるとモデル間の違いはない (5%未満の違い)
ランダム・アトリビューションの場合、これより悪い結果はでない
すべての行動をカプセル化できるシンプルなルールはない

＊＊＊＊＊

クリックレベルに至る把握が必要
完全なパス履歴を利用したデータマイニング

＊＊＊＊＊

予測モデルの例
マイクロターゲティング
課題：クリックレベルから全体的な洞察を獲得する

＊＊＊＊＊

データを理解するにはいくつかのレベルがある
- 戦略レベル (strategic level) 予算
- 戦術レベル (tactical level) チャネルがインタラクティブかどうか
- 予測レベル (predictive level) 顧客行動、ターゲティング
それぞれのレベルでことなる知見が必要だということを理解することが重要
そしてそれぞれにそれぞれ固有のルール、ことなる共通言語
矛盾するようだが、ローレベルからデータ分析すると失敗する(?) ハイレベルのことを理解しつつローレベルに落としていく必要がある。
車が動く仕組みはしらなくても、車が運転できるといった論理らしい。

＊＊＊＊＊

RTB (リアルタイム入札)でのディスプレイ広告の例
どういう人か知っている人用のモデルと、まったくの未知の人用のモデル

＊＊＊＊＊

まとめ
- データとは我々の DNA の一部だ

17 :15 - 18:00【パネルディスカッション】テーマ：企業におけるビッグデータの活用について考える

Speakers:
Mayank Bawa, TERADATA Corporation
Bill Doyle, Tibco Software
Mike Gualtieri, Forrester Research
John Kreisa, Hortonworks
Suresh Pillai, eBay International AG

モデレーター：Dr. Judy Bayer, TERADATA Corporation
　・新しい知見を得て、ビジネスにどう使うか
　・欧米先進企業から学ぶビッグデータ活用の最前線
　・新しいテクノロジーを導入する際のポイント

ビジネス上のアナリティクスの成功事例を教えてくれる？
- 予測分析以外で言うと、集めてプロセスする、 Hadoop を使った事例。銀行で規制順守のためなどにレポートを分析しなければいけなくなった。こういう非構造化データを分析するのに Hadoop が役だった。
- 10年くらい前の話、エンロン事件。フォレンジックを実行してみた。しかし予測できなかった。50TBのemailを解析した。キーワードを探した。今ならそれをリアルタイムで spotfire などをつかえばリアルタイムに検知できるだろう
- 病院の事例、患者の治療を分析する。どういう傾向の患者にどういう対処をしてあげると効果的なのか。(患者の動きと職員の対応をトラッキングした事例)

＊＊＊＊＊

ビッグデータとエンタープライズDWHを統合することが重要なのはなぜか？
- ここ15年はいろんなデータ分析の手法が洗練されてきて、その結果がエンタープライズの場面に取り込まれてきた。そのプロセスは今後もビッグデータ関係なく続けられるべき。データを活用するためには、データは分散されてあちこちに散在するべきではない。その意味で、ビッグデータとエンタープライズDWHは統合されるべき

＊＊＊＊＊

課題は？
- 今は、組織がサイロ化しているため、データもサイロ化しがち
- 予測モデルにもレベルがあるので、各レベルの人材が協力できないといけない

＊＊＊＊＊

データサイエンティストに必要なスキルは？
- 数学、統計、 SQL 、コンピュータサイエンスも不可欠
- モデル構築の制約を理解すること (アルゴリズムを走らせるだけではないということを知るべき)
- ユニコーンみたいなもんじゃないすか？ (とてもみつけるのが難しい) Horton Works でも 1,2 人しかいない
- 1 人でみつけるというのは本当に難しい
- 仮にデータサイエンティストを雇ったなら、最初に組ませるのは、データの統合をやっているエンジニアと組ませるのがいいだろう (なぜなら、アサインされてもすぐには分析はできず、最初にはデータモデルの理解をするところからはじえないといけないから)
- 最終的にはだれでもデータサイエンティストになれる (というかデータサイエンティストがいらないようにすること) がベンダーのすべきことだと思っている
- ツールの進化は進むだろう

＊＊＊＊＊

Linkdedin の人のプレゼンにあった最後に必要なのは熱心さだと言っていたが、今はツールの進化もあるのね、と。

＊＊＊＊＊

コラボラティブ・アナリティクスというトレンドはあるか？
- 同じアナリティクスのワークフローを共有できるようにする。実際に2人の人間が対話しているかのように分析できる。といったような考え。
- 大学でも研究が進んでいるらしい。

参考： Collaborative Analytics: Creating Value for the Enterprise

＊＊＊＊＊

データサイエンティストは組織の中でどういった行動をとるべきか
- 個人として各業務部門に配置されるモデル
- もうひとつはアナリティクス専門のモデルをつくる
- eBay の場合は、アナリティクスの部門はあるが、さらにひとりひとりが専門の業務部門をもつようになっている
- 業種特有のデータサイエンティストは必要だという意見

＊＊＊＊＊

データサイエンティストの役割とは？
- データの解釈を誰にでも分かる形で説明できる人でなければならない (役割じゃないんだが...)

＊＊＊＊＊

データ志向の意思決定は必要な一方で、クリエイティビティ (想像力) による意思決定を捨てていいというわけではない。
データの解釈をするのを怖がってもいけない。

＊＊＊＊＊

アナリスト (データサイエンティスト) を孤立させてはいけない。

＊＊＊＊＊

ETW と BigData は共存すべき (これは今日共通した意見のようだ) 要件によって使い分けるべきという理由で。

＊＊＊＊＊

Fail Fast について
- 早く実験をできれば、その結果をすぐ知れる、それが Fail Fast だよね
- 何が支障になるか？
- データリサーチという予算をとるべき (目標も目的ももちろんある前提)
- Customer Insight の一環としてするべきで、それ単体で ROI を求めるべきではない
- Executive のサポートは不可欠
- 実験場として Data Sandbox のようなものが必要だろう (本番と同じデータをもっている前提があるとおもうがその言及はなかった)
- 実験のための支出を失敗と考えるべきではないし、調査の結果がうまくいかなかったとしても、うまくいかなかったということそのものが知見と考えるべき。

＊＊＊＊＊

ビッグデータは混乱をきたすものか？
- 混乱をきたすものだ (ビジネスを次のレベルに引き上げるだけの力があるという意味で)
- これまでの間違いをデータを新たに取得、分析できるようになったことで正せた、こういう状況を混乱と呼んでいるらしい (ひねくれてるな)

＊＊＊＊＊

企業に対してのアドバイス、最初のビッグデータプロジェクトをやるならば？
- 分析したら何か答えがすぐにでる、というのは誤解 (チェスのようなものだと思ってほしいらしい)。ただアルゴリズムを走らせてみればいいのではなく、クリエイティビティを働かせなければならない。
- 過去のやり方を忘れる、ということがクリエイティビティだというニュアンスで使っている

＊＊＊＊＊

ビッグデータのプロジェクトをはじめるなら今が好機 (もはやそれがフツーになりつつあるとは思うが)

＊＊＊＊＊

データの取扱について、とくに個人情報の取扱について
- その国の法に準拠すべき
- まずは少しだけだすのも一手、そして反応をみる。これ鉄則。
- その情報を提供してもらったことによって得られる価値を明示する。
- 余談：例えば、国と Google 、自分の個人情報をもってもらうとしたら、わたしは Google に持ってもらいたい。なぜなら Google は自分に対して何もできないから (そんなことはないとおもうが)