#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

「統計学が最強の学問である」の著者、西内 啓氏が特別講演されるということで EMC Innovation Day 2013 にいってきました

スポンサーリンク

統計学が最強の学問であるの著者である西内啓氏が特別講演するということを知ったので、是非そのプレゼンテーションを聞いてみたいと思い、今日は EMC Innovation Day 2013 に参加してきました。

午前と午後の部に分かれているイベントで、午前の基調講演のプログラムの中での講演のひとつだったので、午後のセッションも出ましたが、今日はその午前のセッションだけわたしの取ってきたメモを公開しようと思います。

ちなみに基調講演は以下の3部構成になっていました。

  • (G1) LEAD YOUR TRANSFORMATION 〜あなたに「ビジネス」と「IT」の変革を〜 EMCジャパン株式会社 代表取締役社長 山野 修氏
  • (G1) 『統計学が最強の学問である』の著者が語る本当に価値を生む統計解析 統計家 西内 啓 氏
  • (G1) パネルディスカッション:【モデレーター】アイティメディア株式会社 三木 泉氏 【パネリスト】 ゲスト:ライフネット生命保険株式会社 出口 治明氏、統計家 西内 啓氏、EMCジャパン株式会社 山野 修氏

では以降よりわたしのとってきたメモになります。

(G1) LEAD YOUR TRANSFORMATION 〜あなたに「ビジネス」と「IT」の変革を〜 EMCジャパン株式会社 代表取締役社長 山野 修氏

  • IT とビジネスの変革に対する EMC からの提案
➤ 2045 問題
  • 今のペースで IT の進化、2045を転機に先が予測できない
  • 過去30年間を振り返ってみてもらいたい
  • メインフレームから SF までの進化
  • 30 年間で 100 万倍の性能向上 (CPU) ムーアの法則 :それがどんな形にせよ今後 30 年間続くということを考えてみてほしい
  • このペースで2045まで進んでいくとする
  • CPU の収束度以外の分野での進化を想定
  • すべての家電が Web につながる世の中

*****

  • 30年後の IT インフラを支えるプラットフォームはどうなっているだろうか
  • 第3のプラットフォームへの転換 (Mobile, Cloud, Bigdata, Social)
  • 専用ターミナル>PC から モバイル・デバイスへ
  • モバイルの上でクラウド、ビッグデータ、ソーシャル
  • 重要なのは、ユーザとアプリケーションの数が従来とは比較にならないくらい膨大な数 (数十億のユーザ、数百万のアプリケーション) になるということ
  • 第3のプラットフォームは TRUST の上に構築されるべき (セキュリティー、可用性)
  • EMC の Focus するのは Cloud と Bigdata

*****

  • ビジネスに貢献できる IT
  • 運用管理、コストの圧縮、そしてリスクの低減を "どれだけ速くやるか"
  • 各企業で不足しているのは人材→人材の育成
➤ Cloud (物理的制約からの開放、自動化)
  • 子会社の VMWare と促進
  • 既存の IT を仮想化、クラウド化そして自動化
  • クラウドアプリケーション、クラウド運用モデル、クラウドインフラストラクチャ

***

  • SW-Defined Data Center というコンセプトを提案 (VMWare が中心となって提供する)
  • コンピュータ、ストレージ、ネットワークを SW 化して管理しやすくする
➤ とくに Storage
  • SW-Defined Storage
  • ViPR プラットフォーム
  • コントロールプレーン、およびデータプレーン
  • ViPR コントローラ:プロビジョニング
  • ViPR データサービス:ブロックストレージ、ファイルストレージ、HDFSオブジェクトストレージ
  • アプリケーションに必要な容量、性能を必要なときに必要なだけ提供するための仕組み
  • Open Stack でも使える準備を進めている

*****

  • ストレージの提供は
  • 性能、サービス、容量のレベルによって使い分けられる製品群を用意
  • VMAX
  • VNX
  • Isilon
  • Atmos
  • バックアップソリューションとしての Avamar
➤ Bigdata に関する取り組み
  • 今回とったアンケート、 72% の方が意思決定の向上にはデータ活用が必要と感じている
  • ちなみに米では 80% 超
➤ Pivotal 設立の紹介
  • EMC, VMWare からスピンオフで誕生した会社 (GEも出資)
  • Bigdata専門のアプリケーションを開発する会社

*****

  • Pivotal ポートフォリオ
  • クラウド層: VMWare, AWS, etc.
  • データファブリック: GreenPlum, GEMFIRE etc.
  • クラウド&アプリケーション: CLOUD FOUNDRY
  • データ分析: PIVOTALLABS (rapid programming の集団), Pivotal Data Science Labs
➤ 人材の育成
  • 最新の IT 技術の習得に懸念、今回のアンケートの 81% が感じている
  • データサイエンティストとクラウドアーキテクトのトレーニングコース
  • ベンダーの色がないことを意識した公平な内容になることを目指している
  • できるかぎり中立な立場を保とったうえで。
➤ まとめ
  • Cloud, Bigdata, Trust

(G1) 『統計学が最強の学問である』の著者が語る本当に価値を生む統計解析 統計家 西内 啓 氏

最初にちょろっと感想。統計学が最強の学問であるを読んでいればより楽しめる内容でした*1。氏の主張のブレなさを確認できたセッションでした。

➤ 自己紹介
  • 32歳
  • 専門は統計学、行動科学、公衆衛生学
  • 医師免許はもってないよ
  • 医学部に行った理由
  • 日本には統計学の学部というのは存在していない
  • 人間を相手に統計学を勉強するために医学部に行った
  • アメリカにはいったが健康に関しては日本で学んだほうがいいのではないか
  • また、統計というものを世の中でもっと一般的なものにしたほうがいいんじゃないか

*****

  • ソーシャルマーケティング
  • 社会をよくするためにマーケティングをつかってどうすることができるかについて考えること
  • マーケターというのは、顧客の購買意欲を持続するために色々と戦略を変えているっぽいということと統計を結びつけた

*****

➤ なんで医学部で統計学?
  • 死亡統計には何がかかれているか?
  • 死因 e.g. がん
  • がんでなくなる原因
  • 因子として考えられるもの:検診未受診、喫煙、過剰塩分
  • さらにそれをやめられない要因:

***

  • ゴールは病気や死亡を減らすこと
  • そのために何が病気のリスクなのかという原因についての情報が必要
  • その原因の原因
  • 患者の行動を変える

*****

➤ ビジネスで統計学の理由も医学と一緒
  • ゴールは利益
  • 因子:消費行動、営業成約率、

*****

  • ゴールは利益を増やすこと
  • 何が原因?
  • その原因の原因
  • 顧客の行動を変える

*****

➤ よくある会議の例
  • 現状はデータをみてわかってもどうしていいかわからない
  • ただの集計にとどまっている
  • 集計から統計にいくまでにどういうステップをふめば良いかという話

*****

  • 風邪をひいた
  • 一週間以内に風邪がなおったか?
  • 薬を飲んだ人の数 (これだけだと集計)
  • 飲まなかった人の数 (前者と比較することで分析)

***

  • ただの集計
  • なんとなく 90% は多いという直感とのてらしあわせ
  • 分析は比較をしている

*****

➤ 大事なこと
  • 数字とは比較するためのもの
  • 直感と比較しかしないなら直感に頼っているのと同じ
  • ✔大事なのは何と何を比較しているかということ
  • 一番悪い例:
  • オレの直感と数字が違うぞ、という意見

*****

  • 何と比較して傾向をみるのか
  • 仮説をたてるためのセオリーはある
  • 比較軸を望ましいものと、望ましくないものに分ける e.g. 新商品購入に興味がある、ない

*****

➤ 大事な3つの視点
    • アウトカム:望ましさを具体的に定義 (契約件数、利益率、 etc)
    • 解析単位:望ましさを比べる単位 (顧客、従業員、視点 etc.)
    • 説明変数:望ましさを左右する要因 (性、年齢、etc.)

*****

➤ 傾向から対策へ (1)
    • 直接は動かせないアウトカム e.g. 購入
    • 直接は動かせない説明変数 e.g. 性別、年齢、収入
    • この中から該当者を狙う (これこそがターゲティング)

*****

➤ 傾向から対策へ (2)
    • 直接は動かせないアウトカム e.g. 購入
    • 動かしうる説明変数 e.g. 心理要因、広告接触、ブランドイメージ
    • 商品や広告を変える

*****

➤ 傾向から対策へ (3)
    • 直接は動かせないアウトカム e.g. 購入
    • 動かせない説明変数 e.g. 季節、景況変数
    • 制御下にある説明変数 e.g. 製造数
    • 制御下にある製造数を最適化する

*****

➤ 統計家が毎回聞く質問
    • なにがかわるとうれしいですか (アウトカム) 広告効果
    • どういう切り口でかんがえましょうか (解析単位) 広告単位、商品単位
    • 何がそれを左右するとおもいますか (説明変数) 出演者、顧客の心理要因

*****

➤ 統計家が毎回聞かれる質問
    • Q データは集めたけどどうしたらいいか?
    • A 何の項目がどう変わるとうれしいか、まずゴールを明確にしてください

*****

➤ 両輪となる考え方
    • ボトムアップのアプローチ (データからゴールへ:今あるデータの価値をゴールに向けて最大化) とトップダウンのアプローチ (ゴールからデータへ:わかるとうれしいこと、そのために何が足りないか)

*****

➤ データの価値を最大化
  • e.g. カーナビの GPS のデータがたまってます
  • ID, 時刻、緯度経度
  • このままでは何の価値もない
  • 見える化、意味が無い時もある
  • この図形がみえますか?そしてこの図形がなんだか言えますか?は別
    • 実は、5 次カラビ (ヤウ3次元多様体) でも見ただけではなんだかわからない

参考:カラビ-ヤウ多様体 - Wikipedia

*****

  • 人間の頭の機能
  • 認知と判断 (2つにわかれている)
  • 有名なだまし絵の例 (若い女性と老女にみえるヤツ)
  • 人間はこれをこう見ろと言われたらそうみてしまう見方もできてしまう (トップダウンの見方) e.g. 検尿の容器にグループジュースを入れて飲むときにどう情報をあたえるかで心理が変わる

*****

➤ 見える化から言える化へ
  • 判断が言えるように、をゴールにしよう
  • 問とデータ構造が重要に
  • 何をみつけるべきか
  • 見える化は問がまったくないときの最終手段

*****

➤ データ分析に必要なもの
  • データ自体とツールと分析手法、そして"人間への洞察"

*****

➤ 位置データの構造化の例
  • 移動中か?停止中か?
  • 時間帯は?曜日は?
  • 停止場所はどんな場所なのか?

*****

  • 解析の例
    • モールのリピート率は何が左右?
    • 午前中滞在時間、飲食店利用回数、アパレル店舗利用有無
      →飲食店の活用と朝得キャンペーン

*****

➤ 分析を価値につなげるためには
    • 課題とデータ>分析>アイデアとアクション

(G1) パネルディスカッション:【モデレーター】アイティメディア株式会社 三木 泉氏 【パネリスト】 ゲスト:ライフネット生命保険株式会社 出口 治明氏、統計家 西内 啓氏、EMCジャパン株式会社 山野 修氏

率直な感想を書いておきます。
パネルの内容は大変興味深かったのですが、、、、大変失礼ながらモデレータの方はグダグダだったな、と思いました。質問の前置きが長くて何が質問なのかわかりずらかったので。パネリストの方がうまくそれを柔軟に対処していたというようにわたしには映りました。
そういう意味では、夏サミで行われたパネルのモデレートはとても良かったと思います。

以降、以下のイニシャルで書いています。 (発言されていた内容を正確に書き起こせていない可能性がありますが、その点は平にご容赦ねがいたい)
M: 三木 泉氏
D: 出口 治明氏
N: 西内 啓氏
Y: 山野 修氏

以降が、本パネルセッションをわたしのできる範囲内で書き起こしたものです。

  • ビジネスと IT に関してディスカッションをする

出口氏の自己紹介

    • 世界経営計画のサブシステムであると考えてる、仕事は
    • この世界をどう理解し、どこを変えたいと思い、自分はどの部分を受け持つか
    • 日本は貧しくなっているというグラフ
    • 20−30代の子育て世代がもっとも貧しい、それが少子高齢化の根本原因
    • こんな世の中はやだと思った、そしてライフネット生命保険をたちあげた
    • 保険の原価はどの生命保険会社は同じだが、諸経費がつみあがることで高くなる、それを取り除けば生命保険だって安くなる
    • ライフネット生命保険のマニフェストの紹介

ビジネスにビッグデータは必要か? 10% は必要ないと思っている、その人の立場にたって質問する
ビッグデータ、データ活用なんて関係ないといっている人たちに実際それはどう関係してくると思うか?

    • Y: 今のビッグデータは 10 年後にはスモールデータになってるかもしれない。あえてビッグデータと標題をかかげる必要はなくすでにありとあらゆるところにデータはある。
    • N: 唯一関係ないだろうというのは、ビジネスの規模が小さい場合、その影響が小さいだろうというのはある。規模が大きくあればなるほど効果があるものだから。何十、何百と類似パターンがあるような場合にはデータを分析し傾向を理解することでより効率化することはいくらでもできる
    • M: Pivotal に出資した GE 。数%の効率化が大きな価値になると言っていたのを思い出した
    • Y: GE, 重厚長大な会社。ジェットエンジンのデータ。フライト時のログデータだけでも膨大。最近はモノ(エンジン)をうるのではなく、施用した分を課金するようなモデルも考え始めている。

ライフネット生命保険、リアルをネットにうつしただけなのか?

    • D: まずはビールを家のみか、外のみかで値段が違うというモデルをネット保険にもちこんだ。ビッグデータについては日本はもっと針小棒大に吹聴すべき。趣味などでやるべきではない。数字とファクトとロジックでやるべき。

直感と統計の話。何を数字ベースでやって、何を直感ベースでやるべきか?

    • N: 話をするときには自分たちのいいたいことを裏付けてほしいのかと、自分たちの想像しもしなかったサプライズを聞きたいのか?ということを明確にする。
    • D: 小さい企業を経営していて思うのは、本当のことを知りたい。都合のいい情報をもらうのではなく、本当の情報をもらわないと意味が無い。源平合戦の本を読んだ、平家が悪者、源氏が良い者だから勝ったではなく、西日本が当時凶作、東日本は豊作だったという背景もあった。 (情報は結果ありきでつくってはいけないといった意味かな)
    • N: データ分析は外部に丸投げという姿勢ではいけない (といったようなこと) でなければ、占い師に相談しているのと変わらない。データ分析について、どこまでのことを言えてどこまでのことは言えないということを共通理解があってこそ
    • D: データ分析は検証可能性を論議すべき

あるデータから仮説をつくられたときに、 AB テストなどの実験をして実証する

    • D: インターネットは検証可能性を高めてくれると確信している

都合の良いデータをつくろうとする傾向はあると思うが、それは経営者が変わらないといけないと思わないか?

    • D: 数字とファクトとロジックを検証するという基本ができてる経営者ならそんなことないよね?
    • Y: 外資系なので数字ありきで判断をする。客観性が大事だと思っている。勘と経験と度胸ではなく。

データ活用は大事だと分かったとして、じゃあ誰がやるのか?

    • N: トップダウンにある日突然経営者から情報システム部門がやれといわれても、分析のノウハウはなかったりする。重要なのはどの規模でやるのかという話。情報自体が全体に共有されているといった環境をつくることが大事だと思っている。
    • Y: データサイエンティストだけでは成り立たない。データアナリティクスチームをつくったらどうかといっている (システム、データサイエンティスト、マーケターの集団)

*****

    • D: ライフネット生命は 100 人でどうやってやってるか。データはシステム部門がもっているが、つかうのはマーケター。人事異動を頻繁にやってる。データがどこにあるかわかったらマーケターに移したりしている。意識的にどんなプロジェクトにもまったく関係のない人間をひとりいれるようにしている。プロばかりでは見逃すことがあるという考えからそうしている。また期間を決めることも大事だと思っている。

オンライン専業の生命保険について掘り下げて話してみてほしい

    • D: 生命保険はビッグデータを活用しにくい業界。センシティブ情報をあつかっているから、セキュリティーは社内でも高くしなければならない。でも、紙に比べたら契約時により多い情報を顧客からいただくことができる。なので、先の可能性は膨大だと思っている。
      (登録フォームなんて使わなくてもより(個人情報は抜きにしても)有用なデータを集められるのが Web の強みだと思うんだが…。まあ、それはこの際、黙っておく)

オンライン生保の可能性

    • D: 電子カルテの話。それを保険会社がつかったら、ひとりひとりの保険料が違うということも実現可能。しかし、そんな世の中が住みやすい世の中なのかという議論がある。 1984年のような世界をみなは望むのか?せいぜい年齢別、喫煙有無くらいにとどめておいたほうがいいのではないか
    • N: 自分がつかってほしくない情報を使わないようにするという動き、行動を変えることによるインセンティブを与えるという動きはある。
    • D: 知人のヘビースモーカー。タバコをすって早死してもいいという人もいるなかで、保険にインセンティブをかけてもいいもんかという話もある。

結局 IT とビジネスの関係はどうなっていくか? (時間がきてしまったのでという前置き)

    • Y: 製造メーカーがものをつくる工程のデータを集め始めている。製造工程のログと品質の関係をつきあわせたりしはじめている。マーケティングだけではない。ビッグデータの応用範囲は広い。ただし、ボトルネックは予算。
    • N: ビジネスとデータ分析の関係。これからどんどん意識しないですむようになっていくと思っている。今、インターネットが意識しないでもみんなが当たり前のように使えるようになっているように。高度なアルゴリズムが裏でうごいていることを意識しないでもよくなるようになっていると思っている。一億総データサイエンティストな世の中がくるだろう。
    • D: ライフネット生命のロゴ、人間の顔。最後の最後は人間が大事だということを示している。あくまで数字、ファクト、ロジックを検証する武器としてのデータ分析だということを理解すべき。


午後の参加したセッションとこのイベントそのもののまとめは余裕があれば別途してみようと思います。
では、今日はこんなところで。

こちらもあわせてどうぞ

*1:一応、わたしは読み終わってます