昨年にひき続いて、第二回目の「データマネジメント2013 〜ビッグデータを超え、経営価値を創出せよ!〜」に参加して来ました。と、いうわけで例によってわたしがとってきたメモと雑感を残しておこうと思います。(資料の公開があれば、後ほど追記もする予定です)
まず概要から
開催日時:2013年3月13日(水) 9:00〜17:30(受付開始 8:30)
会 場 :目黒雅叙園(東京都)
主 催 :一般社団法人 日本データマネジメント・コンソーシアム(JDMC)
URL: http://www.seminar-reg.jp/jdmc/dm2013/
では、全体を通してのわたしの雑感を
ファシリテーションについて:
- 参加者の方は、ちょっと年齢層が高めのようでした。幅広い業種から 1,000 人ほどの事前登録(実際に参加した人数は不明)があったということでしたが、参加者層の情報を主催者がわからもっと聞いてみたかったな、と。
- twitter の hashtag は #jdmc だったようですが、ほとんど活用されてないようでした。
- ほぼ全員分の机を用意してくれていたのは大変助かりました。
- 事前に軽食をご用意していただけると記載はありましたが、ちゃんとしたお弁当を提供していただきました。こちらについても感謝しております。
よいと思ったセッション:
- もともとデータ分析のセッションを聞きたいと思って参加したので、期待どおりによかったものは
- MDMの話、セイバー・メトリクスの話、そして特にデータサイエンスの三つでした。
本当の雑感
- 配布された JDMC によるデータマネジメントの実態調査の資料はきちんと目をとおしてみたい。なかなか興味深そうなので。
ちなみに各セッションそれぞれの所感は、それぞれのメモの下に書きました。
そして、わたしが参加した各セッションメモへのリンクを
- 9:00〜 9:50 E-2 『マスターデータ管理の基本と最新事情』 伊阪コンサルティング事務所
- 主催者あいさつ
- 10:00〜11:20 K-1 『韓国の電子政府の現況と 行政情報(データ)連携戦略』 韓国情報化振興院
- 11:20〜12:20 K-2 『ビッグデータが加速する野球の構造理解 技術革新による分析範囲の拡大』 DELTA
- 日本データマネジメント・コンソーシアムのご紹介
- 12:35〜13:05 L-1 『ビッグデータ時代、最も重要なのは ビジネスクエスチョンに答えること』 日本テラデータ
- 13:20〜14:00 A-1 『グローバル事業展開を支える データマネジメントを含めたIT全体最適の取組み』 日本たばこ産業
- 14:10〜14:50 B-2 『どう創る?ビッグデータ利活用のためのシステム』 日立製作所
- 15:00〜15:40 C-3 『今こそ求められる“攻め”の グローバル・データマネジメント』 リアライズ
- 16:00〜16:40 C-4 『最注目のキーワード、 「データサイエンス」の現状・課題・事例』 iAnalysis
以降から、各セッションのメモになります。
最初の一コマ目はアーリーバードセッションということで基調講演の前に行われました
9:00〜 9:50 E-2 『マスターデータ管理の基本と最新事情』 伊阪コンサルティング事務所
➤ 12. データガバナンス
- MDMというのはその一部
- データライブラリアンの必要性
➤13 Data Governance (DG) 統合プロセス手順と各参画者の役割と責任
- 日本においてはデータ辞書の統合が遅れている
- データガバナンスをするためには、データの定義を統一する必要がある
➤14 評価・プロジェクト計画立案・実施プロセス
- 成熟度評価プロセスで問題を明らかにし、方法論としての実施プロセス
➤15 データ管理アーキテクチャ・モデルと事業対象
- Data Steward (DS): DS の仕事と DBA の仕事
➤16 DBA とDS の役割比較
- DS の役割はデータの品質管理
- データ成熟度モデルで評価をする
- MDM 成熟度モデルも作った
➤20 マスターデータ統合・データレンジング・名寄せ方法論
- 道具をつくるまえにまずはロードマップをひけ
- MDM はこのロードマップ中においては3ステップ目に登場する
➤21 DGロードマップ事例
- スニールさんの著書に書いてある
- 1年間でできそうな目標を決めてやる(間延びすると何をしてるのかわからなくなってしまう)
➤22 製造業におけるDG組織事例
➤23 DBA と DS 部門の整備と役割の明確化(IBM)
- 論理DB設計:DA →資料をみたい
➤24 DGとデータスチュワート組織(事例)
- 部門ごとにDSをおく
- 任命して機能を明確にすることが必要だ
➤25 2012年 MDM&DG Summitにおける主要視点
- DGについての現実的な事例と方法論の整備が成熟
- MDMに対する活用の成熟度
- MDMパッケージの機能が向上
- DG機能に特化したパッケージも注目
- BigDataとMDMについての2つのチュートリアムも開催
***
- インフォテリア、インフォマティカ、IBM、Oracle、SATなどが頑張っている
- CDOという言葉をよくきくようになってきた(Chief Data Officer)
- BigData ガバナンスという本が出版された
- 非構造化データ、宝の山はEーmailにあり。形態素解析→資料がよい
➤26 2012のMDMとDGについての所見要約
- ビッグデータは効果的で持続的なMDMとDGの両方が必要
- 日本においてのBigdataはまだまだ全然バズワード、きちんと活用できている会社はほとんどない→資料がよい
➤参考:世界規模でのMDM製品市場占有率
➤参考:ASTERIA MDM One MH
➤ Johnson & Johnson (JJ) の事例
- データライフサイクルの全行程→資料みたい
- 最終的な結論だけをいうと顧客の待ち数が大幅に低減できた
➤データ標準
- を決める時はツールをつかったほうがいい。日本語解析の問題。
➤MDMはDG戦略の一部分
- MDMの違反者をみつけるのにはツールが役立つ
➤19 データ統合における短期的成果の評価基準
- 業務目的→これがなにより大事(縛ることが目的になってしまっていたりするのはいかがなものか)
➤22 結論
- 決してあきらめないことこそ大事
- isaka@isaka.com →コンタクトしてもらえれば、喜んで説明にきていただけるとのこと
感想:
- DS の必要性はわたしも普段の業務の中でかんじていたので共感。
- スライドまわしが早くてメモをとるのが難しかった
- 資料の公開を期待したい(今回のイベントでの資料はのちほど全て pdf で公開されるとのこと)
- 紹介されていた BigData Governance の本は探して買ってみたい
そして
ここから4コマは、午前中の基調講演の内容になります
主催者あいさつ
- 基調講演、韓国の電子政府、世界で一番進んでいる、それを聞けるというのは良い機会
- 日本も電子政府、共通番号制度の導入が見込まれている
- オープンデータなども広まりつつある
***
- DJMC 発足して2年目
- これからDMは大変重要になる、しかし企業の中においてはその重要性を理解してもらえないこともまだ数多く
- 今回の知見を企業活動の中において役立ててもらいたい
- DJMCへの入会は、ユーザ企業なら無料
10:00〜11:20 K-1 『韓国の電子政府の現況と 行政情報(データ)連携戦略』 韓国情報化振興院
日本でもマイナンバー制度が始まることを聞き、日本の電子政府化が進んで行くいいきっかけになると思います➤自己紹介
- 韓国情報化振興院 経営企画院長
➤韓国情報化振興院の紹介
- 国家情報化基本法 第14条にもとづく
➤I 電子政府推進状況
- 韓国の電子政府の定義
- 情報技術を活用して、行政業務を効率的に実施する
- 単純な IT サービスではなく、国民生活を向上させる
***
- 電子政府の歴史
- 行政業務電算化>行政業務情報化拡大>電子政府高度化>電子政府成熟段階(08ー現在)
***
- 電子政府11大課題
- 政府全体の核心基盤の完成を目的とした→資料
- 電子政府31大課題
- 世界最高レベルの電子政府の実現を目標→資料
- 電子政府支援事業推進(去年まで)
- 国民利便性の向上、経済活性化、社会安全強化…
***
- 主要電子政府サービス
- 10個のサービス
- 住民サービス、ワークネット、ホームTAX、電子調達、企業支援単一窓口、特許、電子通関、政府業務管理システム、行政情報共同利用、政府統合電算センター
***
- インターネット住民サービス
- 国民はオンラインで住民サービスを提供(行政機関に赴く必要はない)
***
- ワークネット
- 雇用・就業情報の統合
***
- ホームTAX
- オンラインで所得申告ができる
***
- 電子調達
- 入札から支払いまでカバー
***
- 企業支援単一窓口
***
- インターネット特許システム
- 出願、申請、結果の紹介まで包括的にカバー
***
- 電子通関
***
- 政府業務管理システム
- 政府業務のすべての工程をオンラインでトラッキング可能
***
- 行政情報共同利用
- 行政機関間の情報共同利用、書類を削減
***
- 政府統合電算センター
- 部署ごとにもっていた電算システムをひとつに統合
***
- 電子政府のレベル
- 193ヶ国中で1位(日本は18位)
***
- 主要な成功要因→資料
- おおきは三つ
- 強力なリーダーシップ
- 効果的な投資財源の確保
- 政府内の共通機関を整備
***
- 強力なリーダーシップと推進体系→資料
- 推進段階によって組織体系がどのように変化していったのか
- 01ー02年に大統領の直轄になった(組織構造がシンプルになっていっているようにみえる)
- 昨年、新政府が立ち上がったことにより、また組織改変が見込まれる
- 未来創造科学部が新設されることになる
- 韓国の情報化推進計画は5年毎に改訂される
***
- 効果的投資財源確保→資料
***
- 政府内の共通基盤整備
- ワンストップ、ノンストップサービスを提供するために、政府内の機関におけるシームレスなデータ連携は必須
- GPKI 認証、政府ディレクトリサービス、文書流通は共通基盤になっている
➤II 行政情報流通体系現状
- 概要
- 行政情報をあんぜんんあ方式で伝達するための政府共通の標準インフラ
- 利用期間と保有機関間の情報の共有を支援する情報連携管理体系(CS方式、Web形式)
**
- 大量情報流通サービス(機関間をバッチ処理でむすぶ)
- リアルタイム流通サービス
- 事実要否確認サービスの三つ
***
- 大量情報流通サービス
- 1件または大量の行政情報を暗号化し機関連携および流通するサービス
- 中継、分配、とりまとめの三つにわけられる
- 代表的な保有機関と流通データ情報(135種現在)
- 342機関、786システム(中央機関から公共機関までが利用)
***
- リアルタイム流通サービス
- 利用機関が欲しい情報を要求すると保有機関が検索して結果をかえす
- 選挙での利用事例→中央選挙管理委員会(選挙人名名簿照会および作成)
- 5種のサービス、7つの機関で利用→今後もっと利用拡大させて行く予定
***
- 事実要否確認サービス
- 利用サービスの問い合わせに事実情報を返信する
- 自動車手数料の減免サービスの利用例
- 11のサービス、8種の機関で利用中→2017までに90種まで増やす予定
➤III 韓国のデータ管理発展方向
- 2012年の大統領への報告資料より
***
- 未来の姿
- 行政情報に制限されている情報を、政策決定、民間レベルでの活用までに展開して行く
- 公共情報のオープンデータは韓国でも話題になっている
***
- ビジョンと戦略
- ビッグデータマスタープラン
**
- 政策プロセス革新
- 先制的社会懸念解決
- オーダー型国民サービス
- ビッグデータ基盤新成長動力創出
***
- 推進課題
- このような目標を達成するために、ビッグデータ活用の推進基盤を作成する
- 公共データの提供、法制の整備を推進して行く
**
- ビッグデータの対象課題
- 社会安全、国民福祉、国民経済、国家インフラ、産業支援、科学技術
**
- 5戦略的R&D投資で5年以内に世界最高レベルの技術力を確保する
- 専門人力の養成も
感想:
- 情報量は多かったが、説明は不足していたように思う
- 主に言語(韓国語)の問題が大きかったので仕方がない(逐次通訳という形でしたし)
- 国家レベルでデータの活用に真剣にとりくんでいる姿勢は強く伝わってきた、日本政府も見習ってほしい
11:20〜12:20 K-2 『ビッグデータが加速する野球の構造理解 技術革新による分析範囲の拡大』 DELTA
➤マネーボールで話されたセイバーメトリックスに関する話
- メジャーリーグではデータ分析の仕方が大幅に変わった
- ビル・ジェイムスが野球の構造をデータから突き詰める研究をした
- Baseball Abstruct という著作をだした
- 現在はボストンレッドソックスのシニア・アドバイザー
➤チームが勝つために必要なこと
- 野球に勝つことの構造的理解
- 統計手法の導入
- 前提:勝敗は得点と失点の関係により成立
- 発見:得点と失点には相関
さらに→公式を導いた
***
- 得失点差と勝率の間には強い相関関係→日本にあてはめた資料では 0.936
➤得点が生み出されるモデル
- 得点=出塁(安打+四球)x進塁/機会数(打数+四球)
➤失点に影響する要素を整理して、責任を区分すること
- 失点に影響するすべての要因
→投手の基礎力(被本塁打、与四死球、奪三振)とそれ以外
→投手の基礎力+投手、野手(だきゅうとそのしょりで構成されるプレー:ゴロ、ライナー、フライによるアウトとヒット)とそれ以外
→投手の基礎力+どんな打球をうたせたか+打球をどう処理したか(アウトかヒットか)+野手、中継での失策など+それ以外
**
- 投手がコントロールできる範囲〜打球別年度間相関→資料
- 投手が打たれることに責任があるということを分析
- さらに打たれた打球に関してそれがヒットになる状況を分析→打たれた打球によっては投手に責任がないことを分析
➤セイバーメトリクスの役割
- 勝利の構造を解明
- 選手の価値評価(リスク・経営管理)
- 選手の将来予測(予測モデル化)
→データからの野球の構造理解→アウトプットの技術革新
➤しかしわからないことも多い
- 既存の見方から分析のしかたを拡大したセイバーメトリクスではあるけども
- ただ、わからないからといってそれが意味がないわけでもない
- 数字を介して理解を進めることによって、前進できる
- ビル・ジェイムスでさえ、野球で彼が理解したいことの1%も理解できていないと言っている
***
- より理解を深めるために必要なのは、トラッキング(もっと分析対象のデータを増やすこと)↓
➤データ取得の技術革新
- 固定カメラによる客観的データ取得システム→取得データの多様化+ヒトによる狂いがなくなる
***
- ボールの軌道をとる、カメラで
- ピッチャーの投球(フォームからリリース位置)
***
- こういったデータによって何ができるのか?
- ボールの回転だったりによって、球種を自動判別できるようになった
- バッターへの影響も
***
- 主観が入り込む要素をどんどん無くしていく
***
- さらなる未来の姿(トラッキングによる恩恵)
- 投手ごとにどういう球がくるのか事前にある程度わかる、打者が。など
**
- 投手指標の年度間相関係数→資料
→三振を撮るために必要なこと要素の分析、何をもってその投手をいい投手と評価できるか?につながる
**
- バッターの評価
- HITfx Analysis
- ボールにどれだけ強い力を加えられたかが、最も重要な要素となる
- 物理的な現象として本塁打をとらえたりする
- 高い割合でボールに強い力を加えられる選手がいい選手という考え方をあたえてくれる
**
- 投球打撃のさらなる構造理解→打者の意思決定を含めた分析(分析の将来=脳&神経)
**
- 捕手のキャッチング能力の分析
- 上手な捕手はミットの位置を動かさずにキャッチングできる→ボールなんだけど、ストライクと判定させられる
→捕手のキャッチング能力によってどの程度失点抑止できるのかという話にまでつながっている
**
- 捕手守備のデータ化
- パスボールが起こる割合を算出→抑えたパスボールの数によってどれだけ失点を防ぐことに捕手が貢献したかを評価できるようになった(捕手の評価もより多角化)
***
- FIELD fx による球場全体のデータ化
- 野手の守備力の評価
- ポジショニング、ボールへの最短距離、反応速度、守備範囲
➤ビッグデータ化によりブラックボックスに切り込み、選手の能力や勝率の構造について解析できる範囲がひろがった
➤球団は金で選手ではなく、勝利を買うべきだ
- 映画、マネーボールのハイライト
- セイバーメトリクスはビッグデータの典型的な活用事例だ
感想:
- トラッキングの仕組みがまず大事だということに激しく同意。
日本データマネジメント・コンソーシアムのご紹介
- 午後の公演、2つのトレンド
- 業務区分を超えたデータ連携を重要視するトレンド
- データ定義の重要性(範囲、粒度、鮮度)
**
- データ活用のトレンド
- 様々なデータの発生源(スマフォ、タブレットなども含む)から得られるものをいかにして活かすのか
- マーケティングの材料がどんどんと増えている、自社にそれをどのように活かすのか
**
- 日本データマネジメント・コンソーシアム入会案内
- こういったカンファレンスの実施、データ分析の実態の調査などを行う
- 会員になるメリットは、定例セミナーの企画開催、研究会の実施
- 参加者同士の熱い意見交換ができる(特定のスポンサーがいるわけではないので)
そしてさらに、
以降が、ランチセッションをはさんでの午後のセッションになります
12:35〜13:05 L-1 『ビッグデータ時代、最も重要なのは ビジネスクエスチョンに答えること』 日本テラデータ
- 時間は短い、30分
- ビッグデータ時代、データはすでに溢れている、皆さんデータを活かせていますか?
➤Teradata のカバー領域
- Teradata、Teradata Aster
- コンサルティングもある、その方法論
- Data Mart Consolidation 、システム統合ではなくデータ統合
- Apple も使っている(ウォルマートなども)
➤データを経営や業務にいかしていますか?
- 経営・業務プロセスのなかで戦略目標を達成するために発生した外部のデータを活かせているか?
- 顧客の声やセンサーデータなどの膨大なデータの活用ができているか?
- ちゃんと分析できているか?
**
- Tobe をみてみる
- 営業活動と分析・管理のふたつに分かれるが、それがワークしているか?
➤最も重要なことはいかにビジネスクエッション(BQ)にこたえているか?
- すべては経営や現場のビジネスクエッションからビジネス価値と、キーデータエリア・開発タイムライン
- データはすべて集まっていないとその答えを得ることはできない
***
- TeraData は BQ の業種別テンプレートをもっている
- 製造業、小売業、などなどなど
***
- BQ にこたえるには?
- 業務ではっせいするデータはすべて蓄積・統合され、必要な人がいつでもアクセスできなくてはならない
- データは一箇所に集めることが結局は必要
***
- One Fact in One Place(データは一箇所にあればいい)
- EDW = TeraData が必要だということ
***
- Tobe モデルへの実現のステップ
- 最終形をイメージ・定義して、そこにいたるステップをきめる
- 全社全体での論理データモデル(LDM)をつくる(業務視点ではない)→Teradataはその業種別LDMテンプレートをもっている:第三正規形は保っている
- 新たに追加されるデータは減っていき、活用範囲は広範囲におよぶ
***
- LDMテンプレートの例
- 一から用意するよりずっと便利ですよ、と営業トーク
- もちろんカスタマイズもできる
➤そのためのメソドロジーとアーキテクチャーは?
- EDW 構築メソドロジー
- 構想策定、分析、設計、装備、実装、統合、運用
- とくに重要なのは構想策定(それができれば実装して行くだけだから)
***
- EDWロードマップ:これも業種別にテンプレートをもっている→図解をあとで確認したい
- 小売での事例
- まずはシナリオをつくる>BQはどんなものがあるか?>KPIは?>LDMはどこに?
***
- ビジネス改善課題、その裏にBQが
***
- あらゆるユーザによるあらゆるタイプのデータ分析を可能にする Unified Data Architecture
- Teradata Aster(SQL-H:”SQLで透過的に” で Hadoop:”蓄積目的” と接続) と TeraData
***
- 全社情報基盤のアーキテクチャ
- データマートはあるにこしたことはないが、なければもっとよい
- 直接アクセス可能な統合DWHを提案するー資料
***
- Aster のアーキテクチャ
- 並列処理、そして SQL MR
- ビッグデータ分析プラットフォームという位置づけにしている
➤最新事例
- フォードの事例:BQは「VIN単位の収益は?」
- 大手小売業の事例:BQは「オムニチャネルの活用」(O2O、など)
- コンチネンタルの事例:BQは「優良顧客はだれか?」(マイルが多い人:Platinum が優良顧客かといったらそんなことはない。CVSを定義して分析)
- 大手銀行の事例:マルチチャネルデータを統合し、ビッグデータ分析(口座を閉じるまでのアクションを一箇所にデータ統合)
➤まとめ
- BQにいかにとらえるかが大事
- One data in One Place
- 構想策定が大事
感想:
- ほとんど、TeraData の宣伝だった。
- 統合DWH ができるなら、それにこしたことがないのは同意だが、どんな企業でもTeraDataでなければならないとは思わない。
- LDMテンプレートなどは魅力的だな、と。
13:20〜14:00 A-1 『グローバル事業展開を支える データマネジメントを含めたIT全体最適の取組み』 日本たばこ産業
➤ひとのときを想うJT
➤会社概要紹介、JTをとりまく環境
経営理念:4Sの追求(顧客、株主、従業員、会社)
- それに貢献できるIT環境をつくらなければならない
- 国内支店25
- 連結約5万人
- 海外の拠点と所在地
- 収益:たばこ、食品、医薬、飲料事業
- 少し前までは国内タバコが半分をしめていたがそれも1・4くらいまでおちてきた→グローバルに目をむけないといけない状態になっている
***
- MEVIUS の国際ブランド化、その戦略策定
***
- 日本におけるタバコ事業グローバル化の特徴
- 会社の再編(買収を含む)
- 日本人に過度に依存しないように
***
- JTI(Japan Tabako International)
- ジュネーブに本社:フランス語圏
- 50ヶ国以上の人間がはたらく、各国にオフィス
- 24,000人の社員、日本人は130名
***
- Dual HQ IT Operation
- 国内事業と海外事業でお互いにいい意味で競争関係にある
- 海外は海外であってるものをやりつつ、日本で標準化
***
- 変化を恐れない社風
***
- JTをとりまく環境変化と危機
- 危機に屈しないスタンダードをITにも実装したいと思っている
***
- IT部組織における中期計画(Rolling)とミッション
- 簡素化、可視化、統合集約→見えないものは数値化できない
- パンデミック対応、および中長期の事業継続のための危機管理体制の基盤強化
- グローバル化対応を見据えた情報管理システム
***
- 以下を IT 部は目的とする
- 固定費用削減
- 全体最適
- 危機管理
- グローバル化
- 組織内部強化
***
- 短期的効果は維持運用サービス領域だが、重要な位置づけは変革移行の領域(それがITが拡張すべきミッション)
- インフラはどんどん刷新しなくてはならない:ベンダー依存っぽい発言散見(パッチをあてると落ちる)
***
- ERM(Enterprise Risk Management)→細かいので資料をみてみたい
- 危機管理が中心
- 認証、BI、時間管理・アクセス管理、属人性回避
***
- RG-PDCA と IT
- Research と Goal 設定がある前提で PDCA をまわす
***
- IT部門機能、ビジネス接点見直し
- ITにとって投資の中心は事業側、IT側はどうやってそれを実現するのか?
- 専門家としての投資案件の精査、および助言
- EA 活動
***
- グローバル化、コミュニケーションの最適化
- 在宅でも仕事ができる環境を提供
➤課題
- コスト面、危機管理面からの進化
- 仮想化習熟、汎用、標準化技術の展開などなど
➤グローバル最適化へ
- ビジネスプロセス・データ最適化
- アプリケーション最適化などなど
➤データ
- ステークホルダーに訴求するための道具という見解
感想:
JTとグローバル化の背景の説明など、それなりに面白い内容が聞けたが、全体的にデータマネジメントとはあまり関係のない話だったのが残念。
14:10〜14:50 B-2 『どう創る?ビッグデータ利活用のためのシステム』 日立製作所
- 技術と事例の話
➤ビッグデータ利活用とはなにか?
- 社会にあふれる有用なデータ
- オフィスのドキュメント、ヒトによる発信、モノからの発信(車、気象環境、設備監視)
***
- ビッグデータ利活用への期待
- データはこれまでコストをいかにさげるかの視点でつかわれてきた、それが利益を生むものとしてとらえなおされるようになってきた
***
- 3つのV
- Volume、Veriety、Velocity
- 4つめのV
- Value を日立は考える
***
- Vはどうしたらうまれるのか?
- 人間の創造によってうまれる(?)
- ITと人間、双方が必要
***
- HDD単価の低下、マルチコアCPU、並列処理
***
- 第3のデータの登場とジレンマ
- 価値をうむ→活用
- 価値をうまない→集めない、捨てる
↓
現時点で価値を感じないものをためておくようになる(第3
➤ビッグデータを支える技術
- ビッグデータ処理で必要なこと
- ライフサイクル(収集>蓄積・検索>集計・分析)
***
- 収集:ストリームデータ処理技術
- 以前:大脳系処理
- 今後:反射神経系処理(蓄積しないで発生する都度分析)
***
- 蓄積・検索:インメモリグリッド技術
- NoSQL、KVS
- :各種データベース技術
- 使い方をこれまでは事前にきちんときめていたが、データ活用方法はあとから考えられるようになった(ある程度は事後につかうことを考えたデータ設計は必要だとおもってるのだがそう言ったことはいってなかった)
***
- 集計・分析:Hadoop
- BigData といえば Hadoop といえるほど有名に
- :基幹系のバッチ
***
- ITシステムの現状
- 基幹系からETL>情報系のDWH
- 今後は?
- ストリームデータ処理でためるまえに処理
- インメモリグリッド:トランザクション高速化
- バッチ分散処理:よりはやくデータ連携
➤ビッグデータの利活用事例
- モノの情報発信の事例
- 鉄道施設の保守サービス(英)
- ビジョン構築>活用シナリオ策定>実用化検証>システム導入
- ビジョン構築の内訳
- 解決のビジョンの構築(Ex アプローチ)
- ビジネスダイナミクス
- 数理分析(要件を実現する手法・システム要件を明確にする)*いまここらしい
- いまはやたらめったらセンサーをつけてまわってるそう
- 鉄道施設の保守サービス(英)
**
-
- DC の空調管理
- 節電による運用コストの低減が急務
- 全体空調制御から、粒度細かな空調制御へ
- 日立AirSense II を導入→ストリームデータ処理でリアルタイムに監視している。センサーの傾向分析で異常を予兆段階で検知(熱だまり、気流の異常など)
- DC の空調管理
***
- ヒトの情報発信の事例
- データマートレスにおける高速分析
- POSデータをいかに活用するか
- 機会損失を低減したい
- 課題:分析軸の追加が大変、分析準備に時間がかかる
- Hitachii Advanced Data Binder をつかった
- データマートが不要に(Teradataと同じことをいってる)
- 時間帯別集計をリアルタイムに
- バスケット分析、買い回り分析も可能に
- データマートレスにおける高速分析
**
-
- SNS による需要予測
- Twitter や Facebook における特定の文言の頻度分析
- 一歩踏み込んで、感情分析
- さらに、グラフ分析処理
↓どうやって需要予測につなげるか
POSとソーシャルの相関分析処理をしてみる
↓
需要予測補正と詳細化につなげる
- SNS による需要予測
➤日立のビッグデータ利活用事業
- イベンティブ・アナリティックスとビッグデータ利活用プラットフォームの二本立て
***
- 200名ほどのマイスターがいる
- そのマイスターの活動ステップ
***
- ビッグデータ利活用プラットフォーム(高速データアクセス基盤)
- Hitachi Advanced Data Biner(HADB)
- 東京大学の喜連川教授が関わってるのがこれとのこと
- HADB はサーバは一台、ディスクだけどんどん追加していけばよい構造に
- 非順序実行方式(喜連川教授の考案)
- ビッグデータの部分抽出が得意
➤まとめ
- ビッグデータはまだまだバズワード
- しかし、データはためておくことで、価値を創出できる可能性を秘めている
感想:
- 先に資料を配布してくれたのに好感。
- 余裕をもって、必要だと思うことのみをメモすることができた。
- Hitachi Advanced Data Biner(HADB)の紹介がメイン。
- アンケートをだしたら記念品をくれた
15:00〜15:40 C-3 『今こそ求められる“攻め”の グローバル・データマネジメント』 リアライズ
- リアライズはデータマネジメントを専門にする会社
➤会社の紹介
- NTTデータの子会社
- データマネジメントを専門にする
- データ移行、クレンジングは必要があればするが、データをつかえるようにするためには何ができるかを考える会社
***
- まずは現場調査をする
- 実際に生のデータをみさせてもらう
- それを保つ運用も行う
***
- 600以上のデータマネジメントプロジェクト実績を保有
➤データマネジメントの効果:どういう課題があってどうやって解決するか?
- データマネジメントがもたらすもの
- 見える化の実現
- 業務効率化
- 顧客満足度の向上(ワンストップ化
- ビジネス変化への柔軟な対応(震災によってこの懸念をする企業が増えた
***
- データはニーズによって定義が異なる
- 例:オペレーターと経営者ではほしいデータが違う
- 実はヌケモレがあるデータになっていたりとか
***
- 経営上重要なデータとは?
- 基幹システム、DWH、Data Mart
- CSVファイル、Officeドキュメント
- 個人の意見
- (それらの情報連携基盤)
- ただ集めるだけではダメ
- マスタが必要
- グローバルではローカルでもつべきものと、一元管理するものとでわかれる必要
- つまり軸が必要(ないならつくる)
***
- マスタ運用の考え方
- 解析型、マスタハブ型(共存型)、マスタハブ型(トランザクション型)
**
- 解析型
- 基幹システムと個別システム
**
- マスタハブ型(共存型)
- コードセンター
**
- トランザクション型
- ゴールデンマスタ運用方式
***
- グローバルデータマネジメント整備の実績
- それぞれでやるものと一元管理、選ぶ作業が大変
- 厳密にできないことをなげく必要はなく、みつけたら統合マスタにもっていくというアプローチでよいという見解
***
- グローバルデータマネジメントは国内とおなじ考え方でよいのか?
**
- データマネジメントのパターン
- 会社間で同じコードを使おう
- 国をまたぐとここがうまくいかなくなる(見えなくなってくる)
- 同じものを指してることが若干ちがってきたりする
- 派生してしまっている項目がなにか、それを把握する
- データの流通を上から順番にみていく地道な作業
➤事例紹介(3つの事例)
- 事例A社:受注データの活用
- 営業と経営企画部門で異なる要求
- かたや早く調達したいので、データ抜け漏れがある状態で入力
- かたや経営分析をしたいのできちんとデータを入力してほしい
**
-
- あたらしい軸、マスターをつくった→ターゲットが明確になった
- (ヌケモレになるところを値がはいるようにしている)
***
- 事例B社:グローバルマスタの現地法人最適化
- 米国本社で顧客データを管理しているが、日本子社からもどってくると住所のデータなどが固有の事情でデータが不正な状態でかえってきていた
- この場合は、子社側で管理するべき
- データクレンジングをした事例
***
- 事例C社:誤ったデータによる弊害
- 会計システムの結果が3割間違っていた
- 蓄積されたデータが正しいのか?
- それともロジックが正しいのか?
**
-
- この場合は、データが正しくなかった
- 正しい(整備された)データx正しいロジック=正しい結果
**
-
- データが間違っていると100名必要だった作業が、1名でできるように
➤まとめ
- 攻めのデータマネジメントとは?
- ニーズを思い出しましょう
- マスタをキチンともって軸をもちましょう
- 中央集権的なのか地方分権なのか、データをどこでもつのかをきちんと定義しよう
***
- 成功のポイントは4つ
- 錦の御旗:経営者の理解
- 目的志向
- 大きく計画して小さくはじめる
- データ品質問題の正確な把握
***
- データ戦略、体制・役割、マインド・協力、ルール・プロセス、ツール
- ここでもでてきた Data スチュワート (DS)という言葉、データガバナンス
感想:
- 最初のセッションとおなじくらいいい内容だった。
16:00〜16:40 C-4 『最注目のキーワード、 「データサイエンス」の現状・課題・事例』 iAnalysis
➤会社概要
- データ分析を中心の会社
- セミナー、コンサル、分析実務
- 医療分野からはじまり、多岐の分析業務
**
- Speaker 紹介
- 東京大学 Ph.D
- おとうさんの解析日記:ブログ
**
- 活動の近況
- リクナビネクストでインタビューを受けた「データサイエンティストになるための条件」
- スクーでレクチャー
- CodeIQ のデータサイエンティストの出題
- データサイエンティスト協会(仮)→Facebookページを開設した(探してみる)
➤データサイエンスがGoogle検索のトレンドに
- 2012年から一気に上昇(単位がないんだが…)
➤身近なサービスで行われている分析
- Google, Y!, Rakuten, amazon, DeNA, GREE
- レコメンデーションだったりパーソナライズだったり、広告のマッチングだったり。
➤そもそも分析の目的は?
- 仮説検証、現状分析→マーケティング系
- 仮説発見→自然言語の共起ネットワーク、企業間の取引ネットワーク
- 最適化、異常検知、予測モデル→レコメンド、在庫・仕入れ・配送の最適化、不正アクセス解析、癌の予後予測など
➤企業内での分析:部署ごとでの分類
- 経営企画→KPI
- 商品開発→マーケティング
- 営業→CRM
- 人事部→人材配置
- 財務→M&A分析
- 法務→特許分析
➤なぜ今またホットになってきたのか?
- データが溜まるスピードに分析がおいつかない(方法論)
- 非構造データをためていってもそれを分析できる人がいない(人材面)
➤データサイエンス業界の課題(4つ)
- 効果的な分析PJの進め方
- インフラの整備、目的にあったツール、システムの導入
- 人材確保、育成
- 企業内の分析文化
➤効果的な分析PJの進め方
- 分析の流れ
- (分析の設計・データの設計>データ用意>手法適用>解釈する)
- ゴールは売り上げアップだったり、意思決定だったり
- それに貢献できないものは意味をなさないとみなされてしまう
↓みあうようにするために - 業務知識、データ理解>企画、目的設定、仮説作り>優先度設定>(高い優先度のものから分析)>ソリューション化>ゴールへ
- ()内をブレイクダウンしたのが上
➤分析工程のフェーズ
- データの収集加工>データの可視化>モデル作成>効果検証 AB テスト
➤Ph1 データの加工・収集
- データクレンジングの例→完全に一直線に並ぶのは不自然(入力ミスを疑う)
➤Ph2 データの可視化
- Twitter のフォロワーが世界のどこにいるひとなのか?を可視化してみた例
➤Ph3 モデル作成
- データ(因子)にさまざまなモデルをあてはめて情報を探索する
- どのモデルを採用するか、というところに統計の知識が必要になる
➤Ph4 効果検証 AB テスト
- Web サイトならば、2つのサイトを用意し
- CVR、直帰率、サイト滞在率、リピート率などを比較する
➤分析事例
- 分析力のある企業の事例など
***
- iAnalysis の事例
- Web 訪問者の属性予測
- より精度の高い広告をだすためにユーザの属性を推定したい
- アクセスログからの予測→60%
- 検索履歴からの予測→95%の正解
➤さまざまな分析サービス
- 目的によってもちろん違うが
- インフラ系
- Oracle、Hadoop、MySQL、PostgreSQL、InfiniDB
- ETL・DWH
- SAS
- ソフトウェア
- R などなど
➤データマイニングとビッグデータ:データベースの加工
Hadoop の利用
➤BIツール
➤BAソフト、分析ソフト
- SAS
➤データマイニング
- IBM SPSS, LAVASTORM, RAPIDMINER,
➤人材確保、育成
- 必要なスキル・人材
- エンジニアリング、学問知識、ビジネス感
- 機会学習、データサイエンス、Traditional Research
- DB エンジニア、数学統計者、経営者の三つのスキルの交錯点のスキルセット
➤データサイエンティストのレベル、ニーズ
- エンジニア>アナリスト(現場分析)>プロフェッショナル(将来予測)
- (まだ議論中の内容だが、一般的に言われるようになっている内容)
➤分析手法マップ
- 機会学習系
- SEM→資料見たい
➤効率よく分析を進めるための組織構成
- 集中管理モデル(経営チームの直下)か機能モデル(経営の直下になくてもひとまとまりになっている、必要があれば出向する)がよい
- 分散配置はよろしくない、なぜなら、分析のノウハウが共有されないから(シナジー効果がない)
➤データサイエンス業界の課題を解決するには
- 効果的なPJの進め方→目的を持つことが大切
- インフラ→ツールを適切に選ぶ、目的にそったもの
- 人材確保→セミナー・研修を活用
- 企業内の分析文化→勘だけじゃなくデータをみなさい
感想:
- データサイエンスに関しては、自分自身がもっていた認識に大きな差がなかったことが確認できたことがよかった。
- Speaker さんのブログはとても参考になりそうなので、 RSS 購読する(すでに登録した)
- 紹介されていた書籍も読みたい(残念なのは kindle 本がなさそうなことだが)
では、今日は以上です。