#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

データマネジメント2012で eBay と Yahoo! Japan のデータ分析の話を聞いてきた #bigdata #analysis

スポンサーリンク

Problem Solving
Problem Solving / myfuture.com
今日は、データマネジメント2012〜ソーシャル、クラウド、ビッグデータの時代を勝ち抜く〜で話を聞いてきたので、そのメモを共有したいと思います。
(上の画像は Analytics っぽいことを説明してそうな画像をはりつけただけです、気にしないでくださいw)

ちなみに会場は例によって目黒雅叙園で、会場ではコーヒーがセルフサービスで提供されてました。

会場には机があったので(全員分はありませんでしたが)、ちょっと早めに会場に入れたのでわたしは机を使えました。
なぜか録音撮影が禁止でがっかりな運営だったのはデブサミと一緒でした。

では、以降がわたしがとってきたメモになります。

15:40-16:20 eBayの分析プラットフォームの実際 〜メタデータとアプリケーションを中心に〜

eBay, Analytical Platform, Director, Alex Liang 氏
世界最大のオークションサイトを運営しネット販売を手がけるeBayは、運用するデータウェアハウスも世界最大規模。6000人を超えるユーザーが部門を超えて、日々5万5000以上の処理を実行しています。本講演では、この大規模データウェアハウスを管理、活用するためのメタデータの活用法と、そのメタデータを利用して稼働する主要アプリケーションについて解説します。

How eBay build a analytical platform

▶ eBay の誕生

壊れたレーザーポイントから生まれた
14.82 $ で売れた
Pierre Omidyar
自宅サーバで稼働した無料サービス
寄付の募集、小切手…
最初から利益を生む

初期のビジネスモデル、ターゲットユーザー

eBayに関する事実 16年後

▶ eBay の分析プラットフォーム

2000年に開始
OracleからTeradataに移行
1日当たり5万5000件のバッチプロセス

Big Data VVC
> 50TB/day newly data
>100PB/day processing data
system is everytime online 24/7
availability 99.98%
数百万クエリ
毎秒1TB以上のデータを更新

3 Different System
EDW、ODWプライマリとセカンダリー
6PBのキャパシティ

Singulariy

Hadoop
→Machine learning

クローズド・ループのアクティブ分析プラットフォーム
分析プラットフォーム
↓↑
サイト・データベース

分析プラットフォーム・メタデータ
データ・ディクショナリ
論理データマップ
システム・インベントリ

他にどのような情報を得られるか
物理データフロー
データ利用状況

典型的にはメタデータはFYIの情報でしかない
5年前まではebayもそうだった

メタデータはどのような点で有効なのか

  • 物理データフローの可視化
  • データの合理化
  • データ品質の監視

★物理データフローの可視化
現状の課題
手作業でのDFD作成
DFDは完全でない
すでに内容が古くなる
手作業での図式化は限定的
正確性は保証されない

データフローの可視化
データフロー可視化ツールのサンプル
クリティカルパスを中心に自動的に作成される

DFDによりどのような質問に回答できるのか
データソースはどこか
データはターゲットにむけてどのように流れているか
どのSQLが使われているか
開始時間と終了時間
ターゲットのテーブルはいつ使用可能になるか
クリティカルパスはどこか

★データの合理化
現状の課題
システム容量不足
バッチ処理の速度低下
ビジネス向けのSLA欠如のリスク
システム上のデータアクセスの遅延
エンドユーザの満足度の低下

データ合理化はテクニカル・メタデータを活用してビジネスユーザに対して価値の最大化を提供

利点
全体的なIT経費を削減
貴重な資源を開放
価値提供システムの寿命を延長
UXを強化

どうやってどのテーブルが一番重要なのかしるのか
テーブル利用状況メタデータ
テーブルの基本情報
→テーブルのサイズなどの情報
テーブルのアクセス情報
→カラムのアクセス情報重要
テーブルの利用情報
→CPUコスト、下流のバッチヒット件数

テーブル利用状況インデックスを作成する

インデックスをもとにして
典型的なアプローチとして
テーブルの利用停止
ロード頻度の削減
旧データレコードの削減
寿命後のデータ要素…

★データ品質の監視
現状の課題
ソースからデータ品質が保証できない
データ品質上の問題が通常エンドユーザにより発見される
データ品質上の問題が迅速に発見できない
データ品質上の問題の修正に多大な時間を要する
データ品質に対する顧客の満足度が低下する

どうやってプロアクティブにデータのクオリティを向上させているのか
データ品質管理ツールはほぼリアルタイムでシステムのデータ品質を監視するように設計されている

Data Profiling
どのように機能するのか
データ要素メタデータ
(型、値の範囲、参照整合性、制約、デフォルト値)
監視エンジン(DQ ファイアウォール)
アラートと自動化アクション

メタデータ・リポジトリ(MDR)ツールによるデータモデル管理
論理モデルと物理モデルの管理
DWHだけでなく活用

他の応用
ETLパフォーマンス監視
商品の利益率管理
クエリーパターンの認識
分析プラットフォームのユーザー行動分析
ETL問題パス分析

分析により
SLAレベルのマッチングをビジネスユーザとの間でマッチングすることができる
処理のボトルネックをみつけることができる

感想:

DFD を自動で作成したり、保有データの最適化(合理化とスライドには書いてあったけど)したり、データの品質管理のためにデータ分析を活用している点が素晴らしい。
Memos: #hw2011 (Day1), 08, Nov, 2011.で聞いてきた話と内容が被ってなかったのもよかったな、と。
※ 2000 年時点からデータ分析プラットフォームをつくりはじめたというだけのことはあって、この手の取組をしている会社としては抜きん出ているということを感じました。

16:30-17:10 ビッグデータのマーケティング活用事例 〜お客様とのEngagementを目指して〜

ヤフー株式会社 コンシューマ事業統括本部 マーケティング部 部長 鈴木 勝 氏
Yahoo! JAPANでは、月間ページビュー496億、月間ユニークブラウザ数2.53億、検索ログなどの日々増加するWebログデータやYahoo!オークション・Yahoo!ショッピングの取引データなど、貴重なビッグデータを匿名性と機密性を確保して管理し、顧客サービス価値を向上するために日常的に活用しています。
本講演では、ターゲティング、レコメンデーションなどビジネス価値を高めるビッグデータ活用事例を紹介します。
※記載の数字は2011年第3四半期の平均値

▶ 自己紹介

ゼネコンの営業、マーケティング
2004からY!のマーケティング
Marketing=Scienceを目指している

▶ Y!について

1996に開始
現在は総合インターネットサービス
サービス数130以上
2.53 億ブラウザ/month
0.49 B PV/month

ポータルの競争状況
pv、UU、滞在時間で圧倒的No1

マーケットシェア
Y!が52%

スマートフォンの利用状況
200910を100としてpvは25倍ほど

Y!の3つの事業

  • 広告事業
  • ビジネスサービス事業
  • パーソナルサービス事業

事業戦略の4つの柱
Everywhare化
地域生活圏情報の充実
ソーシャルメディア
オープン化

オープン化
RSS、ID連携、アドネットワーク、広告配信、Y!ウォレット

Everywhere化
すべてのデバイスもターゲットに

ソーシャルメディア
Y! x mobage

O2O

▶ レコメンデーション、ターゲティングPF

ビッグデータの活用で目指していること
膨大なデータの中からお客様が望む情報を的確に提供し、利便性を高め、長期的な関係構築を目指す

3つの顧客価値
お客様に気づきの提供
利便性の向上→ユーザビリティの向上
ライフステージとの連動→離反の軽減

データマネジメント、3つの徹底
お客様がY!を利用
Webログ、購入履歴が残
データの匿名化
アダプターUI

1 匿名性
2 暗号化
3 機密性(アクセス制限)

データのエコサイクル
サービス
収集する
(アクセスログ、検索ログ…)
加工する
(インプレッション、開封率、クリックス、コンバージョン…)
測定する
分析する
(モデリング、スコアリング…)
最適化する

その構造
4つのコンポーネント

  • User activity based recommendation
  • Item based recommendation
  • Contents data
  • Profiling model

Minerva(システム名)
お客様の行動履歴を解析し、お客様を知るエンジン
お客様の嗜好データとコンテンツの特性データをマッチングし、嗜好性の高いデータを提供
data collect ↓
scoring engine
matching engine

Coke(システム名)
コンテンツのクリック情報を収集、スコアリング、Most Popularアイテムの提供とAffinity Engineを用いた相関性の高いアイテムのリコメンドをリアルタイムで。

MinervaとCokeで目指すこと
一度もみられていない商品が減って行く
常にあたらしいものでアップデート
ロングテールの商品にもPVが増え認知があがる

ATOM(システム名)
profiling model
プロファイル要素となる顧客属性・行動履歴・嗜好性データを原子とし、原子を結合させ、モデリングするためのエンジンを提供し、ダイレクトマーケティング等に利用
Data Store

Data Modeling

データストアの定義

  • Demographic Data
  • Transaction Data
  • Psychographic Data

ATOMの目的、提供先
モデリングやレポーティングの簡素化と高速化
Direct marketing
→各種ターゲッティングシステムの統合
Segment measure
→セグメント別測定する結果の提供
Modeler/Analyst
→各種マーケティング担当者へのFB
Recommendation

▶ 活用事例

Recomendataion
Y!のトップページ
Minervaを活用
おすすめセレクション
ABテスト
Y!ショッピング、CVRが195%上昇
Y!オークション、CVR430%上昇

Targeting
CTR、CVRを縦軸
Highly Targetedを横軸
1000種のカテゴリに分類されている
行動ターゲティングの例
テストを実施している広告枠の事例
ファッションのターゲッティングをすることでCVRが2.7倍
フィギュア…CVRが5倍…
こうしたテストを毎月週十本

Modeling
Y!プレミアムの新規獲得の増加
新規入会で2ヶ月無料
ターゲットモデルの作成
パーソナライズの広告バナーで2倍の入会、トップページからは6倍

モデリングの成功要因
★モデルの精度

  • 大量のログデータ
  • データ設計(古いデータでは意味がない)
  • 即時性ツール

★ターゲットに対するリーチ率

  • 媒体
  • ポジション
  • クリエイティブ
  • タイミング
▶ 今後の展開

4つの事業の柱の真ん中
ロケーションデータ
テールコンテンツ
行動データ
ヘッドコンテンツ

分析レベルの底上げ
全社員が分析をできるが、アナリストはより高度な分析を行うことができる

アナリストはなにをしていくのか
デリバリーレポート
パフォーマンスレポート
分析
予測&最適化
※過去だけでなく将来をみる

これからは
自動化
顧客中心
複数チャネル
複数デバイス
成果を即座にする

ビッグデータで目指すこと
ビッグデータはお客様とのエンゲージメントの核になる

感想

わたしは Web サービスがお客様にできるおもてなしとは、お客様がほしいものが「探さなくてもそこにある」を実現することだと思っているので、 Y! さんの考え方には大変賛同します。
そして、その「お客様が探さなくてもそこにある」を実現するのがビッグデータ(あまり好きな言葉ではないですが)を分析することだということにも同意です。

こちらもあわせてどうぞ