サラリーマンの哀愁ただよう街、神田で Sedue for BigData の話を聞いてきた

今年 (2013年) 6 月に販売開始された Sedue for BigData 、概要のページだけでは今ひとつイメージできないでいたところ、同僚がそのプロダクト説明会の invitation をもらったそうで、興味があればいかないかと誘われたので、昨日、参加してきました。

事例やデモを使ってわかりやすく説明していただいたので、Sedue for BigData 概要を読むだけではイメージできなかった概要を理解することができてとてもよいセミナーだったと思います。

来週 (2013-08-27) には次期バージョンのリリースを予定しているそうで、それにはトライアル用の VM image が含まれているそうなので、是非試してみたいなと思っています。

では以降にわたしがセミナーでとってきたメモを公開しておこうと思います。

ちなみに場所はアーバンネット神田カンファレンスで開催されました。神田、久しぶりに行きましたが、サラリーマンの哀愁ただようレトロな街でした。
それでは、まずはアジェンダから…

【アジェンダ】

15:00 - 15:05 はじめに

15:05 - 16:00 「Sedue for BigData製品のご紹介」

~~16:00 - 16:15 「Sedue for BigDataと他社製品の違いについて」~~

16:15 - 16:45 Sedue for BigDataの事例紹介「事例１　VOC(Voice of Customer)分析ソリューション」

16:45 - 17:00 休憩

17:00 - 17:30 Sedue for BigDataの事例紹介「事例２　Twitterデータ提供サービスの検索基盤」

~~17:30 - 質疑応答~~

※事前に共有のあったアジェンダとは実際はちょっと違っていました。違っていた部分は、取り消し線をひいています。

15:00 - 15:05 はじめに

− 会場の案内、トイレや喫煙室、ゴミ箱など。
− 資料の案内、過不足がないか。
− 注意事項：写真、録音はダメだそうで。

＊＊＊＊＊

Sedue のプロジェクト・マネージャ：とくながさんからの挨拶
- PFI さんが創業来から開発している検索エンジン Sedue と NTT データと共同開発している Jubatus (機械学習フレームワーク)をくっつけた
- 大規模データを扱うというだけでなく
- パフォーマンスと開発のしやすさにも注力していくつもりだ、と。

＊＊＊＊＊

次バージョンのリリースと同時にトライアルの VM を配ったりとするつもりとのこと。

15:05 - 16:00 「Sedue for BigData製品のご紹介」

➤ 大規模データ分析への期待

背景の説明
- データが爆発的に増大してきている
- 2005年から10年で60倍、約8ゼタバイト
- Googleトレンドでビッグデータと検索すると最近の注目度もあがってる

＊＊＊＊＊

リアルタイムに分析したいというニーズもどんどん大きくなっている via Hadoop Summit

➤ 大規模データ分析の現状

課題：
- データは収集したが分析できてない
- 人依存
分析軸を変えたいが処理に時間がかかる
- 構造化データは構造を変えるのが難しい
現状のソリューションでは多くがバッチ処理に制限されている
- 登録されたデータがすぐには検索・分析対象にはならない

➤ これからの大規模データ分析

求められるものはなにか？
集計から深い分析へ
- 統計や機械学習で
構造化から非構造化へ
- 非構造化データでも高速に処理できるようになってきている
バッチからリアルタイムへ
- リアルタイム処理によって今の現状を把握
リアルタイムに情報を整理・蓄積・分析

➤ リアルタイム大規模データ分析基盤 Sedue for Bigdata (SFBD)

検索技術と機械学習の融合
- 機械学習により大量のデータを自動的に分類
- 検索結果へのメタ情報付与やフィルタリングに活用
非構造化データのまま格納し、リアルタイムに検索
高速な処理でリアルタイム性を追求

＊＊＊＊＊

Sedue for BigData は2つの柱からなっている
- Sedue x Jubatus
  - 検索技術と機械学習の融合
  - Sedue は非構造化データのサポートとビッグデータに特化(リアルタイム性を追求)

➤ Sedue とは？

統合検索プラットフォーム
- SSD の特性と Suffix Array を組み合わせることで生まれた高速で漏れのない全文検索
- レコメンデーション機能
- サジェスト機能 (検索キーワードを入力すると候補を列挙する)
- もしかして検索 (正しいと推定されるスペルを提示してくれる)
- ドリルダウン機能 (絞込対象となる属性を件数付きで列挙)

➤ Sedue の実績

メディア業界
- 日経BP　全社横断検索
EC/Web 業界
- ここは書ききれなかった

➤ 大規模データをリアルタイムに更新・検索するために

BigDataの登場
- SSD＋分散処理だけではリアルタイム高スループットは難しかった
Bigdata向けにSedueを特化・最適化
- メモリとSSDのハイブリッド化と分散環境におけるインデックスの整合性確保

➤ Fluentd によるデータ取り込み機能の強化

Fluentd: OSS のログ収集フレームワーク
- 構造化、非構造化を問わない
- 大規模Webサービスでのログ収集で実績
- プラグインで様ざまなシステムに適応可能

➤ Jubatus

大規模に対するリアルタイム機械学習のフレームワーク

➤ 機械学習とは？

経験によって賢くなるアルゴリズム
- データから知識・ルールを自動獲得する
- データの適切な表現方法も獲得するなどなど

➤ 例としての：スパム判定

メールがスパムか否かを自動判定する
- Google Gmail でもスパム判定に機械学習

➤ 例：商品推薦

過去の購買履歴から類似ユーザを探して未購入のデータを推薦する

➤ Jubatas: OSS の機械学習フレームワーク

NTT SW イノベーションセンタと共同開発

➤ Over view (どのように Sedue と連動するか？)

まず DS(Data Source) があって fluentd にデータが流れる
- Jubatus にわたす
- Jubatus が学習した結果を再び fluentd へ
登場人物
- DS (Data Source)
- Fluentd
- Jubatus
- On-Disk, On-Memory Instance
- Realtime Analysis Server
- Web Server(Visualization Tool kit)

➤ SFBD (Sedue for BigData) 各コンポーネントの説明：Fluentd

カスタムプラグインを提供
Jubatus 学習・分類用のプラグイン
Sedue for BD 登録・更新用のプラグイン

➤ SFBD 各コンポーネントの説明：Jubatsus

データを機械学習により自動分類
オンライン学習により学習結果を即座に反映
SFBD 向けにJubatasuへの独自の機能を追加

↓

マルチラベリング機能
- マルチクラスとマルチラベル
  - マルチクラス　複数のクラスのうち排他的にひとつのいに分類される (年代推定)
  - マルチラベル　複数のクラスのうち複数に分類される (写真へのタグ付け)
トレース機能がついた！
- ある分類結果の根拠情報を提示する機能
- どのフィールドのどの特徴がきいたのか？
- e.g. SNSユーザの属性推定 - 根拠情報はデータの新たなフィールドとして付与

➤ SFBD 各コンポーネントの説明：On-Memory Instance & On-Disk Instance

SFBD で検索サービスを提供するためのサーバ群一式

＊＊＊＊＊

On-Memory Instance
- 新規登録文書を担当
- メモリを使用した検索サービスを提供
- 追記可能なインデックスをメモリにもつ
On-Disk Instance
- 過去登録文書の検索を担当
- SSD を利用した検索サービスを提供
- 大規模な検索インデックスを SSD 上に展開

➤ SFBD 各コンポーネントの説明： Realtime Analysis Server (RAS)

分析クエリを受取り、分析結果を生成するサーバ
On-Memory , On-Disk Server の分析検索結果をマージして返す
今後のリリースで集計・統計機能を搭載予定

➤ SFBD 各コンポーネントの説明： Visualization Tool Kit

分析結果を可視化するツールキット
ブラウザアプリケーションでの利用を想定、 JS サポート
様々な可視化機能
アニメション付きのグラフ
今後のリリースで統計機能の対応予定

➤ 実際に動いているデモ

Twitter data をもとにしたデータ分析の例
ただし Jubatas は経由していない
Timeseries はもちろんマウス操作で時間帯をインタラクティブに絞ることも可能

➤ SFBD の Case Study

社内情報を整理・共有し、営業活動を効率化
- (スケジュール情報・未整理の社内文書など)
- 社内情報検索のデモ実演 (あくまでイメージ)
- Jubatus で分類、タグ付け、サジェストなんかもできるかもしれない
ソーシャルメディアからの情報を活用
- ソーシャルデータを Jubatus　で自動分類、収集分析、
- マーケティング分析などに使用する
- こちらもあくまでもイメージだがデモを実演
- 企業に対する Sentiment(positive, negative, neutoral), Gender(male, female), Age
防犯カメラの映像を解析
- Jubatus でタグ付けして、Sedueで収集・分析
- 具合の悪い人やこまっている人を自動検出するなど特定の場面を特定
- PFI としての新しい取り組み (自然言語だけではなく動画像検索・分析へ取り組みはじめている)
- 機械学習を利用した動画像の人物画像へのタグ付け
- Bigdata Expo 2013 で展示予定
- 代表の西川氏が登壇予定 10/9 15:00-16:00

➤ Summary

ビッグデータ分析はリアルタイム分析へ
SFBDは深い分析をリアルタイムなビッグデータ分析をサポートする

➤ 新バージョンリリース

8/27 5.1.0
Evaluation Kit は VM image 3ヶ月無償
info@preferred.jp

➤ 質疑応答

Q1. イベントなどでユニーク来場者をカウントするとかできますか？
- カメラで顔を捉えてユニークかどうか判別すること自体は可能だろうと思う。
- 近い将来できるようになるだろうとは思っているので、そこにチャレンジしている
- ユニークかどうかを把握するだけでなく、どういった服装、どういった行動をしているかなどを分析できるようにしていきたい
- それができるようになったら、もちろん報告させてもらおうと思っている

16:00 - 16:15 「Sedue for BigDataと他社製品の違いについて」

16:15 - 16:45 Sedue for BigDataの事例紹介「事例１　VOC(Voice of Customer)分析ソリューション」

➤ VOC分析の重要性

日々大量にくる顧客からのFBから重要な課題を早期発見し、対策を打つことが重要
炎上回避にもなる

＊＊＊＊＊

たとえばカネボウ
- ロドでドール配合製品で白斑様症状が出てしまった件。コールセンターには2011年から問い合わせはきていた。
- もっと速く重大問題に気づき、対策できていれば

➤ VOC分析の課題

コールセンターのデータ、オペレーターの手入力が多い
そのために記述方法がバラバラであったり、非構造、多すぎて読めない、人が読まないとわからないといった問題が…
人手による分析が必要だが、データを見きれない

＊＊＊＊＊

砂金探しのようなもんじゃないか！と。
なかなか探せない

＊＊＊＊＊

人が記述する文章は機械による分析が困難
機械には略語などの同義語を判別できなかったり、構造化されていない文章を解析するのは機械には難しかったり、機械にはキーワードがわからなかったりする
そのため、単純な手法では効果的に分類できない

＊＊＊＊＊

自然言語をうまく処理できる技術はいまだにあまりない

➤ 他社ソリューションの課題

辞書をつくらないといけない
分析をチューニングするためには分類ルールを作成しなければならないがルール策定難しい (係り受けや形態素の知識がないと)
ルール自体が増えると管理が不可能になる
継続的に分類精度を維持・管理するのが困難になる

➤ SFBDによるVOC分析支援システム

全文検索機能
何件登録されているか？
Timeseries で頻度を把握
どの商品について話しているか？
記事 (分類は機械が自動的につけている)

↓

自然言語処理と機械学習を用いた自動分類 (分類の根拠はきちんと提示)
充実した検索機能ｊを用いてデータを分析 (タイムラインやドリルダウン、関連文書検索による類似問い合わせも可能)
最新のお問い合わせ情報をリアルタイムで分析

➤ 事例紹介

SFBD の VOC 分析支援システムを使ってみたら、1−2ヶ月程度で注目スべきお問い合わせを自動分類できるようになった
→今まで人手をかけて目視していたが、注目スべきお問い合わせのいを確認すればよくなった

➤ デモ

Wifi につながらなくなるトラブルがｗ
ソーシャルつぶやき分析のデモ
- 消費者庁の不具合 DB のデータを使用したデモ

➤ Summary

お客様からのFBから重大な課題を早期発見することは重要
SFBD は自然言語処理、機械学習、検索技術を組み合わせて、従来ではできなかったことができるようになったよ

➤ 質疑応答

A1. データは一回 Jubatus に投げられてそのあと SFBD にもどってくる
- On-Memory Instance には直近どれだけのデータを登録するというのを設定可能
- On-Disk のほうには過去のすべてのデータを格納する
A2. ある程度の表現の誤差は吸収できるようにはなっているが、今回の事例では名寄などはしなくても十分機能した。課題ではある。
Q3. 新たなカテゴリを作ることは容易にできるのか？分類が曖昧なときにはどうなるのか？
A3. IF の分類という部分は Jubatus に対する FB 機能になっている。それによって Jubatus に学習情報として渡すことができるようになっている

17:00 - 17:30 Sedue for BigDataの事例紹介「事例２　Twitterデータ提供サービスの検索基盤」

➤ Twitter データ提供サービスの紹介

➤ サービス概要

ツイートデータの再販サービス
NTT-D がTwitter社と独占契約
日本語のつぶやきすべてにアクセス可能
NHK24 のつぶやきビッグデータで使われている
- 参考：NHK「NEWS WEB」｜NEWS WEBとは

➤ サービスイメージ

どのように NTT-D からデータが提供されるか
- Twitterから NTT-D へ Firehose(API) 経由で
- NTT-D からサービス提供パートナーを経由してユーザ企業へ (Engagement, Analytics, 個別開発・サービスの3種類のパートナー)
- 参考： Twitterデータ提供サービス

➤ サービスメニュー

基本サービス(サンプル、フィルター、リアルタイム、ヒストリカル)、オプションサービス、分析ツール
- 参考：サービスメニュー | Twitterデータ提供サービス

↓

SFBD ではリアルタイムサーチを使用している

➤ リアルタイムサーチAPI

指定したキーワードで検索
指定したキーワードで検索して、1時間単位で集計
SFBD で検索・集計している。

➤ 大規模でリアルタイムなデータを検索・分析するサービスの事例

対象となるデータは、日本語ツイート1ヶ月分
全世界の Twitter のデータ量 201210
約 5 億件/day
日本からのツイートの割合は 10%
つぶやいてから数秒で検索可能になる！

➤ SFBD のTwitterデータ提供サービスのデモ

一般公開されている API と SFBD で構築
Simplehose API (全世界のツイートの 1% をランダムサンプリング)
デモサーバは 2 台で構築
- CPU 8 core memory 64GB
- CPU 4 core memory 16GB

＊＊＊＊＊

− 評判分析などは、キーワード検索することで対象となるツイートを絞り込むことが可能

＊＊＊＊＊

SFBD による炎上の検知事例 (20130802-06)

➤ 質疑応答

Q1: 検索の仕方、種類はどのようなものがあるかキーワード検索以外にあるか？
- A1: Jubatus による自動分類ができるので、その分類から絞込といったことはできる (FB学習させることももちろん可能)
Q2: Jubatus で顕著になってきた特徴をユーザに通知することはできるか？
- A2: すくなくとも Visualization Tool Kit には現状無い
- Jubatus の API 実装するかも
Q3: UI は Visualization Tool Kit で Personalize できる？
- A3: できるよ