#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

サラリーマンの哀愁ただよう街、神田で Sedue for BigData の話を聞いてきた

今年 (2013年) 6 月に販売開始された Sedue for BigData 、概要のページだけでは今ひとつイメージできないでいたところ、同僚がそのプロダクト説明会の invitation をもらったそうで、興味があればいかないかと誘われたので、昨日、参加してきました。

事例やデモを使ってわかりやすく説明していただいたので、Sedue for BigData 概要を読むだけではイメージできなかった概要を理解することができてとてもよいセミナーだったと思います。

来週 (2013-08-27) には次期バージョンのリリースを予定しているそうで、それにはトライアル用の VM image が含まれているそうなので、是非試してみたいなと思っています。

では以降にわたしがセミナーでとってきたメモを公開しておこうと思います。

ちなみに場所は アーバンネット神田カンファレンス で開催されました。神田、久しぶりに行きましたが、サラリーマンの哀愁ただようレトロな街でした。
それでは、まずはアジェンダから…

【アジェンダ】
  • 15:00 - 15:05 はじめに
  • 15:05 - 16:00 「Sedue for BigData製品のご紹介」
  • 16:00 - 16:15 「Sedue for BigDataと他社製品の違いについて」
  • 16:15 - 16:45 Sedue for BigDataの事例紹介 「事例1 VOC(Voice of Customer)分析ソリューション」
  • 16:45 - 17:00 休憩
  • 17:00 - 17:30 Sedue for BigDataの事例紹介 「事例2 Twitterデータ提供サービスの検索基盤」
  • 17:30 - 質疑応答

※事前に共有のあったアジェンダとは実際はちょっと違っていました。違っていた部分は、取り消し線をひいています。

15:00 - 15:05 はじめに

− 会場の案内、トイレや喫煙室、ゴミ箱など。
− 資料の案内、過不足がないか。
− 注意事項:写真、録音はダメだそうで。

*****

  • Sedue のプロジェクト・マネージャ:とくながさんからの挨拶
    • PFI さんが創業来から開発している検索エンジン Sedue と NTT データと共同開発している Jubatus (機械学習フレームワーク)をくっつけた
    • 大規模データを扱うというだけでなく
    • パフォーマンスと開発のしやすさにも注力していくつもりだ、と。

*****

  • 次バージョンのリリースと同時にトライアルの VM を配ったりとするつもりとのこと。

15:05 - 16:00 「Sedue for BigData製品のご紹介」

➤ 大規模データ分析への期待
  • 背景の説明
    • データが爆発的に増大してきている
    • 2005年から10年で60倍、約8ゼタバイト
    • Googleトレンドでビッグデータと検索すると最近の注目度もあがってる

*****

  • リアルタイムに分析したいというニーズもどんどん大きくなっている via Hadoop Summit
➤ 大規模データ分析の現状
  • 課題:
    • データは収集したが分析できてない
    • 人依存
  • 分析軸を変えたいが処理に時間がかかる
    • 構造化データは構造を変えるのが難しい
  • 現状のソリューションでは多くがバッチ処理に制限されている
    • 登録されたデータがすぐには検索・分析対象にはならない
➤ これからの大規模データ分析
  • 求められるものはなにか?
  • 集計から深い分析へ
    • 統計や機械学習で
  • 構造化から非構造化へ
    • 非構造化データでも高速に処理できるようになってきている
  • バッチからリアルタイムへ
    • リアルタイム処理によって今の現状を把握
  • リアルタイムに情報を整理・蓄積・分析
➤ リアルタイム大規模データ分析基盤 Sedue for Bigdata (SFBD)
  • 検索技術と機械学習の融合
    • 機械学習により大量のデータを自動的に分類
    • 検索結果へのメタ情報付与やフィルタリングに活用
  • 非構造化データのまま格納し、リアルタイムに検索
  • 高速な処理でリアルタイム性を追求

*****

  • Sedue for BigData は2つの柱からなっている
    • Sedue x Jubatus
      • 検索技術と機械学習の融合
      • Sedue は非構造化データのサポートとビッグデータに特化(リアルタイム性を追求)
➤ Sedue とは?
  • 統合検索プラットフォーム
    • SSD の特性と Suffix Array を組み合わせることで生まれた高速で漏れのない全文検索
    • レコメンデーション機能
    • サジェスト機能 (検索キーワードを入力すると候補を列挙する)
    • もしかして検索 (正しいと推定されるスペルを提示してくれる)
    • ドリルダウン機能 (絞込対象となる属性を件数付きで列挙)
➤ Sedue の実績
  • メディア業界
    • 日経BP 全社横断検索
  • EC/Web 業界
    • ここは書ききれなかった
➤ 大規模データをリアルタイムに更新・検索するために
  • BigDataの登場
    • SSD+分散処理だけではリアルタイム高スループットは難しかった
  • Bigdata向けにSedueを特化・最適化
    • メモリとSSDのハイブリッド化と分散環境におけるインデックスの整合性確保
➤ Fluentd によるデータ取り込み機能の強化
  • Fluentd: OSS のログ収集フレームワーク
    • 構造化、非構造化を問わない
    • 大規模Webサービスでのログ収集で実績
    • プラグインで様ざまなシステムに適応可能
➤ Jubatus
  • 大規模に対するリアルタイム機械学習のフレームワーク
➤ 機械学習とは?
  • 経験によって賢くなるアルゴリズム
    • データから知識・ルールを自動獲得する
    • データの適切な表現方法も獲得する などなど
➤ 例としての:スパム判定
  • メールがスパムか否かを自動判定する
    • Google Gmail でもスパム判定に機械学習
➤ 例:商品推薦
  • 過去の購買履歴から類似ユーザを探して未購入のデータを推薦する
➤ Jubatas: OSS の機械学習フレームワーク
  • NTT SW イノベーションセンタと共同開発
➤ Over view (どのように Sedue と連動するか?)
  • まず DS(Data Source) があって fluentd にデータが流れる
    • Jubatus にわたす
    • Jubatus が学習した結果を再び fluentd へ
  • 登場人物
    • DS (Data Source)
    • Fluentd
    • Jubatus
    • On-Disk, On-Memory Instance
    • Realtime Analysis Server
    • Web Server(Visualization Tool kit)
➤ SFBD (Sedue for BigData) 各コンポーネントの説明:Fluentd
  • カスタムプラグインを提供
  • Jubatus 学習・分類用のプラグイン
  • Sedue for BD 登録・更新用のプラグイン
➤ SFBD 各コンポーネントの説明:Jubatsus
  • データを機械学習により自動分類
  • オンライン学習により学習結果を即座に反映
  • SFBD 向けにJubatasuへの独自の機能を追加

  • マルチラベリング機能
    • マルチクラスとマルチラベル
      • マルチクラス 複数のクラスのうち排他的にひとつのいに分類される (年代推定)
      • マルチラベル 複数のクラスのうち複数に分類される (写真へのタグ付け)
  • トレース機能がついた!
    • ある分類結果の根拠情報を提示する機能
    • どのフィールドのどの特徴がきいたのか?
    • e.g. SNSユーザの属性推定 - 根拠情報はデータの新たなフィールドとして付与
➤ SFBD 各コンポーネントの説明:On-Memory Instance & On-Disk Instance
  • SFBD で検索サービスを提供するためのサーバ群一式

*****

  • On-Memory Instance
    • 新規登録文書を担当
    • メモリを使用した検索サービスを提供
    • 追記可能なインデックスをメモリにもつ
  • On-Disk Instance
    • 過去登録文書の検索を担当
    • SSD を利用した検索サービスを提供
    • 大規模な検索インデックスを SSD 上に展開
➤ SFBD 各コンポーネントの説明: Realtime Analysis Server (RAS)
  • 分析クエリを受取り、分析結果を生成するサーバ
  • On-Memory , On-Disk Server の分析検索結果をマージして返す
  • 今後のリリースで集計・統計機能を搭載予定
➤ SFBD 各コンポーネントの説明: Visualization Tool Kit
  • 分析結果を可視化するツールキット
  • ブラウザアプリケーションでの利用を想定、 JS サポート
  • 様々な可視化機能
  • アニメション付きのグラフ
  • 今後のリリースで統計機能の対応予定
➤ 実際に動いているデモ
  • Twitter data をもとにしたデータ分析の例
  • ただし Jubatas は経由していない
  • Timeseries はもちろんマウス操作で時間帯をインタラクティブに絞ることも可能
➤ SFBD の Case Study
  • 社内情報を整理・共有し、営業活動を効率化
    • (スケジュール情報・未整理の社内文書など)
    • 社内情報検索のデモ実演 (あくまでイメージ)
    • Jubatus で分類、タグ付け、サジェストなんかもできるかもしれない
  • ソーシャルメディアからの情報を活用
    • ソーシャルデータを Jubatus で自動分類、収集分析、
    • マーケティング分析などに使用する
    • こちらもあくまでもイメージだがデモを実演
    • 企業に対する Sentiment(positive, negative, neutoral), Gender(male, female), Age
  • 防犯カメラの映像を解析
    • Jubatus でタグ付けして、Sedueで収集・分析
    • 具合の悪い人やこまっている人を自動検出するなど特定の場面を特定
    • PFI としての新しい取り組み (自然言語だけではなく動画像検索・分析へ取り組みはじめている)
    • 機械学習を利用した動画像の人物画像へのタグ付け
    • Bigdata Expo 2013 で展示予定
    • 代表の西川氏が登壇予定 10/9 15:00-16:00
➤ Summary
  • ビッグデータ分析はリアルタイム分析へ
  • SFBDは深い分析をリアルタイムなビッグデータ分析をサポートする
➤ 新バージョンリリース
  • 8/27 5.1.0
  • Evaluation Kit は VM image 3ヶ月無償
  • info@preferred.jp
➤ 質疑応答
  • Q1. イベントなどでユニーク来場者をカウントするとかできますか?
    • カメラで顔を捉えてユニークかどうか判別すること自体は可能だろうと思う。
    • 近い将来できるようになるだろうとは思っているので、そこにチャレンジしている
    • ユニークかどうかを把握するだけでなく、どういった服装、どういった行動をしているかなどを分析できるようにしていきたい
    • それができるようになったら、もちろん報告させてもらおうと思っている

16:00 - 16:15 「Sedue for BigDataと他社製品の違いについて」

16:15 - 16:45 Sedue for BigDataの事例紹介 「事例1 VOC(Voice of Customer)分析ソリューション」

➤ VOC分析の重要性
  • 日々大量にくる顧客からのFBから重要な課題を早期発見し、対策を打つことが重要
  • 炎上回避にもなる

*****

  • たとえばカネボウ
    • ロドでドール配合製品で白斑様症状が出てしまった件。コールセンターには2011年から問い合わせはきていた。
    • もっと速く重大問題に気づき、対策できていれば
➤ VOC分析の課題
  • コールセンターのデータ、オペレーターの手入力が多い
  • そのために記述方法がバラバラであったり、非構造、多すぎて読めない、人が読まないとわからないといった問題が…
  • 人手による分析が必要だが、データを見きれない

*****

  • 砂金探しのようなもんじゃないか!と。
  • なかなか探せない

*****

  • 人が記述する文章は機械による分析が困難
  • 機械には略語などの同義語を判別できなかったり、構造化されていない文章を解析するのは機械には難しかったり、機械にはキーワードがわからなかったりする
  • そのため、単純な手法では効果的に分類できない

*****

  • 自然言語をうまく処理できる技術はいまだにあまりない
➤ 他社ソリューションの課題
  • 辞書をつくらないといけない
  • 分析をチューニングするためには分類ルールを作成しなければならないがルール策定難しい (係り受けや形態素の知識がないと)
  • ルール自体が増えると管理が不可能になる
  • 継続的に分類精度を維持・管理するのが困難になる
➤ SFBDによるVOC分析支援システム
  • 全文検索機能
  • 何件登録されているか?
  • Timeseries で頻度を把握
  • どの商品について話しているか?
  • 記事 (分類は機械が自動的につけている)

  • 自然言語処理と機械学習を用いた自動分類 (分類の根拠はきちんと提示)
  • 充実した検索機能jを用いてデータを分析 (タイムラインやドリルダウン、関連文書検索による類似問い合わせも可能)
  • 最新のお問い合わせ情報をリアルタイムで分析
➤ 事例紹介
  • SFBD の VOC 分析支援システムを使ってみたら、1−2ヶ月程度で注目スべきお問い合わせを自動分類できるようになった
    →今まで人手をかけて目視していたが、注目スべきお問い合わせのいを確認すればよくなった
➤ デモ
  • Wifi につながらなくなるトラブルがw
  • ソーシャルつぶやき分析のデモ
    • 消費者庁の不具合 DB のデータを使用したデモ
➤ Summary
  • お客様からのFBから重大な課題を早期発見することは重要
  • SFBD は自然言語処理、機械学習、検索技術を組み合わせて、従来ではできなかったことができるようになったよ
➤ 質疑応答
  • A1. データは一回 Jubatus に投げられてそのあと SFBD にもどってくる
    • On-Memory Instance には直近どれだけのデータを登録するというのを設定可能
    • On-Disk のほうには過去のすべてのデータを格納する
  • A2. ある程度の表現の誤差は吸収できるようにはなっているが、今回の事例では名寄などはしなくても十分機能した。課題ではある。
  • Q3. 新たなカテゴリを作ることは容易にできるのか?分類が曖昧なときにはどうなるのか?
  • A3. IF の分類という部分は Jubatus に対する FB 機能になっている。それによって Jubatus に学習情報として渡すことができるようになっている

17:00 - 17:30 Sedue for BigDataの事例紹介 「事例2 Twitterデータ提供サービスの検索基盤」

➤ Twitter データ提供サービスの紹介
➤ サービス概要
  • ツイートデータの再販サービス
  • NTT-D がTwitter社と独占契約
  • 日本語のつぶやきすべてにアクセス可能
  • NHK24 のつぶやきビッグデータで使われている
➤ サービスイメージ
  • どのように NTT-D からデータが提供されるか
    • Twitterから NTT-D へ Firehose(API) 経由で
    • NTT-D からサービス提供パートナーを経由してユーザ企業へ (Engagement, Analytics, 個別開発・サービスの3種類のパートナー)
    • 参考: Twitterデータ提供サービス
➤ サービスメニュー

  • SFBD では リアルタイムサーチを使用している
➤ リアルタイムサーチAPI
  • 指定したキーワードで検索
  • 指定したキーワードで検索して、1時間単位で集計
  • SFBD で検索・集計している。
➤ 大規模でリアルタイムなデータを検索・分析するサービスの事例
  • 対象となるデータは、日本語ツイート1ヶ月分
  • 全世界の Twitter のデータ量 201210
  • 約 5 億件/day
  • 日本からのツイートの割合は 10%
  • つぶやいてから数秒で検索可能になる!
➤ SFBD のTwitterデータ提供サービスのデモ
  • 一般公開されている API と SFBD で構築
  • Simplehose API (全世界のツイートの 1% をランダムサンプリング)
  • デモサーバは 2 台で構築
    • CPU 8 core memory 64GB
    • CPU 4 core memory 16GB

*****
− 評判分析などは、キーワード検索することで対象となるツイートを絞り込むことが可能
*****

  • SFBD による炎上の検知事例 (20130802-06)
➤ 質疑応答
  • Q1: 検索の仕方、種類はどのようなものがあるか キーワード検索以外にあるか?
    • A1: Jubatus による自動分類ができるので、その分類から絞込といったことはできる (FB学習させることももちろん可能)
  • Q2: Jubatus で顕著になってきた特徴をユーザに通知することはできるか?
    • A2: すくなくとも Visualization Tool Kit には現状無い
    • Jubatus の API 実装するかも
  • Q3: UI は Visualization Tool Kit で Personalize できる?
    • A3: できるよ

こちらもあわせてどうぞ

Data analysis and visualization 関連の本が Oreilly.com で明日(2013-08-23)まで半額だったので、 "Data Science for Business" を買ってみた

Data analysis and visualization 関連本が半額です

…とは言っても、もし、買いたいと思っているならお早めに!

August 23, 2013 at 5:00am PT までなので日本時間でいうと(むこうは夏時間だと思うので)明日(23日)の 21 時までだと思います。
参考:アメリカと日本の時差比較テーブル

ちなみにわたしが買ったのは、Data Science for Business: What you need to know about data mining and data-analytic thinking(このリンクはAmazon)。

Oreilly.com で買うことにした理由は、

  • Amazonでのレビューはなかなかよさげだった
  • kindle 本より 100 円ほど安かった(たかが100円、されど100円)
  • そしてなにより DRM Free だから

です。

Business side の人間が Data analytics はどのように使うものだよ、と噛み砕いて説明している本なのかなぁという印象をもっているので、とりあえず読み物として読んでみようと思っています。

では、今日はこんなところで。

こちらもあわせてどうぞ

Redshift の話を聞きに「AWSのビッグデータサービスを使いこなせ!」セミナーに行ってきた

Abell 2218Abell 2218 / NASAblueshift
先日の AWS Summit Tokyo 2013 では(あくまで個人的には)得るものが少なかったので、 Redshift についてもうすこし話を聞いてみたくて、今日は「AWSのビッグデータサービスを使いこなせ!」というセミナーに行って来ました。
というわけで、ということもないですが、わたしがとってきたメモを残しておこうと思います。
※後ほど、少し追記等の更新をするつもりでいます。

短いですが、最初に所感を書くと、AWS が提供する BigData 関連プロダクト( EMR, DynamoDB, そして Redshift )を一挙に聞け、各プロダクトをどのように使い分けるべきなのか理解が進んだという意味で、とても有意義なセミナーでした。
※今日の資料は当日のアンケートに資料送付希望と回答することで後日もらえるらしいので、改めて資料をもらったら、復習したいな、と。

ちなみに、今回のセミナーの概要は以下のとおりで、
  • 開催場所:AWS目黒オフィス (東京都目黒区下目黒1-8-1 アルコタワーアネックス)
  • 概要:DynamoDB, EMR, Redshiftと言ったAWSのビッグデータに関連する様々なサービスが近年ローンチしています。これらサービスの連携方法や国内・海外の様々なお客様事例を中心にご説明します。DynamoDB, EMR, Redshiftを利用したログ解析やアドテク、ゲーム会社、人気サマホアプリでのハイトランザクション処理事例など実際の業務でどのようにAWSを利用しているかご理解いただくために具体事例を数多く盛り込んだセッションとなっています。
  • 参考:7月16日 AWSのビッグデータサービスを使いこなせ!(東京都)
アジェンダは以下のとおりでした。
  • セッション1:Amazon DynamoDB[No SQLデータベース]
    • 「DynamoDB概要」 AWS, DynamoDB Business Development Manager, David Pearson
    • 「DynamoDBお客様事例紹介」株式会社マイネット
  • セッション2:Amazon Elastic Map Reduce(EMR)[マネージドされたHadoopクラスタ]
    • 「Amazon EMR概要」アマゾンデータサービスジャパン株式会社 ソリューションアーキテクト 今井 雄太
    • 「Amazon EMRお客様事例紹介」Klab株式会社
  • セッション3:Amazon Redshift[クラウド型データウェアハウス]
    • 「Amazon Redshift概要」アマゾンデータサービスジャパン株式会社 ソリューションアーキテクト 松尾 康博
    • 「Amazon Redshiftお客様事例紹介」株式会社AMoAd, 株式会社ALBERT


では、以降にわたしのメモを残しておこうと思います。

セッション1:Amazon DynamoDB[No SQLデータベース]

「DynamoDB概要」AWS, DynamoDB Business Development Manager, David Pearson
  • differentieated effort increases the uniqueness of an application.
➤ Amazon Dynamo DB
  • Distributed Database at Amazon
    • Early Phase - RDBMS を使っていたが、スケーラビリティが問題になっていた
    • 小売業としては Chrismas season にどうやってスケールをマッチさせるかが課題になっていた。
    • Availability, Durability, Scalability を兼ねそろえていた DB とはどんなものがあるのかを考えるようになっていた。

*****

  • そこで、 Dynamo の論文
    • Replicated DHT with consistency management
    • Consistent hashing
    • Optimistic replication
    • Sloppy quorum
    • Anti-entropy mecanism

*****

  • それでもまだパフォーマンスの課題
    • それを解決したのが DynamoDB

*****

  • 1年半ほどまえに DynamoDB がローンチ
    • 4つの特徴
      • Predictable Performance
      • Massiblely Scalable - いかようにもスケールできる
      • Fully Managed - AWS 上から管理できる
      • Low Cost

*****

  • Devops のための DynamoDB

*****

  • for Developers
    • DynamoDB をプライマリのDBとして使う場合、いかに早くつくって本番環境で使える用意するかということを考えないといけない
    • DynamoDB を使用すれば、圧倒的なスピードで環境を提供できる
    • その事例: SHAZAM(Super Bowl のプロモーション、3日で設計から production-ready), EarthNetworks(気象予報のアプリ、 SQL base で作っていたアプリと比べて 1/20 のコストで)
    • Fast Application Development の3つの特徴
      • Relationship Modeling
      • Simple API
      • High Scale Query Patterns
    • DynamoDB の構成をする上で覚えておくべき3つの単語
      • Tables, Items, Attributes
      • A Table is a collection of Items
      • An items is a collection of Attributes
      • Data is indexed by the PK (hash; hash maps)
    • Modeling 1:1 Relationships
      • Use a table with a hash key
      • Traditional key value
      • e.g. Users and Games tables
    • Modeling 1:M Relationships
      • Use a table with hash and range key
      • e.g. One(1) User can play many (N) Games. (multi-tenancy use)
      • UserGames Table
      • Hash key = UserID
      • Range key = GameID
    • DynamoDB Operations
      • アプリケーションを変更するための API だけが提供されている
      • manage tables, query ....
    • Query Patterns
      • Available for hash+range PK tables
      • Retrieve all items by hash key
      • Range key conditions: ==, >, <, >=, <=
      • Sorted results , Counts, Top and bottom n values. Paged responses.
      • List や Messaging を必要とするアプリケーションにはとても向いている
    • Local Secondary Indexes
      • Designed for high scale multi-tenant applications
      • index local to the hash key (=partition)
      • CONS: 書き込みコストがあがる (for index updates)

*****

  • DynamoDB For Op(ertaion)s
    • 運用コストは運用期間が長くなればなるほど煩雑になるものだが、、、それに対して DynamoDB は Aim for Admin-Free(at any scale)
      e.g SmugMug(), sumologic()
    • Provision/Configure Server and Storage
      • Monitor and Handle HW Failures
      • Update HW and SW
      • Repartion data and Balance Clusters
      • Manage Cross-Availability Zone Application
    • Provisioed Throughput
      • お客様にどれくらいの Throughput がほしいか教えてもらえたらそれにあわせた Throughput を提供できるようにしている
      • Throughput is declared and updated via the API ro the console
      • DynamoDB handles the rest
      • Capacity is reserved and available when needed ...

*****

  • DynamoDB for USERS
    • user is simple, they want superfast response time, all the time. but please don't lose my data.
    • urable and Low Latency
      • WRITES: replicated continuously to 3 AZ's. Persisted to Disk(Custom SSD)
      • READS: Strongly or eventurally consistent Thoughput, not latency, trade off
    • server-side latency accross all APIs
      • Avarage < 3ms
      • TP90 < 4.5ms (90% の call の responce time)

*****

  • 様々な分野で活用されているが、 adtec での事例紹介
    • real-time bidding の例を紹介、相性がよいと。
    • AdRoIL is the most used retargeting platform (Retargeting の説明もしてくれていた)
    • AdRoIL's DynamoDB by the numbers
    • Using DynamoDB in 4 resions
    • 7B wroldwide daily requests
    • 350GB of data stored per resion
    • 6B+ items stored in each resion
    • Query latency: 3ms
    • 99.95% end to end latency: 10ms
    • Number of Operations Staff=0
  • Relative Costs per Month
    • Developer:Snacks:Dynamo=100:55:50
  • DynamoDB = FAST
    • Fast Application Development
    • Admin-Free
    • Durable Low Latency
  • Seamlessly connected with other AWS BigData Product
    • DynamoDB integration with Redshift and EMR.
    • Parallel data movement for optimal performance
    • Low-cost, integrated data lifecycle.
    • 用途に応じて、適切なデータストアを選べるというメリット
「DynamoDBお客様事例紹介」株式会社マイネット
  • 2006 年創業の Android 専用のソーシャルゲーム会社
➤ DynamoDB の用途について
  • For BigData:
  • For Applicaiton: 無限の負荷分散能力をもって大規模サービスを実現する(マイネットさんの場合はこちら)

*****

  • DynamoDBのすごいところ
    • 無制限に性能を拡張することができる
    • 負荷がたかくなっても応答速度が低下しない
    • データ保全性も万全、 3 つの AZ で冗長化
    • メンテナンスフリー、 CloudWatch で負荷状況をみてるだけ
➤ マイネットでの活用事例
  • ファルキューレの紋章の Android 専用アプリ
    • DynamoDB を使用して初めて実装したはじめてのサービス
    • のちに MySQL ハイブリッドへ移行

*****

  • 大激闘!キズナバトル、登録ユーザ数15万人
    • 最初から MySQL ハイブリッド
    • メインDB にDynamoDB、集計DBおよびランキング用としてMySQL
    • 毎日、12,19,22 に実施されるチームバトルの際にスパイク型の負荷が発生するが、さばくことができている
    • バトルで使用するテーブルは負荷予約を高めにしている。負荷予約を超えない限り応答速度は低下しない

*****

  • AWS 利用料金比率
    • EC2 73%
    • DyamoDB 11%
    • RDS 4%
    • Others 12%

*****

  • DynamoDB を使用してよかったこと
    • Scaleout の心配をしなくてよくなった
    • データ保全の心配をしなくてよくなった
    • 意外と料金は安い
    • 性能と費用のバランスコントロールがしやすい
    • MiddleWare 以下の勉強をする必要性から解放された(システムをつくりたいのだ、と)

*****

  • DynamoDBで苦労したこと
    • トランザクションとバックアップの仕組みをアプリケーションで実装しなければならなくなった
    • 苦手なこともあるので他システムとお組み合わせが必要(検索と集計ができない)
    • ソースコードの品質をあげなくてはいけなくなった(データの論理破壊が発生してしまったり)
    • エンジニアの教育が大変になった(情報工学の基礎から教えないといけないことも)
➤データ集計処理の実装
  • DynamoDB-MySQL レプリケーション
    • SQL で集計ができる
    • システム構成が小規模で済む
    • 開発が簡単
    • 規模が大きくなると RDS インスタンスの性能がボトルネックになってしまう

*****

  • 適している場面
    • 10万人以下の活動データの集計
    • 集計対象が頻繁に変わる案件

*****

  • DynamoDB-EMR 連携
    • DynamoDBのDumpを使用して EMR に流しこむ方法
      • メリット:大量のデータでも高速
      • デメリット:コスト
➤まとめ
  • For Application
    • 同時接続 1 万人以上にも耐えられるシステムの構築に挑戦したい
    • 費用も安く抑えたい
    • DB のメンテナンスはもうしたくない
    • MW 以下の勉強はもうしたくない
    • source code の品質には自信がある
  • For BigData
    • ストレージ容量を気にするのはもういやだ
    • データ保全のことを気にするのはもういやだ
    • DB の拡張メンテをするのはもういやだ
    • お金をかけてもいいから読み出し性能がもっとほしい
    • お金をかけてもいいから書き込み性能がもっとほしい
➤ QA.
  • DynamoDB-EMR と Dynamo-MySQL でのコストの差は?
    • 100 万人ユーザ以上にならないとメリットがなく EMR は現状つかっていないので、回答できない

*****

  • Backup をやめた
    • 対物理故障はやめた。論理破壊はジャーナルを DynamoDB に記録するようにしている。修復することをしないといけなくなっている。

*****

  • エンジニアの教育、かかる期間は?
    • 人による

*****

  • DynamoDB-MySQL の構成
    (完全には聞き取れなかったので、メモは断念)

*****

  • DynamoDB のコスト
    • 同時接続数、キズナバトル、 22 時に 6,000 同時アクセスの規模

セッション2:Amazon Elastic Map Reduce(EMR)[マネージドされたHadoopクラスタ]

「Amazon EMR概要」 アマゾンデータサービスジャパン株式会社 ソリューションアーキテクト 今井 雄太
  • EMR デザインパターン&ベストプラクティス
➤ AWS Ecosystem for BigData
  • BigData x AWS
    • DynamoDB, EMR, RedShift, S3, Data Pipeline, Glacier, RDS

*****

  • Workflow Example
    • Data->S3-(ETL)->EMR->DynamoDB(WebApp), Redshift(BI)
    • Data->S3-(SUM)->EMR->RDS(Dashboard)

*****

  • Simple Storage Service (Amazon S3)
    • AWS最初のサービスのひとつ
    • データ堅牢性高く、格納容量に制限がないのが大きな特徴
    • 他の AWS サービスとの併用(裏で使われている)

*****

  • データがS3にあればあとは必要に応じて解析クラスタを起動して利用できる
    • EMR, DynamoDB, Redshift へ
➤ EMR & Redshift
  • どう使い分けるのか?

*****

  • EMR のジョブの分布
    • ほとんどが Hive

*****

  • EMR 特徴
    • Hadoop
    • MR, Hive, Pig, Streaming
    • SQL っぽく使うのであれば、 Redshift のほうが速いし簡単 (TRANSFORM, UDF/UDAF などのメリットはあるが)
    • 正規化しづらいデータを扱うのが得意

*****

  • Redshiftの特徴
    • 基本的な使い勝手は RDB
    • SQL を使って解析
    • BIツールのバックエンドとして
    • ある程度正規化されたデータが前提条件
    • 複雑な Join も可能

*****

  • EMR か Redshift か?
    • SQL を使った分析解析なら Redshift のほうがいい
➤ EMR おさらい
  • AWS が提供している managed Hadoop
    • Managed とはなんぞ?
      • クラスタの構築・監視・復旧
      • ワークフローマネジメントなどを AWS が行う

*****

  • ワークフローマネジメント
    • elastic-mapreduce (ruby 製)を配っている
    • EC2 の instance が立ち上がってくる

*****

  • ジョブフローとジョブステップ EMR 用語
    • ジョブフロー:いわゆるクラスタのこと
    • ジョブステップ:いわゆるジョブのこと
    • 起動時に alive オプションがついていない限り、ジョブフローはシリアルにジョブステップを処理して終了したら Terminate される

*****

  • CloudWatch によるモニタリング

*****

  • S3のデータを扱える
    • HDFS とシームレスにS3上のデータを扱える
    • Input, Output に s3:// を指定できる
    • Hive でも使える
➤ EMR Design Pattern
  • 大きく2つ
    • Transient Cluster (一時的なクラスタ)
    • Alive Cluster(起動しっぱなし)

*****

  • Alive Cluster
    • あらかじめキャパシティを決めて運用する

*****

  • Transient Cluster
    • Workload Driven でクラスタを起動する
    • オリジンとなるデータは S3 上に

*****

  • EMR なら時間とリソースを等価交換できる
    • 急いで仕事をしたい場合はその分、クラスタのリソースを追加してもらえばよい

*****

  • Transient Cluster を利用すべきケースは
    • 24 時間以内におわるなら Transient Cluster, そうでないなら Alive Cluster

*****

  • Alive Cluster がマッチするケース
    • 1日に1回より頻度の高いバッチ処理
    • 多数のユーザが共有利用する解析プラットフォーム
➤ EMR Best Practice
  • EMR/Hadoop 全体としては input data から reduce の output までの利用空間効率を高めることが重要
    • サイジングにおけるベストプラクティス
    • クラスタのサイジング:ノード編(インスタンスごとにデフォルト値は決まっているのでそんなにここは考えなくていいところ)
    • クラスタのサイジング:クラスタ編(入力データサイズに依存

*****

  • S3を利用する上での注意点
    • S3上のデータは split できない
      • S3 の入力オブジェクト数=mapタスク数
      • 1TBのデータを1オブジェクト(ファイル)としてS3上に配置して、そのデータをEMRで処理する場合、map task はひとつしか起動しない→結局 1 プロセスで処理することに

*****

  • S3利用のプラクティス
    • ポイントしては小さすぎるファイルは避ける(まんま Hadoop で注意することと同じ)

*****

  • 入力データの配置最適化:s3Distcp, Hive の insert

*****

  • ログ集約のためのアーキテクチャの説明
    • 適切なファイルサイズに集約、再分散。整理して S3 に再配置 / HDFS に load

*****

  • チューニングの話(クラスタ最適化のベストプラクティス)
    • CPU →利用率を監視する
    • CPUが最大限に利用されていたなかったら map/reduce のスロット数を増やす、ちっさすぎるならクラスタノード数を減らす

*****

  • Memory→利用率を監視する

*****

  • DiskIO→これも監視
    • Spill が確認されたら、mapper/reducer のメモリ割り当てを増やす
➤ Summary
  • Hive が使いたいだけなら Redshift を一度検討
    • ユーザ側としては hadoop として利用できる。インフラが AWS managed なのが一番の違い
➤ QA.
  • AWS のコンソールでジョブフローが実行し終わったあとに残っているようだが…
    • 自然にそのうち消えるはず(追加料金は発生しないのでご安心を)

*****

  • Redshift と EMR の使い分け
    • Redshift で普段使っていて、それを EMR に受け渡したいということが起こったらどうしたらいいか
    • データの規模にもよるが、 S3 を経由するのが一般的な使い方
    • 数十TBクラスのデータになるのであれば、同時に Redshift, EMR に書いたほうがいいだろう

*****

  • S3 上に格納するときには圧縮したほうがいいのか
    • いい

*****

「Amazon EMRお客様事例紹介」Klab株式会社
➤データ分析にかかわる技術
  • データ抽出、データ蓄積・加工および分析、レポートFB
  • KLabでは分析に AWS のプロダクトを利用している
  • kg_kpi
  • マスタは S3 上。
➤システム構成
  • python によるバッチスクリプト群で構成
  • kg_kpi_tool
  • 一部 EMR を使用している
  • apache のアクセスログの変換に使っている

*****

  • apache ログのバイナリ化
    • msgpack: JSONのような構造化データをシリアライズするバイナリフォーマット
    • msgpack ログ

*****

  • ログ変換プログラムの工夫
    • python

−-- mrjob, Hadoop Streaming を利用

      • appexporttools

*****

  • msgpack ログからの集計
    • 常時集計:個々のユーザの滞在時間・ログイン回数
    • たまに取得: hourly UU/PV, 特定のパスへのアクセス

*****

  • hive の活用
    • 変換したログの集計は高速だが、長期の集計には時間がかかる(現在、検証中)
    • msgpack-hadoop を試してみているとのこと (msgpack ログデータを外部テーブルとして読み込みできる)
    • スピーカーの github にバグ修正したものが fork されている
➤まとめ
  • EMR で何度もジョブを書くのは非効率
    • なので、最初に集計に都合のいい形式に変換しておくことが重要(ライブラリ化)
    • hive は SerDe さえ用意すれば、様々なフォーマットに対応。(hadoop のライブラリには不安定なもの多し)

セッション3:Amazon Redshift[クラウド型データウェアハウス]

「Amazon Redshift概要」アマゾンデータサービスジャパン株式会社 ソリューションアーキテクト 松尾 康博
➤ DWH の状況
  • 既存のDWH の課題
    • 初期投資、環境構築に膨大な初期投資が必要
    • DWH に付随するその他の投資、 backup, monitoring
    • 箱一個買いました、ではすまない

*****

  • 運用管理
    • 日々のメンテナンス、バックアップ
    • disk usage, upload monitoring

*****

  • 成長予測・費用対効果
    • 投資に見合ったビジネスへの貢献があったか=価値のあるデータ分析ができたか?がわかりにくい

*****

  • cloud & managed DB
    • scripting & coding, performance tuning 以外をしなくて済むようになる、本業に専念してもらうことを第一に。
➤ Redshift の概要
  • DWH as a Service
    • 拡張性:数TB - 数 PB
    • 高速:カラムナ型、超並列演算 (MPP)
    • 低コスト:インスタンスの従量課金、初期費用、ライセンス費用なし
    • 試してみてダメだったら(業務に役立たなかったら)やめる
    • 耐久性:S3へのバックアップ
    • 連携:input は S3 、 DynamoDB, EMR といった AWS サービスとの連携
    • PostgreSQL JDBC/ODBC ドライバを使った SQL Client , BI tool をサポート

*****

  • 行型 vs カラムナ型
    • 行型: OLTP 向き
    • カラムナ型: OLAP 向き
    • 分析は集計処理をするわけではないので、すべての列を取得する必要はない

*****

  • オンプレとのデータ連携
    • まずはなにはなくとも S3 にあげてもらう(一番 Amazon が可用性が高いと自負している)
    • AWS Direct Connect を利用してオンプレから S3 に upload する
➤ Redshift のアーキテクチャ
  • リーダノードを経由して Query を実行
    • 各コンピュートノードで演算を並列実行
    • 各コンピュートノードにローカルストレージを保持

*****

  • データの load をするときに S3 から各コンピュートノードが能動的にデータをかき集めるようになっている

*****

  • スペックは2タイプしかない
    • high storage extra large DW node
    • high storage eight extra large DW node

*****

  • 拡張性
    • 構成パターンは3パターン
      • single node
      • 2-32 node scalable cluster (non leader node)
      • 2-100 node (32TB-1.6PB), 8 Extra Large Node

*****

  • クエリー:全ノードに分散・並列処理
  • ロード:S3, DynamoDB との連携(初期 load, 追加 load) psql コマンドで接続し、 copy 拡張コマンドをたたくだけで S3 からの load ができる
  • バックアップリストア:自動的/手動で S3 バックアップ(保持期間も指定可)
  • リサイズ:新しいクラスタをバックグランドでプロビジョニングして構築している, DNS によるエンドポイントのスイッチが起こる

*****

  • セキュリティ
    • VPC への対応
    • データの暗号化
    • Client - Cluster 間のSSL通信

*****

  • 可用性
    • replica set があるのでコンピュートノードが一台なくなるくらいでは特に問題ない
    • S3 上にもバックアップ

*****

  • 金額
    • 従量課金
    • ノード x 時間単価
    • コンピュートノードのみ課金(リーダーノードは課金されない)
    • オンデマンド、 [1,3] 年リザーブド

*****

  • BIツールとの連携
    • MicroStorategy, Pentaho etc...

*****

  • データロードを速くするためのソリューション
    • Amazon S3 へのアップロード
    • AWS Direct Connect
    • partner との協業 (cloudpack にデータ直持ち込みという選択肢もある)
➤ 海外利用時例
  • NetFlix の利用例:数百万会員へのリコメンデーション
    • Amazon でももちろんつかっている
➤ QA.
  • BI tool について
    • Amazon 上で BI tool を使いたいなら BI vender をまずはつついてみてほしい

*****

  • Resion またぎの Redshift copy
    • 現状は方法を提供していない
    • 現状でやろうとすると S3 にいったんおいてあるとおもうのでそれをバケットコピーしてほしい
「Amazon Redshiftお客様事例紹介」 株式会社AMoAd
➤ ビッグなデータの処理を全部 EMR から Redshift に乗り換えちゃったんだけど (2013年春) 株式会社AMoAd
  • どのような経緯で、どうやって。

*****

  • Redshift を利用する前の課題
    • 集計処理での問題:バッチ時間が長い、単体テストがない(Hive で UT しずらい)、そもそも MR である必要があるのか
    • 分析処理での問題:集計の準備をしてもらうのがめんどうくさい、分析に集中したい
    • 運用・調査の問題:全サーバのログを探すのはキツイ
      ↓解決するために Redshift
    • S3 にはそもそも upload してあった、 PostgreSQL にも知見があった

*****

  • まずはじめにやったこと
    • とにかく対象のログを S3 upload
    • テーブル設計は重々に考慮する必要がある

*****

  • 用意した Cluster 構成
    • 300GB/day x 60days = 18TB
    • -> 8XL x 2 を用意

*****

  • upload の性能
    • >10GB file を 40sec 以内で upload 可能

*****

  • coding : PostgreSQL ができれば
  • UT
  • EMR からのリプレイスは 2w で完了(がんばったからもあるが)
  • 実行時間は 20 min が 1min に (EMR の準備フェーズの時間がなくなっただけ、もともと使い方を間違っていたようにみえる)
  • Dataminer は分析に集中できるようになった
  • 調査は2ヶ月分のログが Redshift にあがっているので調査は楽になりました

*****

  • 困ったこと
    • PostgreSQL base であって、 PostgreSQL ではない(対応していない構文もある、たとえば alter column
    • 週に1回30分のメンテナンスがある
    • 構造体のデータはそのまま入らない(事前にパースが必要)
    • 安いんだけど高い:自前で DWH をもつことよりは安いが、という話。

*****

  • テーブル設計の勘所などは今後 AMoAd のブログにあげたりしていくとのこと
➤ QA.
  • EMR と比べたコスト
    • EMR のほうが安かった、明確な数字は出していないが。
Amazon Redshift 活用事例 株式会社ALBERT
  • サイジングできているか?
    • しかし、完璧なサイジングは無理。
    • データは変容する、ビジネスのスピードについていけないインフラの変化

*****

  • 最近は、小さいほうがいい
    • サイジングに心血をそそぐくらいならスケールアウト・HA 構成を考えるのに時間を注ごう
➤ 事例1: ADreco
  • レコメンドバナー特化型 DSP
    • ログデータの分析が不可欠

*****

  • Redshift(analytics) + S3 + Glacier(archive)
    • S3 では lifecycle を設定し、 1 day で Glacier へ移動するようにしている

*****

  • 共起性の処理、最初の集計を Redshift
    • 続きを pyhon のオンメモリや EMR で

*****

  • ローンチはスモールにできた
  • アプリ設計がシンプルになった
  • DB 運用からは解放された
➤ 事例2:プライベート DMP (Data Management Platform) での Redshift 利用事例
  • 構成要素:あくまでスピーカーの定義(広告のシステムだから以下)
    • DWH, Data mining engine, Campaign management, DSP, BI

*****

  • DWH の部分で Redshift を利用

*****

  • 疎結合からはじめる
    • 一部のデータから取り扱う
    • 一つのサービスから展開する
➤ 技術視点からのポイント
  • PostgreSQL からの注意点
    • データ型は限定
    • クエリも一部非対応
    • DISTKEY, SORTKEY の取り扱い(RDBMS でいう partitioning, index )
    • カラム毎の圧縮形式の選択

*****

  • その他
    • 1Cluster = 1DB = 1 USER と思いきや、 Create DB, Create USER できる
    • 検証目的、レイテンシ我慢出来るなら U.S. もあり (Tokyo より若干安い)
    • Reserved を視野にいいお付き合いを。
➤ QA.
  • Redshift 以外で検討したものがあるか?(recomendation で)
    • 最初は EC2 上に hive をたてようとした
    • 社内では redis をリアルタイム演算では使用しているが。

*****

  • レコメンデーションのアルゴリズム
    • R, Mahout を使っているが、ブラックボックス的に使うのは嫌っている
    • Java で書いたり、と。

参考:

では、今日はこんなところで。

こちらもあわせてどうぞ

"いのちの記録"を未来へ 〜震災ビッグデータ〜を観た

NHKスペシャル|"いのちの記録"を未来へ~震災ビッグデータ~ を録画していたものを観たので、そのときとったメモを残しておこうと思います。

ビッグデータ技術の深堀りといったものはなく、カーナビの GPS や携帯の位置情報などを蓄積したデータを活用して、今後の災害に役立てる手段を模索しはじめたという内容になっていました。

以下よりわたしのメモです。

***

  • カーナビの GPS データからの解析
  • 携帯の位置情報(個人情報は抜く)
  • 東日本大震災、発生したとき、被災地では津波にむしろ向かっていく人たちが多数いた
  • 渋滞→グリッドロック

***

***

  • ビッグデータを用いた今後への備え

***

  • 浸水域にいたと思われる人数の推計→ 52 万人
  • そのとき人々はどのような行動をとったのか?
  • 地震発生直後、浸水域から避難する人が多いが、時が立つに連れて浸水域に向かっていく人が現れ、むしろ浸水域にいた人々の方が多かった
  • なぜ??
    • ピックアップ行動
      多くの人が家族や知り合いを助けに行ったのではないか?

***

  • とどまっていた人々が多かった地域
  • 三陸沿岸、陸前高田も。
  • 70% の人々が浸水域にとどまっていた
  • まったく動いていなかったわけでもなさそう
  • 避難場所にいけば安全だと思って行動してしまった
  • 1/3 の人々が地震発生から 15 分以内に行動していたが、避難場所にいってしまった
  • 高台に向かっていたら助かっていたかもしれない

***

  • 各地にある津波の石碑
  • 現代であれば、電子データを活用できるはず

***

  • 原発事故の影響
  • 放射性ヨウ素 131 の拡散
  • 早野龍五教授(東大)
  • どのくらいの人が被曝したかという推計

***

  • 超渋滞現象の謎
  • 17 万台の車が津波に流された
  • 深刻な渋滞が被害を拡大させたのではないか?
  • 実態の検証をすることで被害を減らす試み
  • 交通工学からの分析(桑原雅夫教授:東北大学)
  • 石巻、点在する橋のまわりで普段から渋滞
  • 地震前から渋滞が起こっていたことが伺える
  • それが、地震後からさらにひどくなった

    グリッドロックが起きていた
  • 地震発生直後に人々が車でみな乗り出そうとして、直進はおろか右左折もできない状態になってしまった
  • 大型の商業施設から出てくる車が大きな障害に
  • それでも車を使わないで逃げようとする人がほとんどいなかった
  • 対策として考えられるもの:
    橋には、余分な橋の道を増設したり、商業施設は避難施設として使い、車で避難しないことをうながしたり。

***

  • リアルタイムでのビッグデータ活用の試み
  • Twitter のつぶやきを起点とした救助の一例
    →テキストマイニングの試み、本当に意味のある被災の情報だけを検知する
  • 村井純教授(慶応大)

***

  • 自衛隊による救援活動
  • 情報なき救援活動
  • 携帯などの位置情報データを利用していれば、どこで人々が孤立状態にあったかもっと分かったと思われる

***

  • ビッグデータを震災に活かす検討会
  • 今後想定される東海地震の被害をいかにして抑制するか?
  • 情報空白をいかにして低減するか
  • 72 時間という時間制約のなか、いかにして早く情報を得られるか?
  • よりリアルタイム性がもとめられる
  • スカイマップ+混雑統計データの例

こちらもあわせてどうぞ

Oreilly.com で Data Science Starter Kit が販売されていたので買ってみた

EMC Data Science and Big Data Analytics Training の感想 - #garagekidztweetz を受けてきて、 R Cookbook (O'Reilly Cookbooks)R in a Nutshell を買うかどうか迷っていたところ、 Oreilly.com で Data Science Starter Kit が $99.92 とお得になっていたので買ってみました。

\84/$ で円に換算すると \8,316 。

amazon で kindle 本もしくはペーパーバックで同じセットを揃えると \12,585 だったので決断しました。

ちなみに Data Science Starter Kit は以下の 8 タイトルです。

Kindle ストアで ¥ 1,442

Kindle 本はなしで ¥ 2,591

Kindle ストアで ¥ 1,442

Kindle ストアで ¥ 1,425

Kindle ストアで ¥ 1,442

Kindle ストアで ¥ 1,442

Kindle ストアで ¥ 2,284

Kindle ストアで ¥ 1,959

では、こんなところで。

こちらもあわせてどうぞ

EMC Data Science and Big Data Analytics Training の感想

12/10-14 の 5 日間、 EMC さんの "Data Science and Big Data Analytics Training" に参加してきましたので、概要の紹介と受講したわたしの感想を共有してみたいと思います。
テキストの内容等は、許可なく転載できないので、あくまで参加してきた感想に絞っています。これから受けるかどうか迷っている方の参考になれば幸いです。

➤ トレーニング概要の紹介

このトレーニングは5 日間でビッグ・データおよびその他の分析プロジェクトに参加して効果を上げられるようになるための基礎レベルの知識を習得するものです。

ただ基礎レベルとは言ってもカバーしている内容は以下の通り、かなりのボリュームになっているので、大変タフなトレーニングでした

  • Module1: ビッグ・データ分析の概要
    • ビッグ・データの概要 / 分析の実践状況 / データ・サイエンティスト / 各業種でのビッグ・データ分析
  • Module2: データ分析ライフサイクル
    • 調査 / データ作成 / モデル・プランニング / モデル構築 / 結果の伝達 / 運用化
  • Module3: R を使用した基本データ分析方式の確認
    • R を使用したデータの参照 ― R の紹介 / データの分析と調査 / モデルの構築と評価に関する統計
  • Module4: 高度な分析 ― 理論と方式
    • K 平均法クラスタリング / 関連性ルール / 線形回帰 / ロジスティック回帰 / 単純ベイズ分類器 / 決定木 / 時系列分析 / テキスト分析
  • Module5: 高度な分析 ― 技術とツール
    • 構造化されていないデータの分析 ― MapReduce および Hadoop / Hadoop エコシステム / データベース内の分析 ― SQL の要点 / データベース内の分析のための高度な SQL と MADlib
  • Module6: 最終段階とまとめ
    • 分析プロジェクトの運用化 / 最終成果物の作成 / データ・ビジュアル化技術 / ビッグ・データ分析に関する最終実習

講義の進行は日本語と英語で行われます。(英語は同時通訳がつきます)
テキストも日本語と英語のものが両方用意されました。
毎日、講義の始まりにはその日の講義の内容に即した動画が共有されます。
最もこの講義の中で重い比重がおかれているのは R を使った統計の手法で上記でいうと 「Module4: 高度な分析 ― 理論と方式」に 2 日ほど費やされます。

トレーニング終了後には、実習で使ったテキスト類を電子でもらえます。
実習で使ったのと同等の環境が家からアクセス可能になるようです(来週になったら環境をもらえるようです)。

参考: EMC Data Science and Big Data Analytics Training 概要 / E20-007 試験概要

➤ わたしの本トレーニングの感想

素晴らしかった点
微妙だった点(注意点)
  • 講師も Data Analytics のプロというわけではない。
  • この講義を受けたから即 Data Scientist になれるわけではない。
    • Data Analytics の基礎を学ぶ講習だという認識で参加するのが正しいと思います。 "Big Data" を冠してはいるが、あまりその色は強くありません。マイニングや機械学習などは、そういうものがある、程度の扱いになっています。
    • Data Scientist と呼ばれるような人は、今の日本だと一企業に一人いればいいほう(むしろいないでしょ、と)だと思います。なので、このトレーニングにでて Data Scientist になれる、なんて思う人はそもそもいないとは思いますが、念の為に書いておきました。 2012-12-17 20:37 追記
  • 個人的には同時通訳はいらなかった。
    • 最初は、あるなら使おうかと思っていたのですが、むしろ日本語と英語が右と左の耳から交互に聞こえてくるので、まったく集中できなかったので、使うのはやめさせてもらいました。必要だという人はいると思うので完全否定はしないですが、いらないという人には講義代金を若干でも割り引くとかそういう工夫があるとより良いと思いました。
個人的な総括
  • わたしの場合は、このエントリでも書いたとおり、体系的な統計の手法を学んでみたいと思っていたので、とてもわたしのニーズにあったトレーニングだったなと思っています。
    • ただし、冒頭にも書いたとおり、大変にボリュームのあるトレーニングなので、わたしは消化不良を起こしてしまっているので、これから実務で役立てられるよう復習を繰り返そうと思っています。
    • よりデータ・マイニングや機械学習などは途中で書いた通り、ふれる程度ですので、そこに期待している人は別のトレーニングをオススメします。(いいのがあるか、わたしも今は知りませんが)

➤ テキスト内で紹介されていた本

こちらもあわせてどうぞ

Strata Conference + Hadoop World 2012 の Keynote だけでも観ておこうということでビデオのリストをつくってみた。


参加はできませんでしたが、Making Data Work: Strata Conference + Hadoop World - O'Reilly Conferences, October 23 - 25, 2012, New York, NYの内容は多少なりとも追いかけたいと思ったので、 Keynote だけでも観るために、個人的な Todo リストとするためにビデオを集めてみました。

1 つ 1 つは 10-20 分前後なので、スキマ時間に iPad ででも少しづつ觀ていこうと思っています。

とは言え、 15 本、なかなかボリューミーではあるな、と。

Big Answers

Society confronts enormous challenges today: How will we feed nine billion people? How can we diagnose and treat diseases better, and more cheaply? How will we produce more energy, more cleanly, than ever before?

Big questions like these demand new approaches, and "Big Data" is a crucial of the toolkit we will use over the coming years to answer them. New algorithms, applied to much more raw data than has ever been available before, will help professionals in almost every discipline make better, more informed decisions, and will guide research and policy toward better outcomes, faster.

Born in the consumer internet, the Apache Hadoop platform has, over the last six years, become a critical piece of infrastructure for government, commercial and research organizations that need to answer big questions using Big Data. In his opening keynote, Mike will explore some revolutionary use cases form his own experiences at Cloudera and will show how building applications within a broader community and ecosystem has vast implications for the speed and depth of innovation, helping humanity to ask bigger questions and gain bigger answers.

Data science is a team sport. Collaboration inside and outside your organization is the ultimate Big Data technique. Success depends on having a collaboration platform and solving the number one problem of the Big Data era: the supply and demand for data scientists. Learn how you can take action today to accelerate the success of your data science efforts.

This keynote is sponsored by Greenplum, a division of EMC

http://strataconf.com/stratany2012/public/schedule/detail/26918

追記:2012-10-30 22:43

The End of the Data Warehouse

Hadoop is scalable, inexpensive and can store near-infinite amounts of data. But driving it requires exotic skills and hours of batch processing to answer straightforward questions. Learn how everything is about to change.

http://strataconf.com/stratany2012/public/schedule/detail/26606

Moneyball for New York City

New York City is a complex, thriving organism. Hear how data science has played a surprising and effective role in helping the city government provide services to over 8 million people, from preventing public safety catastrophes to improving New Yorkers' quality of life.

http://strataconf.com/stratany2012/public/schedule/detail/26619

Much of the heavy lifting involved with Big Data projects is accessing and preparing the data for analysis or what is often referred to as data integration. This can easily consume up to 80% of a big data development effort and yet too many developers resort to reinventing the wheel by hand-coding custom connectors, data parsers, and data integration transformations. Why not leverage a metadata-driven, codeless IDE with pre-built transformations and data quality rules so that custom development time can better be spent where it's truly needed? Codeless environments have proven to be up to 10 times more productive than hand coding, are less error prone and easier to maintain. The skills are already out there and available from in-house IT or system integrators making it possible to get your projects running and into production quickly.

This keynote is sponsored by Informatica

http://strataconf.com/stratany2012/public/schedule/detail/26752

The Composite Database

While moving away from single powerful servers, distributed databases still tend to be monolithic solutions. But e.g. key-value storage is rapidly becoming a commodity service, on which richer databases might be built. What are the implications?

http://strataconf.com/stratany2012/public/schedule/detail/26283

Big Data Direct -- The Era of Self-driven Big Data Exploration

In recent years, "Big Data" has matured from a vague description of massive corporate data to a household term that refers to not just volume but the diversity of data and velocity of change. Today, there's a wealth of data trapped in corporate data repositories, new platforms like Hadoop, a new generation of data marketplaces and volumes generated hourly on the Web. With the opportunity for key insights that these diverse data sources present, the business user's ability to get to the data when they need it and gleam fast insights has become a massive priority. In a nutshell, easing access and analysis of both private and public data is one of the biggest opportunities ahead. New approaches to enable self-driven exploration of private and public data are necessary and will help address the critical 'last mile' problem in big data. Big Data Direct discusses the opportunity ahead for business users to intuitively and easily harness the power of private and public data for deeper customer intelligence and to identify new business opportunities.

http://strataconf.com/stratany2012/public/schedule/detail/26203

Bringing the 'So What' to Big Data

The onset of the Big Data phenomenon has created a unique opportunity to improve the human condition, but the challenge ahead of us is to move beyond Big Data infrastructure to real, applied, and prioritized comprehension that is morally and practically useful. This requires redirecting our collective energies toward new algorithms, more distributed systems, and purer software architectures that more optimally exploit the infrastructure to answer questions of great social and personal value. Technologies that close the "Understanding Gap" can make great strides to prevent evil, reduce suffering, and create more actualized human potential. This pursuit is more than an opportunity- it is a key responsibility for the technology community today and through at least the next decade.

http://strataconf.com/stratany2012/public/schedule/detail/26300

The Human Face of Big Data

http://strataconf.com/stratany2012/public/schedule/detail/26979

Over the past two decades, Rick Smolan, creator of the best selling "Day in the Life" books, has produced a series of ambitious global projects in collaboration with hundreds of the world's leading photographers, writers, and graphic designers. This year Smolan invited more than 100 journalists around the globe to explore the world of Big Data. The Human Face of Big Data captures, in fascinating photographs and moving essays, an extraordinary revolution sweeping, almost invisibly, through business, academia, government, healthcare, and everyday life. Big Data is already enabling us to provide a healthier life for our children, to provide our seniors with independence while keeping them safe, to help us conserve precious resources like water and energy, to peer into our own individual genetic makeup, to create new forms of life, and soon, many predict, to reengineer our own species... and we've barely scratched the surface.

Hadoop: Thinking Big

http://strataconf.com/stratany2012/public/schedule/detail/26990

Most organizations have limited their thinking about Hadoop. The use cases they pursue are narrow and have only scratched the surface on how to best improve business results and gain a competitive edge.

The truth is that there are just a few obstacles to overcome and a few changes in perspective, to realizing the full potential for Hadoop.

This session will provide insights into how the combination of scale, efficiency, and analytic flexibility creates the power to expand the applications for Hadoop to transform companies as well as entire industries.

This keynote is sponsored by MapR Technologies

Beyond Batch

http://strataconf.com/stratany2012/public/schedule/detail/26519

Hadoop started as an offline, batch-processing system. It made it practical to store and process much larger datasets than before. Subsequently, more interactive, online systems emerged, integrating with Hadoop. First among these was HBase, the key/value store. Now scalable interactive query engines are beginning to join the Hadoop ecosystem. Realtime is gradually becoming a viable peer to batch in big data.

Cloud, Mobile and Big Data -- How Analytics Provides Value to the Buzzwords

http://strataconf.com/stratany2012/public/schedule/detail/26853

In this rapid-fire keynote, we'll introduce how virtually every new technology trend is inextricably linked -- or should be to attain maximum leverage. We'll discuss how you can ride the Big Data wave by leveraging analytics to drive superior and faster decisions -- decisions that can lead to competitive advantage. We'll discuss how you can use technologies such as cloud and mobility to spread the value of analytics pervasively across your virtual organization, and how that positively impacts your employees, customers and partners.

This keynote is sponsored by SAS

From Traditional Database to Big Data Platform

http://strataconf.com/stratany2012/public/schedule/detail/27514

You need more than a database 'hammer' for today's Big Data projects. Organizations need a 'data platform' providing integrated tools to capture, store, process and present data. Without it companies can achieve -- volume, velocity, or variety -- but not all three. Join us to learn the extreme capabilities needed to distill new business signals from big data.

This keynote is sponsored by SAP

Are We Really Winning the Information Revolution?

http://strataconf.com/stratany2012/public/schedule/detail/26407

Samantha Ravich, former National Security Advisor to Vice President Richard Cheney, will discuss the challenges that face strategic decision makers from the wealth of data now provided by advances in technology.

Of Rocket Ships and Washing Machines: Data Technology for People

http://strataconf.com/stratany2012/public/schedule/detail/26842

The story of Big Data technology has centered on engines, algorithms, and statistical methods for data analysis. Less has been said -and too little has been done-regarding technology to improve the lives of data analysts. In this talk I'll highlight recent research from Berkeley and Stanford targeted at improving productivity across the data lifecycle, using technology to address the scarcest resource in Big Data: people.

こちらもあわせてどうぞ