2014-06-20

#Talend さん主催のビッグデータ分析のためのデータウェアハウス最適化ノウハウセミナーに参加してきた

営業色の強い製品紹介セミナーだったので、個人的には特筆した新しい知見はなかったんですが、昨日 (2014-06-19) に Talend さんが主催する「ビッグデータ分析のためのデータウェアハウス最適化ノウハウ」セミナーに参加してきたので、そのメモを公開しておこうと思います。
（少しあとで直したりしていきます。）

まず、セミナー概要は以下のとおりでした。
（表参道だったので、行きと帰りのまわりの散策が楽しい場所でした。）

概要：

主催：Talend（株）

共催：マップアール・テクノロジーズ（株）、（株）ノーチラス・テクノロジーズ、日本ヒューレット・パッカード（株）

日時：2014年6月19日（木）14:00-17:15（受付開始 13:30）

場所：TKPスター貸会議室表参道　7F（カンファレンスルーム7A）（東京都港区北青山3-6-18　共同ビル青山）

東京メトロ千代田線・半蔵門線・銀座線表参道駅 B4出口から徒歩1分

地図はこちら：http://www.kashikaigishitsu.net/search-rooms/access?id=211

「Natural House」という食料品店と、LAWSONの間にあるビルです。

EVで7Fまでお上がりいただき、受付をお済ませください。

参加費　：無料

アジェンダは以下のような感じで、発表者は Talend x MapR x ノーチラス x HP というなんというか一見バラバラのようなすごい顔ぶれでした。

14:00-14:10 イントロダクション

14:10-14:50 ビッグデータ統合ツールの決定版！Hadoop活用のために【Talend株式会社】

14:50-15:30 DWHとHadoopの融合：分析基盤の最適化【マップアール・テクノロジーズ株式会社】

15:40-16:20 分散処理パワーで企業内システムのボトルネックを解消し競争力を高めよう！【株式会社ノーチラス・テクノロジーズ】

16:20-17:00 スモールスタートでとにかくビッグデータ分析を始めてみよう！【日本ヒューレット・パッカード株式会社】

メモの前に全体として自分が感じた雑感を書いてしまっておきます。

全体を通しての雑感

DWH と Hadoop が補完関係にある、は実経験からも自明。

既存で DWH を持っていることが多いと思うので、その補完をする役割として Hadoop を使うところは多いという実感がある。

MapR を使うことで ETL がよりスムーズになる (SPOF, IO ボトルネックの解消) のは説明からよくわかった。 MapR のライセンスを買うことに許可がでるところは使えたほうが役得は多い。

VERTICA は名前くらいしか知らなかったのでどういったものなのか若干でも知ることができたのは収穫だった。

https://my.vertica.com/ から 1TB までの無償ライセンス版がダウンロード可能 (ちょっとしたテストをしてみることは可能)

Hadoop Times (https://www.hadoop-times.com/) は知らなかったので、今後はこのサイトからも情報収集をしていきたい。

では、以降から各セッションでとってきたメモになります。

14:00-14:10 イントロダクション

企業が活用するデータ保存は従来のデータウェアハウスでも実現可能ですが、ビッグデータ活用となるとスケールアウトが容易なHadoop環境における活用が必要となります。はじめに、本セミナーの概略をご説明します。

4 社が集まった理由

4 社のプロダクトを使うと、データの収集、処理、活用をスムーズにできるということを紹介したいから
- データ整備・変換・統合などの処理→->Talend
  - フレームワークに Asakusa
- Hadoop, YARN, Hive -> MapR
- データ分析活用 -> HP

14:10-14:50 ビッグデータ統合ツールの決定版！Hadoop活用のために【Talend株式会社】

オープンソースベースのTalendのデータ統合ツールである『Talend Studio』は累計2000万DLを超えた標準技術で開発された誰でも使える容易なGUIベースの開発ツールです。Talend Studioを使って、データウェアハウスとHadoopの最適運用を可能にします。

日本に上陸して 4 年

メッセージ発信を熱心にし始めたのは、 1 年くらい

Talend の紹介

Talend の Vision/Mission
- すべてのデータから価値を生み出すこと
- データから価値を生み出すための橋渡し
2005、フランスにて2人のエンジニアが創業
- Bertrand Diard, Fabrice Bonan
- データクレンジングを自動化できるんじゃないか？から始まった
OSS, Open Businness
- 2人のエンジニアだけでは広げられない
- Taled 単体ではなかなか価値を生み出せない
  - 他の技術、 Solution と組み合わせてはじめて価値を生み出せる
    - 45,000 community
    - 1,500 品質テスター
    - 500 コンポーネント
  - 4,200 社の導入企業
    - citibank, ebay etc...
  - 2,000,000 download
  - Redhat に次ぐ OSS 系企業の売上高 (ただし RH がダントツ)
設立以来、データにフォーカスしたビジネス
- 最近は、ビッグデータにも注目
ビッグデータの捉え方
- 以下の四象限で捉えている
  - 社内データ
  - 社外データ
  - 構造化
  - 非構造化
- そして Cloud

製品の紹介

Talend 5.5
- Talend Studio (Eclipse ベース)
  - Data source から input を受けて BI などへ output する
    - Talend Studio を使って生成した jar ファイルを cloud およびオンプレ環境で動作させることができる
Talend Administration Center
- role ベースのユーザ管理
- 分散サーバを一言で管理
- Oozie で実行管理
Taland 製品のポートフォリオ
- Platform
- Enterprize
- OSS
  - 以下の 6 つの問題解決をするプロダクトをそれぞれひとつずつ提供
    - データの整備
    - データの統合
    - ビッグデータの統合
    - アプリケーションの統合
    - マスターデータの統合
    - プロセスの統合

ビッグデータ活用の流れ

ただのデータから Intellicgence へ昇華させていくプロセス
- Source
  - ERP, RDB, CRM, SFA, Finance, Logistic
  - Click Stream, Mobilie Device, RFID (Bigdata への拡張)
- Data
  - 社内社外、構造非構造
- Information
- Intelligence
ビッグデータ拡張にあたって問題が 3 つ
- 多種多様な Data Source に対応できない
- ビッグデータを高速に処理できない
- 新たな知見を現業務に FB できない

Talend による課題の解決

多種多様な情報ソースに対応できない
- Talend なら 500+ のコネクターがある
  - しかも OSS
  - ユーザが commit できる
  - ニッチなニーズにも対応できる
- データが保管できている環境を分け隔てなく使えない
  - TRESUREDATA, AWS, Google Cloud, salesforce といった環境で Talend が公認のプロダクトになっている
- ビッグデータによってわかる市場変化をキャッチして俊敏に対応できない
  - Cassandra, MongoDB, Hadoop, IBM, Pivotal などへの API を提供
  - GUI なので習得も容易
- ビッグデータ対応になることで投資額が増えてしまう
  - わかりやすいライセンス体系
    - ライセンス単位は利用者数
    - かかる費用の予測が可能
ビッグデータを高速に処理できない
- 3 つの V が増える
  - Volume, Variety, Velocity
- Talend のジョブは Hadoop 上で native に稼働するので速い
  - ジョブを実行する jar ファイルを作成する
BI tool で得たことをすぐに FB して再設計
- Talend Studio を使えば容易に知見からの変更を反映できる

Hadoop による DWH の最適化

DWH の Cold Data の保管場所としての Hadoop (HDFS)
ステージングエリアを Hadoop に置き換え
特殊用途 DWH としての適用
- レポーティングを補完など
ETL 処理基盤としての適用

矢印のニーズに答えるのが Talend

20140417 nikkei 複数企業のビッグデータ利用のイメージ
- この中で書かれているような矢印のニーズに答えるのが Talend

基本的に Talend の商品紹介な内容。

14:50-15:30 DWHとHadoopの融合：分析基盤の最適化【マップアール・テクノロジーズ株式会社】

ビッグデータの時代になり、増え続けるデータをどう蓄積し、どう分析するかが大きな課題でもありビジネスの成功を左右します。限られた予算の中でコスト効率良くあらゆるデータに手が届く方法をご紹介し、解説します。

MapR 紹介とビッグデータについて

2009 年創業の MapR
- 先日の ICT サミットに CEO John Schroeder が公演。認知度が上がったように思う
FORRESTER の Hadoop 単体のリサーチ
- そこで Top Ranked の評価をとった
MapR と Hadoop の軌跡
- 2009-2011 Stelse mode 開発に専念
- そして MapR M5
- Terasort の世界記録をもつのは MapR
- 今は世界最速の M7
- 2500 node が最大顧客
- logo 変更 (2014)
ビッグデータに関する数字
- facebook の写真 3.5 億枚/day
- walmart.com 6250万人/month
- Youtube 毎分 100 時間
- comscore のウェブのインタラクション月 1.8 兆件
ビッグデータへの期待
- 収益拡大
  - レコメンデーション
- 曖昧からロジカルへ
  - データドリブン
ビッグデータがバズワードと言われる理由
- しかし、はじめてる企業はなにがしかの成果を出している
  - もうやってるよ DWH で
  - ビジネスへの具体的な活用が明確でない
  - ビジネスとデータ分析の両方の観点からの戦略を考える人材がいない
  - ROIを説明できない
リクルートの活用例
- カーセンサーなど
なぜ Hadoop なのか？
- 扱うデータ量がどんどん増えている中で予算は限られている
  - IT 予算の伸びが 2.5% の中で、データの伸び率 40% 増えている (Gartner のレポートから)
  - TB あたりのコストが
    - Storage $9,000
    - DWH $40,000
    - MapR <$1,000

Hadoop とは？

HDFS と MR
- データを蓄積して処理する (加工) フレームワーク
ここはさすがにメモを省略

DWH の最適化ロードマップ

DWH 2.0
- TERADATA, NETEZZA, Oracle
DWH 2.5
- TERADATA, NETEZZA, Oracle
- Hadoop
DWH 3.0
- 以下 2 つは同一環境で動作可能
  - VERTICA
  - Hadoop
DWH NG
- Apache DRILL
  - SQL を直接投げられる
- Hadoop

典型的な利用例： ETL/DWH の最適化

増え続けるデータに既存の DWH が対応できない
- cost, performance, 非構造データ
- Hadoop 導入のメリット
  - 低コスト
  - performance
  - あらゆるデータを格納処理
  - ソースから分析までの一貫したデータフローを実現
現状、 Hadoop と DWH は強力な補完関係にある
- DWH3.0の組み合わせ
  - VERTICA と Hadoop を同一環境で稼働させる
eBay の事例
- 今使える技術はなんでもつかっちまえ、な発想
  - MapR な事例ではないが
- 451 Research の資料より
  - 2011 現在
  - Teradata と Hadoop Cluster
POS だけでは不十分
- 実店舗をもつ企業は最近は Online ストアもやってる
- O2O の連携
クレジットカードの不正検知の例
- Fraud Detection
- MR + Hive + R + Python
- 数分おきにバッチを実行
大手通信会社の事例
- 通信ログの解析
- 止まらないで延々と処理をし続けることができる

Hadoop 独特の悩みと MapR による解決

MapR は Hadoop core にインフラ面で手を入れている
Hadoop を検討する際の2つのポイント
- データの移動
  - データフローが分断される
    - 一度 RDBMS から dump して分析環境へ load
    - MapR なら NFS を話せる
      - NFS による直接投入ができる (HDFS に直接書き込める, RDB に直接 load できる)
      - データを移すコストが下がる
    - HDFS vs MapR FS
      - HDFS は write once, MapR は Random RW
      - HDFS は RW 同時アクセス不可, MapR は可能
- 管理性の問題
  - NN SPOF の問題
    - MapR は NN に相当するものをすべての node に散らして持っている (SPOF はない)
    - NN ネックがなくなる。小さいファイルを大量に処理しても速い

MapR の提供する運用の柔軟さ

CDH5 よりも HDP2 よりもずっといいぞ、という内容 (資料参照)
MapR は Hadoop

MapR Edition

M3 これが Free
M5
M7
- HBase が組み込まれてる

Hadoop Times の紹介

URL をあとで探す

まとめ

Hadoop はシステムを時代にあった横思考へ変える
DWH と DWH は現在補完関係

15:40-16:20 分散処理パワーで企業内システムのボトルネックを解消し競争力を高めよう！【株式会社ノーチラス・テクノロジーズ】

Hadoopはスパコンと同様の仕組みです。その仕組みを業務システムに適用し、システムのボトルネックを解消し、今までITの制約で諦めていた事を実現しませんか。Internet of Thingsの時代、いかに大量のデータを企業経営に資する情報へと迅速に変化させられるかどうかが企業競争力の鍵となります。

会社紹介

Asakusa Framework 事業
Hadoop リセール事業
流通 BMS
IOT の時代の基盤となるのが Hadoop という考えを持っている
- ビッグデータの火付け役 Hadoop
- Hadoop の最も注目するメリット
  - 分散 IO によるバッチの高速化
- Hadoop は HPC と同様のアーキテクチャ
  - スパコンのようなパワーを活用して、 IT の制約で諦めていたことを実現する
  - それも圧倒的なコストパフォーマンスで

なぜ Asakusa が生まれたのか

なんでその名前なの？
- Hadoop Community の面々とそのフレームワークをつくるにあたって相談していた
- なので Hadoop Community の持ち物だとも思っていた
- その Hadoop Community の飲み会がよく浅草でよく行われていた
- 神林さんが浅草に住んでいたのもある
どのように Asakusa Framework は生まれたのか
- 神林さんのバックグランドの紹介
- 会計事務所から流通業へ、そして流通業の CIO に
- そこで流通業界の積年の課題に直面した
  - たとえば昨日売ったりんごの利益がわからない
    - 単品ベースの利益管理
  - 何がいくら利益を得たのかわからない
  - 処理が間に合わない
- そこで Hadoop に出会う（汎用機を凌駕できるのではないか、事実出来た）
  - それをみなと享受したい→フレームワーク化→ Asakusa

Hadoop のメリットと Asakusa

バッチ処理が速く終わると何が嬉しいか
- 嬉しくない理由を探すほうがむずかしい
- データクレンジングも速く
- 時間のロスがなくなる
- リカバリーが速い

事例の紹介

DC の原価計算
にしてつストア
- 本部の方の会計処理
  - 全面リプレース
CTC
九州電力
- 311 でコストカットをせざるを得ない背景
  - ホストマイグレーション
  - スマートメーター
  - IT 事業の拡大
ANDERSEN
- こちらも原価計算
- AWS
- 4h が 20min へ (必要なときだけ instance を立ち上げている)
  - 必要なときに必要なだけ
某大手都銀
- Asakusa framework の評価
  - Excel でやっていた 600min
  - Hive で置き換えたが時短はできなかった
  - Asakusa でやったら 7min
- Hadoop が企業内データの統合基盤になっている
  - Impala も使ってる
余談：業務バッチ処理で AWS が向いているこれだけの理由
- 必要なときだけ必要なリソース
- 基幹データなのでそもそもデータ量が少ない
- VPC + DC

なんで MapR を選んでるのか？

アーキテクチャ上の問題点の解決
- DB からのデータの出し入れがどうしてもボトルネックになる
  - 上述の MapR が NFS を話せる機能を活用

Asakusa Framework

Pig, Hive と同列の位置づけ
構成
Asakusa DSL
- Data Flow を意識した DSL
- DSL からコンパイラで MR を生成
- Batch DSL, Flow DSL, Operator DSL
完全分散モードでテストするためのツールも提供
トレーニングもある

16:20-17:00 スモールスタートでとにかくビッグデータ分析を始めてみよう！【日本ヒューレット・パッカード株式会社】

ビッグデータ分析は課題と思っているけど、効果が見えないからなかなか始められないといった方が多くいらっしゃいます。HP Verticaを使えば、スモールスタートで手軽にビッグデータ分析に着手する事ができます。HP Verticaの導入事例を交えて、ビッグデータ分析のアプローチについてご紹介します。

ビッグデータ時代に求められる分析基盤

1gen (遅い)
- OLTP 向け RDBMS
2gen (高い)
- DWH Applience
3gen
- VERTICA + MapR が網羅する
  - small start
  - cost performance
  - スケールアウト
  - 開発運用が簡単
  - realtime
  - Hadoop とシームレスな連携

VERTICA の歴史

2005, Michael Stonebraker が創業
- Ingress, PostgreSQL をつくった有名人
- C-store を商用化したのが VERTICA
  - columnar database
- 2011 に HP が買収
VERTICA のポジショニング
- Gartnar 2014 Magic Quadrant for DWH MS
- LEADERS セグメントに昇格
実績
- 世界規模で 2,500 社
- facebook, sprint, zynga, twitter
- So-net, KDDI etc...
facebook 事例
- 昨秋、採用
- VERTICA を決めたのはスケールアウト性能だった、あとはコスト
  - 1 年間の POC
- log -> HDFS -> job scheduler -> VERTICA (15min, hourly, daily)

VERTICA の特徴

Small Start
- 1TB からはじめられる
Cost
- x86 server を横並びに
- infiniband などは必要ない
将来の拡張が容易
realtime
開発運用が簡単
多様なデータを取り扱える
- 非構造データ
高度な分析
- R, C++, Java
- マーケットプレイスで多くのパッケージを提供
Hadoop とのシームレスな連携
- Hadoop にたまったデータに直接アクセス
- MapR との組み合わせであれば、同一筐体上で共存可能

Dark Data ？

今まで開けていなかった屋根裏の箱を暗がりから白日の下へ引っ張りだしてみたらどうだろう。
- すべてのデータを吸い上げ可能に？

マーケットプレイスのパッケージ例

HP Pulse ：センチメンタル分析

Community Edition を試してみてほしい

my.vertica.com
1TB までなら無償

はい、以上です。
冒頭にも書いたとおり、営業色が強いセミナーだったので耳タコな内容が多かったですが、、、、、まあ、適度な息抜きとしてはいいセミナーだったかなぁと思います（すいません）。

では、今回はこんなところで。

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ！