リアルタイムクエリエンジン「Cloudera Impala紹介セミナー」でとったメモの公開 #impala2013

Source: blog.londolozi.com via garage-kid on Pinterest

概要

日程：2013年1月8日（火）18:30〜21:00

会場：ベルサール三田　Room2+3

タイトル：リアルタイムクエリエンジン「Cloudera Impala紹介セミナー」

参加費：無料

アジェンダ

18:00　受付開始

18:30　ご挨拶

18:40　リアルタイムクエリエンジン「Cloudera Impala」のご紹介（通訳あり）

19:40　Q&A

20:00　懇親会

21:00　閉会

新年明け早々に Cloudera Impala の紹介セミナーが開催、そして開発者もくるってことだったので、行って来ました。

今日は Bluetooth キーボードの充電が切れてしまったので、 iPad mini で頑張ってとってみたメモなのでちょっと普段よりメモの漏れが多いかもしれないですがご勘弁ください。
（事前に質問してみたいことがあって、それを質問できたので、個人的には満足してしまってますｗ）

のちほど資料が up された後に内容を更新したりすると思いますが、まずはメモを公開しようと思います。
では以下よりメモです。

18:30 ご挨拶

Ask Bigger Questions (ジュゼッペ小林さん)

➤ 象に縁がある

初詣で象に乗ってきた
Impala まだベータだがどういった方向を目指しているか？を共有する

➤より大きな問題に取り組む

Bigger question 進行形がテーマ
例えば、昨年検出した詐欺事件はどれだ？→今後の事故の検出

➤Cloudera enterprise がもたらす効果

データマネジメントの簡素化
ビジネスとビッグデータ間のリアルタイムなやり取り
↓
より大きな質問に答える

➤ Cloudera のアプローチ

簡素化、統一、効率的
ビッグデータは昔からあったが、入れ物がひとつには収まり切らなくなった
大きいからといって分散してしまうと、また従来に戻ってしまう
一元管理しなくては。
これらは生データの話。
スタートアップのベンチャーが最初からHadoop に入れている現状
→Cloudera の新しい顧客層に

➤ ビッグデータのプラットフォームとしてのCloudera enterprise

➤ 企業の生データ資産を格納

➤ リアルタイムクエリによる唯一のソリューション

これまでの課題に対処してきた中で、新たに出てきた課題に対応

＊

一番最初の課題はデータサイエンティスト
データの活用方法を考える人
Java でコードをかけるわけではなかったりする
コードを人に書いてもらわないといけなかったり
より早く自分の考えを実践に移したい
そのニーズに応える

＊

Hive でもいいのではないかという考えはあった
しかし、データサイエンティストとしてはすぐ結果が欲しい
すぐリアルタイムで結果が返ってくるものがほしい

＊

Excel
エンドユーザーコンピューティングのニーズ
生データにSQLでアクセスする

18:40　リアルタイムクエリエンジン「Cloudera Impala」のご紹介 "A Modern SQL Engine for Hadoop" （通訳あり）

開発部門のエンジニア：アラン・チョイ氏

Cloudera Impala Seminar Jan. 8 2013 from Cloudera Japan

➤ Agenda

➤ Hive problem

Too slow

➤impala overview

汎用的なSQL エンジン
Hadoop ユーザがインプリしやすく
そして、なにより速いことを目指した

＊

何時間もかかるバッチ処理にもマイクロセカンドでの処理にも対応したいと思った

➤デモ: Hive vs Impala

VM を使って実施
- https://ccp.cloudera.com/display/support/downloads から落とせるよ

➤impala のユーザービュー

サポートしているSQL構文の紹介
Join, union, insert にも対応
β版においては、
- カスタムUDFには対応していない、ファイルフォーマット、Serdesにも対応していない
- Join はハッシュ結合のみに対応

➤アーキテクチャの紹介

黄色がimpala のコンポーネント
青は既存のHadoop のコンポーネント
Query planner, coordinator, executor

＊

ODBC/Beeswaxのthrift API でSQLリクエストを実行
JDBCドライバはまだないが、開発予定はある
※この辺は実際に資料が公開されたらチェックしたほうが分かりやすい

＊

HBase fragment, DN fragment

＊

Impala daemon 間に中間結果がストリームされ、クエリ結果はクライアントへ返される

＊

メタデータの処理はHiveのメタデータを使用
GA版ではstatestoreを通じてメタデータを配布

＊

実行エンジンの話
C++で実装
big loops のためのランタイムコード生成
→すべての式をインライン化し、ループ内でのファンクションコールをしない
テキストのパースやcrc 32 計算のために特別なCPU命令を使用

＊

Impala のstatestore
中央にあるシステムステートリポジトリ
ソフトステート
→起動したときにImpala 全デーモンを登録、SPOFではない
サービス、サブスクリプションの登録にはThrift API を使用

＊

Impala とdremelとの比較
カラム志向型同士の比較
→スライドが詳しい

＊

Hive との比較
デモに戻る
- 248.129 sec Hive でかかった
- 6.55 sec で impala は終了
パフォーマンスはimpala
→立ち上がりだけではなく、クエリそのものの劇的なスピードアップ
柔軟性、UDF、耐障害性はHive

➤impala がサポートする機能

テキストファイル lzo 含む
snappy/gzip圧縮されたシーケンスファイル
Avro データファイル - when GA
Trevni - when GA

➤ impala を試してみよう

alan@cloudera.com
Impala-user@cloudera.org←質問やコメントはこちらへ

➤ QA

Impalaには現状、オプティマイザはないが、GAではコストベースでのオプティマイザ実装を考えている

＊

RDBとの比較にかんして
- RDBは目的志向、impalaは非目的志向
- 純粋な性能比較は Cloudera ではおこなっていない

＊

ロードマップは？
- GA以外のことについては現状答えることはできないw
- 2週間ごとにimpalaの機能は見直しをかえているので、GAまでに色々変わるかも

＊

CDH3で使えることはないですね
- 多くの機能がCDH4に依存しているから
- すでに大きなCDH3クラスタをもっていて、ということであれば、スモールクラスのCDH4クラスタをつくってみたらどうか

＊

Hive との性能差
- ステージングかストリーミングか、の違い

＊

リソースマネジメントについては、まだあまり手をつけていない

＊

Trevini と RCFile の違い
- 具体的にはまだ確定はしていないがOSSなので情報の公開をお待ちください

＊

Hive と Impala の使い分け
- Impala は実験的に何回も何回も分析を試すときに適す
- 開発者なのでどんなクエリにもimpalaを使ってほしいよw

＊

Is there any plan for implementing a in database analytics function such like logistic regression analytics function to impala for the future? ( Not I said but... : Some kind of DWH products have such a function e.g. Greenplum have such a function, I'm just curious for what do you think about implementing in database analytics function to impala. As a data analyst point of view if such a function impala have, may become more useful impala become I think. )
- 今は回帰分析などのファンクション実装の予定はないが、顧客の要望次第で採用することを考えていきたい
- 要望にあわせてできる機能を追加していく予定
  これはわたしがした質問、前向きな回答が返ってきたのでとてもよい印象を受けました。 Windowing の要望などもあるようなことを言っていたので、是非前向きにデータ分析に有用な機能の追加を検討していってもらいたいところです。

アナウンス

Hadoop Conference Japan 2013 Winter っていうのがあるから、早く申し込んでね、とw

Hadoop Conference Japan 2013 Winter Tickets, Tokyo - Eventbrite

では、のちほど少し更新するかと思いますが、こんなところで。

参考： 2013-01-09 追記

Cloudera Impalaセミナー (2012-01-08) のハッシュタグ #impala2013 まとめ - Togetterまとめ
- このメモに取りきれなかったツイートがあったので数は少なかったですが #impala2013 のついたツイートをまとめてみました。
- @repeatedly さん、時系列にソートしなおしてくれてありがとうございました！
- ちなみに誰でも編集可能にしてありますので、関連するツイートで漏れにお気づきでしたら、確認不要で追加していただけると助かります mm
ClouderaさんのImpalaセミナー参加レポート » アジャイル開発 | Enterprise Java | 株式会社アットウェア
Cloudera Impala seminar report » アジャイル開発 | Enterprise Java | 株式会社アットウェア
- これはすごい。ここまでする気力はわたしにはありませんでした。
続）Cloudera Impala 情報 (11) | Tech Blog
- 続続続々・・ゾクゾク・・と11回目まできたんですね。
- わたしのことも言及してくださりありがとうございます。

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ！