#garagekidztweetz

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

リアルタイムクエリエンジン「Cloudera Impala紹介セミナー」でとったメモの公開 #impala2013

スポンサーリンク

概要

  • 日程:2013年1月8日(火)18:30〜21:00
  • 会場:ベルサール三田 Room2+3
  • タイトル:リアルタイムクエリエンジン「Cloudera Impala紹介セミナー」
  • 参加費:無料

アジェンダ

  • 18:00 受付開始
  • 18:30 ご挨拶
  • 18:40 リアルタイムクエリエンジン「Cloudera Impala」のご紹介 (通訳あり)
  • 19:40 Q&A
  • 20:00 懇親会
  • 21:00 閉会

新年明け早々に Cloudera Impala の紹介セミナーが開催、そして開発者もくるってことだったので、行って来ました。

今日は Bluetooth キーボードの充電が切れてしまったので、 iPad mini で頑張ってとってみたメモなのでちょっと普段よりメモの漏れが多いかもしれないですがご勘弁ください。
(事前に質問してみたいことがあって、それを質問できたので、個人的には満足してしまってますw)

のちほど資料が up された後に内容を更新したりすると思いますが、まずはメモを公開しようと思います。
では以下よりメモです。

18:30 ご挨拶

Ask Bigger Questions (ジュゼッペ小林さん)

➤ 象に縁がある
  • 初詣で象に乗ってきた
  • Impala まだベータだがどういった方向を目指しているか?を共有する
➤より大きな問題に取り組む
  • Bigger question 進行形がテーマ
  • 例えば、昨年検出した詐欺事件はどれだ?→今後の事故の検出
➤Cloudera enterprise がもたらす効果
  • データマネジメントの簡素化
  • ビジネスとビッグデータ間のリアルタイムなやり取り
  • より大きな質問に答える
➤ Cloudera のアプローチ
  • 簡素化、統一、効率的
  • ビッグデータは昔からあったが、入れ物がひとつには収まり切らなくなった
  • 大きいからといって分散してしまうと、また従来に戻ってしまう
  • 一元管理しなくては。
  • これらは生データの話。
  • スタートアップのベンチャーが最初からHadoop に入れている現状
    →Cloudera の新しい顧客層に
➤ ビッグデータのプラットフォームとしてのCloudera enterprise
➤ 企業の生データ資産を格納
➤ リアルタイムクエリによる唯一のソリューション
  • これまでの課題に対処してきた中で、新たに出てきた課題に対応

  • 一番最初の課題はデータサイエンティスト
  • データの活用方法を考える人
  • Java でコードをかけるわけではなかったりする
  • コードを人に書いてもらわないといけなかったり
  • より早く自分の考えを実践に移したい
  • そのニーズに応える

  • Hive でもいいのではないかという考えはあった
  • しかし、データサイエンティストとしてはすぐ結果が欲しい
  • すぐリアルタイムで結果が返ってくるものがほしい

  • Excel
  • エンドユーザーコンピューティングのニーズ
  • 生データにSQLでアクセスする

18:40 リアルタイムクエリエンジン「Cloudera Impala」のご紹介 "A Modern SQL Engine for Hadoop" (通訳あり)

  • 開発部門のエンジニア:アラン・チョイ氏

➤ Agenda
➤ Hive problem
  • Too slow
➤impala overview
  • 汎用的なSQL エンジン
  • Hadoop ユーザがインプリしやすく
  • そして、なにより速いことを目指した

  • 何時間もかかるバッチ処理にもマイクロセカンドでの処理にも対応したいと思った
➤デモ: Hive vs Impala
➤impala のユーザービュー
  • サポートしているSQL構文の紹介
  • Join, union, insert にも対応
  • β版においては、
    • カスタムUDFには対応していない、ファイルフォーマット、Serdesにも対応していない
    • Join はハッシュ結合のみに対応
➤アーキテクチャの紹介
  • 黄色がimpala のコンポーネント
  • 青は既存のHadoop のコンポーネント
  • Query planner, coordinator, executor

  • ODBC/Beeswaxのthrift API でSQLリクエストを実行
  • JDBCドライバはまだないが、開発予定はある
    ※この辺は実際に資料が公開されたらチェックしたほうが分かりやすい

  • HBase fragment, DN fragment

  • Impala daemon 間に中間結果がストリームされ、クエリ結果はクライアントへ返される

  • メタデータの処理はHiveのメタデータを使用
  • GA版ではstatestoreを通じてメタデータを配布

  • 実行エンジンの話
  • C++で実装
  • big loops のためのランタイムコード生成
    →すべての式をインライン化し、ループ内でのファンクションコールをしない
  • テキストのパースやcrc 32 計算のために特別なCPU命令を使用

  • Impala のstatestore
  • 中央にあるシステムステートリポジトリ
  • ソフトステート
    →起動したときにImpala 全デーモンを登録、SPOFではない
  • サービス、サブスクリプションの登録にはThrift API を使用

  • Impala とdremelとの比較
  • カラム志向型同士の比較
    →スライドが詳しい

  • Hive との比較
  • デモに戻る
    • 248.129 sec Hive でかかった
    • 6.55 sec で impala は終了
  • パフォーマンスはimpala
    →立ち上がりだけではなく、クエリそのものの劇的なスピードアップ
  • 柔軟性、UDF、耐障害性はHive
➤impala がサポートする機能
  • テキストファイル lzo 含む
  • snappy/gzip圧縮されたシーケンスファイル
  • Avro データファイル - when GA
  • Trevni - when GA
➤ impala を試してみよう
  • alan@cloudera.com
  • Impala-user@cloudera.org←質問やコメントはこちらへ
➤ QA
  • Impalaには現状、オプティマイザはないが、GAではコストベースでのオプティマイザ実装を考えている

  • RDBとの比較にかんして
    • RDBは目的志向、impalaは非目的志向
    • 純粋な性能比較は Cloudera ではおこなっていない

  • ロードマップは?
    • GA以外のことについては現状答えることはできないw
    • 2週間ごとにimpalaの機能は見直しをかえているので、GAまでに色々変わるかも

  • CDH3で使えることはないですね
    • 多くの機能がCDH4に依存しているから
    • すでに大きなCDH3クラスタをもっていて、ということであれば、スモールクラスのCDH4クラスタをつくってみたらどうか

  • Hive との性能差
    • ステージングかストリーミングか、の違い

  • リソースマネジメントについては、まだあまり手をつけていない

  • Trevini と RCFile の違い
    • 具体的にはまだ確定はしていないがOSSなので情報の公開をお待ちください

  • Hive と Impala の使い分け
    • Impala は実験的に何回も何回も分析を試すときに適す
    • 開発者なのでどんなクエリにもimpalaを使ってほしいよw

  • Is there any plan for implementing a in database analytics function such like logistic regression analytics function to impala for the future? ( Not I said but... : Some kind of DWH products have such a function e.g. Greenplum have such a function, I'm just curious for what do you think about implementing in database analytics function to impala. As a data analyst point of view if such a function impala have, may become more useful impala become I think. )
    • 今は回帰分析などのファンクション実装の予定はないが、顧客の要望次第で採用することを考えていきたい
    • 要望にあわせてできる機能を追加していく予定
      これはわたしがした質問、前向きな回答が返ってきたのでとてもよい印象を受けました。 Windowing の要望などもあるようなことを言っていたので、是非前向きにデータ分析に有用な機能の追加を検討していってもらいたいところです。

アナウンス

Hadoop Conference Japan 2013 Winter っていうのがあるから、早く申し込んでね、とw

では、のちほど少し更新するかと思いますが、こんなところで。

参考: 2013-01-09 追記

こちらもあわせてどうぞ