法被を脱いで最終形態になった @shiumachi 氏が最強だった #hcj2014 Evolution of Impala - Hadoop 上の高速SQLエンジン、最新情報のメモ

f:id:garage-kid:20140707215541p:plain

Hadoop Confence Japan 2014 参加レポートエントリ、6発目は @shiumachi 氏による「Evolution of Impala」に参加してきました。

タイトルは半分釣りですが、本セッション開始早々、本当に @shiumachi 氏は今回のカンファレンスのユニフォーム的な法被*1を脱ぎ捨てて最終形態に変身してました（嘘じゃないっす！）。

そして内容もさることながら、いつもどおりのキレッキレのトーク、最強でした。

冗談はさておき実際、はじめて Impala が世に出たときにくらべると、格段によくなっているということを丁寧に説明されていました。
※手前味噌ながら、当時の Impala 紹介セミナーに参加したときのメモはこちら。

すこしでも Impala に興味をもったら、O'Reilly Japan - Cloudera Impala をまずは読んで、はじめるなら今でしょということでした。

Hive, Presto との比較ベンチマークなどは必見だと思います。
※スライドが公開されたらこちらのエントリにも貼らせてもらおうと思います。

では、以降はわたしのメモです。

Evolution of Impala #hcj2014 from Cloudera Japan

* ハッピ脱いだ？！( Д ) ﾟﾟ

Hadoop Cluster のための MPP SQL クエリエンジン
- C++
- OSS
Cloudera, MapR, Amazon がサポート
現在のバージョンは 1.3.1
Impala は使うの超簡単
- HDFS, HBase 上のデータに対して仮想的なビューとしてテーブルつくれる
- ODBC, JDBC
- Kerberos, LDAP 認証
Impala のアーキテクチャ
- 分散サービス
- impalad
  - データのある全てのノードで動作
  - どの impalad でもユーザからのクエリを受けれる
- statestore
  - ステートリポジトリ
  - 簡単な死活監視
  - ソフトステート
    - 起動時にすべての impalad は statestore に登録する
- catalogd
実行のアーキテクチャは従前から改善されている
- スライドが詳しい
クエリ計画
- 2 フェーズプロセス
  - シングルノードプラン
- 簡単な例： Coordinator fragment > Fragment1 > Fragment2
- インメモリでの実行
- データはストリームで送信される
  - Disk に書きだされることはない、ボトルネック事由にはならない
クエリ実行
- LLVM
What's new?
- 今は以下は全部ある
  - DDL
  - Join 最適化
  - 分散 Join
  - UDF
  - JDBC ドライバ

アドミッションコントロール (Impala 1.3 より)
- 高速・軽量なリソース管理
- リソースプールごとに最大並列実行数、キューの最大長、プールのメモリ総容量を設定可能
- Cloudera Manager 連携
- ソフトリミットに注意
  - statestore の heartbeat が 500ms 間隔
YARN と Llama
- Llama
  - 低レイテンシーのクエリで用いるために粒度の粗い YARN のスケジューリングをよりキメ細かくする
  - Impala 1.4 で Production に
Apache Sentry
- アクセス制御ができる
  - DB, table, view, column/row の粒度で