Hadoopソースコードリーディング第11回のメモを共有しよう #hadoopreading

今日は第11回目となる Hadoop Source Code Reading に参加してきたので、わたしのメモを共有したいと思います。

日　時： 2012年7月30日（月） 19:00〜21:00 （受付開始 18:40）
場　所：豊洲センタービルアネックス（NTTデータ、豊洲駅直通）
地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html
定　員： 80名
参加費： 1000円（懇親会費用として）

今日の発表は以下の 3 つでした。
（どれも聞き甲斐がある内容でした）

Contents.

BigTopに関するお話（Cloudera, Inc Andrew Bayer氏）

CDH4に入った新機能 NameNode HA の実力を試してみました（NTTデータ山下真一氏）

複数DCで運用するHadoop/Hiveデータ解析（GMOインターネット新里祐教 @hirotakaster 氏）

では以降が、わたしのとってきたメモになります。

1. BigTopに関するお話（Cloudera, Inc Andrew Bayer氏）

Apache Bigtop (incubating)
Packaging and testing the Hadoop ecosystem

▶ QA team Engineer

so called Kitchen Team.
to attend Jenkins Conference come to Japan.

▶ Introduction

Cloudera Kitchen team
Committer Bigtop, Flume,...

▶ WHat is Bigtop

▶ WHat is Bigtop for a casual user

fully integrated pagaged and validated sgtack of Hadoop

▶ What is BIgtop for the ASF

First focused on the system level integration

▶ what for Linux Distro?

source for packaging

▶ what for Hadoop Distro?

without start from scratch

▶ Bigtop history

Based on Cloudera's CDH

▶ Bigtop Contents: source

build and packaging code for all components

▶ Bigtop contents: test

installation/removal
package contents
functional test
unit tests

▶ Bitop contents: binaries

also have.

▶ Bigtop 0.3.0 components

Hadoop 1.0.1
ZK 3.4.3
HBase 0.92.0
Oozie 3.1.3 ...

▶ Bigtop 0.3.0 Platforms

Fedora
Ubuntu ...

▶ Bigtop 0.4.0 conponent

Hadoop 2.0.0
ZK 3.4.3
HBase 0-.94.0
Oozie 3.2.0 ...

▶ 0.4.0 Platforms

Fedora 16, 17
Ubuntu ....

▶ Changes in 0.4.0

New components
Hue, Giraph ...

▶ Bigtop Source

bigtop-packages
bigtop-deploy ...

▶ bigtop-packages

the source code for bigtop packaging
- common
- dev, rpm

▶ bigtop-deploy

deployment tools for the bigtop packages
- livecd
  - kick starter script
- puppet
  - puppet modules for bigtop
- vm
  - vm image

▶bigtop-test-framework

a.k.a. iTest, the bigtop package testing framework
- written in Groovy, uses Maven for builds and test execution
- provide junit extensions
- package manager/repository helpers ...

▶ bigtop-tests

The actual package/integration tests
test-artifacts
- for various components and general package tests
- package
- test-execution
  - where the tests are run from
  - consumes the artifacts from test-artifacts as Maven dependencies

▶ Installing Hadoop from Bigtop

Example for CentOS 5.x
Bigtop 0.4.0 RC1

sudo yum search hadoop
yum install hadoop

▶ Getting Involved

Test the RC
Add components (Giraph recently added by Trendmicro team)
Fix bugs
Write tests

▶ Links

Jenkins
Mailing List
Downloads
SVN
JIRA

▶ QA

iTest is not specific for Bigtop.
it is generic.
unit test is specific for Hadoop.

How did you choose the next components to add?
Choosing from volanteer's requests.
and from JIRA tickects.

Next release will support private cloud.

For the user (from now) want to start using Apache's Hadoop, Bigtop is convenience (why not CDH, though).
But for the user originally start from CDH, not much attractive.
Seeing from contributers of Hadoop ecosystem, maybe seem different.
If Cloudera Manager became OSS, and became one of the component of this, It would be wonderful, I think.

2. CDH4に入った新機能 NameNode HA の実力を試してみました（NTTデータ山下真一氏）

CDH 4.0.0 base

▶ 自己紹介

最近、思っている
すそのを広げることは大切だ

▶ おさらい：HDFSの可用性

DN、障害発生時にサービス継続できる仕組み
ブロックを分割、レプリカを保存
NNの通信により異常が発生した場合にはレプリカ再配置

＊

NNのダウン
HDFSサービス停止

＊

連鎖的な後続処理が遅れてしまう
分析の処理、即座に反映できない

▶ CDH3のとき

PacemakerとDRBDの組み合わせで回避していた
Facebookが提供するAvoterNode

▶ これまでの課題

切り替わった段階でMR Jobは中断されてしまう
mapred.jobtracker.restart.recover で設定しても途中から再実行はされない？

＊

クラスター起動やジョブの再起動など、あるべき姿に戻すための時間は必要

▶ NN HA （HDFS2.0）

CDH4
ZKFC がフェンシング
NFS の共有ディスクでEditsファイルを共有する

▶ NN異常時の切り替え

NNが故障
active側のZKFCが検知
新しいNNを選ぶ
旧ActNN疎通確認
フェンシング
NN Act系に切り替え
新NN情報通知

▶ Active系のzkfcが壊れる場合

ZKFCのロック消失
消失確認
新NN決定
NN状態切り替え
ZK状態更新

▶ いくつかの故障を想定して動かしてみた

NFSは soft マウント
ZK3台
DN3台

＊

前提、多重故障は考慮しない
待機系への切り替えできないケース
- NFSサーバー故障→×
MRジョブ実行中の現用系故障→○（問題なし）
HDFS操作中の現用系故障→○（問題なし）

▶ NN HAのポイント

フェンシング方法
- sshfence
  - 異常発生時にSSHで現用系サーバに接続
  - fuser -v -k -n tcp
shellfencing
- 各自で用意したシェルスクリプトで現用系を停止

＊

フェンシングを実行するときには、sshfence + shellfence の組み合わせが大切
どちらかだけでいいというわけではない

＊＊

NFSサーバについて
マウント設定→ソフトマウントでマウントすること
ハードマウントではNIC異常時の場合に応答不能になることあり

＊

NFS自身の対策
現状のじっそうでは NFSがSPOFになってしまう
複数のNFSのマウント先に記述するような実装が必要になる
- →現状はできない

＊＊

フェデレーションとの関係
Namespace単位で、HA環境を実現することは可能
設定のポイント
fs.defaultFS
dfs.nameservices
dfs.ha.namenodes.
dfs.namede.rpc-address..

＊＊

Full GC発生時の考慮
タイムアウト設定は意識すること★
NN HAでは現用系、待機系ともにメタ情報、ブロック情報をヒープメモリでもっている
待機系はプロセス起動状態で従来のSNNのようにedits をfsimage にマージする
大量データ削除などにより、両系で同時に Full GCが発生する可能性があるかもしれない
Full GCから復活すればサービスを継続できる

＊＊

NNメタ領域
1.0 から少々変わっている
fsimage: 保存世代数を設定できるようになった
- →dfs.namenode.num.checkpoints.retained, dfs.namenode.checkpoint.period
edits: 間隔が短くなった
- →dfs.namenode.num.extra.edits.retained, dfs.ha.log.... (missed...)

▶ 雑感

MRジョブが継続できるという点は魅力的
守るべきポイントがNFSに変わったというか増えた…
モニターする仕組みも足りない
- →ZKFCの情報取得、チェックポイント動作時の状況確認
さらにプロセスが増えた

▶ まとめ

NN HAはNFSでもOKであれば利用できるかなぁ
構成や設定は十分検証必要
HAという意味ではBookKeeperを待つべき
持っっと別の技術を組み合わせるという手段
- →FT (Fault Tolerance)

▶ QA

fencing について
ZKで状態を管理しているのがポイント
- （聞こえないので、あとで誰かのTwitterなどで拾う）

＊

チェックポイント間隔がデフォルト2分の理由？

＊

FTとは？
- Fault Torelance の仕組みのこと

3. 複数DCで運用するHadoop/Hiveデータ解析（GMOインターネット新里祐教 @hirotakaster 氏）

Data analytics with hadoop hive on multiple data centers from Hirotaka Niisato

▶ 自己紹介

Programmer
GMO internet
working for Cloud project for 2 years.

▶ Data Analytics System

for Social Game: mobage, gree, facebook, ....
DC -> at Japan, U.S.

▶ Analytics Specifications

DAU/PV, Play time, Sales, A/B testing, CVT
Hourly, Daily, Weekly, Monthly
from 2 years ago

demands for a realtime analytics.

▶ System Architecture

Cloud Side
- Servers,
- Logging servers,
- Hadoop/Hive
- Scheduler,
- MySQL (for Hive)

latency become problem, not a bandwidth.

▶ Specificaions, Statistics

Multiple NN per DC
HW:
- CPU 8 -16 CPU
- MEM 12-64GB
- HD: RAID 1/5/1+0
Transaction volumes
- over 20TB/day

▶ Data Flow

Cloud server -> Logging Server
- -> Hadoop/Hive <- Scheduler
- <-> Management system <-> Scheduler

partition is useful.

▶ Conversion Count HQL

partition を決めてアクセスする

▶ Monitoring/Management (Zabbix)

Images.
NN のMemory使用状況の遍歴

▶ Memory Management

NN Memory
- become sensitive for File, Block, Directory metadata usage
Hadoop Archive
Server Memory, 24GB of memory works fine. too much memory makes performance tremendously bad. kernel 2.6's default setting also - - - makes performance tremendously bad.

experienced vanishing 300TB of data before.

▶ Trouble

Realtime is not always become good practice.
- Re-analytics
- Backup and Recovery
- NN HA
- Hive vs. MR
  - Initially develop program only Hive, be careful not only depends on that.