#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ！

#hcj2014 リクルート式Hadoopの使い方 3rd Edition のメモ

conference hcj2014 hcj hadoop lifelog

スポンサーリンク

f:id:garage-kid:20140707220657p:plain

http://pixabay.com/en/elephants-bathing-wildlife-addo-379477/

Hadoop Confence Japan 2014 参加レポートエントリ、2発目は #hcj2014 Keynote の次に参加してきたリクルートさんの Hadoop 事例。

こちらでは「とりかかり中の技術紹介」の部分が聞き甲斐ありました。

またビジネスでの利用を常に念頭に新技術に取り組んでいる*1というのは、どこの研究開発職も見習わないといけないところだなと思います。当たり前といえば当たり前のことですが、肝に銘じておきたいことだな、と。

では、以降にわたしのとってきたメモを公開しておきます。

13:00- リクルート式Hadoopの使い方 3rd Edition 石川信行氏（リクルートテクノロジーズ）

最近のデータ活用状況紹介

本番 98 台、開発 24 台
- MapR
- 543TB
- mahout, hive, ZK, sqoop, HBase
2 万8千 Job/day
295 hive query/day
データ解析案件 200/year
- 従事人数 155 名

データ利活用案件紹介

社内の既存アセットの利用
- リクルートエージェント
  - 求人紹介レコメンド
    - CA 300 名の成果と同等の成果をシステムで実現
- リクナビネクスト
  - スカウトが検索する求職者のアクティブ度を16段階で判定
    - 過去に送ったメールのログ
    - スカウト時の求職応募率 2.3% 上昇
  - 求職者検索システム
社内システムの展開
他デバイスとの連携
- ゼクシィ
  - SiteCatalyst
  - Pusna
HBase を用いたオンライン対応
- リクルートエージェント
  - 求人志向チェック
    - スマホリアルタイムレコメンド
    - 相関原稿スコア
- ポンパレモールパーソナライズレコメンデーション
  - Hadoop, mahout, HBase
  - 事業データ、行動ログ
  - HBase の構造
    - ユーザIDに対してレコメンドデータをリストで保存
    - 商品 API からとってきたデータを JSON 形式でそのままキャッシュ
  - Highcharts JS
    - ログ蓄積
  - HBase を活用したい
    - リアルタイムに蓄積されたデータをロジックにFBする
    - もっと非構造データを蓄積
    - ストリーム処理

ビッグデータ基盤構成概要

それぞれみている人間が違う
- BI
- DWH
- Hadoop
アドホック分析基盤
- Fluentd etc...

技術導入の過程 (今後は？の話)

いつもの体制図
- コンサル型、エンジニア型、マーケターの三位一体
- マーケターのリテラシーが向上してきたことで、より高度な分析をするように
  - 一個一個の案件の質が向上
リクルートの開発ステージ
- R-Stage
- Dev-Stage
- Beta-Stage
- 運用-Stage
既存のシステムを使いつつ新しいものにチャレンジするアプローチ
- 今使えるものを活用しつつ、安く速く

とりかかり中の技術紹介 (5つ)

社内に眠るデータの可能性
- Hadoop に格納されている情報はまだわずか
  - ただ貯めるというだけでもコスト
画像解析
- 一般物体認識
  - HBase
  - スパースコーディング
    - 画像の中で最も特徴的なものを選ぶ処理
    - エンコードのモデルをつくる
      - 特徴抽出を一段階、二段階にわたり行う
  - 画像に自動でタグをつけたり
  - 類似検索
  - カラーヒストグラム
テキスト解析
- TF-IDF
- 係り受け分析
- 文章要約
- Skip-Gram の利用
  - 単語をベクトル表現できるところが面白い
  - クラスタリングや距離計算できる
グラフ
- 人同士のつながり、店舗同士のつながり、単語間のちかさ
- Titan の利用
  - Gremlin
  - Blueprints
  - ...
- 類似、相関を探すのに使う
- メリット・デメリット
  - あるノードを選ぶだけで近傍探索で他のノードを随時表示できる
  - ただし用途が限定的
SQL on Hadoop
- リクルート, Hive 利用多し
- 以下のみっつを検証中
  - Presto
  - Drill
  - Impala
- Hive vs Presto
  - 最大で Presto 8.8 倍速い、平均 3 倍速い
検証したけど封印したもの
- Azkaban
  - 今年の Hadoop Summit ではホットになっていた
- Phoenix
  - そのときは Join が使えなかった
- H2O

まとめ

目的しっかり持つ
新技術に関してはビジネス適応イメージを持った上で検証
ムダな工数削減、チューニング高速化のために共通化、型化する

Data Lake 構造

Hadoop に逐次データ蓄積

QA

基盤運営でつらいところは？

自身は運用はガッツリしてないが
- 新技術との折り合い
- バージョンUp についていく

障害対応 (検知、リカバリプラン)

案件が増えてきて、流しなおせばいいは通じなくなってきてる
- 監視の仕組みは自己実装
- 流れっぱなしのクエリとか
- バッチは営業時間内におわるようにする、とか

メモは以上です。では、また次のエントリで。

あわせて読まれたい

#hcj2014 の個人参加レポート

#hcj2014 Hadoop Conference Japan 2014 に参加してきました（超個人的まとめ）

各セッションの個人メモ

*1:そうはいいつつも多くのプロダクトを試しているようでしたし。