#garagekidztweetz

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

#hcj2014 リクルート式Hadoopの使い方 3rd Edition のメモ

スポンサーリンク

f:id:garage-kid:20140707220657p:plain

http://pixabay.com/en/elephants-bathing-wildlife-addo-379477/

Hadoop Confence Japan 2014 参加レポートエントリ、2発目は #hcj2014 Keynote の次に参加してきたリクルートさんの Hadoop 事例。

こちらでは「とりかかり中の技術紹介」の部分が聞き甲斐ありました。

またビジネスでの利用を常に念頭に新技術に取り組んでいる*1というのは、どこの研究開発職も見習わないといけないところだなと思います。当たり前といえば当たり前のことですが、肝に銘じておきたいことだな、と。

では、以降にわたしのとってきたメモを公開しておきます。

13:00- リクルート式Hadoopの使い方 3rd Edition 石川 信行氏(リクルートテクノロジーズ)

最近のデータ活用状況紹介

  • 本番 98 台、開発 24 台
    • MapR
    • 543TB
    • mahout, hive, ZK, sqoop, HBase
  • 2 万8千 Job/day
  • 295 hive query/day
  • データ解析案件 200/year
    • 従事人数 155 名

データ利活用案件紹介

  • 社内の既存アセットの利用
    • リクルートエージェント
      • 求人紹介レコメンド
        • CA 300 名の成果と同等の成果をシステムで実現
    • リクナビネクスト
      • スカウトが検索する求職者のアクティブ度を16段階で判定
        • 過去に送ったメールのログ
        • スカウト時の求職応募率 2.3% 上昇
      • 求職者検索システム
  • 社内システムの展開
  • 他デバイスとの連携
    • ゼクシィ
      • SiteCatalyst
      • Pusna
  • HBase を用いたオンライン対応
    • リクルートエージェント
      • 求人志向チェック
        • スマホリアルタイムレコメンド
        • 相関原稿スコア
    • ポンパレモールパーソナライズレコメンデーション
      • Hadoop, mahout, HBase
      • 事業データ、行動ログ
      • HBase の構造
        • ユーザIDに対してレコメンドデータをリストで保存
        • 商品 API からとってきたデータを JSON 形式でそのままキャッシュ
      • Highcharts JS
        • ログ蓄積
      • HBase を活用したい
        • リアルタイムに蓄積されたデータをロジックにFBする
        • もっと非構造データを蓄積
        • ストリーム処理

ビッグデータ基盤構成概要

  • それぞれみている人間が違う
    • BI
    • DWH
    • Hadoop
  • アドホック分析基盤
    • Fluentd etc...

技術導入の過程 (今後は?の話)

  • いつもの体制図
    • コンサル型、エンジニア型、マーケターの三位一体
    • マーケターのリテラシーが向上してきたことで、より高度な分析をするように
      • 一個一個の案件の質が向上
  • リクルートの開発ステージ
    • R-Stage
    • Dev-Stage
    • Beta-Stage
    • 運用-Stage
  • 既存のシステムを使いつつ新しいものにチャレンジするアプローチ
    • 今使えるものを活用しつつ、安く速く

とりかかり中の技術紹介 (5つ)

  • 社内に眠るデータの可能性
    • Hadoop に格納されている情報はまだわずか
      • ただ貯めるというだけでもコスト
  • 画像解析
    • 一般物体認識
      • HBase
      • スパースコーディング
        • 画像の中で最も特徴的なものを選ぶ処理
        • エンコードのモデルをつくる
          • 特徴抽出を一段階、二段階にわたり行う
      • 画像に自動でタグをつけたり
      • 類似検索
      • カラーヒストグラム
  • テキスト解析
    • TF-IDF
    • 係り受け分析
    • 文章要約
    • Skip-Gram の利用
      • 単語をベクトル表現できるところが面白い
      • クラスタリングや距離計算できる
  • グラフ
    • 人同士のつながり、店舗同士のつながり、単語間のちかさ
    • Titan の利用
      • Gremlin
      • Blueprints
      • ...
    • 類似、相関を探すのに使う
    • メリット・デメリット
      • あるノードを選ぶだけで近傍探索で他のノードを随時表示できる
      • ただし用途が限定的
  • SQL on Hadoop
    • リクルート, Hive 利用多し
    • 以下のみっつを検証中
      • Presto
      • Drill
      • Impala
    • Hive vs Presto
      • 最大で Presto 8.8 倍速い、平均 3 倍速い
  • 検証したけど封印したもの
    • Azkaban
      • 今年の Hadoop Summit ではホットになっていた
    • Phoenix
      • そのときは Join が使えなかった
    • H2O

まとめ

  • 目的しっかり持つ
  • 新技術に関してはビジネス適応イメージを持った上で検証
  • ムダな工数削減、チューニング高速化のために共通化、型化する

Data Lake 構造

  • Hadoop に逐次データ蓄積

QA

基盤運営でつらいところは?
  • 自身は運用はガッツリしてないが
    • 新技術との折り合い
    • バージョンUp についていく
障害対応 (検知、リカバリプラン)
  • 案件が増えてきて、流しなおせばいいは通じなくなってきてる
    • 監視の仕組みは自己実装
    • 流れっぱなしのクエリとか
    • バッチは営業時間内におわるようにする、とか

メモは以上です。 では、また次のエントリで。

あわせて読まれたい

#hcj2014 の個人参加レポート
各セッションの個人メモ

*1:そうはいいつつも多くのプロダクトを試しているようでしたし。