先日、参加してきた Hadoop/Spark Conference Japan 2016 の個人的超まとめ(というかリンク集)をまとめておきたい。
(ポストしたのは 2016-02-13 だが、ポストの日時としてはカンファレンスのあった当日 2016-02-08 としておこうと思う)。
自分でとってきたメモを公開したエントリや、公開されたスライドへのリンクをまとめておこうと思う。
イベント公式の資料リンクもあるので重複する部分もあるが、参加できなかったセッションの資料の内容を確認しつつ、ついでにつくったものという位置づけでみていただけたら幸いである。
というわけで本エントリのコンテンツは以下のような感じ。
自分自身で参加してとってきたメモへのリンク
- Hadoop/Spark Conference Japan 2016 午前キーノートのメモ
- 次世代アーキテクチャから見たHadoop/Sparkの位置づけのメモ
- KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消のメモ
- 今あらためて考えるHiveのメモ
- Hiveを高速化するLLAPのメモ
- Hive on Sparkを活用した高速データ分析のメモ
通常セッションで私が参加できなかったセッションの資料へのリンク
A 会場
- データドリブン企業における、Hadoop基盤とETL ~niconicoでの実践例~
- On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ
- 顧客事例から学んだ、エンタープライズでの"マジな"Hadoop導入の勘所
- 基幹業務もHadoopで!! ~ローソンにおける店舗発注業務へのHadoop + Hive導入と、 その取り組みについて~
- Maintainable Cloud Architecture of Hadoop
B 会場
- YARN: Resource Manager for Analytic Platform
- Hadoop Security Recap: ~セキュリティ関連の概要/近況のおさらいとLDAP/AD, Kerberos, Apache Ranger
C 会場
- Apache Spark超入門
- ストリーミングアーキテクチャ: State から Flow へ
- リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~
- Deep Dive into Project Tungsten
- Exploiting GPUs in Spark
D 会場
- ビッグデータ可視化の性能を徹底検証 ~SparkSQL、Hive on Tez、Hive LLAPを用いた既存RDBデータ処理の特徴~
- Spark MLlib Now and Beyond
- Spark によるGIS データを題材とした時系列データ処理
LT セッションの資料へのリンク
ランチタイム: A会場
- いろいろなストリーム処理プロダクトをベンチマークしてみた (三木 健司, ヤフー)
- 僕の考える最強のビックデータエンジニア (山田 雄, リクルートライフスタイル)
- TensorFlowの分散処理技術とGoogleの機械学習プロダクト (佐藤 一憲, Google)
- 金融機関でのHive/Presto事例紹介 (岩永 亮介, Amazon Web Services Japan)
- サポートメンバは見た! Hadoopバグワースト10 (鯵坂 明, NTTデータ)
- 本当にあったHadoopの恐い話~Blockはどこへきえた? (山下 真一, NTTデータ)
ランチタイム: B会場
- 自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に (上田 晴康, 富士通研究所)
- Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発 (河原 亮, 日本アイ・ビー・エム)
- JVM, OSレベルのチューニングによるSparkアプリケーションの最適化 (千葉 立寛, 日本アイ・ビー・エム)
- データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用 (大木 基至, NTTコミュニケーションズ)
- グラフデータベース事始め (中井 亮矢, 日本オラクル)
- GunosyにおけるSpark Streaming活用事例 (森本 淳司, Gunosy)
懇親会
- NetflixにおけるPresto/Spark活用事例 (岩永 亮介, Amazon Web Services Japan)
- Fluentd and Kafka (Masahiro Nakagawa, Treasure Data)
- スキーマつきストリームデータ処理基盤、Confluent Platformとは? (木村 宗太郎, ドワンゴ)
- 5分で身に付く! Apache Hadoop開発 (鯵坂 明, NTTデータ)
- NIIでいろいろなHadoop環境(だけじゃないけど)を作ったり壊したり動かし続けたりしている話 (谷沢 智史, ボイスリサーチ)
- 運用作業の証跡も,再利用する手順の記述も,教材作成もLiterate Computingでやってみる (政谷 好伸, 国立情報学研究所)
- Spark Streamingで作る、つぶやきビッグデータのクローン (野田 純一, GMOインターネット, 秋葉原IT戦略研究所)
- Mesos/Hashicorpで実現するSparkの柔軟な実行環境 (木内 満歳, クリエーションライン)
- Apache Sparkがリアルタイム分析でNOSQLのApache Cassandraに出会った。(ウルルン風) (原沢 滋, DataStax)
- Apache Kylinについて (古山 慎悟, ヤフー)
メディアや他の参加者の方のレポートへのリンク
- Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム | 日本Hadoopユーザー会(公式の資料リンク)
- Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016 - Publickey
- Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定。Hadoop Spark Conference Japan 2016 - Publickey
- Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 - Publickey
- YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 - ZDNet Japan
- Hadoop / Spark Conference Japan 2016 - satoshihirose
- Hadoop / Spark Conference Japan 2016に行ってきました | Developers.IO
後日開催された Rejected Hadoop/Spark Conference Japan 2016 関連
紹介されていた書籍
最後に個人の超雑感
- わたし個人としては、Hadoop を使うことを1年くらいしていないのだが、技術としての興味はあるので、継続してこちらの Hadoop Conference Japan には参加させてもらっている。3回目からは皆勤賞でなので思ったことを思いつくまま五月雨式に箇条書きで書いておこうと思う。あくまで個人的な雑感であるので、深刻に捉えないでもらえると幸いである。では、箇条書きで書いとくよ。
- 兎にも角にも Hadoop 10 歳おめでとうございます!
- まだ 10 歳なのか、もう 10 歳なのかは人によって感じるところは異なることかとは思うのだけれども、個人的には「まだ」なのかなあとは思っている。方向感が定まらないこと*1や、 Hadoop という言葉を使って話す内容が文脈によって変わってしまう安定感のなさは成熟にはまだほど遠いところにいると思っているから。また、それはことこの Hadoop(/Spark) Conference Japan に関して言えば、参加者のリピーターが結構少ないところからも感じている。もちろんリピートの参加者も参加者の母数が増えているので若干増はしているのだとは思うのだが、毎回 60% 前後が初参加っていうのは、それだけ一回でて次はいいや、と思っている人が多いと思っているというようにわたしは解釈している。それが正しいならば、実際に Hadoop 関連の技術を取り入れている人というのは毎年限られているわけで、いわゆる一般の RDBMS や最強ツール (E*cel)でいいやと思っている人たちはまだまだ多いのではないかな、と。ノーチラス・テクノロジーズの神林さんのセッションで日本における Hadoop クラスタの規模の話があったけれども、その中でも小規模 (10node以下) と大規模 (1,000node以上) の間が空洞化している図があったのだが、先のくだりより、それ以前な層が実際は日本の場合多いのだろうなというのがあって、その人たちに対する参入障壁をいかに下げられるか、がこのあとの 20 年、この技術の発展があるかどうかの鍵になるような気がしている。いわゆるビッグデータ、 IoT といってるものは製造業や物流*2などに旨味がある技術領域だと思っているので、その人たちをいかに取り込めるか、かなあ、と(ただ、先の神林さんのおっしゃるようにビッグデータ、 IoT は金にならない、生まれた時から死んでるっていう話だと、まあ、元も子もないですわなあ、という。)。
- 狭い会場問題
- 一回、ビックサイトで開催されたりもした本カンファレンスだが、おそらく費用の問題等で場所を転々としているなあ、と。こと今回に関して言うと、完全にキャパシティオーバーしていたようにみえた。できるだけ大勢を呼びたいというのも理解はできるのだが、参加できる上限を決めておいたほうがいいのではないの?とは思う。一方、スポンサーシップとはいえ、お昼に無料で豪華なお弁当をいただけるのには、感謝の言葉しかないです。この場を借りてもう一度、ありがとうございます!
- 兎にも角にも Hadoop 10 歳おめでとうございます!
尻切れトンボ感はありますが、今回は、こんなところで。