#garagekidztweetz

#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

KDD 2013 で完全に打ちのめされてきました(ただの参加レポートのようなものです)

スポンサーリンク

先日*1まで Chicago で開催されていた KDD 2013 に参加してきました。今回はかなりついていくことができないカンファレンスでしたが、参加の動機・カンファレンスの概要・印象に残ったセッション・感想・参照したいリンクなどを自分のために記録しておこうと思います。
※自分のために書いているので、何度か更新や追記をするかもしれません。

参加の動機:

アカデミックなデータ分析の手法と、その最新の活用事例を聞くことで、今後 2-3 年先までのデータ分析の動向を把握できたらなぁ、という動機で参加してきました。わたしはどちらかというと Ops よりの人間なので、 Dev 側のアナリストがどのようなアカデミックなことに関心をもっているのかを知りたかったというのもありました。

どのようなカンファレンスだったのか?:

簡単に言うとデータ分析手法(主に統計学を利用した)のアカデミックな研究の発表と、そのデータ分析手法を用いた産業や政府側での活用の事例の共有がメインのカンファレンスでした。*2(その他、ポスターセッション*3やスポンサーの展示、あとはお題にそった分析のコンペティション*4も行われていました。*5

Program にあるとおり全4日間の開催で、
最初の1日目は肩慣らし(といいつつも Workshop と Tutorial が主だったのでエキスパート向けの肩慣らし)という印象で

  • Workshops (Fullday or 1/2 day) :提出された論文の説明プレゼン
  • Tutorials:各テーマに関する講義
  • Opening:オープニングセッション

第2、3日目がメイン

  • Keynotes
  • Research Sessions:各テーマの研究に関する発表セッション
  • Industrial Sessions:企業の事例

第4日目は〆という感じでした。

  • Keynotes
  • Research Sessions:同上
  • Industrial Sessions:同上
  • Best Papers Session:今回提出された論文の中でもっとも優秀な論文の発表および受賞者によるプレゼン(ある意味ここが目玉)

ちなみに今回の KDD でフォーカスされていたトピックはカンファレンスで紹介されていたワードクラウドがわかりやすかったので引用させてもらいました。

さらに細かい KDD のトピックの傾向分析も同ソースの Mining a Data Mining Conference: Analytics on KDD-2013 が詳しかったです。

参加したセッションのリスト:

※ これは、あとで自分が参加したセッション、なんだったっけというのを忘れないようにするために書いてあるだけのものです。一応、赤字部分にはスライドへのリンクを書くようにしています(あまり公開されてないようなので、数が少ないですけど)。

➤ SUNDAY Aug 11th
➤ MONDAY Aug 12th
➤ TUESDAY Aug 13th
➤ WEDNESDAY Aug 14th

印象に残ったセッションと雑感:

情けない話ですが、アカデミックなセッションも出たんですが、アカデミックなセッションは理解が追いつかなかったので、わたしが印象に残ったセッション(以下 4 つ)はすべて産業系セッション(キーノート含む)です。

  1. To Buy or Not to Buy―That is the Question
    Decide.com の事例を話していました。いつ買うべきか?をユーザに提案するサービスってことで、ユーザのために予測を使ういい事例だな、と。日本には価格比較ができるサービスはあるけれども、予測をするサービスは少ないので、見習うべきかなぁと。
    ほかにも類似のサービスでは Home - Engage3 といったものもあるようです(ちなみにこれは一緒にいったチームメンバーから教えてもらいました)。
  2. Panel: “A Data Scientist’s Guide to Making Money from Start-ups”
    6 tips for turning that data science education into startup riches — Tech News and Analysis でも紹介されていました。最初、セッションのタイトルから、いかにしてデータサイエンティストがスタートアップから金をふんだくるかといった内容なのかと勘違いしてしまいましたが、聴衆から6人のデータサイエンティスト・パネリストに質問をあつめて、各データサイエンティストが答えるという形式でした。なので、起業にたいしての考えを各データサイエンティストが答えるといった内容でした。とてもおもしろかったんですが、あまり目新しい意見を言っていた印象はないので、内容を追いたい方はリンクの記事が詳しいかと思います。
  3. Targeting and Influencing at Scale: From Presidential Elections to Social Good
    昨年の米大統領選挙でどのようにデータ分析を活用して戦略を練っていたかということを話していました。あまり目新しい話をしていたわけではなかったと思いますが、話として面白かったということでここに記録しておきます。(ほとんどスライドもなく、スピーカーがとにかく喋るスタイルのプレゼンでした)。この話の中で個人的に一番おもしろかったのは献金を集めるのには Email での勧誘が一番効果的なのだけれども、あまり送りすぎると効果がなく(むしろ非難を受ける)、あまり回数をおくらないと逆に関心を引いて献金してくれるという話でした。
  4. Keynote: Predicting the Present with Search Engine Data
    Google Correlate で何ができるか、どのように今を forecast (Nowcast) しているか、を発表している内容でした。途中、難しくてついていけなくなりましたが、スライドは写真をとっているので後で追いかけようと思っています。検索キーワードという元になる入力データを多く持っている Google なればこその関連語検索のアプローチは、データを持っている企業ならいろいろ応用ができそうだな、という印象を受けました。

以降、少しだけ、参加しなかったけど、面白かったときいたセッション。参加したけどあとでなるほどと思うエピソードがあったセッションのことを記録にとどめておきます。

まず体力不足で、参加を断念した Panel "Death of the expert? The rise of algorithms and decline of domain experts."について。
これは参加したチームメンバーからは面白かったと聞いているので、どこかで誰かが資料を up しているようならキャッチアップしてみたいな、と思っています。メンバーによると、データ分析のスキルを Domain Expert が身に付ければ最強じゃん?とか、逆にデータサイエンティストと Domain Expert は競合しないから協力することが大事、みたいな話をしていたと聞いています。

また、わたしのほかのメンバーが面白かったと言っていたトピックが Deep Learning だったので、このへんなどを読むのに挑戦してみようと思っています。

最後に、Keynote: The Online Revolution: Education for Everyoneについてあったエピソードを書いておこうと思います。
オンラインでの講義についての話をしていました。話自体は目新しくもなく面白くもなかったので、質疑がはじまったところでわたしは退出してしまったんですが...
質問をする人が多くてなんでだろ… と疑問に思っていました。その日の夕食のときにチームメンバーに聞いたら、スタンフォード大で無料の機会学習の講座が開講している(そしてスピーカーがその講師だった)からそれについて関心をみんなもっているんだろう、っていうのを指摘してもらいました。
Coursera.orgで公開されているようなので、わたしも活用させてもらおうと思っています。チームメンバーに感謝なのと、自分自身の無知浅慮に活を入れたいと思ったエピソードでした。

KDD 2013 に参加してきた感想:

➤ 新しいものはあったか?:

このポストを書いたあとにも一緒にいったチームメンバーなどにも聞こうと思っていますが、これは新しい!というトピックはなかったんじゃないかな、と思います。一言でまとめてしまうと、ビッグデータの一言でまとめられてしまうような内容になっている気がしました。

実際、2日目のキーノートの前にすこし KDD のこれまでのトピックの変遷みたいな話をしている中で、 Bigdata という言葉の出現によって一番変わったのは、制限(データ量、処理量 etc...)がなくなったことといったことを言っていたので、これまであったデータ分析の手法にどんどんと制限がなくなっていくことが起こって行くのだと思います。局所においては新しいものがどんどんでてくるのでしょうけど、大局的には新しいものはないのかな、と。

わたしがキャッチアップ出来た中で言うと、REEFの話Best Paperの話がその新しいものになるのかな、と思っています。こういったものを逐次キャッチアップしていきたいな、と。

一緒にいったチームメンバーの一人によると2年前の KDD に大きな転機があったと聞いているので、何が転機だったの?は今度聞いてみようと思っています。(聞いたら、追記するかもしれません)

➤ カンファレンスそのものについて:

運営はいまひとつ微妙だったように思います。アカデミックなので、べつにそんなこと知ったこっちゃないっていう乗りなのかもしれないですが・・・。
例えば、

  • カンファのリマインドは前日にきました(わたし、ほぼ当日に現地でメールを見ましたw)。
  • 全 Paper の入った USB が配られるのが常だったらしいのですが、今回は最初それがどれなのかわかりませんでした。
    下の写真(あとで up します)のカードがそれだったんですが、そのカードについては Registration の際に資料の入ったカバンを渡されたとき*6、わたしはスタッフから "Don't forget this is in your bag." としか言われなかったので、一緒に行ったチームメンバーが気づくまでそれがそうだと気づきませんでした。用途はとりあえずわからんけど、 "Sure" と答えてしまったわたしもよろしくなかったのですけどもね・・・(今回同行したメンバーにはネイティブもいたのに分かってなかったんでわかりづらかったことはたしかです)
  • あと、Registration のときに「セッション中、写真は撮ってもいいの?」とスタッフにわたしは事前に聞いてみていて、「問題ない」と聞いてたんですが、実際にセッション中、注意されることもありました。全般通してみていてあまり資料を公開することにポジティブでもアクティブでもないように見受けられたので・・・資料をちゃんと公開するようにするか、写真はオッケイ(もちろんフラッシュたかないことやシャッター音*7止めるは当然として)にするかはっきりしてもらえるとよいなぁと思いました。


↑Registration のときにもらった黄色いカード。なんかのTracking をするときにつかうチップが埋め込まれているのかと思っていた部分が USB メモリでした。そして、その中に Paper が入っていたというオチでした。

➤ 自分自身の参加する姿勢について:

本当に正直に言って、アカデミックなカンファレンスに参加したのは、ほとんど初めてで、ベースとなる知識もあまりない中で参加してしまったので、言葉の意味を追うのが精一杯でかなり散々な結果に終わってしまいました。

ただ、参加しなければ、どういった進行で行われているカンファレンスなのかわからないままだっただろうということを考えたら、とても参加してきてよかったと思います。

今回の反省を活かして、仮にただの聴衆として参加するにしても次回はこうしたい(機会があればですが・・・)と思ってるところを書いておきます…

  • まず興味のある Paper 読んでおく*8
  • 読んできた Paper の Workshop ないし Tutorial に参加する
  • さらにそこで興味を掻き立てられたらその Workshop の Poster Session に参加してより深い質問をほぼマンツーマンで質問する*9

さらに強者*10な参加の仕方で言えば

  • Pepar を提出して accept される
  • Session でしゃべる
  • Poster Session でしゃべる

(Best Pater になんて選ばれた日にゃあ、相当いいブランディングになるでしょう)

べつの意味の強者の参加の仕方で言えば

  • KDD Cup に参加する*11

(5位内にはいって名前がのった日にゃあ、相当いいブランディングになるでしょう)

といったところになるかな、と思います。

最後の最後になりますが、
また次回以降の KDD も会社から行ってきてもいいと言ってもらえた(ないし、自費で行くことにしようと決めた)ときには、より有意義に KDD を活用できるよう、次回までにすこしづつオンライン講義などの場を使ってデータ分析について少しづつ勉強を続けていこうと思っています。

その他、参考:

➤ 運営系:
  • Confer:自分が気になるセッションを登録しておくと、自分の興味のあるだろうセッションをリコメンドしてくれる。今回のカンファレンスにはピッタリのサービスで面白かった。(使い勝手がよくないのは残念極まりなかったんだが…)
  • KDD 2013 schedules for mobile:スケジュールをモバイルで確認できるようになっていた。(これも決して使い勝手はよくはなかったので、結局、配られた冊子をみていた…)
  • Twitter のハッシュタグは #kdd2013
  • SIGKDD の facebook page
➤ セッションで紹介されていたサービス等:
➤ Best Paper および KDD Cup:

こちらもあわせてどうぞ

*1:現地時間の 8/11-8/14

*2:http://www.kdd.org/kdd2013/ では、 The annual ACM SIGKDD conference is the premier international forum for data mining and big data researchers and practitioners from academia, industry, and government to share their ideas, research results and experiences. KDD-2013 will feature keynote presentations, oral paper presentations, poster sessions, workshops, tutorials, panels, exhibits, demonstrations, and the KDD Cup competition. と説明されています

*3:特定の論文について込み入った質問をしたい人用のセッション

*4:高名な KDD Cup

*5:むしろ本当の目玉は Best Paper の発表と KDD Cup なんでしょうけど、なんとなくあまりそこを盛り上げきれてない印象を受けました。

*6:それに入ってたんですが

*7:止めれるなら

*8:ただ事前にすべての Paper がオンラインで読めないような気がするので、そこはみんなどうしてるんだろうと

*9:これ、できる自信なし

*10:わたしのチームメンバーには是非やってみてほしい

*11:わたしのチームメンバーには参加してみてほしい