第二回ニコニコ学会β データ研究会に行ってきた

第二回ニコニコ学会β　データ研究会＠ドワンゴ新オフィス
http://atnd.org/event/nicogakkaidata2

Twitter ハッシュタグ #ニコニコ学会
https://twitter.com/search?q=%23%E3%83%8B%E3%82%B3%E3%83%8B%E3%82%B3%E5%AD%A6%E4%BC%9A&src=hash

立て続けに勉強会ネタばっかりで、意識高いね俺。いやーマジ意識高いわー。

そんなわけで、本日ニコニコ学会βの第２回データ研究会に行って来ました。

今回は「データセット」をテーマに、ニコニコデータセットの分析や、野良リポジトリの提案など面白いデータ分析について議論します。

と書いてあるように、所謂ビッグデータに対するアプローチの理解を深めたりシェアするための勉強会というわけではなく、かなり泥臭い話の多い勉強会でしたｗ

私自身は、ビッグデータ興味あるし本読んでるけど実践してみてない、一番ダメな状態なのですが、今回の中で実践されてる部分の話を聞けたのは非常に良かったと思ってます。

特に「根性マイニング」に勝る正確性を持つものは無いというのが知れたのはよかったですｗ

機械学習フレームワークであるjubatusを使われてる方もいらっしゃいましたが、カテゴライズの作業などは正確さを担保するためには一定以上人力の根性マイニングで作業してらっしゃる方も多く、やっぱりそういうのが必要なのだという事が分かったのは良かったです。

あと、@toriimiyukkiさんのLTで、感情分析の正規表現が出てきて、技術的にはそんなに難しくない事でも大量のデータに対して実施してカテゴライズ等する事で魅力的なアウトプットが出せるというのも知れたのは良かったです。

まぁ大量のデータに対して行うのにはそれこそ高い技術力か高い資金力が必要なのでしょうが。

データソース

とりあえず自分もやらなきゃなっていう意識高い系のモチベーションは出てきたのですが、対象となるデータとして当然自分で収集するのは難しいので何かやるには既存のデータを利用します。

世の中ビッグデータはいっぱい公開されてるのですが、結構ライセンスとかには厳しいみたいです。２次配布禁止とか。

とはいえ自分だけで扱う分には問題ないのが多いと思うんで、会の中で紹介されてたデータ群をいくつかぺろぺろ。

ニコニコデータセット
http://www.nii.ac.jp/cscenter/idr/nico/nico.html

Many Eyes
http://www-958.ibm.com/software/analytics/manyeyes/

政府統計
http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

data.police.uk
http://data.police.uk/data/

Twitter
https://dev.twitter.com/docs/streaming-apis

TwitterはAPIなのでビッグなデータにするには時間がかかりますが（長い時間取得し続ける必要がある）、他のはスクレイピングしてDLしてけばイケそうです。（政府統計はExcelとか多いぽいけど(´・ω・｀)

最終的に「例のアレ」を作ってるのは男子高校生が多いってのしか頭に残りませんでした＼(^o^)／

主催者、スタッフ、スピーカーの皆様、楽しい会でした。ありがとうございました。