« 息子よ、そこは”お父さんの後を継いで戦士になります”だろ~が!(アフター・アース/植物相) | トップページ | 電子書籍が星の数ほどある名作たちと出会う扉となることです、だから欲し~よ~(重版出来/iPad) »

ビッグデータって使い方を気をつけないとけっこうアブナイ側面も(ビッグデータの正体/スーパーコンピュータ”京”)

 ども、意外と流行語に弱いおぢさん、たいちろ~です。
 年末になると”ユーキャン新語流行語大賞”なるものが発表されます。2013年度は”今でしょ!”、”お・も・て・な・し”、”じぇじぇじぇ”、”倍返し”と過去最多の4語が選出されました(*1)。
 まあ、流行り廃りは世の常ですが、私のやってるコンピュータ業界だと今年の流行語大賞が”ビッグデータ”でしょうか? この”でっかいデータってなんやねん?”と一度ちゃんと本を読もうと思ってたんですが、それが今回ご紹介する”ビッグデータの正体”であります。


Photo
写真は富士通のhpより。理化学研究所に導入されたスーパーコンピュータ”京”です。


【本】ビッグデータの正体
 (ビクター・マイヤー=ショーンベルガー、ケネス・クキエ、講談社)
 原書のサブタイトル”A Revolution That Will Transform How We Live, Work, and Think(私達の生活、仕事、意識を変えていく革命)”とあるようにビッグデータが私達を変えていくという状況を解説した本。ビクター・マイヤーはネット上に誤ったデータでもネット上に永遠に残ってしまう現状を指摘し”忘却される権利”という概念を提示した人でもあります。
【道具】スーパーコンピュータ”京”
 文部科学省の次世代スーパーコンピュータ計画の一環として、理化学研究所と富士通が共同開発したスーパーコンピュータの愛称。計算速度が毎秒1京回できるから。2011年に世界最高速を達成しました。


 ぶっちゃけ、”京”のような想像もできないような超高速コンピュータが登場する一方、個人でもテラバイトクラスのハードディスクが買える昨今(*2)、何を今さら”ビッグデータなん?”と思ってましたが、どうもそうじゃないみたいです。そりゃ確かにGoogleのような世界中のhpが検索でき、facebookみたく世界の人々がお友達状態になる世の中ですが、こういった情報の爆発的な増大とそれを扱えるシステムとの組み合わせで今まで見えないものが見えてくるんだとか。
 本書によると、ビッグデータによる変化ってのは以下の3つだそうです

  第一の変化:すべてのデータを扱う
  第二の変化:精度は重要ではない
  第三の変化:因果から相関の世界へ

 簡単に言うと、第一の変化はコスト的や時間的な問題でサンプリング調査しか出来なかったものが、Googleやfacebookなどに沢山のデータ(ビッグデータ)が蓄積されていてそれをハンドリングできるシステムが実現した、第二の変化はオリジナルのデータの精度(正確さ)がまちまちなので細かい事は気にしない、第三の変化は分析して出てくるのはあくまで相関や頻度の結果であって”なぜそうなるのか=因果関係”までは提示されないってことのようです。
 まあ、ビッグデータとは言いませんが、いちおうデータ分析みたいな仕事もやっているんで、明細データベースでおっかけないとわからない事も多いし、10億円単位の将来予測をやるのに数十万円単位で精度を期待しても意味ないし、”なんでやねん?!”みたいなのって結局人間の想像力を働かせないと出てこない(まあ、データ使って類推と検証はやりますが)ので、経験的にはなるほどと思う事も多数あります。

 でも、ビッグデータ(とそのビジネス)って使い方を気をつけないとけっこうアブナイ側面も。


〔ビッグデータだけでなく付帯的なデータ(知識)も重要〕
 Googleとかで検索すると”○○ではありませんか?”みないなメッセージを見る事があります。これは入力ミスや言葉の思い違いを指摘してくれてるんですが、こういう辞書機能みたいなのって、あまり話題になりませんが実はGoogleのすごい強みなんじゃないかと。本書でもマンホール火災の分析で記録形式がばらばらで苦労した話がでてきますが、これ、とってもよくわかります。
 昔、売上の過去明細データ(数十万件ぐらいあったかな?)から商談の相関分析をやったことがあります。まあ、相関の可視化ツールみたいなのが使えたんで遊んでみようかと。で、みごとに挫折しましたね~~ なぜなら、類語辞書が無かったから。逆にいうとこれ作んないと役に立たないとわかったから。たとえば自由に入力可能な商談件名から”携帯電話”を引っ張ってこようとすると、”携帯電話”、”ケータイ”、”ガラケー”、みたいな一般名称から”らくらくホン、AQUOS、VIERA、Cyber-shot”みたいな商品名称までを同じ”携帯電話”として認識をさせないと使えないんですね。ましてやスマートフォンを携帯電話に入れるか入れないかなんて利用目的によって違うし。こんなんを汎用的な辞書として作るのがと~~っても大変なのって、データ見てからわかりました


〔因果関係って作っとかないといけないんじゃ?〕
 ビッグデータをブン回して出てくるのはあくまで相関関係であって因果関係じゃありません、当たり前だけど。本書のなかでgoogleが検索データからインフルエンザの流行を予測したって話が出て来ますが、これってたぶんビッグデータ利用でイメージするものに近いんでしょうが、”なぜインフルエンザが流行するか?”には答えてないんですね、当然だけど。それは医者や科学者のお仕事。
 本書の中でクリス・アンダーソン(*3)の”理論の終焉”ってのを紹介してます

  厖大なデータと応用数学の組み合わせが、あらゆるツールにとってかわる
  十分なデータがあれば、数字自体が何かを語りだす
  ペタバイト(のデータ)があれば『相関で十分』と言える

 さすがに挑発的すぎたのかすぐに主張を取り下げたそうですが、一面真実で一面暴論でしょうね。人間は”因果関係を知りたがる生き物”なんだそうですが、いいじゃないですが、理論の構築したがっても(たまには屁理屈だったりしますが・・・)
 ビッグデータを分析する人のことを”analyst(アナリスト 分析家)”ではなくて”curator(キュレーター)”(*4)というんですが、こういうアカデミックへのみょ~な対立構造みたいになんなきゃいいんですがねぇ・・


〔結果はあくまで”確率的”であって、必ず”そうなる”わけではない〕
 べつにビッグデータに限らずですが、統計分析の結果ってのはあくまで確率的分布であって約束された未来ってわけではないです。昔”犯罪を犯したヤツは必ずもう一度犯罪を犯す”という信念のもと、元犯罪者を追っかけまわす刑事の話なんてのがありました。フィクションの世界でやってる分にはエンタテインメントで済みますが、これが”ビッグデータにより検証された”なんつ~ことになってくるとかなりアブナイ。予防措置と更生支援のバランスをどこでとるかは難しいでしょうが、行きすぎると”ロンブロ~ゾ~~~”(*5)の世界になっちゃいます。

 まあ、ビッグデータが流行語に終わるか社会に定着するかはわかりませんが(*6)、まあ、ビックデータをビックブラザー(*7)にしない為にも知っとくにこしたことはない話。コンピューター関連の本って流行りもんにヨイショするのが多いですが、本書はビックデータの功罪とりまぜてバランスの取れてる本だと思います。

 てなことをつらつら書きながら”来年もよろしく”で締めようとしたら、おおっ、もう年が明けているではないか!!
 ということで、明けましておめでとうございます。本年もよろしくお願いします


《脚注》
(*1)”今でしょ!”、”お・も・て・な・し”~
 今でしょ!:予備校の現代文の林修先生がCMで使った言葉
 お・も・て・な・し:オリンピック招致の最終プレゼンでの滝川クリステルの言葉
 じぇじぇじぇ:NHKの朝ドラ”あまちゃん”より。驚いた時の岩手県久慈市の方言
 倍返し:池井戸潤の小説を原作としたTBSドラマ”半沢直樹”の堺雅人の言葉
こういうのも書いとかないと3年もたちゃわかんなくなるかもしれないし・・・
(*2)個人でもテラバイトクラスのハードディスクが買える昨今
 wikipediaによると米国議会図書館の情報の総量がおおむね100テラビット=12.5テラバイトだそうです。パソコン用の4テラバイトのハードディスクが2万円そこそこですから、容量の点だけでいえば、図書館の全情報が6~7万円程度で格納できる計算になります、はい。
(*3)クリス・アンダーソン
 アメリカの雑誌”Wired”の元編集長で”ロングテール”という概念を提唱した人。”ロングテール”、”フリー”、”メイカーズ”なんつ~本を出してますが、けっこう面白いです。
(*4)curator
 美術館や博物館などで、展示する作品の企画から運用まで全般を請け負う仕事。日本語では”学芸員”と訳されますが、それよりは仕事の範囲が広いんだそうです。
 わかりやすく知りたければ”ギャラリーフェイク(細野不二彦、小学館)”なんかをどうぞ。
(*5)ロンブロ~ゾ~~~
 ご年配の方には”黄金バット”に登場する犯罪者”ナゾー”の雄たけびを連想されるかもしれませんが、”ローンブローゾ”は実在するイタリアの犯罪人類学の創始者。厖大なデータを検証して犯罪者は先天的に犯罪者になるという”生来的犯罪人説”を提唱した人です。
(*6)ビッグデータが流行語に終わるか社会に定着するかはわかりませんが
  テクノロジーが主導するバブルとその崩壊の繰り返しを
  「過熱(ハイプ)のサイクル」と呼んでいる。
  「行きすぎた期待のピーク」のあとに、「幻滅の谷間」が訪れる。
  そして、「悟りの坂」を登って最後に「生産性の大地」に行き着くという。

 ガードナーグループの言葉(”メイカーズ(クリス・アンダーソン)”より抜粋)
(*7)ビックブラザー
 ”ビックブラザー”はジョージ・オーウェルの”1984年”に登場する独裁者の名前ですが高度なネットワークによる監視社会のアナロジーとしての意味合いもあります。
 そう言えば、この本もまだ読んでないな~~

« 息子よ、そこは”お父さんの後を継いで戦士になります”だろ~が!(アフター・アース/植物相) | トップページ | 電子書籍が星の数ほどある名作たちと出会う扉となることです、だから欲し~よ~(重版出来/iPad) »

パソコン・インターネット」カテゴリの記事

コメント

25年ほど前のアニメ”クレオパトラDC”に出てくる驚異的な記憶能力を持つ少女のことを、”あの娘の頭脳はギガバイト級”という表現がある。天文学的な数字のようなあつかいだった”ギガ”も、今はテラバイト(お彼岸とお盆の忙しい時に寺院が雇う臨時職員)もあたりまえ、SDカードもいまや256ギガが¥20000ほどで買える時代になっちゃいましたね(高速アクセスモデルは高いけど)。
写真に限って言うと、去年の同窓会でかなり撮りまくっても4ギガのカードを使いきれなかったから、これ以上の大容量はいらないかな。より高画質を求めるのなら、フィルムで撮れよ!と思いますけどね。

エクサスケール・スパコン開発と言っても、理研は仕様と発注伝票を買うぐらいで、実態は富士通等のコンピューターメーカーが開発するのでしょう。

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/528774/58866627

この記事へのトラックバック一覧です: ビッグデータって使い方を気をつけないとけっこうアブナイ側面も(ビッグデータの正体/スーパーコンピュータ”京”):

« 息子よ、そこは”お父さんの後を継いで戦士になります”だろ~が!(アフター・アース/植物相) | トップページ | 電子書籍が星の数ほどある名作たちと出会う扉となることです、だから欲し~よ~(重版出来/iPad) »

最近の記事

最近のコメント

最近のトラックバック

無料ブログはココログ