« そこまで自殺を悪く扱うことないやんか! みたいな話です(自殺について/火の鳥 鳳凰編/桑) | トップページ | その主とすみかと、無常を争ふさま、いはば朝顏の露に異ならず(方丈記/空き家問題/朝顔) »

よどみに浮かぶバスワード、かつ消えかつ結びて、久しくとどまりたるためしなし(ビッグデータの罠/バラ)

 ども、コンピューター業界で働いているおぢさん、たいちろ~です。
 どうも、コンピュータ業界で働いている人ってのは新しモン好きなのかお調子モンなのか”バズワード”という新しい言葉を作るのが好きなようです。”バズワード”ってのは”一見、説得力があるように見えるが、具体性がなく明確な合意や定義のないキーワード”のこと(wikipediaより)。まあ、言葉ってのは変化するので最初はバズワードでもちゃんと定着するものもあれば、いつの間にか死語扱いされるものもでてきます。”ロングテール(*1)”みたくちゃんと定着したものもあれば、”クラウド・コンピューティング(*2)”みたいに定着したけど言っている人によって定義がばらばらなものもあるし、”Web 2.0(*3)”みたいにどこいったんや~ なものもあります。まあ、最近の代表を挙げるとしたら”ビッグデータ”でしょうか。
 ということで今回ご紹介するのはそんなビッグデータの光と影を紹介した本”ビッグデータの罠”であります。


写真は奥様作製(*4)の”バラと天使のアレンジ”です

Photo


【本】ビッグデータの罠(岡嶋裕史、新潮選書)
 ビッグデータはいいこと尽くめじゃない。電話番号、スケジュール、写真、ドキュメントなど、クラウドに委ねることが当たり前となった時代、膨大なデータを誰がどう管理・活用しているか知っているだろうか? 無料、便利さと引き換えに少しずつ浸食される個人の情報。プライバシーを脅かす「新たな監視社会」に警鐘を鳴らす(本書紹介より)
【花】バラ
 バラ科バラ属の総称。
 実は今回のお題にからんで”ラプラスの悪魔(*5)”で検索していたら”バラプラスの花束”ってのがヒットしまして。あんまりばかばかしいので使っちゃいました。本編とはなんの関係もありません。すいませんです。


 まず、ビックデータはなんぞやというと、こんなんです

〔途方もない量であること〕
 今やSNSやらHPやらで企業だけでなく個人が山ほど情報発信してるし、スマホのGPSに代表されるセンサーデータがてんこ盛りで蓄積されてます。これらのデータを扱おうとすると、勢い膨大なデータを処理する必要がでてきます。
 考えるに、これは”データの発生源がやたら増えた”ことと”それをとっとけるようになった”ことじゃないかと。特に後者はストレージ(記憶装置)の値段がとっても安くなったから。昭和のTV番組が残ってなくって見たくても見れないってのがありますが、これは記憶媒体(ビデオテープ)が高くて使いまわしたために残っていないのが原因。もし数テラバイトのハードディスクを持って過去に行って保存してこれたらひと財産作れたのにな~ って思っちゃいます。

〔非構造化データであること〕
 一般的にコンピュータで情報を効率的に処理しようとすると、項目がある程度整理されている(構造化)されていたほうが便利です。簡単な例だとテストの点数の高い順に並べようとすると、最初に名前があって次に点数があってとか整理されてると扱いやすいですが、順番ぐちゃぐちゃだと整理しないと操作しにくいのと同じです。
 さらに音声だ、画像だと検索だとかしにくいデータがいっぱい増えちゃったのもあります。これらが技術革新によってまがりなりにも操作ができるようになったってことがビックデータでなんとかできんじゃね? と思われる理由です

〔リアルタイム処理をすること〕
 リアルタイムってのは言いすぎでしょうが、要は実用に耐える時間で答えがでてくるってこと。最近の天気予報ってコンピュータ解析が当たり前ですが、これは処理スピードが速くなってきたこともあります。だって、明日の天気予報の結果が明後日でてくるようなら役にたたんでしょうし。

 まあ、このあたりはコンピューターテクノロジーの進歩とすんごいスピードでの低価格化の進展のなせるワザで、そんなに問題じゃありません。むしろ問題なのは”データそのもののありよう”と”因果関係がある意味軽視されてる”ことじゃないかと本書を読んで思いましたね。感想を簡単にまとめるとこんな感じ

〔データそのもののありよう〕
 当然のことながら、ビックデータを分析するにはビッグな量のデータを集める必要があります。で、このデータがどのように集めらてるのか、それがデータを発生させてる人(ぶっちゃけ、このブログもそうですが)が集められてることに同意しているのか、ちゃんと管理されてるのかつ~あたりが社会的にコンセンサスがとれてるんかいなと言うのが問題意識の一つ。さらに、個人情報保護なんかがからんでくるので、話がもっとやっかいになります。
 ちょっと前まで、個人の持ってる情報が世の中に流れるなんてのはほとんどなかったわけで、このへんは確かに無防備なんでしょうな。本書では、情報が分析されることの利便性の向上と危なさをどうバランスさせるかってなことを書いてますが、両方とも自分でコントロールできる話じゃないし。だいたい、自分の出しているデータがどのように使われるかを考えて情報発信なんかしてないし(てか、そんなこと考えてたら今どきメール一つ出せませんし)
 それにちょと前までなら考えられなかったのが”忘れられる権利”。どんな品行方正な人間だって黒歴史の一つや二つあるもんで、以前なら同窓会のネタにされるぐらいで済んでたものが、今やへやすりゃワールドワイドでさらしモンなんだからな~
 で、このデータを誰が持ってるかわかっちゃいないってのが怖いところ。リーマン・ショックなんか典型ですが、訳わかんない状態ってのはパニックを引き起こしがちな原因の一つであります。

〔因果関係がある意味軽視されてる〕
 ビックデータが導き出す結論ってのは丸めて言うと”こんな因果関係があります”だけなんですな。だもんで、なぜそうなったか、つまり何か理由があってこうなったのか、偶然なのかまでは答えてくれない。それは人間のお仕事ということである意味丸投げ。まあ、将来はやってくれるかもしれませんが、そうなったら人間て何すんだっけ?
 これの代表例が”サザエさん効果”ってやつ。モトネタは大和総研だそうですが、”サザエさんの視聴率が上がると株価は下がり、サザエさんの視聴率が下がると株価は上がる”という有意な相関関係があるとのこと(相関係数 0.86)。いちおう景気が良いとサザエさんのやってる時間に外出することが増えるんで視聴率が下がるという仮説があるそうですが、こじつけっぽいなぁ
 結果ありきで因果関係を類推するのが怖いのは、それっぽい理屈に理論的裏付けがさもありそうって逆転現象が起ること。これがOKなら、悪意のある頭のいい奴に悪用されかねませんぜ

 ”ビッグデータの罠”はどちらかというと初心者向けのわかりやすい本でしょうか。題名やあおりの説明文ほどには”ビックデータ”を悪者扱いしてない印象です(*5)。ただ、”だからどうしろ”みたいなのがあんまし書いてないのがちょっと残念。まあ、そんなのがあればの話ですが・・・

 ところで、この”ビッグデータ”って言葉は生き残るんでしょうかね? IT用語として命脈を保つか、時代のあだ花で終わるのか? まあ、この数年が勝負でしょうかね

  よどみに浮かぶバスワード、
  かつ消えかつ結びて、久しくとどまりたるためしなし

とか・・・


《脚注》
(*1)ロングテール
 売れ筋ランキングをグラフにすると大ヒットする一部の商品がある一方、ほんのちょっとしか売れない部分が延々と続きます。この”延々”の部分が”ロングテール”でこれを集めればけっこうなボリューム=ビジネスになるという考え方。Amazon.comなどのビジネスモデルの説明として使われています。
(*2)クラウド・コンピューティング
 ネットワークでつながれたパソコンやスマホってサービスを提供するシステム自体は見えないネットの先=雲(クラウド)の中にあるような状態のこと。本来は”オンプレミス”という目の前にシステム(ハードウェア)があるような状態に対比して使うはずなんですが、最近は”オンプレミスなクラウド”という自己矛盾を起こしてる使い方もされてます。
(*3)Web 2.0
 テレビ放送のように情報の流れが一方向(TV局→視聴者)だったのに対し、Webを通して双方向で情報発信ができるようになったこと。amazon.comのカスタマーレビューやFacebook、ツイッターなんかの出始めのころに流行りましたが今や当たり前すぎてだれも使わんもんなぁ
(*4)奥様作製
 実は奥様はフラワークリエーターなるものをやっております。ブログもありますんでよろしければそちらもご覧ください
(*5)ラプラスの悪魔
 もしも、ある瞬間の全ての物質の状態が把握できてかつこのデータを解析できる悪魔がいれば、その悪魔にとっては不確実なことは何もなくなるという寓意。フランスの数学者ラプラスによって提唱されました
(*6)”ビックデータ”を悪者扱いしてない印象です
 コンピュータ文化論みたいな本って”ビックデータ礼讃”みないなヨイショなのと、とにかくダメ出しみたいな両極端がままあります。いろんなのを読んでみて自分で判断しないといけないのが辛いところです