第35回 再び「ビッグデータ」とは?
個人情報を取り扱ううえで、「ビッグデータ」という用語が一段と重要なキーワードになって来た。あちらこちらで使用されるが、使い方は茫漠としていて、どこかあいまいなところが残る。どういう人がどういう場面で、どういう意味で使っているのか、厳密な意味での「ビッグデータ」はどういうものか、いろいろな論者が使う、「ビッグデータ」とはどういう意味合いなのか、もう一度、考えてみる。
コンピューター分野の専門家ではない一般の人々が「ビッグデータ」にもつ印象は「巨大なデータ」である。大規模な分量のデータは一見、無秩序だが、コンピューターを使って関係性を調べてゆくといろいろな相関関係や法則性が把握されて、次に何が来るかの予測の精度が高まったり、対象となる人物にあるアクションを起こさせるためにはどういう刺激を与えれば確率が高まるか、などに役立てることができる、というような理解である。
ネット販売のショップがある品物を購入すると、すぐに、「この商品を購入した人はこんな商品を一緒に購入している」と他の商品を推薦してくる仕組みなどは、ビッグデータの量が増えれば増えるほど価値が高まるだろう、と想像できる。検索サービスで、あるキーワードを調べると、そこに広告が出てくる際にも、そうした法則性を解析して種類を選んで広告を表示しているのを感じる。
「ビッグデータ」などが言われる前からこういうサービスがあったが、より、精度が向上しているのだろう。実際、ビッグデータの例を出す時には、必ず、こうしたインターネットの有名なサービスが例として挙げられる。経済価値を生み出す新しい資源としてビッグデータに注目するときにはこの脈絡である。
しかし、専門家はこの解説では満足しない。従来とは違って「ビッグデータ」と呼ぶからには基準を設ける必要があると主張して、規模の大きさに線を引く。現在の線は、大ざっぱではあるが、テラ(ギガの1000倍、メガの100万倍)の1000倍に当たるペタのオーダーのデータの集合体を「ビッグデータ」と呼ぶ、とひとますは理解している。もちろん、技術革新は速いので、量的な線引きはすぐに数字を引き上げなくてはならない。
ただ、それでは一般の人の理解と差をつけられないので、専門家は、さらに、「大きなデータをすべてビッグデータとは呼ばない」と注意を促している。「データの量が多い」に加えて、「データが多様である」「データの変化が速い」という特色があることを挙げている。
従来の顧客データや商品の在庫データ、取引データが膨大になったのを「ビッグデータ」と呼ぶのでは、単純すぎる、というわけである。
ツイッターなどのSNSで飛び交う文章データや画像、映像データなどが加わってその蓄積と分析が大きな意味を持つようになった。さらに位置情報である。ケータイやスマホを携帯して利用する際には位置情報が役立つが、これを他のデータと関連付けて解析すると社会的・経済的価値のある知見が得られる。つまりデータの多様性が「ビッグデータ」の条件だという。この多様なデータ間の関係性を把握して、これをサービスやビジネスに結び付けられるようになったのが、従来の単純な「巨大なデータ」との違いだとしている。これをビッグデータの条件にしているが、確かにそれはそうだが、そう堅いことは言わずに、ビッグデータが多様になったと解釈すれば、一般の人の理解とも違いはない。
「位置情報」やスマホでのSNS発信情報などは、刻々と変化する。その変化する時間情報との組み合わせも新しい関係性の発見に役立つだろう。豊富な知見が得られるはずである。しかし、それがなければビッグデータの条件を満たさないというのではなく、ここでも、「巨大なデータ」の一部に、変化の激しい性質のものがある、という一般の理解でも済むのではないか。
専門家はさらに、格納するデータベースや解析するソフトウェアの違いなどにも言及しているが、裏側で動くシステムについては一般の理解には影響がないので、あまり参考にならない。
個人情報やプライバシー情報の保護の観点からは、さまざまなサービスで収集された多様なデータの巨大な蓄積が「ビッグデータ」である。データが網羅的になると、別々に収集された、個人個人に対応する多様な種類のデータが関係づけられて個人を特定され、人に知られたくない個人の情報が明らかになってしまう危険があるのではないか。その危険を回避する仕組みをきちんと作らなければならない。
学術研究者たちの専門的な議論に惑わされずに、「ビッグデータ」は「巨大なデータ」と理解して置いて良さそうである。その「巨大なデータ」の中に、多様な種類のデータ、刻々と変化する個人に関わるデータも取り込まれるようになったので、プライバシーを守る個人情報保護の仕組みが必要である。
【筆者=JAPiCO理事長 中島洋】
*本コラムは、個人情報管理士、認証企業・団体サポートの一環として配信されている「JAPiCO」メールマガジンからの抜粋です。
*Japan Foundation for Private Information Conservation Organization
コンピューター分野の専門家ではない一般の人々が「ビッグデータ」にもつ印象は「巨大なデータ」である。大規模な分量のデータは一見、無秩序だが、コンピューターを使って関係性を調べてゆくといろいろな相関関係や法則性が把握されて、次に何が来るかの予測の精度が高まったり、対象となる人物にあるアクションを起こさせるためにはどういう刺激を与えれば確率が高まるか、などに役立てることができる、というような理解である。
ネット販売のショップがある品物を購入すると、すぐに、「この商品を購入した人はこんな商品を一緒に購入している」と他の商品を推薦してくる仕組みなどは、ビッグデータの量が増えれば増えるほど価値が高まるだろう、と想像できる。検索サービスで、あるキーワードを調べると、そこに広告が出てくる際にも、そうした法則性を解析して種類を選んで広告を表示しているのを感じる。
「ビッグデータ」などが言われる前からこういうサービスがあったが、より、精度が向上しているのだろう。実際、ビッグデータの例を出す時には、必ず、こうしたインターネットの有名なサービスが例として挙げられる。経済価値を生み出す新しい資源としてビッグデータに注目するときにはこの脈絡である。
しかし、専門家はこの解説では満足しない。従来とは違って「ビッグデータ」と呼ぶからには基準を設ける必要があると主張して、規模の大きさに線を引く。現在の線は、大ざっぱではあるが、テラ(ギガの1000倍、メガの100万倍)の1000倍に当たるペタのオーダーのデータの集合体を「ビッグデータ」と呼ぶ、とひとますは理解している。もちろん、技術革新は速いので、量的な線引きはすぐに数字を引き上げなくてはならない。
ただ、それでは一般の人の理解と差をつけられないので、専門家は、さらに、「大きなデータをすべてビッグデータとは呼ばない」と注意を促している。「データの量が多い」に加えて、「データが多様である」「データの変化が速い」という特色があることを挙げている。
従来の顧客データや商品の在庫データ、取引データが膨大になったのを「ビッグデータ」と呼ぶのでは、単純すぎる、というわけである。
ツイッターなどのSNSで飛び交う文章データや画像、映像データなどが加わってその蓄積と分析が大きな意味を持つようになった。さらに位置情報である。ケータイやスマホを携帯して利用する際には位置情報が役立つが、これを他のデータと関連付けて解析すると社会的・経済的価値のある知見が得られる。つまりデータの多様性が「ビッグデータ」の条件だという。この多様なデータ間の関係性を把握して、これをサービスやビジネスに結び付けられるようになったのが、従来の単純な「巨大なデータ」との違いだとしている。これをビッグデータの条件にしているが、確かにそれはそうだが、そう堅いことは言わずに、ビッグデータが多様になったと解釈すれば、一般の人の理解とも違いはない。
「位置情報」やスマホでのSNS発信情報などは、刻々と変化する。その変化する時間情報との組み合わせも新しい関係性の発見に役立つだろう。豊富な知見が得られるはずである。しかし、それがなければビッグデータの条件を満たさないというのではなく、ここでも、「巨大なデータ」の一部に、変化の激しい性質のものがある、という一般の理解でも済むのではないか。
専門家はさらに、格納するデータベースや解析するソフトウェアの違いなどにも言及しているが、裏側で動くシステムについては一般の理解には影響がないので、あまり参考にならない。
個人情報やプライバシー情報の保護の観点からは、さまざまなサービスで収集された多様なデータの巨大な蓄積が「ビッグデータ」である。データが網羅的になると、別々に収集された、個人個人に対応する多様な種類のデータが関係づけられて個人を特定され、人に知られたくない個人の情報が明らかになってしまう危険があるのではないか。その危険を回避する仕組みをきちんと作らなければならない。
学術研究者たちの専門的な議論に惑わされずに、「ビッグデータ」は「巨大なデータ」と理解して置いて良さそうである。その「巨大なデータ」の中に、多様な種類のデータ、刻々と変化する個人に関わるデータも取り込まれるようになったので、プライバシーを守る個人情報保護の仕組みが必要である。
【筆者=JAPiCO理事長 中島洋】
*本コラムは、個人情報管理士、認証企業・団体サポートの一環として配信されている「JAPiCO」メールマガジンからの抜粋です。
*Japan Foundation for Private Information Conservation Organization