2014.12.4

今注目の「ビッグデータ」真に活用するために必要な2つのポイントとは

この記事をシェア

最近、あちらこちらで耳にするキーワード「ビッグデータ」。何でもかんでもビッグデータと称され、かえって実体がわかりにくくなっていないだろうか？この記事では、ビッグデータの本質的な特徴を説明した上で、今後、さらに活用していくために必要な課題を解き明かす。

ビッグデータとは？　理解するための3つのポイント

ここ数年、多くの企業IT担当者の注目を集めているキーワードが「ビッグデータ」だ。その加熱ぶりからバズワードに近い印象も受けるビッグデータだが、これはいったいどのような概念だろうか。「大量のデータに分析を加え、有意義な情報や知見を見つけ出して経営判断などに活用する」というだけならば、既に、ナレッジマネジメントやビジネスインテリジェンス（BI）といったソリューションが存在している。ビッグデータとこれらの違いは何だろうか？

まず「ビッグ」という言葉が示す通り、「取り扱うデータが大量であること」が第一の特徴だ。モバイルデバイスやソーシャルネットワークサービスの普及によって、インターネット上で生み出されるデータは日々増加している。従来のデータベースシステムが想定してきたGBクラスを超え、数十TBからPB（ペタバイト）クラスのデータを扱い、分析を加えるという点で、これまでとはボリューム面で一線を画すものだ。

2つめの特徴は、「取り扱うデータの多様性」だ。従来のデータ分析は、データベースに格納可能な、あらかじめ定められた形式のデータを対象とすることが多かった。これに対しビッグデータでは、ログや顧客の行動履歴、Web上のコンテンツやマルチメディアデータ、あるいはセンサーなどで収集するGPS位置情報も含めた、多種多様なデータを対象とする。いわゆる「非構造化データ」も対象に含め、一見すると関連性の見えない分野の中からつながりを見つけ、新たな知見を見出そうとするわけだ。

3つめの特徴は高速性、リアルタイム性だ。既に蓄積ずみの静的なデータを分析対象とするのではなく、刻々と生み出されるデータをダイナミックに分析する。例えば、「Web上のユーザーの行動を分析してその好みに応じたコンテンツや広告を表示する」といった具合に、分析結果を迅速にサービスに反映させ、収入の拡大につなげる試みも進んでいる。

このようなビッグデータの特徴を形作っているのは、昨今の技術革新だ。ソフトウェア面では「Hadoop」をはじめとする並列分散処理技術が、多種多様なデータを高速に集計、分析し、意味ある情報を導き出す手助けとなっている。また前述の通り、これまでとは桁違いの大量のデータを保存する「ストレージ」に関しても、年々高速、大容量化と低コスト化が進んでいる。こうした技術の下支えなしに、ビッグデータの実現はあり得なかったといえるだろう。

あらゆる分野に及ぶビッグデータの活用例

ビッグデータの活用事例は幅広い。「店舗で収集した販売に関するPOSデータを収集、分析して売り上げ向上につなげる」「Twitter上の商品に関するつぶやきを分析し、PR効果を測定する」「コールセンターへの問い合わせ内容を分析し、顧客満足度向上を図る」「医療データを分析し、新たな感染症の拡散を抑止する」など、その活用範囲はIT業界だけにとどまらない。元々活用されてきたシミュレーションなどの学術の世界を飛び出し、流通やサービス、製造、医療、教育、ユニークなところでは選挙戦での議席予想やスポーツ選手の成績分析など、ありとあらゆる分野での活用が期待されている。

セキュリティの観点では、例えばさまざまなセキュリティ機器やソフトから収集したログ情報をリアルタイムに分析し、シグネチャだけでは見つけるのが困難な脅威の予兆を検出していくという形で、ビッグデータの活用が始まっている。
今後は、Internet of Things（IoT）と呼ばれる「モノのインターネット」とビッグデータとの関連が注目の分野となりそうだ。家電機器やスマートメーター、自動車など、さまざまな組み込み機器に搭載されたセンサーを通して大量のデータを収集、分析し、その結果をフィードバックしていくことで、ITの世界のみならず現実の世界も改善されていくことになる。既に、橋りょうなどに設置したセンサーから収集した情報をもとに故障時期を予測し、メンテナンス作業の効率化を図る取り組みが進んでいる。

ビッグデータが抱える2つの課題

このようにバラ色に見えるビッグデータの世界だが、一方で課題も存在する。

1つは、ビッグデータの分析を行える能力を持った人材の不足だ。データは分析の角度次第で違った顔を見せる。同じデータに基づいていても、仮説や分析手法によってはまったく見当違いの結論が導き出される可能性も否定できない。

そこで、企業が抱える本当の課題を踏まえた上で、適切にモデルや問題を設定して分析を加え、ビジネスに役立つ情報、いわば「インテリジェンス」を抽出できるスキルを持った人材が求められている。しかし、統計学を理解し、必要に応じてデータ分析を行えるプログラミングの知識を兼ね備えた「データサイエンティスト」の絶対数は少ない。その上、分析結果を企業経営層にわかりやすく伝えることのできるコミュニケーション能力まで備えた人材となると、そうそういるものではない。そこで現在、データサイエンティスト育成に向けた取り組みが進んでいる他、アナリストと開発者を組み合わせた「チーム」で問題解決に当たろうとしている企業もある。

もう1つはプライバシーとの兼ね合いだ。ビッグデータの元となるデータの中には、購入履歴や位置情報のような、個人のセンシティブな情報が含まれることがある。そうしたデータは誰のものなのか、そして企業はそれらをどう扱うべきなのだろうか。

この問題が議論を呼ぶきっかけとなったのは、2013年に起こった「Suica事件」だ。JR東日本が収集したSuicaの乗車履歴などの情報を、名前や住所などを匿名化した「低減データ」として日立製作所に販売。日立ではこの情報をビッグデータとして分析し、マーケティング支援サービスとして展開しようとしていたが、「プライバシーを侵害する行為ではないか」と利用者からの反発を招いた。

マーケティングの観点から見れば、個人の履歴情報はまさに「宝の山」である。しかし利用者からすれば、自分のデータを別目的に利用されたり、第三者に渡されて、履歴をもとに販売活動などに利用されるのは「気持ち悪い」と感じるのも無理からぬことだ。また低減されているとはいえ、大量にデータが蓄積され、取り扱いによっては個人が特定されてしまう恐れもある。

こうした動きを背景に、IT総合戦略本部では2014年6月に「パーソナルデータの利活用に関する制度改正大綱」を公表し、個人情報保護法の改正に向けた動きを進めている。ここでは、個人情報の定義をあらためて明確化するとともに、第三者機関の設置などが議論されている。

日本政府は2013年に示した成長戦略の中で、ビッグデータを柱の1つに位置付けている。ビッグデータをより有効に活用するためには、利用者が安心してデータを預けられる体制が重要であり、そのためには法整備などの整備が欠かせない。個人情報流出事件との兼ね合いからも、企業は内部統制を整備し、ビッグデータ分析に活用するデータの取り扱いに、これまで以上の注意を払うことが求められるだろう。