ビッグデータ王国の興亡

情報処理王国史外典第五十九巻

🗄

ビッグデータ王国の興亡

「宝の山」に群がった者たちの記録

BIG DATA Suica

「データは21世紀の石油だ」——2012年、日本はこの言葉に熱狂した。総務省が「活用元年」を宣言し、企業は「ビッグデータ部門」を設置し、政府は「世界最先端IT国家」を目指した。では、実際に何が起きたのか。SuicaのデータがICカード利用者に黙って売られ、大半の企業は「Excelに入ってます」と答え続け、法律は5年間追いつかなかった。バズワードが去った今、そのデータは別の名前で生き続けている。

この記事について
本記事は実際の技術的・社会的背景に基づいたブラックコメディ仕立ての読み物です。引用・参照はすべて実在の文献・発言・報道に基づきますが、語り口はフィクション的表現を含みます。

CH.01

「ビッグデータ」という呪文の誕生

あらすじ：2011年、マッキンゼーの報告書が「データは次世代の競争資源だ」と宣言。日本語メディアでの「ビッグデータ」露出が急増し、意味より先に言葉だけが走り始めた。

1.1　マッキンゼー報告書という「黒船」

西暦2011年5月。米国の経営コンサルティング会社マッキンゼーが、一本の報告書を世界に向けて放った。

タイトルは “Big data: The next frontier for innovation, competition, and productivity”。小売・医療・製造・行政など、あらゆる分野で膨大なデータを活用すれば、生産性が数兆ドル規模で向上すると試算されていた。

この報告書は、経営者の心に火をつけた。

「データは21世紀の石油だ」

比喩は美しかった。問題は、石油と違ってデータは「掘れば出る」ものでも「精製すれば使える」ものでもなかった点だが、誰もそこを深くは考えなかった。

1.2　日本上陸——言葉だけが先行した

日本にも波は届いた。2012年、日本語メディアでの「ビッグデータ」という言葉の出現頻度が急増した。コンサルタントが企業の会議室でパワーポイントを開き、ベンダーが「ビッグデータ基盤構築サービス」を提案し、雑誌の特集号が相次いで組まれた。

「ビッグデータ」は、知っておかなければならない言葉になった。意味を理解しているかどうかは、二の次で。

【用語解説】ビッグデータ（Big Data）

従来のデータベース管理ツールでは処理しきれないほど巨大で複雑なデータの集合体のこと。調査会社META Groupのアナリスト、ダグ・レイニーが2001年に提唱した「3V」——Volume（量）・Velocity（速度）・Variety（多様性）の頭文字で定義される（META Groupは2004年にガートナーが買収）。SNSの投稿・購買履歴・センサーデータ・監視カメラ映像などが典型例。「集めること」は技術的に可能でも、「意味ある形で使うこと」には分析基盤・人材・目的設計が必要で、これが多くの企業で難関となった。

俯瞰メモ ▶ 「ビッグデータ」という言葉が急増した2012〜13年、その言葉を使っていた人々の中で「Hadoop（ハドゥープ）の設定ができる人」は何人いただろうか。バズワードとは、知識より早く伝染する言葉のことだ。

CH.02

王国の旗揚げ——総務省と「活用元年」

あらすじ：2012年、総務省「情報通信白書」がビッグデータを特集し「活用元年」を宣言。翌2013年6月には安倍政権が「世界最先端IT国家創造宣言」を閣議決定。しかし「何をするか」は誰も決めていなかった。

2.1　国が旗を立てた日

2012年7月。総務省「情報通信白書平成24年版」が「ビッグデータが拓く未来」を特集タイトルに掲げた。国内市場を2012年に約2,000億円、2017年には1兆円超と予測。これが日本における「ビッグデータ王国」の正式な旗揚げである。

2.2　安倍政権と「世界最先端IT国家創造宣言」

2013年6月14日、安倍政権は「世界最先端IT国家創造宣言」を閣議決定した。医療・農業・防災・交通などあらゆる分野でビッグデータを活用し、2020年までに世界最先端のIT利活用社会を実現するという壮大な青写真だった。

「世界最先端のIT国家となるため、ビッグデータ、オープンデータ等を積極的に活用し、新しい産業・サービスを創出するとともに、行政を含む社会全体の変革を進める。」

— 「世界最先端IT国家創造宣言」2013年6月14日閣議決定より

企業の経営者たちは頷いた。「政府もそう言っている」。予算が確保された。プロジェクトが立ち上がった。担当者がアサインされた。ただし、誰もその「ビッグデータ」で何をするかを、具体的には決めていなかった。

皮肉メモ ▶ 「世界最先端」という目標設定の美しさに比べて、実行計画の具体性は質素だった。このギャップは、日本のIT政策史において珍しくもない。e-Japan戦略（2001年）も、同じ構造で始まり、同じ構造で迷走した。

CH.03

Suicaの悲劇——データは誰のものか

あらすじ：2013年7月、JR東日本がSuica乗降データを日立製作所に販売。「個人情報ではない」と主張するも利用者への説明は皆無で批判殺到。2ヶ月で停止に追い込まれたこのスキャンダルは、日本のビッグデータ活用が抱える根本問題を一瞬で露わにした。

3.1　黙って売られた、1日1億件のデータ

2013年7月1日。JR東日本はSuicaの乗降履歴データを日立製作所に提供し、「駅エリアマーケティング情報サービス」として外部販売するビジネスを開始した。性別・年代・駅ごとの利用時刻。氏名は除外しており、JR東日本は「個人情報には当たらない」との見解を示した。

問題は、利用者への事前説明がほぼなかったことだ。ニュースが広まるにつれ、SNSには批判が殺到した。「知らないうちに自分の行動が売られていた」——。

「Suicaの利用履歴販売は、法的には問題がないとしても、利用者の信頼を損なう行為として強く批判されるべきだ。データの二次利用に際して、利用者への十分な説明と同意取得の機会が必要であることを、今回の事案は改めて示した。」

— 日経Xテック「『Suica履歴販売』は何を誤ったのか」2013年10月より要約

3.2　停止・検証・そして法改正へ

JR東日本は2013年9月にデータの外部提供を停止。2014年2月、有識者会議の中間とりまとめで「利用者への事前説明と選択の機会提供が不可欠だった」との結論が出された。

このスキャンダルは根本的な問題を露わにした——データを「持っている」ことと、データを「使う権利がある」ことは、同じではない。その整理が、法律においても企業の倫理においても、何もできていなかったのだ。

【用語解説】オプトアウトとオプトイン

個人データの利用に関する同意の方式。「オプトアウト」は利用が原則可能で、拒否を示した場合のみ止める方式。「オプトイン」は明示的に許可した場合のみ利用する方式。Suica問題ではJR東日本がオプトアウト方式を取ったが、「やめさせる手続き」を利用者に十分周知していなかった点が批判を集めた。

CH.04

「使いこなせない」という現実

あらすじ：ビッグデータ部門を設置した企業が最初にやったことは「ビッグデータとは何か」の社内勉強会だった。データは「Excelに入ってます」という状態のまま、プロジェクトだけが先走った。

4.1　会議室で繰り返された奇妙な会話

ビッグデータブームが絶頂を迎えた2013〜2014年、日本企業の会議室では、奇妙な会話が繰り返されていた。

「うちもビッグデータをやらないと競合に負ける」「何をやるんですか？」「それをみんなで考えたい」「……今あるデータは何ですか？」「Excelに入ってます」

4.2　「データサイロ」という構造的問題

データを「集める」ことと、データから「価値を引き出す」ことの間には、巨大な溝があった。しかも、そもそも「使えるデータがない」という問題も噴出した。製造業では紙の製造記録、小売では非連携のPOSデータ、サービス業では属人的な顧客管理台帳——日本企業のデータは、システム間でバラバラの「サイロ」として存在していた。これを統合するだけで、何年もかかった。

「国内企業のビッグデータ活用率は欧米と比べて著しく低く、最大の阻害要因は『データの品質・整備の不十分さ』と『分析人材の不足』である。技術的な課題よりも、データをビジネス課題に接続する組織能力の欠如が問題の核心にある。」

— 総務省「平成27年版情報通信白書」（2015年）より要約

【用語解説】データサイロ（Data Silo）

「サイロ」は農業用の穀物貯蔵塔のこと。組織の部門ごとにデータが孤立して存在し、他部門・他システムと連携できていない状態を指す。各部署がそれぞれ別のシステム・フォーマットでデータを管理し、全社で統合できない構造が、日本企業のデータ活用を阻んだ最大の壁の一つだった。

皮肉メモ ▶ 「ビッグデータで課題を解決しよう」と言いながら、そのデータが「どこにあるか」「どんな形式か」「誰が管理しているか」すら把握できていなかった組織は、日本全国に無数にあった。ビッグデータブームは、日本企業のデータ管理の惨状を可視化するという意外な貢献を残した。

CH.05

法律が間に合わなかった

あらすじ：当時の個人情報保護法（2003年施行）は「匿名化データ」のグレーゾーンを解決できなかった。Suicaスキャンダルを契機に2015年改正法が成立、「匿名加工情報」概念が導入されるまで、企業はデータを持ちながら使えないという奇妙な状況に置かれた。

5.1　グレーゾーンが生んだ萎縮とスキャンダルの両方

当時の個人情報保護法（2003年施行）は「個人情報」を「特定の個人を識別できる情報」と定義していた。「匿名化したデータ」がどこからが個人情報になるのか——このグレーゾーンが、企業の萎縮とデータの乱用の両方を引き起こした。

ある企業は「個人情報に当たるかもしれない」という恐れからデータを活用できず、別の企業（JR東日本）は「個人情報ではない」と判断して社会的批判を浴びた。同じグレーゾーンが、真逆の結果を生んだのだ。

5.2　Suicaが動かした法改正

2015年9月3日、改正個人情報保護法が成立した。最大の目玉は「匿名加工情報」という新概念の導入——個人を特定できないよう十分に加工されたデータは、本人の同意なく第三者提供できるとされた。施行は2017年5月。

ビッグデータブームが始まってから法整備が追いつくまで、5年以上かかった。

【用語解説】匿名加工情報

2015年の改正個人情報保護法で導入された概念。個人情報から氏名・住所・生年月日などを削除・変換し、特定の個人を識別できないよう加工した情報。本人同意なしに第三者へ提供できる。ただし他のデータと組み合わせた「再識別リスク」が現在も研究課題。

CH.06

王国の年代記

2001年 META Groupのダグ・レイニーが「3V（Volume・Velocity・Variety）」モデルを提唱。ビッグデータ概念の原型（META Groupは2004年にガートナーが買収）

2011年5月マッキンゼー・グローバル・インスティテュートが “Big data: The next frontier” 報告書を公開。世界的なビッグデータブームの起点となる

2012年7月総務省「情報通信白書平成24年版」がビッグデータを特集。国内市場2,000億円・2017年に1兆円超と予測。日本での「活用元年」が宣言される

2012〜2013年日本国内でビッグデータ関連セミナー・コンサル需要が爆発的に増加。「ビッグデータ部門」設置が相次ぐ

2013年6月14日安倍政権「世界最先端IT国家創造宣言」閣議決定。ビッグデータ活用を国家戦略に明記

2013年7月1日 JR東日本がSuica乗降履歴を日立製作所に販売開始。問題化しSNSで批判殺到。「データは誰のものか」論争が勃発

2013年9月 JR東日本、Suicaデータの外部提供を停止

2014年2月 JR東日本有識者会議が中間とりまとめを公表。「利用者への事前説明と選択の機会提供が不可欠だった」と結論

2015年9月3日改正個人情報保護法成立。「匿名加工情報」概念が導入される。Suicaスキャンダルが法改正の直接的な契機に

2016年3月 AlphaGoがプロ棋士イ・セドルを破る。AIブーム（第三次）が勃興し「ビッグデータ」という言葉が急速に後退

2017年5月改正個人情報保護法施行。法的基盤がようやく整うも、ビッグデータという言葉の使用頻度はすでに急減

2022年〜現在 ChatGPTを契機とした生成AIブームにより「ビッグデータ」はさらに影へ。しかしLLMの学習基盤として、その役割は静かに続く

CH.07

AIという後継者、そして「ビッグデータ」の消滅

あらすじ：2016年、AlphaGoの衝撃でAIブームが来た。「ビッグデータ部門」は「AI推進部門」に改名され、言葉は変わったが本質は変わっていない。ChatGPTはビッグデータなしには存在できない。

7.1　旗印だけが変わった

2016年3月。AlphaGoがプロ棋士イ・セドルを破った。「データを集めること」より「AIでデータを解析すること」の方が重要だと世界が気づき、会議室の言語が変わった——「ビッグデータ」が消え「AI・機械学習・ディープラーニング」が来た。

実は本質的な変化は何もなかった。AIは大量のデータなしには学習できない。変わったのは「旗印」だけ。しかし旗印が変わると、予算が動き、担当部署が変わり、コンサルタントの資料のタイトルが変わった。

7.2　ChatGPTという究極の逆説

2022年。ChatGPTが登場した。「ビッグデータ」は完全に過去の言葉になった。

しかしGPT-4がどれほど賢いかは、その学習に使われた数千億件のWebデータ——ビッグデータ——の質と量にかかっている。王国は倒れても、臣民は姿を変えて別の主君に仕える。情報処理の世界では、よくあることだ。

俯瞰メモ ▶ バズワードとはライフサイクルが速い生き物だ。「ビッグデータ」→「AI」→「生成AI」。言葉は変わり、予算は動き、担当者は消耗する。しかし根本の課題——データの品質・人材・組織文化——は変わらない。次のバズワードが来ても、同じ問いが残るだろう。

CH.08

データは誰のためにあったのか

あらすじ：「宝の地図（データ）があれば宝（価値）が手に入る」と信じた者たちの記録。ビッグデータ王国は、データを「資源」として見すぎて「人間の行動の記録」であることを忘れた。誰が悪かったわけでもない。

8.1　「宝の地図」問題

ビッグデータブームを振り返ると、奇妙なことに気づく。「データで価値を生み出した成功例」と「ビッグデータという言葉で予算を取ったプロジェクト」が、日本では後者に偏りすぎていた。

答えは「宝の地図」問題にある。地図を読む能力も、歩く体力も、地図を解釈する知識も——ほとんどの組織には準備できていなかった。「宝の地図を手に入れることが、宝を手に入れることだ」と信じた人々が多すぎた。

8.2　技術と倫理観の速度差

Suicaスキャンダルはその象徴だった。データは利用者の毎日の行動記録であり、無断で売って良い「石油」ではなかった。ビッグデータ王国は、データを「資源」として見すぎて「人間の行動の記録」であることを忘れた。

誰が悪かったわけでもない。技術が社会の倫理観を追い越す速度が速すぎただけだ。そしてその速度のズレを埋めるのが法律で、法律が間に合うまでに、スキャンダルとブームの消滅が先に来た。

あなたの会社や職場に「溜まっているけど使われていないデータ」はないだろうか。ExcelやPDFに眠ったまま、誰も分析しないデータは、日本中の企業に今も存在する。それをどう扱うか——その問いはビッグデータブームが去った今も、何も変わっていない。

データは、それを生み出した人間のためにあるはずだった。その当たり前の結論に到達するまでに、日本は5年以上かかった。

蓄積されたデータは、今日も静かに増え続けている。

使われることなく増え続けるデータと、
使い方を探し続ける人間の、
終わらない非対称について。

―― 収集継続

参考・引用資料

・マッキンゼー・グローバル・インスティテュート “Big data: The next frontier for innovation, competition, and productivity”（2011年5月）

・総務省「平成24年版情報通信白書」（2012年7月）— https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/

・総務省「平成27年版情報通信白書」（2015年）— https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc254320.html

・「世界最先端IT国家創造宣言」（2013年6月14日閣議決定）— https://cio.go.jp/node/1521

・ITmedia「Suica利用履歴販売、JR東は『個人情報に当たらない』との見解」（2013年7月19日）— https://www.itmedia.co.jp/makoto/articles/1307/19/news141.html

・日経Xテック「『Suica履歴販売』は何を誤ったのか」（2013年10月）— https://xtech.nikkei.com/it/article/NC/20131010/510322/

・JR東日本「Suicaに関するデータの社外への提供についての有識者会議中間とりまとめ」（2014年2月）— https://www.jreast.co.jp/chukantorimatome/20140320.pdf

・日経Xテック「Suica履歴販売が波紋呼んだ2013年、『匿名加工情報』議論の契機に」— https://xtech.nikkei.com/atcl/nxt/column/18/00215/071500037/

・BUSINESS LAWYERS「改正個人情報保護法ではビッグデータの扱いをどのように定めたか」— https://www.businesslawyers.jp/practices/280

外典vol.59 ビッグデータ王国の興亡〜「宝の山」に群がった者たちの記録〜

ビッグデータ王国の興亡

「ビッグデータ」という呪文の誕生

1.1 マッキンゼー報告書という「黒船」

1.2 日本上陸——言葉だけが先行した

王国の旗揚げ——総務省と「活用元年」

2.1 国が旗を立てた日

2.2 安倍政権と「世界最先端IT国家創造宣言」

Suicaの悲劇——データは誰のものか

3.1 黙って売られた、1日1億件のデータ

3.2 停止・検証・そして法改正へ

「使いこなせない」という現実

4.1 会議室で繰り返された奇妙な会話

4.2 「データサイロ」という構造的問題

法律が間に合わなかった

5.1 グレーゾーンが生んだ萎縮とスキャンダルの両方

5.2 Suicaが動かした法改正

王国の年代記

AIという後継者、そして「ビッグデータ」の消滅

7.1 旗印だけが変わった

7.2 ChatGPTという究極の逆説

データは誰のためにあったのか

8.1 「宝の地図」問題

8.2 技術と倫理観の速度差

1.1　マッキンゼー報告書という「黒船」

1.2　日本上陸——言葉だけが先行した

2.1　国が旗を立てた日

2.2　安倍政権と「世界最先端IT国家創造宣言」

3.1　黙って売られた、1日1億件のデータ

3.2　停止・検証・そして法改正へ

4.1　会議室で繰り返された奇妙な会話

4.2　「データサイロ」という構造的問題

5.1　グレーゾーンが生んだ萎縮とスキャンダルの両方

5.2　Suicaが動かした法改正

7.1　旗印だけが変わった

7.2　ChatGPTという究極の逆説

8.1　「宝の地図」問題

8.2　技術と倫理観の速度差