「データは21世紀の石油だ」——2012年、日本はこの言葉に熱狂した。総務省が「活用元年」を宣言し、企業は「ビッグデータ部門」を設置し、政府は「世界最先端IT国家」を目指した。では、実際に何が起きたのか。SuicaのデータがICカード利用者に黙って売られ、大半の企業は「Excelに入ってます」と答え続け、法律は5年間追いつかなかった。バズワードが去った今、そのデータは別の名前で生き続けている。
この記事について
本記事は実際の技術的・社会的背景に基づいたブラックコメディ仕立ての読み物です。引用・参照はすべて実在の文献・発言・報道に基づきますが、語り口はフィクション的表現を含みます。
CH.01
「ビッグデータ」という呪文の誕生
あらすじ:2011年、マッキンゼーの報告書が「データは次世代の競争資源だ」と宣言。日本語メディアでの「ビッグデータ」露出が急増し、意味より先に言葉だけが走り始めた。
1.1 マッキンゼー報告書という「黒船」
西暦2011年5月。米国の経営コンサルティング会社マッキンゼーが、一本の報告書を世界に向けて放った。
タイトルは “Big data: The next frontier for innovation, competition, and productivity”。小売・医療・製造・行政など、あらゆる分野で膨大なデータを活用すれば、生産性が数兆ドル規模で向上すると試算されていた。
この報告書は、経営者の心に火をつけた。
比喩は美しかった。問題は、石油と違ってデータは「掘れば出る」ものでも「精製すれば使える」ものでもなかった点だが、誰もそこを深くは考えなかった。
1.2 日本上陸——言葉だけが先行した
日本にも波は届いた。2012年、日本語メディアでの「ビッグデータ」という言葉の出現頻度が急増した。コンサルタントが企業の会議室でパワーポイントを開き、ベンダーが「ビッグデータ基盤構築サービス」を提案し、雑誌の特集号が相次いで組まれた。
「ビッグデータ」は、知っておかなければならない言葉になった。意味を理解しているかどうかは、二の次で。
【用語解説】ビッグデータ(Big Data)
従来のデータベース管理ツールでは処理しきれないほど巨大で複雑なデータの集合体のこと。調査会社META Groupのアナリスト、ダグ・レイニーが2001年に提唱した「3V」——Volume(量)・Velocity(速度)・Variety(多様性)の頭文字で定義される(META Groupは2004年にガートナーが買収)。SNSの投稿・購買履歴・センサーデータ・監視カメラ映像などが典型例。「集めること」は技術的に可能でも、「意味ある形で使うこと」には分析基盤・人材・目的設計が必要で、これが多くの企業で難関となった。
俯瞰メモ ▶ 「ビッグデータ」という言葉が急増した2012〜13年、その言葉を使っていた人々の中で「Hadoop(ハドゥープ)の設定ができる人」は何人いただろうか。バズワードとは、知識より早く伝染する言葉のことだ。
CH.02
王国の旗揚げ——総務省と「活用元年」
あらすじ:2012年、総務省「情報通信白書」がビッグデータを特集し「活用元年」を宣言。翌2013年6月には安倍政権が「世界最先端IT国家創造宣言」を閣議決定。しかし「何をするか」は誰も決めていなかった。
2.1 国が旗を立てた日
2012年7月。総務省「情報通信白書 平成24年版」が「ビッグデータが拓く未来」を特集タイトルに掲げた。国内市場を2012年に約2,000億円、2017年には1兆円超と予測。これが日本における「ビッグデータ王国」の正式な旗揚げである。
2.2 安倍政権と「世界最先端IT国家創造宣言」
2013年6月14日、安倍政権は「世界最先端IT国家創造宣言」を閣議決定した。医療・農業・防災・交通などあらゆる分野でビッグデータを活用し、2020年までに世界最先端のIT利活用社会を実現するという壮大な青写真だった。
「世界最先端のIT国家となるため、ビッグデータ、オープンデータ等を積極的に活用し、新しい産業・サービスを創出するとともに、行政を含む社会全体の変革を進める。」
— 「世界最先端IT国家創造宣言」2013年6月14日 閣議決定 より
企業の経営者たちは頷いた。「政府もそう言っている」。予算が確保された。プロジェクトが立ち上がった。担当者がアサインされた。ただし、誰もその「ビッグデータ」で何をするかを、具体的には決めていなかった。
皮肉メモ ▶ 「世界最先端」という目標設定の美しさに比べて、実行計画の具体性は質素だった。このギャップは、日本のIT政策史において珍しくもない。e-Japan戦略(2001年)も、同じ構造で始まり、同じ構造で迷走した。
CH.03
Suicaの悲劇——データは誰のものか
あらすじ:2013年7月、JR東日本がSuica乗降データを日立製作所に販売。「個人情報ではない」と主張するも利用者への説明は皆無で批判殺到。2ヶ月で停止に追い込まれたこのスキャンダルは、日本のビッグデータ活用が抱える根本問題を一瞬で露わにした。
3.1 黙って売られた、1日1億件のデータ
2013年7月1日。JR東日本はSuicaの乗降履歴データを日立製作所に提供し、「駅エリアマーケティング情報サービス」として外部販売するビジネスを開始した。性別・年代・駅ごとの利用時刻。氏名は除外しており、JR東日本は「個人情報には当たらない」との見解を示した。
問題は、利用者への事前説明がほぼなかったことだ。ニュースが広まるにつれ、SNSには批判が殺到した。「知らないうちに自分の行動が売られていた」——。
「Suicaの利用履歴販売は、法的には問題がないとしても、利用者の信頼を損なう行為として強く批判されるべきだ。データの二次利用に際して、利用者への十分な説明と同意取得の機会が必要であることを、今回の事案は改めて示した。」
— 日経Xテック「『Suica履歴販売』は何を誤ったのか」2013年10月 より要約
3.2 停止・検証・そして法改正へ
JR東日本は2013年9月にデータの外部提供を停止。2014年2月、有識者会議の中間とりまとめで「利用者への事前説明と選択の機会提供が不可欠だった」との結論が出された。
このスキャンダルは根本的な問題を露わにした——データを「持っている」ことと、データを「使う権利がある」ことは、同じではない。その整理が、法律においても企業の倫理においても、何もできていなかったのだ。
【用語解説】オプトアウトとオプトイン
個人データの利用に関する同意の方式。「オプトアウト」は利用が原則可能で、拒否を示した場合のみ止める方式。「オプトイン」は明示的に許可した場合のみ利用する方式。Suica問題ではJR東日本がオプトアウト方式を取ったが、「やめさせる手続き」を利用者に十分周知していなかった点が批判を集めた。
CH.04
「使いこなせない」という現実
あらすじ:ビッグデータ部門を設置した企業が最初にやったことは「ビッグデータとは何か」の社内勉強会だった。データは「Excelに入ってます」という状態のまま、プロジェクトだけが先走った。
4.1 会議室で繰り返された奇妙な会話
ビッグデータブームが絶頂を迎えた2013〜2014年、日本企業の会議室では、奇妙な会話が繰り返されていた。
「うちもビッグデータをやらないと競合に負ける」「何をやるんですか?」「それをみんなで考えたい」「……今あるデータは何ですか?」「Excelに入ってます」
4.2 「データサイロ」という構造的問題
データを「集める」ことと、データから「価値を引き出す」ことの間には、巨大な溝があった。しかも、そもそも「使えるデータがない」という問題も噴出した。製造業では紙の製造記録、小売では非連携のPOSデータ、サービス業では属人的な顧客管理台帳——日本企業のデータは、システム間でバラバラの「サイロ」として存在していた。これを統合するだけで、何年もかかった。
「国内企業のビッグデータ活用率は欧米と比べて著しく低く、最大の阻害要因は『データの品質・整備の不十分さ』と『分析人材の不足』である。技術的な課題よりも、データをビジネス課題に接続する組織能力の欠如が問題の核心にある。」
— 総務省「平成27年版 情報通信白書」(2015年)より要約
【用語解説】データサイロ(Data Silo)
「サイロ」は農業用の穀物貯蔵塔のこと。組織の部門ごとにデータが孤立して存在し、他部門・他システムと連携できていない状態を指す。各部署がそれぞれ別のシステム・フォーマットでデータを管理し、全社で統合できない構造が、日本企業のデータ活用を阻んだ最大の壁の一つだった。
皮肉メモ ▶ 「ビッグデータで課題を解決しよう」と言いながら、そのデータが「どこにあるか」「どんな形式か」「誰が管理しているか」すら把握できていなかった組織は、日本全国に無数にあった。ビッグデータブームは、日本企業のデータ管理の惨状を可視化するという意外な貢献を残した。
CH.05
法律が間に合わなかった
あらすじ:当時の個人情報保護法(2003年施行)は「匿名化データ」のグレーゾーンを解決できなかった。Suicaスキャンダルを契機に2015年改正法が成立、「匿名加工情報」概念が導入されるまで、企業はデータを持ちながら使えないという奇妙な状況に置かれた。
5.1 グレーゾーンが生んだ萎縮とスキャンダルの両方
当時の個人情報保護法(2003年施行)は「個人情報」を「特定の個人を識別できる情報」と定義していた。「匿名化したデータ」がどこからが個人情報になるのか——このグレーゾーンが、企業の萎縮とデータの乱用の両方を引き起こした。
ある企業は「個人情報に当たるかもしれない」という恐れからデータを活用できず、別の企業(JR東日本)は「個人情報ではない」と判断して社会的批判を浴びた。同じグレーゾーンが、真逆の結果を生んだのだ。
5.2 Suicaが動かした法改正
2015年9月3日、改正個人情報保護法が成立した。最大の目玉は「匿名加工情報」という新概念の導入——個人を特定できないよう十分に加工されたデータは、本人の同意なく第三者提供できるとされた。施行は2017年5月。
ビッグデータブームが始まってから法整備が追いつくまで、5年以上かかった。
【用語解説】匿名加工情報
2015年の改正個人情報保護法で導入された概念。個人情報から氏名・住所・生年月日などを削除・変換し、特定の個人を識別できないよう加工した情報。本人同意なしに第三者へ提供できる。ただし他のデータと組み合わせた「再識別リスク」が現在も研究課題。
CH.06
王国の年代記
2001年
META Groupのダグ・レイニーが「3V(Volume・Velocity・Variety)」モデルを提唱。ビッグデータ概念の原型(META Groupは2004年にガートナーが買収)
2011年5月
マッキンゼー・グローバル・インスティテュートが “Big data: The next frontier” 報告書を公開。世界的なビッグデータブームの起点となる
2012年7月
総務省「情報通信白書 平成24年版」がビッグデータを特集。国内市場2,000億円・2017年に1兆円超と予測。日本での「活用元年」が宣言される
2012〜2013年
日本国内でビッグデータ関連セミナー・コンサル需要が爆発的に増加。「ビッグデータ部門」設置が相次ぐ
2013年6月14日
安倍政権「世界最先端IT国家創造宣言」閣議決定。ビッグデータ活用を国家戦略に明記
2013年7月1日
JR東日本がSuica乗降履歴を日立製作所に販売開始。問題化しSNSで批判殺到。「データは誰のものか」論争が勃発
2013年9月
JR東日本、Suicaデータの外部提供を停止
2014年2月
JR東日本有識者会議が中間とりまとめを公表。「利用者への事前説明と選択の機会提供が不可欠だった」と結論
2015年9月3日
改正個人情報保護法成立。「匿名加工情報」概念が導入される。Suicaスキャンダルが法改正の直接的な契機に
2016年3月
AlphaGoがプロ棋士イ・セドルを破る。AIブーム(第三次)が勃興し「ビッグデータ」という言葉が急速に後退
2017年5月
改正個人情報保護法施行。法的基盤がようやく整うも、ビッグデータという言葉の使用頻度はすでに急減
2022年〜現在
ChatGPTを契機とした生成AIブームにより「ビッグデータ」はさらに影へ。しかしLLMの学習基盤として、その役割は静かに続く
CH.07
AIという後継者、そして「ビッグデータ」の消滅
あらすじ:2016年、AlphaGoの衝撃でAIブームが来た。「ビッグデータ部門」は「AI推進部門」に改名され、言葉は変わったが本質は変わっていない。ChatGPTはビッグデータなしには存在できない。
7.1 旗印だけが変わった
2016年3月。AlphaGoがプロ棋士イ・セドルを破った。「データを集めること」より「AIでデータを解析すること」の方が重要だと世界が気づき、会議室の言語が変わった——「ビッグデータ」が消え「AI・機械学習・ディープラーニング」が来た。
実は本質的な変化は何もなかった。AIは大量のデータなしには学習できない。変わったのは「旗印」だけ。しかし旗印が変わると、予算が動き、担当部署が変わり、コンサルタントの資料のタイトルが変わった。
7.2 ChatGPTという究極の逆説
2022年。ChatGPTが登場した。「ビッグデータ」は完全に過去の言葉になった。
しかしGPT-4がどれほど賢いかは、その学習に使われた数千億件のWebデータ——ビッグデータ——の質と量にかかっている。王国は倒れても、臣民は姿を変えて別の主君に仕える。情報処理の世界では、よくあることだ。
俯瞰メモ ▶ バズワードとはライフサイクルが速い生き物だ。「ビッグデータ」→「AI」→「生成AI」。言葉は変わり、予算は動き、担当者は消耗する。しかし根本の課題——データの品質・人材・組織文化——は変わらない。次のバズワードが来ても、同じ問いが残るだろう。
CH.08
データは誰のためにあったのか
あらすじ:「宝の地図(データ)があれば宝(価値)が手に入る」と信じた者たちの記録。ビッグデータ王国は、データを「資源」として見すぎて「人間の行動の記録」であることを忘れた。誰が悪かったわけでもない。
8.1 「宝の地図」問題
ビッグデータブームを振り返ると、奇妙なことに気づく。「データで価値を生み出した成功例」と「ビッグデータという言葉で予算を取ったプロジェクト」が、日本では後者に偏りすぎていた。
答えは「宝の地図」問題にある。地図を読む能力も、歩く体力も、地図を解釈する知識も——ほとんどの組織には準備できていなかった。「宝の地図を手に入れることが、宝を手に入れることだ」と信じた人々が多すぎた。
8.2 技術と倫理観の速度差
Suicaスキャンダルはその象徴だった。データは利用者の毎日の行動記録であり、無断で売って良い「石油」ではなかった。ビッグデータ王国は、データを「資源」として見すぎて「人間の行動の記録」であることを忘れた。
誰が悪かったわけでもない。技術が社会の倫理観を追い越す速度が速すぎただけだ。そしてその速度のズレを埋めるのが法律で、法律が間に合うまでに、スキャンダルとブームの消滅が先に来た。
あなたの会社や職場に「溜まっているけど使われていないデータ」はないだろうか。ExcelやPDFに眠ったまま、誰も分析しないデータは、日本中の企業に今も存在する。それをどう扱うか——その問いはビッグデータブームが去った今も、何も変わっていない。
データは、それを生み出した人間のためにあるはずだった。その当たり前の結論に到達するまでに、日本は5年以上かかった。
蓄積されたデータは、今日も静かに増え続けている。
使われることなく増え続けるデータと、
使い方を探し続ける人間の、
終わらない非対称について。
―― 収集 継続
参考・引用資料
・マッキンゼー・グローバル・インスティテュート “Big data: The next frontier for innovation, competition, and productivity”(2011年5月)
・総務省「平成24年版 情報通信白書」(2012年7月)— https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/
・総務省「平成27年版 情報通信白書」(2015年)— https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc254320.html
・「世界最先端IT国家創造宣言」(2013年6月14日 閣議決定)— https://cio.go.jp/node/1521
・ITmedia「Suica利用履歴販売、JR東は『個人情報に当たらない』との見解」(2013年7月19日)— https://www.itmedia.co.jp/makoto/articles/1307/19/news141.html
・日経Xテック「『Suica履歴販売』は何を誤ったのか」(2013年10月)— https://xtech.nikkei.com/it/article/NC/20131010/510322/
・JR東日本「Suicaに関するデータの社外への提供についての有識者会議 中間とりまとめ」(2014年2月)— https://www.jreast.co.jp/chukantorimatome/20140320.pdf
・日経Xテック「Suica履歴販売が波紋呼んだ2013年、『匿名加工情報』議論の契機に」— https://xtech.nikkei.com/atcl/nxt/column/18/00215/071500037/
・BUSINESS LAWYERS「改正個人情報保護法ではビッグデータの扱いをどのように定めたか」— https://www.businesslawyers.jp/practices/280