Google 2004 100TB/日をMapReduce処理
2008 20PB/日
eBay の data warehouse, 2PB と6.5PB
170兆レコードが、1500億レコード/日で増えていく
Facebook 2.5PBが、15TB/日で増えていく
PBはもう一般的。データ収容能力は、データ処理能力を圧倒している
さらに悪いことに、データ容量は、帯域よりも性能向上がずっと速いため、収容したものを読み直すだけでも大変になってきている。
成長速度の比較
ディスクサイズ 10MB級/1985 -> 2TB/2010 (20万倍)
おなじ期間に、レイテンシは2倍程度、帯域は50倍程度
個人も組織のその容量いっぱいまでは貯め込むという傾向が続くとすると、ラージデータ問題は深刻さを増していく。
----
商業利用の領域だけでなく、学術領域でもデータ管理の問題の重要性が広く認識されている。PB級のデータは一般的になってきている。
・高エネルギー物理学では、2005にはPB級のデータベースについて言及がある。ジュネーブ近郊のLHCがフル稼働を始めると、15PB/年のデータが蓄積される。
・天文学者の間ではデジタル観測の重要性は前から認識されている。LSSTのチリの望遠鏡が2015に稼働すると、3.2Gピクセルのカメラが、0.5PBのデータを毎月生成するだろう。
・次世代DNAシーケンサは、蓄積・整理・配信すべきDNA情報の洪水をおこしている。EBIのEMBI-bankでは、2.5PB/2008 -> 5PB/2009と、拡大している。遠くない将来、個人ゲノムの解析が、今日の血液生化学検査のような手軽なものになるだろう。干渉・作用が特定個人向けになるような、個人向け遺伝子医療の時代がとなって。

