1GBあたり100円、したがって1冊150円(電気代抜く)

昨日は、1冊1.5GBくらいかな、と想定した。

では、ストレージはいくらくらいするのか?
とりあえず、簡単に考えるだけなので、大きなストレージを買うのにいくらかかるか、ってことを考える。
電気代とか、維持費とかかかるんだけど、それは次の課題として、今回は大容量ストレージを買うだけ。



Internet Archiveは、どんなストレージを使っているかというと、Capricorn Technologies社製。2005年6月に購入したけど、200万ドルだった。(この記事参照。)

これ、ペタボックスという名前が示すとおり、1PBの容量を持つ。(英語と技術に詳しい方はこちらを。)
1GBあたりの値段として、2ドルということになるけど、これについて、1年前の当時、こんないちゃもんがついた。(さっきの記事の一番下のほう。)

Tanejaのアナリストも、低価格ゆえに、Capricornのシステムがどれだけ利用に耐えられるか不安だと述べ、特に大規模なビジネスユーザーでは注意が必要だと付け加えた。「2ドルという価格は、ディスクベースのストレージにしては、非常に低価格だ。Capricornが話しているのは、あくまでもハードウェアの価格に過ぎない」。

じゃ、1年経った今、ストレージ価格はどうなったのか?

富士通によれば、1.36ペタバイトで、1.5億円くらい。WEB上で定価1.5億円だよ、と言っているところから察するに、実際は1.2億円くらいかな。
1.36PB≒1,400,000GBということを考えれば、1GBあたり、約100円ってことになる。

だから、1年前に買っちゃったInternet Archiveは、1冊300円くらいのストレージ代だけど、今なら1冊150円。
ストレージの世界って1年経てばこんなものなのか。大変だろうな。

このETERNUS8000モデル2100なら、1台で90万冊くらい収納できる。でも、Googleはとりあえず1500万冊をスキャンすると言ってるので、このストレージが17台くらい必要。だいたい20億円か。



(ここから脱線)

参考までに、Internet Archiveは、2006年6月までに、Wayback Machineを含む全てのデータをこのPetaboxへ移し終わった。(証拠)2005年6月に搬入されたので、データの写し作業は、1年かかった!長い道のりだった。

1年かけて移したデータ量についてだけど、Wikipediaを見ると、こんな風に書いてある。

2004年時点でウェイバックマシンが保持しているデータ容量はおよそ1ペタバイトであり、月に20テラバイトの割合で増加を続けている。この増加率は2003年の報告の増加率月あたり12テラバイトのおよそ倍の速度になる。

でも、2004年時点で、1PBもなかったと思うよ。

asahi.comの平さんがカールケイルさんにインタビューしているけど、カールケイルさんはこう言ってる。

今は、約1000台のコンピューターをつないで、あわせて500テラ(兆)バイト以上の容量のハードディスクが動いている。このうち、300テラバイト以上がウェブページの保存データだ。

(中略)

さらに『ペタ〈1000兆〉・ボックス(Petabox)』というプロジェクトで、手始めに80台のマシンをアムステルダムに置いている。このプロジェクトは最終的には800台のマシンを使い、1ペタバイトという膨大な量のデータを長期間にわたって保存、なおかつアクセスも可能にする、という試みだ。

要するに2004年9月の時点で、ウェイバックマシンが保持しているデータ容量はおよそ300TBくらいでしょう。これはいろんな記事を見てたり、いろいろと探りを入れたりして、そう結論したので、私見


そんで、もうひとつ、Wikipediaに疑問があるんだけど、もし20TB/月で増えているとしたら、現在、800TBくらいになっているはず。でも、そんなに増えていないように見える。現在の容量は350TBくらいに思えるんだけど(つまり、あんまり増えてないと思ってる)、Wayback Machineについて語るのは、この日記の範囲じゃないから、これくらいで止めとく。




念のため言っておくと、平さんの記事の中で、以下の部分は補足が必要。

本1冊のデータ量は、だいたい1メガ(100万)バイト。

カールケイルさんの言いたいことは、「文字だけとってきて保存するなら、1冊あたり1MBまで圧縮できるよ」ってこと。

On average, a book can be condensed to a megabyte in Microsoft Word.

この記事で紹介されているように、LC(米国版国会図書館)の蔵書2,800万冊は、28TBくらいにしかならない、って言ってるけど、これは極端な話。実際Internet Archiveは、1冊あたり1.5GBくらい使ってる。大島芳樹さんが最近、カールケイルさんの話を聞いてきたらしい。まだ1冊1MBだと言っているとのこと。理想としてはすばらしいけど、まだ現実が追いついていない。ネックになっているのは、どう考えてもOCR

もし本当に実現したら、日本の国会図書館は、このHDDを8個買えば良い計算になる。