1,000台のPCから始まった

復習

Googleのスキャンプロジェクトは、当面1,500万冊。
必要なストレージ容量は、20PB。金額にして、約20億円。

ストレージのことに関しては、とりあえず、今日で最後。

本の電子化というと、スキャナそのものが脚光を浴びる。自動ブックスキャナが開発されたから、これからどんどん電子化が進むぞ、という感じで。

でも、振り返って見ると、ストレージが進歩して、空スペースを大量に用意してくれたことは、かなり重大なことだと思う。
そのストレージの進歩に関して、Internet Archiveが果たした役割を最後に紹介する。



まず、2004年くらいまで、Internet Archiveはどんなストレージを使っていたか?

当時Internet Archiveを訪れた私の知人が「Brewster Kahleを知ってるか?PCを何百も並べて、変なことをやってるやつなんだけど」と言っていたを思い出す。実際にその友人が見たのは、こんな感じだろう。


2006年6月にデータ引越しが終了したと伝えたが、その前は、この写真にあるように、普通のPCをずらずら〜っと並べていた。


彼らのストレージ第一世代に関して、このように説明する。

HPのPCは1台1,180ドル。ひとつのラックに32台収まるから、1ラックあたり37,760ドルだな。でも、スイッチも1台必要だから、31台しか実際はのらない。スイッチは3,000ドルだから、1ラック39,580だ。

The HP computers were about $1180 each. A rack holds 32 (without a switch) so that's $37760 per rack. The racks with switches can only hold 31 and the switch is about $3000 so those racks are $39580 each.

第2世代については、こう。

1台のPCは1,620ドルだ。それぞれのPCに120GBのディスクを8個入れるとする。まぁ、正確に言うとそうじゃないけど、少なくとも、そんくらいを目標にしてた。ひとつのラックに20台のPCだから、32,400ドル。スイッチが1台必要だから、19台しかのらなく、スイッチは2,000ドルだから、全部で1ラック32,780ドルだ。

The new computers are about $1620 each. That's assuming 8 - 120 GB drives in each machine which is not 100% true but what we are shooting for. A rack holds 20 (without a switch) so that's $32,400 per rack. The racks with switches can only hold 19 and the switch which is about (less ports) $2000 so those racks are $32780.


それぞれ、何ラックくらい並べてたのか正確な数字は分からないけど、このあたりで、平さんのインタビューを受けているはずなので、PCの数としては約1,000くらいだったと思う。だから、第2世代のPCだけでも、50ラックくらいあったのかな。この当時すでに500TBの容量を持っていた(らしい)。



そんで、本当かうそか知らんけど、2004年くらいかな、Internet Archiveが1PBのストレージが必要だと思ったとき、こんな状況だったそうだ。

私たちはペタバイトのシステムが必要でした。それでSunやHPやIBMにいる友達に、なにか使えるものはないかと聞いたんです。でもほとんど何の答えもありませんでした。Sunは実は数年前に私たちと検討したものをベースにシステムを作っていたんですが、まだこれは立ち上げられる状態ではなかった。

(中略)
なので、自分で作らなくてはいけませんでした。

そういうわけで、1ラックあたり80TBくらいのものを、自分たちで設計した。それが過去2回で書いたPetabox。
ちなみに、2004年時点で何も応えることができなかったサン・マイクロシステムズは、やっとこんな製品を出した。こういうのを聞くと、会社はデカいだけじゃダメなんだな、と思う。


そして、Internet Archiveは、ウェイバックのために、この1PBのストレージを開発したんだけど、このおかげで、現在の全書籍電子化計画(富田さん命名)なんてことになったと思う。


おそらく、これまでちょこちょこ聞いた話からすると、Googleも同じで、自分たちでサーバーつくちゃって、ストレージに大量の空ができて、本の電子化へ進出してきたのかな。でも、本なんて、最大でも30PBくらいにしかなんないよ。各図書館の重複図書を無視して、全部スキャンすれば、それは200PBとか行くかもしれないけど。だから、スペース埋めとしては、あまり役に立てず、申し訳ない。



というわけで、ストレージに関しては、これくらい。
次は、その空スペースを埋めるべき、データ作成について、見ていく。