1冊1.5GB、1500万冊だと20PB

ストレージについて考える。

本をスキャンしたとき、大切なことがある。「最低でも2種類のデータを作り、貯めておくこと。」
ひとつ目のデータは、マスターと呼ばれ、できるだけきれいな画像。
ふたつ目のデータは、アクセスと呼ばれ、ネットとかで見て、見苦しくない程度に圧縮した画像。

なんでこんなことするのかというと、
①やっぱり、電子化はアーカイブ目的を持つから
②現在の画像処理技術(OCRも含む)ではできないことが将来できるかもしれないから

つまり、「いつか使うかもしれないから」という理由。


マスターとして重要なことは、圧縮しないか、可逆的圧縮であること。またその規格自体が、将来も生き残っていそうなもの。
アクセスとして重要なことは、ネット公開するなら、ブラウザが対応可能なファイル形式であること。


現在の主流:
マスター:TIFF(圧縮なし)
アクセス:JPEGかPDF


あと、解像度はいくつくらいが良いね、という基準はあるけど、細かい話なので、ここでは割愛。


本来なら、アクセスとしてPDF、ってのは微妙なライン。でも、結構、みんな使ってて、もういまさらダメだよ、とは言えず、なぁなぁに使われている。A社の戦略にみんなやられた。


ここまでは予備知識。
じゃ、1冊350ページだとすると、どのくらいの大きさになるのか?


また、この本を参考にする。
画面左の「Read text」欄を見てみると、PDFが24MBになっている。この本は400ページ。

同様に、
この本は、242ページで、30MB。
こっちは、358ページで、25MB。

まぁ、こんな感じ。
最近は、圧縮技術が発達してるので、どんどん小さくなるから、このアクセスのことはあまり気にしなくてもよい。ただ、1冊20〜30MBというのは、もしダウンロードしてくること考えたら、もうちょびっと小さくなってほしいかな。10MB切らないと、Gmailで添付できないし。


一方、圧縮をしないことを原則とするマスターはどんなことになるのか?
8月11日に紹介したページへ行く。

画面左側にある「All files: FTP HTTP」というところの、HTTPをクリックする。

最近のInternet Archiveは、マスターをJPEG2000で統一しているので、末尾が「jp2.zip」というファイルにマスターがZipされている。

これは、1.1GB。
これは、1.6GB。
これは、1.5GB。


というわけで、いろいろと見てみると、おおよそ、マスター1.5GB、アクセス0.02GBくらいに落ちつく(かもしれない)。
だから、おおざっぱに言って、1冊1.5GBの容量となる。
JPEG2000を使ったり、PDFを使ったりしているが、1冊あたりのファイル量としては、標準と考えて良いと思う。


もしGoogleがマスターとアクセスをストレージしておくというルールに従っているとすると、今回の1500万冊をスキャンするプロジェクトでは、20ペタバイトくらい必要。


明日は、ストレージのお値段を見る。