Internet Archive、1日200冊、年間予算2億円

Internet Archiveでどんな作業が行われているのか、を紹介する。（詳細を知りたい人は、こちらを。）

昨日、オークランドに10台のマシンを並べて、スキャン作業をしていることを書いた。

各マシンは、1時間あたり500ページのスキャンをする。

オペレータは2交代制で、1日の時間は14時間。（一人8時間勤務で、途中休憩1時間だと思う。）

1台あたり、1日7,000ページをスキャンすることになる。

10台あるので、1日70,000ページ。

だいたい、こういう場合、1冊は350ページくらいと想定するのが相場なので、1日200冊が電子化されていく。

まぁ、だいたい年間に300日くらいあるので、1年で60,000冊。

彼らの予算は、1冊あたり35ドルくらいなので、年間210万ドル。日本円で約2億円かな。

前に、某S大学が800万冊の蔵書を全てスキャンする予算として、270億円くらいだと言っていた。1冊あたり30ドルと考えていることになる。

1冊あたりのコストは、30〜35ドルくらいなんだろうけど、5ドルの差は大きい。なぜなら、スキャンプロジェクトは普通何百万冊という膨大な量だから。1冊あたり1ドルを節約できたら、プロジェクトとしては、1億円節約できる。

コストの話はいずれするとして、Internet Archiveの計画が順調なのかどうか、ということ。

このプロジェクトは、このサイトに行くと、公開されている数が出ている。今日は2,180アイテム。ただし、Internet Archiveはテストした結果などもアップロードしていて、2,180アイテムのうち、約80アイテムは、テストもの。だから、現在2,100アイテム。

1日~~1,000冊~~200冊の予定なので、2,100アイテムというのは、どう見ても少ない。

毎月のアップロード数を出してみた。1日200アイテムどころではなく、1月400アイテムのペース。あまりに遅い。どうしたのだろう？
3月229アイテム
4月421アイテム
5月426アイテム
6月337アイテム
7月420アイテム
8月（今日まで）43アイテム

推定方法：
7月にスキャンされたものを、以下のクエリーで検索。
collection:(americana) AND /metadata/scandate:["20060701000000" TO "20060801000000"]

問題点：
メタデータのSCANDATEに形式が統一されていないものがあり、例えば、これは「Mon Mar 06 11:48:04 PST 2006」形式になっている。本来なら、20060306114804になっていないといけない。形式が異なっているアイテムを差し引いても、まだ155アイテムが分類不能。ただいま調査中。

とりあえず、今後、この数がどうやって増えていくのか、見ていくしかないが、今のところ、順調にアップロードされていない。（スキャン作業は順調かもしれなく、整形作業に手間取っていたりするかもしれない。）