1冊40分

Internet Archiveの作業は、予定では1日200冊なのに、実際は1ヶ月400冊というペースでしか進んでいないことを紹介した。

今日は、なんでそんなに遅いのか、もう少し詳しく見てみる。


1ヶ月だと、だいたい稼動日として20日ある。すると、1ヶ月400冊というのは、1日あたり20冊。前にも書いたが、マシンは10台あるので、1台あたり1日2冊。しかも2シフトであることを考えると、早番の人は7時間かけて1冊、遅番の人も7時間かけて1冊、って計算になる。


本当にこんなことをしているのか、詳しく調べてみた。

幸い、Internet Archiveは、何でも情報公開するオープンな会社。調べようと思えば、何でも分かる(気がする)。


この本、ページ数としては400ページだが、約40分でスキャン作業を終えている。

なんでこんなことが分かるかというと、

まずこのページに行って、
画面左側にある「All files: FTP HTTP」というところの、HTTPをクリックする。



すると、"Index of /2/items/unitedstatesam03murrrich"というページに行く。

今度、ここにあるファイルに関して細かく見ていくが、今日はとりあえず、「scandata.zip」だけ。43MBなので、ちょっとダウンロードするのに時間がかかるが、やってみる。

scandata.zipは、7つくらいのフォルダ・ファイルで構成される。各ファイルの詳細は、いずれ紹介するとして、(また)今日はとりあえず、「scribe.log」だけを見る。

「scribe.log」を開くと、ずらずら〜といろんなことが書いてある。
これは、スキャンの稼動状態に関するログファイルなので、マシンをスタートさせてから、399枚の画像をとり、マシンが終了するまでの記録である。

スキャン時間を知るために重要なのは、とりあえず、最初の行と最後の行。

最初の行は、

[INFO||2006.08.08 5:20:49]: max:133234688 free:1189264 total:2818048

となっていて、8月8日の朝5時20分49秒に作業開始している。(結構早起き。)

最後の行は、

[INFO|finish|2006.08.08 6:02:49]: Book Finished.

となっているので、6時02分49秒に作業終了した。というわけで、この本の作業時間は、42分!


もし興味があれば、それぞれのページにどれくらい時間がかかっているのか計算してみてもよい。ちなみに、

[INFO|shoot|2006.08.08 5:46:50]: 0290.

こう書いてあれば、290ページ目が撮影された時間である。そして、カメラ2台で撮っているので、290ページと291ページの間はわずか2秒。そして、ページめくりに6〜9秒くらいかかって、292ページと293ページが撮られている。

本のスキャン作業は、はじめもたついて、どんどん油がのってきて、最後にまた少し遅くなる。電車みたいな感じ。スキャン後のPDFファイルを見るのもいいけど、そのPDF見ながら、オペレーターの作業風景を想像してみるのも、悪くない。



今日の結論として、1冊(400ページ)40分で作業しているので、1時間あたり600ページのペースであり、スキャン作業に問題はなさそうだ。

当初の計画だと、1時間500ページが目標なので、十分に達成している。じゃ、他に何が起こっているのだろ?



参考までに、背表紙を裁断して、スキャンする場合の時間を紹介する。

山田祥平さんが、こちらで紹介していて、

スキャンに要した時間は、...紙の再セットなどを含んでも文庫本300ページで約15分、440ページの単行本でも20分程度

とのこと。

背表紙を裁断するのに、キンコーズへ行って、3冊で20分くらいだった様子。
さらに、こんな問題点も指摘している。

スキャン中にはトラブルも発生する。当然のごとく送りが不安定になってジャム、すなわち用紙詰まりが起こるのだ。だが、複数枚送りは発生しなかった。ジャムも、その原因は、すべてが接着剤残りによるものだった。のどの部分にわずかに接着剤が残り、ページがくっついていることがあるのだ。あまりにも美しく裁断されているので油断してしまったが、スキャナにセットする前に、紙をよくさばいてページのくっつきを排除しておく必要がある。今回は、特に文庫本で接着剤残りが散見された。