規模のはなし
電子化プロジェクトの規模に関して、3つくらいの分け方があるよ。
- 並 (普通、何もつけず、"Digitization")
- 大 ("Large Scale Digitization")
- 特大 ("Mass Digitization")
おおざっぱに考えれば、
並:100冊くらい
大:10,000冊くらい
特大:1,000,000冊くらい
ってな感じなので、適当に分類しといてね。*2
そんで、規模に関して、勘違いされがちなのが、コストのこと。かなりおおざっぱに理解すっため、かなり極端な話をすっと、「プロジェクトの規模に関係なく、総予算は変わらん」わけ。
つまり、
並:100万ドルくらい
大:100万ドルくらい
特大:100万ドルくらい
となる。
なんでかっていうと、「並プロジェクトでは、たった100冊しかスキャンできないんだから、スキャン対象本は、厳選に厳選を重ねた挙句、さらに厳選をして、最後にまたもや厳選してからスキャンをする。スキャン後はOCRかけて、1字1句間違えてないか、入念にチェックをして、チェック忘れがないのか、入念に検査するわけ。ところが、100万冊もスキャンするとなると、厳選X4なんてしてられんから、くじ引きでソッコー決めちゃう。スキャン後のOCRチェックも、まぁ、テキトー。そんなこんなしてると、結局、並は結構かかるし、特大は思ったよりかからんくて、総予算はあんま変わらんね」ってことになるわけ。
というわけで、結局何が言いたいのかっていうと、「よく、予算がないから電子化が進まないって言う人がいるけど、ある意味おかしい。おそらく、たとえ予算があったとしても、大半は、「対象本を選抜する委員会の委員を選抜する会を設置するかどうかを話し合う会議」に費やされて、肝心の電子化作業へお金が届いたときには、すずめの涙も残っとらんもんだよ。だから、これだけは覚えといて。電子化のコストのうち、実際のスキャン作業のコストなんて、すごーくわずかな規模なんだよ。よく「電子化=スキャン作業」と考えがちだけど、大きな誤解だからね。そういう意味で、特大プロジェクトが成功するかどうかは、実際のスキャン作業以外の出費をいかに抑えることができるかどうか、ってことにかかってんよ*3」ってこと。
*1:本日の話は、かなりデフォルメされてんので、鵜呑み厳禁
*2:ちなみに、Amazon20万冊は「特大」かな。Googleは間違いなく「特大」だね。
*3:http://d.hatena.ne.jp/bookscanner/20060905/p1にも書いたように、あれこれ考えずに、片っ端からスキャンしていっちゃうってのは、コスト削減のため考え抜かれた作戦のひとつなんよね