本はこうしてスキャられる(2)

Si vous avez quelques questions concernant mon article, contactez moi svp.(bookscanner.sf@gmail.com)


スキャン現場訪問ということで、フランスのInfotechnique社を見てんだけど、今日はその続き。この会社は、10年くらい前に設立されて、スキャン請負ビジネスなどしてる。そんで、その中でも、「アマルフィ・プロジェクト(Le projet Amalfi*1)って名前で、本(みたいなもん)のスキャンをしてるんよ。


その(ものすご〜い)プロジェクトの中身は、というと、


http://www.infotechnique.com/fr/pages/04_cas_04.htmlによると、総予算6,000万ユーロ(だいたい80億円くらいかな)っていう大規模プロジェクトで、Alsace-Moselle地方*2の土地登記簿を電子化して便利にしましょ、って計画だよ。「実際のスキャン+後処理」の部分だけを切り出しても予算として、2,300万ユーロなんだって。*3


さっそく、ビデオをみてみましょ。
http://www.infotechnique.com/fr/videos/04player_cas04.html
でも、フランス語で分かりにくいので、bookscanner語で解説を書いとくので、この解説と一緒に眺めてね。


アマルフィ・プロジェクトについて、説明いたしま〜す。」
(注意)フランス法務省がスポンサーね。


「予算は、6,000万ユーロで〜す。」
(注意)後ろに写ってのが、土地登記簿ね。


「うちらInfotechnique社が担当するのは、手書きの登記簿40,000冊で〜す。」
(注意)写ってるスキャナは、i2s社のこんなスキャナね。普通、大きいサイズのものをスキャンするときに、活用するもんだよ。だから、映像みてみると、大きな本がドデ〜んと置かれてるでしょ。(あと、スキャン予算2,300万ユーロってんだから、1冊あたり、575ユーロ(約750ドル)ね*4。前にも見たけど、Amazonは1冊1ドル(伝説)ね。)


「各登記簿保管場所から運んでくる車は、全てGPSで監視してま〜す。」
(注意)いっちょまえに、メルセデス社製の車っぽい。運転手が途中でサボってたりすると、全部バレちゃうね。結構、スパイ映画みたいで、おもしろそー。


「しかも全ての登記簿はRFIDタグをつけておいて、トレースできるようにしてま〜す。」
(注意)前回見た、万引き防止装置あったでしょ。あれとセットね。こんなところも、お金がかかる要因ね。写真じゃわかりにくくなっちゃったかもしんない。


「こんな感じでスキャンしてま〜す。」
(注意)前回も見たけど、この部屋には、4DigitalBooks社のスキャナが4台ね。それに加えて、左手前に見えてんのが、Kirtas社のスキャナね。あと、前回の訂正だけど、手動スキャナは、この部屋に2台(手前と奥)あったよ。まぁ、あまり興味ないかもしんないけど。


「全部で3,200万ページをスキャンしま〜す。」
(注意)ちなみに、Googleがスキャンしようって言ってんのは、1,500万ね。「ページ」と「冊」じゃ、2桁違う単位だからね。


「スキャンデータは、マダガスカルモーリス島へ、衛星を使って転送しま〜す。」
(注意)この地域は公用語がフランス語だからね。前にも見たけど、アメリカだったら、インドやフィリピンを使うんだけど、フランスだから、このあたりね。


「たくさ〜んの人にお願いして、文字入力してもらってま〜す。」
(注意)50人以上はいそうだね。地元の雇用に貢献してるな。


「プロジェクトは4年くらいかかりま〜す。全部で20億文字くらいを人海戦術で入力しま〜す。精度は99.6%で〜す。」
(注意)ほれ、きた!何に関する精度なの?うちらは、騙されんぞ。あと、http://d.hatena.ne.jp/bookscanner/20060913で書いたけど、もし、Google-UCが3,000冊/日をOCRにかけてるとすると、10億〜30億文字/日を、OCRで変換してるんだよ。すごいね。


さて、結局何が言いたいかって言うと、このInfotechnique社の設備だと、普通の本に換算して、約50〜100冊/日の処理能力がある(んじゃないかな)。そんで、Microsoft-Kirtasは1,800冊/日くらいやるかもしんないし、Google-UCは3,000冊/日くらいやるって宣言しとんでしょ。そうすっと、MやGがどんくらいの広さと設備なのか、ってのは、ある程度想像できるよね、ってこと。

*1:名前の由来は、フランス語で「Alsace-Moselleの土地登記簿電子化計画」っていうのの頭文字をとってんので、イタリアにある地名とは無関係だよん

*2:http://www5e.biglobe.ne.jp/~truffe/alsace.htm、この地図の1〜3の地域ね

*3:「金をドブに捨てるようなプロジェクト」と批判してる人もいるよ

*4:スキャンだけじゃなくて、そのあとの人海戦術によるタイピングとかもも含まれてる。しかも、残したい「思い出」が多いタイプのプロジェクトだからね。