大量スキャンプロジェクトにおいて、ダブりなどない②

9月11日に書いたものの続編。

前回の要約

出版された当時は「同じ本」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ本」とは言えないようになってる

という感じで、本の状態に注目して「本の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことを主張してみた。


今回は、仮に本の状態が全く同じだったとしても、それでも「ダブりなんてないよ」ということを見てみる。特にスキャン画像の傾きとOCRについて注目してみるよ。

続きを読む