大量スキャンプロジェクトにおいて、ダブりなどない②
9月11日に書いたものの続編。
前回の要約
出版された当時は「同じ本」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ本」とは言えないようになってる
という感じで、本の状態に注目して「本の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことを主張してみた。
今回は、仮に本の状態が全く同じだったとしても、それでも「ダブりなんてないよ」ということを見てみる。特にスキャン画像の傾きとOCRについて注目してみるよ。
fuzzy2さんが、家庭用スキャナとOCRで、小説『涼宮ハルヒの憂鬱』(結構、いろんなところでこの小説の話題を目にするんだけど、いまだに読んだことがない、お恥ずかしい限り。)を電子化して、OCR結果を検討してる。必見。
http://d.hatena.ne.jp/fuzzy2/20060916/p1
http://d.hatena.ne.jp/fuzzy2/20060914/p1
http://d.hatena.ne.jp/fuzzy2/20060904/p1
業務用スキャナや業務用OCRでも、おおよその作業は同じ。
そんで、OCRってのはちょっとしたことで、結果が大きく異なるんだけど、全部のチェック項目を紹介することはさすがにできないので、今日は、fuzzy2さんが「STEP 0: 原画像(傾き補正等の処理)」と呼んでる部分だけ。
傾き補正ってのは、こういうこと。
実際の補正というのは、こういうこと。
名古屋のmasaさんがPhotoshopで傾き補正してるけど、本のスキャン現場ではこれを自動的にやるわけ。masaさんは地面を基準に修正してるけど、本の場合、文章だったら、「行」を基準に直せばよいし、絵とか表だったら、どっかに水平線があんので、それを基準にすればよいわけ。
そんで、人が目で見るくらいなら、単に傾きを直せば良い。(っていうか、多少の傾きなら直す必要もない。実際にアメリカの本なんて、そもそも印刷が傾いてるもんもある。それを読むとき、本を傾かせて読んだりしないしね。だいたいアメリカのドル紙幣だって印刷が傾いてるだから、本が傾くくらい当たり前。)だけど、本のスキャンプロジェクトは、「人間が読むためじゃない」ので、ちょいと事情が違う。
Kofax社の宣伝に、こう書かれている。
VRS(Kofax社の製品名ね)は、自動的に各スキャンイメージの傾きを調整します。この調整は、特にOCRやICRのような自動認識技術の実行において必要です。
従来の傾き補正(では)...ギザギザのエッジが現れています。
VRSでスキャンされたイメージで(は)...復調性イメージに変換する前に、グレースケールで自動的に傾き補正されてい(て)...自動認識ソフトウェアでも正確に可読できる文字になっています。(「ギザギザのエッジ」が減った!っていうことね)
要するに、そのまま傾き補正したんじゃ、OCRでは読めないよってこと。ちなみに、この「ギザギザのエッジ」を減らすことは、Kofax社だけができるわけじゃなくて、今となっちゃ、どの会社だってできるよ。例えば、Panasonicは「スムージング機能」って呼ぶ。
というわけで、話をやっと本筋に戻すと、
ということになるわけ。
さらに、9月13日の『自動ブックスキャナの導入は、スキャン作業の省力化が主な目的ではない』でも書いたように、
できるだけ均質な画像を提供するために、自動ブックスキャナを導入する
んだけど、「ほぼ同じ画像を提供し続けることができる」ってのが現実で、「全く同じ画像」ってのは無理なんだな。残念だけど。
だから、仮に本の状態が全く同じだったとしても、違う画像ができちゃうわけ。同じ本を2度スキャンしたって、2つの異なる画像になるよ。目で見たって分からんけどね。でも、OCRにかけちゃうと違う結果になっちゃうわけで、そういう意味で「本の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことになる。