大量スキャンプロジェクトにおいて、ダブりなどない②

前回の要約

出版された当時は「同じ本」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ本」とは言えないようになってる

という感じで、本の状態に注目して「本の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことを主張してみた。

今回は、仮に本の状態が全く同じだったとしても、それでも「ダブりなんてないよ」ということを見てみる。特にスキャン画像の傾きとOCRについて注目してみるよ。

fuzzy2さんが、家庭用スキャナとOCRで、小説『涼宮ハルヒの憂鬱』（結構、いろんなところでこの小説の話題を目にするんだけど、いまだに読んだことがない、お恥ずかしい限り。）を電子化して、OCR結果を検討してる。必見。
http://d.hatena.ne.jp/fuzzy2/20060916/p1
http://d.hatena.ne.jp/fuzzy2/20060914/p1
http://d.hatena.ne.jp/fuzzy2/20060904/p1

業務用スキャナや業務用OCRでも、おおよその作業は同じ。

そんで、OCRってのはちょっとしたことで、結果が大きく異なるんだけど、全部のチェック項目を紹介することはさすがにできないので、今日は、fuzzy2さんが「STEP 0: 原画像(傾き補正等の処理)」と呼んでる部分だけ。

傾き補正ってのは、こういうこと。

http://scansnap.fujitsu.com/jp/feature/auto-2.htmlより

実際の補正というのは、こういうこと。
名古屋のmasaさんがPhotoshopで傾き補正してるけど、本のスキャン現場ではこれを自動的にやるわけ。masaさんは地面を基準に修正してるけど、本の場合、文章だったら、「行」を基準に直せばよいし、絵とか表だったら、どっかに水平線があんので、それを基準にすればよいわけ。

そんで、人が目で見るくらいなら、単に傾きを直せば良い。（っていうか、多少の傾きなら直す必要もない。実際にアメリカの本なんて、そもそも印刷が傾いてるもんもある。それを読むとき、本を傾かせて読んだりしないしね。だいたいアメリカのドル紙幣だって印刷が傾いてるだから、本が傾くくらい当たり前。）だけど、本のスキャンプロジェクトは、「人間が読むためじゃない」ので、ちょいと事情が違う。

Kofax社の宣伝に、こう書かれている。

VRS（Kofax社の製品名ね）は、自動的に各スキャンイメージの傾きを調整します。この調整は、特にOCRやICRのような自動認識技術の実行において必要です。
従来の傾き補正（では）...ギザギザのエッジが現れています。

VRSでスキャンされたイメージで（は）...復調性イメージに変換する前に、グレースケールで自動的に傾き補正されてい（て）...自動認識ソフトウェアでも正確に可読できる文字になっています。（「ギザギザのエッジ」が減った！っていうことね）

要するに、そのまま傾き補正したんじゃ、OCRでは読めないよってこと。ちなみに、この「ギザギザのエッジ」を減らすことは、Kofax社だけができるわけじゃなくて、今となっちゃ、どの会社だってできるよ。例えば、Panasonicは「スムージング機能」って呼ぶ。

というわけで、話をやっと本筋に戻すと、

スキャン画像が傾く　＞　傾きを補正しないとOCRにかけれない　＞　補正具合でOCR結果に差が出る

ということになるわけ。

さらに、9月13日の『自動ブックスキャナの導入は、スキャン作業の省力化が主な目的ではない』でも書いたように、

できるだけ均質な画像を提供するために、自動ブックスキャナを導入する

んだけど、「ほぼ同じ画像を提供し続けることができる」ってのが現実で、「全く同じ画像」ってのは無理なんだな。残念だけど。

だから、仮に本の状態が全く同じだったとしても、違う画像ができちゃうわけ。同じ本を2度スキャンしたって、2つの異なる画像になるよ。目で見たって分からんけどね。でも、OCRにかけちゃうと違う結果になっちゃうわけで、そういう意味で「本の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことになる。