「なか見!」のOCR検証(1)


今日も引き続き、アマゾンの「なか見!検索 」。

さっそく、「なか見!」に行って、「」というキーワードで検索してみよう。
ひどいOCR結果のオンパレードが見れるはず。日本語OCRの程度の低さをアピールするには、都合が良い。


でも、悪いところを見て、悪い評価を下すだけじゃ、何の役にも立たんよね。やっぱり、良いとこを見て、良い評価もしとかんと。


そんじゃ、「なか見!」に行って、今度は、「憩室炎」をキーワードにして検索してみる。どれ見てもいいけど、とりあえず12番目くらいに出てくる『現代医療の治療効果を高める補完代替療法』(ISBN:4882824817)ってのをみてみよう。
一番下の方にある「この本に出てくる憩室炎についての詳細を見る」ってのをクリックしてみると、

1. 掲載ページ - p.174:
" ... 多発性硬化症、脊髄 損傷、クローン病憩室炎、痔核などの多くの慢性疾患が便秘を引き起こす可能 ... "
2. 掲載ページ - p.175:
"刺激や炎症を引き起こすことがあ る;この憩室の炎症が憩室炎である: 患者の目棟 ●いきんだり不快 ... 的に腸から便を排決する ●憩室炎の発生を予防または治療する。 175"

って感じで、結構難しい漢字もうまく変換してあるでしょ?これが出版社からの「文字データ」提供じゃなくて、OCRかけた結果だなって分かるのは、2つ理由があんよ。
1.174ページを見ると右に少し傾いてて、175ページは左に少し傾いてるから、スキャンした画像だってこと
2.174ページの「多発性硬化症、脊髄 損傷、」という結果の「脊髄」と「損傷」の間、175ページの「刺激や炎症を引き起こすことがあ る」という結果の「あ」と「る」の間に、それぞれ「スペース」があるでしょ?これは画像見れば分かるけど、改行部分だからそうなってて、もしデータ提供をされてれば、ここに「スペース」はできないから


あと、「雁行形態」なんてキーワードで検索してみても、なかなか良い結果だな。とくに、『日本経済新聞は信用できるか』(ISBN:4569639127)っていうのが引っかかってくるけど、これって、

日本が主導する雁行型発展形態といわれていたが

って感じで、ちょっとしたバリエーションで引っかかってきた。*1


そんでよくOCRに関して大問題にされる誤認識についてね。

例えば、「尊皇攘夷(そんのうじょうい)」ってのを調べたいとすんでしょ。「尊皇攘夷」で「なか見!検索」すると、

"尊皇攘夷"に完全に一致する結果がありませんでした。

ってことになる。じゃあ、どうすんのか?っていうと、「尊皇夷」や「尊皇夷」って感じで、「じょう」の部分を少し変化させる。そうすると、ほら、「尊皇嬢夷」なら135件、「尊皇捜夷」なら94件出てきたよ。*2ちゃんと『長州の天皇征伐』(ISBN:4880861898)などが検索できたよ。*3


さらに、縦書きっていう特徴を理解してると、「点」という漢字は、「占一」って検索するとでてくる可能性が高いよ。これは、下の4つの「てんてんてんてん」が、別の字と認識されて、しかも「一」(漢字のイチ)と間違えられちゃったのね。よくあること。そんで、こういう特徴知ってると、例えば、このページ(http://cinema.translocal.jp/books/medianorogoku/m-002.html)ってのは、縦書きの本をOCRかけて、そのまま載っけったんだな、って分かるわけ。*4


こんな感じで、誤認識ってのも実はある程度のパターンがあるわけ。そうすると、ひとつは、検索システムが賢くなってそういうのも拾ってくれればいいし、それまでは、検索する人が賢くなればいいだけ


賢くなるための参考サイト。
http://www.siesta.co.jp/aozora/archives/002740.html
http://www.hyuki.com/aozora/#i7
http://www.siesta.co.jp/aozora/archives/002763.html
http://ja.wikipedia.org/wiki/%E8%AA%A4%E5%A4%89%E6%8F%9B
http://www.tt.rim.or.jp/~rudyard/index.html (特に似字科)
http://www.planaria.org/prr/ver1/charlist.html
http://ync10172-web.hp.infoseek.co.jp/page10.htm
http://ync10172-web.hp.infoseek.co.jp/page11.htm
http://bell-c.com/martin/tips/tips64.html
http://d.hatena.ne.jp/fuzzy2/20060914/p1


でも、間違えやすい文字や傾向を知っとくのはいいけど、それじゃ応用きかんよね。最終的には、最低限の検索テク(と想像力)を磨くべし。*5あとは、OCR文書と毎日格闘すれば、自然と感覚が身につくよ。



というわけで、結論として、「日本語OCRは確かにひどい!でも、それで文句言ってるんじゃ、しかたない。ダメなOCRもパターンがあるので見抜けば良いし、そもそもかなりの確率でよく変換しとると思うよ。「脊髄」なんて漢字だってちゃんと変換してるし、なか見!は結構使えるんじゃない」ってこと。

*1:そんで、ついでに画像見てみたら、かなり左に傾いてて、これだとだいたい1.2度くらいね。ちょいとひどいな。いまのところ、「なか見!」検証史上、最悪の画像だな。

*2:他にも、「尊皇援夷」72件、「尊皇懐夷」71件、「尊皇壌夷」50件なんてあるよ。

*3:あと、fuzzy2さんとかが好きな「憂鬱」って漢字だけど、そのままだとヒット数ゼロ。でも、「憂欝」(ウツって字がちょいとちがう)で検索すると、3,008件もヒットするよ。

*4:おそらく、このサイトは、粉川哲夫さん本人がやってるんだろうけど、自分の著作を「以下のすべてのテキストの複製・印刷は自由です。copyrightなんてもう古い。」って感じで公開してる。えらいな。

*5:尊皇攘夷」のバリエーションをどうやって見つけてきたのかを想像してみれば分かるはず。高度なテクは要らんよね。