1万分の1という「エラー率」って何だ?


Microsoftついでに、10月25日に言いかけたことを補足。


こっちの日経の記事によると、

Kirtasは,大容量の書籍デジタル化で独自のソリューションを用いており,「エラー率は1万ページに1ページ未満」

ってことらしい。だけど、これって相当お茶を濁されてるよね。「エラー率」ってなんだ?



まず、一般的なこと。


最近、久しぶりに「パリ症候群」の話題を目にした。こちらを読むと、いろいろと原因はあるらしいけど、要は「期待のしすぎ」が原因らしい。


同様に、「エラー率は1万ページに1ページ未満」というのも、あまり期待しすぎちゃいけない。まずは、『パリ症候群』(ISBN:4895592332)って本を読んで、それなりに「異文化適応能力」をつけておこう。そんで、本の電子化に対して、次の2点は気をつけよう。

  1. 日本と異なる文化を理解する:(律儀な)日本人の基準で「エラー」を語ると痛い目にあうので、(いい加減な)西洋基準で「エラー」を考えよう
  2. 表層的な情報に踊らされない: 西洋基準の「エラー」だとしても、「エラー」はいたって主観的な話なので、数字にごまかされんようにしよう


こっから、少し専門的になる。


画像の傾きについて:
Amazonの電子化方法は、結構傾く。こちらのエントリで紹介した「0.7度の傾き」や、こちらの脚注で紹介した「1.2度の傾き」など。原因は、2つ。

  1. スキャン方法が古い
  2. 画像に傾き補正をかけてない

でも、だから悪いってわけじゃなくて、Amazonの用途としては、これで十分ってこと。
じゃあ、Kirtasの場合はどうかって言うと、おそらくスキャンした時点で、0.2度以下の傾きに抑えることができて、さらに画像処理で傾きを補正すんだけど、ちゃんとやれば0.01度以内に収まるはず。たまに自動補正がかからない画像があって、それは人間が見てチェックすんだけど、(いくら西洋人でも)慣れてる人が見れば、0.1度傾いてれば分かるはずだから、少なくとも素人じゃ分からない範囲(注:西洋基準ね)に収めることは可能。そんでもし万が一、全部のチェックをすり抜けて、傾いた画像があったとしても、「エラー」とするかどうかは、いたって見た人の感覚。したがって、「エラー率」っていう数字の話に、傾きはあまり関係ない。


ページの抜け・重複について:
本の電子化をしてると、たまに、同じページを2回スキャンしちゃったり、あるページをスキャンするのをわすれちゃったりする。スキャン忘れの原因は、2ページがくっついてて一緒にめくっちゃったときや、ページをめくった直後に誰かに声かけられて、話をしてから作業に戻ったら、そのページはすでにスキャンしたと思い込んで、またページめくっちゃった、なんてときや、そもそも印刷ミスやページが破れてるとき。
そんで、重複してスキャンしちゃったってのは、あとで消せばいいだけなので、無問題。でも抜けちゃったページは痛いね。そんで、抜けについても、スキャン時のハードによるチェック方法や、スキャン後のソフトによるチェック方法などを駆使すれば、ほぼゼロにできる。(やぶられてるとかで)最初から無いページはどーしようもない。というわけで、「エラー率」に関係してくるのは、「本の状態」が一番大きい。問題は、スキャン技術でなく、図書館の蔵書のうち、何冊くらいがダメージを受けているのか、ってこと。


OCRの誤変換について:
Kirtasの採用しているAbbyyのOCRは、おそらく世界最強。そんで、彼らはいつも「認識率(accuracy)は99.999%」と言ってる。言い換えれば、「10万回に1回は誤認識する」ってことだよね。ここでfuzzy2さんの報告を見てみよう。fuzzy2さんは、「5ページ目には、全部で425文字あって、そのうち2文字が誤変換だったので、正解率は99.5%」と書いている。そんでもしページ単位で「認識率」を計算してみると、誤変換のないページはたったの18ページしかないから(全部で288ページあるので)、「認識率」はたったの6.25%でしかない。(または、「エラー率」が1.07ページに1ページ。ほぼ全部じゃん。)
というわけで、誰がどう考えても、Abbyyの言ってる「認識率」ってのは、文字単位であって、ページ単位じゃないよね。もしページあたり「エラー率」みたいのを計算すると、おそらく「100ページに1ページ」くらいだと思うよ。だから、本1冊の中に、最低3〜5文字は変なのがあるくらい、覚悟してね。
で、Kirtasの言ってる「エラー率は1万ページに1ページ未満」というのは、OCR誤認識は含まれていないと考えるか、「多少の変換ミスはしょうがない」という西洋基準なのか、どっちかだね。*1あと9月11日に紹介したシミによるOCR誤変換は、おそらく「エラー」としてカウントされないよ。


そのほか、細かいことを挙げれば、たーくっさんあるんだけど、要するに、数字にごまかされちゃいけない、ってこと。何が「エラー」なのかって、そんなに簡単に決められないよ。そんで、もしどうしても数字がないと安心できないって言うなら、Googleスキャンプロジェクトは、「10ページに1ページくらい」の「エラー率」なんだけど、Microsoftは今回「1万ページに1ページ未満」くらいでやるよ、って感じで受け止めておけば良いのでは。


というわけで、結局何が言いたいのかっていうと、「パリ症候群」にならなければ、パリって素敵だよ、ってこと。

*1:全ページに校正かけるって可能性もあるけど、まさかね