本を読むと眠くなる理由


井野口さんが、10月2日の記に対してコメントしてくれて、こういう質問をしてくれた。

最近のスキャニング(+OCR)では、画像中の位置情報までメタデータとしてデータ化してしまう、ということは結構普通に行われていることなのでしょうか。


これに応えることは、とても重要だと思う。なぜなら、「この記が一番言いたいこと」に関係してるから。




いつものごとく、「この記が一番言いたいこと」は、「本の電子化は、人間が読むためじゃないよ」ってこと。


そうすると、普通に考えれば、OCRで単に文字データ化されれば、それで十分だよね。
言い換えると、

この画像(20KB、http://www.hti.umich.edu/cache/a/b/u/abu9581.0001.001/00000149.tifs.gif)に対しては、

PROBLEMS. 145

By express^^ algebraically, the second condition of the
problem, we olBti a second equation,




y 240ic = 310.

Both members of t^Krst equation being divisible by 100
and those of the^j^conri^^^O, w r e have,

= 31.

To eliminate cc, multiply the first equation by 8, and then
add the result to the second ; there results,

19y = 95, whence, y = 5.

Substituting for y, in the first equation, this value, and
that equation becomes,

3x 10 = 8, whence, x = 6.
Therefore, the first rate is 6 per cent, and the second 5.

VERIFICATION.

$30,000, at 6 per cent, gives 30,000 X .06 = $1800.
$20,000, 5 " " 20,000 X .05 = $1000.

And we have, 1800 1000 = 800.

The second condition can be verified in the same manner.

4. What two numbers are those, whose difference is 7,
and sum 33 ? Ans. 13 and 20.

5. Divide the number 75 into two such parts, that three
times the greater may exceed seven tunes the less by 15.

Ans. 54 and 21.

6. In a mixture of wine and cider, \ of the whole plus 25
gallons was wine, and i part minus 5 gallons was cider : how
many gallons were there of each ?

Ans. 85 of wine, and 35 of cider.

こんなデータ(1KB)で十分だっちゅうの、ってこと。(実際のOCR結果を引用してんので、いくつか「宇宙文字」が含まれてるけど、気にせんといて。)


この考え方を進めていくと、8月16日の記で紹介したように、

本1冊のデータ量は、だいたい1メガ(100万)バイト。
On average, a book can be condensed to a megabyte in Microsoft Word.

っていう、ケイルさんの発言につながるわけ。でも、「1MB/冊」作戦は、結局「人間しか読めん」かった。(っていうより、人間も読むのが大変だったから、誰も読まんかった、ということ。)だから、ケイルさんは最近、「1MB/冊」作戦やめて、「どこでも製本」作戦に切り替えた。




ところで、本を電子化したとして、どの部分が一番重要なんだろう?


アンカーテキスト効果から考えてもいいし、ハイパーテキストから考えてもいいけど、おそらく、本の中で重要なのは、「(目次、)引用、脚注、索引、参考文献」のあたりと思ってるよ。何が書かれてるのか、ってのも重要って言えば重要なんだけど、それ以上に、「どの本とつながってんのか」ってのが、もっと重要だと思う。(だから、もし予算の関係上、1冊まるごとは無理なんだけど、ってことになったら、迷わず「参考文献と目次」だけはスキャンしといて欲しいよ。意外に「謝辞」も重要だよ。)


まず、「引用」に焦点しぼってみると、普通、別の本から引用した時、本のタイトルとページを書くよね。そうすっと、その引用と引用元をリンクさせるためには、ページに関する情報くらいは、OCR結果にいれといて欲しいわけ。最低でもこんくらいあるといいかな。


あと、「図1をみていただきたい」なんて書いてあったとき、図1がどこにあんのか、ってのも追加しといてもらいたいし、脚注が挿入されてる場所とかも、ちゃんと記録しといてもらわんと。さらに、ルビ振ってあんなら、どの単語をルビってるのか知りたいよね。


そんなわけで、本ってのは、単に「単語の羅列」じゃなくて、いろいろと「見た目」情報が隠れてるわけ(見た目が隠れてるってちょいと変だね)。要するに、赤文字で書いてあれば、「重要なこと言ってんのかな」って思っちゃうし、太文字で書かれてば「とりあえずマーカーしとこ」って思うわけ。「本が本を読む」ってのは、実は、そんなところまで読もうとしてるし、そんなところが「手がかり」なんだよね。


そんなこんなで、OCRテキストのみ > +ページ情報 > +単語情報 > +文字情報って感じで進化してるわけ。


そんで、冒頭の井野口さんの質問に対する応えなんだけど、「はい。『本の電子化は人間が読むためじゃない』ってことを理解しながらやってるプロジェクトだったら、間違いなく、『画像中の位置情報までメタデータとしてデータ化』してますよ。そんでどんくらいの情報までをメタ化して組み込んでおくかってのは、プロジェクトの予算やる気想像力によりますよ。でも、最低ラインとして、透明テキストPDFくらいはやるでしょうね。」


でも、逆に考えて、人間ってすごいなぁ。読書するにも、五感をフル活用してんでしょ。だから、本を読むと眠くなるんだね。