「透明テキスト」を具体的に見る
10月4日エントリで、PDFとかに貼っついてんのが、「透明テキスト」だよって言った。そんで、「透明テキスト」ってのは、贅肉落とした"Image Coordinates"だって紹介したけど、どんなもんか、見せてなかった。やっぱり、この記の特徴は、「具体的に示す」ってことだから、お茶を濁すわけにはいかんよね。
というわけで、
本日の課題図書『Bulletin of the American Mathematical Society Volume 64, Number 5』の3ページ目
これの最初の3行目までの「透明テキスト」は、
A SURVEY OF THE THEORY OF SPECTRAL OPERATORS NELSON DUNFORD Dedicated to lVIarston *11\lorse
てな感じ。こっちと比べて、かなり質素でしょ。ファイルサイズも、92ページ分で2.3MBだよ。ページあたりの大きさで比較すっと、「透明テキスト」は、"Image Coordinates"の10分の1くらいの大きさってことになる。
ただ、これはDjVu(デジャヴ)*2ってのを使ったデータなので、みんなの知ってるPDFもんじゃないけど、四捨五入すれば一緒ね。
あれっ、単語単位なの?って思ったかも知んないけど、「透明テキスト」くらいだったら、単語単位にしといたほうが何かと便利。この例だと、フォント・色とかがデータとして残ってない。そういう意味で、贅肉おとしてあるわけ。(でも、10分の1くらいになっちゃうことを考えると、贅肉落としたどころじゃなくて、骨しか残っとらんよね。)あとは、「透明テキスト」を作成する段階で、色情報も残しておこうだとか、文字の大きさは残しておこうとか、いろいろ仕込んでおく。誰がどんな感じで使うかってこと次第だよね。
そんで、この「透明テキスト」を使った「透明テキストPDF」ってのは、「人間が読む本」と「本が読む本」の中間って感じで、いわゆるハイブリッドだな。検索するときは、「透明テキスト」部分が使われて、PDFがハイライトしといてくれっから、人間が見ようと思ったときは、該当する「画像」の部分をみればいいわけ。