「透明テキスト」を具体的に見る


10月4日エントリで、PDFとかに貼っついてんのが、「透明テキスト」だよって言った。そんで、「透明テキスト」ってのは、贅肉落とした"Image Coordinates"だって紹介したけど、どんなもんか、見せてなかった。やっぱり、この記の特徴は、「具体的に示す」ってことだから、お茶を濁すわけにはいかんよね。


というわけで、


本日の課題図書『Bulletin of the American Mathematical Society Volume 64, Number 5』の3ページ目

これの最初の3行目までの「透明テキスト」は、


  
    
      
     A 
     SURVEY 
     OF 
     THE 
     THEORY 
     OF 
     SPECTRAL 
     OPERATORS 
      
    
  
  
    
      
     NELSON 
     DUNFORD 
      
      
     Dedicated 
     to 
     lVIarston*1 
     1\lorse 
      

てな感じ。こっちと比べて、かなり質素でしょ。ファイルサイズも、92ページ分で2.3MBだよ。ページあたりの大きさで比較すっと、「透明テキスト」は、"Image Coordinates"の10分の1くらいの大きさってことになる。


ただ、これはDjVu(デジャヴ)*2ってのを使ったデータなので、みんなの知ってるPDFもんじゃないけど、四捨五入すれば一緒ね。


あれっ、単語単位なの?って思ったかも知んないけど、「透明テキスト」くらいだったら、単語単位にしといたほうが何かと便利。この例だと、フォント・色とかがデータとして残ってない。そういう意味で、贅肉おとしてあるわけ。(でも、10分の1くらいになっちゃうことを考えると、贅肉落としたどころじゃなくて、骨しか残っとらんよね。)あとは、「透明テキスト」を作成する段階で、色情報も残しておこうだとか、文字の大きさは残しておこうとか、いろいろ仕込んでおく。誰がどんな感じで使うかってこと次第だよね。


そんで、この「透明テキスト」を使った「透明テキストPDF」ってのは、「人間が読む本」と「本が読む本」の中間って感じで、いわゆるハイブリッドだな。検索するときは、「透明テキスト」部分が使われて、PDFがハイライトしといてくれっから、人間が見ようと思ったときは、該当する「画像」の部分をみればいいわけ。

*1:OCRって、結構"M"を読み間違えんだよね。これも"M"を"lVI"って変換してる。

*2:DjVu(デジャヴ)ってのは、とっても良い圧縮技術なんだけど、いまいちはやっとらん(はず)。どんなもんか知りたければ、こっちで松下さんが紹介してるよ。でも、この紹介Flashムービーって、画面左下でヘンテコなロボットみたいのが口をパクパクしてんだけど、音声ってないよね?うちのPC壊れちゃったかと思って、びっくりしたよ。