日本には多くの埋没画像があるらしい


本日の要約:
日本には多くの埋没画像があるらしいが、米国で進行中の「本が本を読む」作戦から考えると、2ステップ遅れている。




しばらく、日本の電子化状況と、日本政府が考えている米国の電子化事情を紹介する。



日本の文部科学省に、科学技術・学術審議会というのがある。

何をしているかというと、

文部科学大臣の諮問に応じて、科学技術の総合的振興に関する重要事項及び学術の振興に関する重要事項を調査審議し、又は文部科学大臣に意見を述べる

ということをしている。(参照

上記引用文中の、「又は」という言葉使いがとても気になるが、それはさておき、要するに、大学図書館とかが今後どうしようか考えているグループである。


そのグループの一部が、『学術情報基盤の今後の在り方について』という報告書を、提出している。その62ページにこんなことが書いてある。

(ウ)電子化の新たな波への対応
海外の情報検索サービス業者等と大学図書館との連携については、十分に注視し、動向にあわせた適切な対応をとる必要がある。また、・・・貴重書の電子化はしたものの、メタデータの不十分さ、検索機能の弱さなど、インターネット時代の電子情報の長所を活かしきれていないなどの欠点があることから、現在、そのデータは散在した状態にあるとの指摘がある。今後、こうしたデータを再整理し、後述する機関リポジトリに吸収・再編することで利用可能な状態にするなど、それらデータへのアクセス体制を確立・整備することが必要である。

翻訳すると、「埋没画像がいっぱいあるはずなんだけど、どこになにがあるんだか、よく分からん。メタデータっていうのを付けることが重要だったらしい。とりあえず、Googleが検索可能にしてくれるらしいから、全国の図書館に古い画像をひっぱり出してきてもらって、どっかのサイトに集めておこう」ということかな。


ところが、「新たな波への対応」として「機関リポジトリに吸収・再編」するだけでは、まだ1ステップ足りない


このことを考えるために、日本が誇る国会図書館へ行って見る。ちなみに国立国会図書館近代デジタルライブラリーには、今12.7万冊分の画像がある。もちろん、全文検索はできないし、個々の画像を見るのも不便でしかたがない。でも、メタデータが付いているだけ、上述の「埋没画像」よりましである。少なくとも、「夏目漱石」が書いた本なら、すぐに見つかる。でも、「夏目漱石」に関して書かれた本は、題名に「夏目漱石」という言葉が入っていないと出てこない。この状態が「機関リポジトリに吸収・再編」するという「検索へ向けた第1ステップ」だ。


次に必要なステップは、画像からテキストへ変換すること。ここで活躍するのが、OCRと前に紹介したDistributed Proofreaders("あっちゃこっちゃにいる校正家たち")みたいなグループ。(日本だったら、青空文庫プロジェクト杉田玄白Wikibunkoあたりが該当。)

テキストが抽出できたら、やっと、Googleに中身を詮索してもらえる。(または、京都大学のようなこんな利用も可能。)ここまで来たら、やっと「インターネット時代の電子情報の長所を活かしき」っていると堂々と言えるんじゃないかな、と思う。



このように、日本は2ステップも遅れている状態にあり、その道のりは長い。