Uniform Concept Locaterと「本の路線図化」

国際日本文化研究センターってとこの山田さんが中心になって、「古事類苑」っていう古ーい百科事典を電子化してんだけど、約7万ページのスキャンは終わったらしい。今、一生懸命、文字入力をしてるんだって。がんばって!

情報処理学会での研究報告(http://www.nichibun.ac.jp/~shoji/archives/CH-72-6.pdf)によると、
プロジェクトの概要は、こういうことらしい。

『古事類苑』は,明治政府の一大プロジェクトとして明治12 年(1879) に編纂がはじまり,明治29 年(1896) から大正3年(1914) にかけて出版された,本文1,000 巻,和装本で350 冊,洋装本で51冊の大百科事典である.そこには,前近代の文化概念について,明治以前のあらゆる文献からの引用が掲載されており,人文科学研究を行ううえでたいへん有用な事典として,いまでも利用されている.この『古事類苑』を電子情報資源化して活用すべく,著者らはその全頁の画像入力を行い,さらに全文テキスト入力作業を進めている.


このプロジェクト、いろんな点でおもろいんだけど、今日のところは、1個だけ紹介すんね。

山田さんたちによると、

『古事類苑』は,前近代の日本にあった諸概念を天部・歳時部・地部・神祇部・帝王部・官位部など30の部立てに分類し,そこからさらに階層的に諸概念を配置したことに特色がある.つまりことばを50音順に並べるのではなく,一定の指針のもとに概念が整理・分類されている.その分類体系そのものがいわゆるオントロジを形成するシソーラス辞書になっており,古典語彙の言語処理にそれを利用できる可能性がある.

ってなわけで、要するに、「昔の人の頭ん中を理解するための地図みたいなもんができる」ってことらしい。もっと簡単に説明してくれればいいのにね。

これに関連して、

『古事類苑』オントロジ体系を利用して,各語彙の概念体系のなかで占める位置を示す,Uniform Concept Locater (UCL) なるものが定義できるのではないかと考える.たとえば,
    「空中有声」ならば, UCL://空中有声.天.天.古事類苑/
    「東」ならば, UCL://東.四方.方角.天.古事類苑/
といった記述方式である.

ってことで、要するに、「東って単語が、古事類苑のどこに載ってんのか、分かるための住所」のこと。目次みたいなもんだよね。


住所と言えば、前にImage Coordinates(略して「イメコ」)ってのを紹介したでしょ。(http://d.hatena.ne.jp/bookscanner/20061004/p1)イメコは、究極のタグ付け作業と、とりあえず思ってちょうだい。この「イメコ」とUCLの関係ってのは、地図と路線図の関係みたいなもん。


「イメコ」は、本っていう、物理的なフォーマットを尊重してんだよ。だから、ある単語(ないしアルファベット)が、「どの本の、どのページの、どの位置」にあるのかを教えてくれる。しかも、文字のフォントだとか、色まで教えてくれる。簡単に言えば、みたまんまを大切にするんよ。


それに対して、UCLってのは、一度、本の物理的なフォーマットってのは完全無視しちゃうわけ。そんでもって何を大切にすんのかっていうと、他の単語との「関係」だけ。路線図を見ると、実際の位置関係とはかなり違ってるけど、まぁ分かりやすいかな、ってのと同じ考え。


というわけで、結局何が言いたいのかっていうと、「本って、だいたい、目次が最初にあって、索引が最後にあるでしょ。UCLは目次と似た感じで、イメコは索引と似た感じ。そんで、UCL(目次)はタクソノミーみたいで、イメコ(索引)はフォークソノミーみたいな感じがする。そーすっと四捨五入しちゃえば、本って前から読めばタクソ、後ろから読めばフォクソだね。」ってこと。