Google Book Searchに座敷童子がいる


さーて今日は、オンラインで見れる本だとか、雑誌だと、そんなもんを見て、(かなりつっこんだ)感想を教えてくれてるサイトをご紹介。(あっちのデータベースはいいよ、とか、こっちのこの機能はおかしいね、とかいう感じ。)


その名も「Péter's Digital Reference Shelf」。
http://www.gale.com/reference/peter/


日本でもよーく知られてるもんの例を挙げると、わかりやすいよね、ってことで、Google Book Search(GBS)でいきましょ。(GBS以外に関する彼の評価も、かなり参考になんので、個人的に頼りにしてきたサイト。)


2006年11月に、Péterさんは、GBSを検証してみた。
http://www.gale.com/reference/peter/googlebooks.htm


彼の詳細な検証結果は、本文みてね。


ここでは、勝手にひとつだけとりあげる。それは、

The most startling problem is the incorrect use of the Boolean OR operation, the simplest of all.(なんか、GBSには座敷童子がいるよ。)

ってこと。


具体的に見て見ましょ。


まず、Péterさんは、

Neither can a search for A OR B produce more hits than the sum of the hits found for A and B together at most.

というわけで、「『A OR B』って検索して、Aだけで検索したヒット数とBだけで検索したヒット数を足した数よりも大きかったら、おかしいよね」ってこと。(つまり、あるクラスに男子生徒が20人いて、そのクラスに4月生まれの人が7人いたする。仮に4月生まれの男子生徒がいないとしたら、27人(20+7)が手をあげるでしょ。でも、普通4月生まれの男子生徒がいるはずだから、27人よりも少ないはずでしょってこと。)


ところが、2006年11月にPéterさんがGBS検証をしたところ、タイトルに「Arrogance」が含まれる本:2冊


http://www.gale.com/images/reference/peter/googlebooks/arrog-1.gif


タイトルに「Arrogant」が含まれる本:6冊


http://www.gale.com/images/reference/peter/googlebooks/arrog-2.gif


タイトルに「Arrogance」か「Arrogant」が含まれる本:なっ、なんと、13冊


http://www.gale.com/images/reference/peter/googlebooks/arrog-3a2.gif


こりゃ、おかしいわ。(「Arrogance OR Arrogant」ってのは、8冊を超えちゃーいかん。)やはり座敷童子のせいだな、こりゃ。


しかも、このOR以外にも、GBSにはヒット数の謎だったり、そのほか、いろいろと変なとこがある、ってのが、Péterさんの検証。でも、だからダメってこともなく、まぁまぁ、全体としてはいいんでない、ってことっぽいけどね。


というわけで、結局何が言いたいかって言うと、「もちろん、ダメな点はダメと言う。でも、ダメな点があるけど、こんな便利な点もあるってな感じで、いろんなオンラインものを検証してくれてんので、いろんなデータベースがどんな特徴があって、どんなときに使ったらよいかしらん、ってのを知るのに良いよ」ってこと。



ちなみに、2007年4月現在、まだ座敷童子いるらしい。(ヒット数にひそむ童子と、検索にひそむ童子の両方ね。)


タイトルに「Arrogance」が含まれる本:全部で130冊と表示されつつ、実際は13冊しかなさそー。

http://books.google.com/books?lr=&q=intitle%3Aarrogance


タイトルに「Arrogant」が含まれる本:全部で87冊と表示されつつ、実際は8冊しかなさそー。

http://books.google.com/books?lr=&q=intitle%3Aarrogant


タイトルに「Arrogance」か「Arrogant」が含まれる本:全部で202冊と表示されつつ、実際は22冊しかなさそーで、しかもホントなら、21冊(13冊+8冊)を超えちゃいかんよね。

http://books.google.com/books?lr=&q=intitle%3Aarrogance+OR+intitle%3Aarrogant


1冊だから、全部比較しちゃえば、童子の正体はすぐ分かる。


こいつが、童子だ。上の「タイトルに「Arrogance」か「Arrogant」が含まれる本」ってので出てきた22番目の本。


だって、「intitle:"Katherine the Arrogant"」って検索すると、出てこんもん。下見ると、2冊しか表示されんでしょ。上の童子がいないでしょ。

http://books.google.com/books?q=intitle%3A%22Katherine+the+Arrogant%22


ってなわけで、結局何が言いたいかって言うとパート2、「PéterさんはOR演算がおかしいよ、って言ってっけど、もはやちがうかもしんない。だって、上のintitle:"Katherine the Arrogant"って検索自体がうまく行ってないもん」ってこと。


いつかに続く、