「なか見!」の中身は、50,000冊
昨年11月の記事(『アマゾン ジャパン、書籍の全文検索ができる“なか見!検索”のサービスを開始』)、
なか見!検索は、その名のとおりAmazon.co.jpで販売されている書籍の内容の全文検索を行なえる機能。検索キーワードがヒットしたページの前後をプレビューする“立ち読み”に相当する機能も持つ。(株)講談社など280社の協力を得ており、現在800万点前後の取り扱いがある書籍のうち13万冊以上をデータベース化しているという。これには海外サービスですでに提供されている洋書のデータも含まれているが、洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない。
さらに、今年5月に、谷口正晃さんの記事(『書籍全文検索サービス グーグル、日本でも 』)、
昨年11月から販売する書籍の検索・閲覧サービス「なか見!検索」を始めたアマゾン・ドット・コムでは、「最初は13万冊が閲覧対象だったが、5カ月後には22万冊に増えた」(アマゾン・ジャパン)と出版社側の理解の深まりを指摘。
両方とも、うまくお茶を濁してるよな。
まず、ascii24の記事だけど、「洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない」っていうけど、2003年10月に梅田さんが紹介してるCNET News.comの速報記事「Amazon turns a new page on search」で
(米国Amazonが提供する書籍のフルテキストサーチ・サービス「Search Inside the Book」)の対象は、190社(出版社)の12万冊、3300万ページに及ぶ。
って書いてあるんだから、和書の割合がかなり少なくて、多く見積もっても1万冊程度なんだろうな、ってことぐらい想像できたはず。*1
そんで谷口さんの記事だけど、アマゾン・ジャパンの広報戦略にひっかかってんのかな?米国のAmazonと、日本のアマゾン・ジャパンを、うまい具合に混同させて、うそではない範囲で、すごーいことになってる、って印象を伝えてるのでは、と不安。まず、「なか見!検索」を始めたのは、「アマゾン・ドット・コム」じゃなくて「Amazon.co.jp」だし、最初の13万冊のうち90%以上は米国Amazon.comからのデータだっただろうし、22万冊になったって言うけど、実は大半が米国Amazon.com側で増えたんじゃないの?もし、そうなら、「出版社側の理解の深まりを指摘」っていうのは、日本の出版社じゃなくて、米国の出版社だよね?と、お茶を濁されると、いろいろ心配になるわけ。
というわけで、お茶を濁さんためにも、アマゾン・ジャパンの「なか見!検索」の中身を知っとかんといけないね。
後で紹介する「推定方法」によると、「なか見!検索」としてアマゾン・ジャパンが用意したデータは、最低50,000冊だね。*2ということは、谷口さんが、「5ヶ月で13万冊から22万冊へと、9万冊も増えた!」っていうのを検証してみると、そのうち半分以上くらいはアマゾン・ジャパンが貢献した!ってことだね。そうすると、「出版社側の理解の深まり」っていうのは、日本の出版社を言ってるんだよ!
というわけで、お茶を濁さず計算してみた結論として、やっぱり何かが日本で動き出してんだよ。5万冊のスキャンは、すごいよ。
(推定方法)
肝心の推定方法だけど、大前提として、この「なか見!検索」ページから検索すると、アマゾン・ジャパンが用意したデータしかヒットしない、ってことね。これは、ありきたりな英単語入れて検索してみると、日本語の本か、日本向けに販売されてる英語の本しかでてこないので、ほぼ、そういうことなんだろうな、って気がするよ。
そんで、検索ワードとして、
これ、それ、ある、です、ます、そして、いい、いる、ない、もの、こと、ー(伸ばすやつね)、一(漢字のイチ)、1(数字のイチ)、二、中、人、月、日、年、本、私、山、上
などを、ひとつづつ入れてみる。
多かったやつを3つ(A、B、C)ピックアップして、「A B」「A C」「C B」みたいに2単語の検索、「A B C」みたいに3単語検索する。出てきた数字を全てメモっておいて、こちらで復習して、計算開始!
ちなみに、10月現在のMyトップ10は、
ワード | ヒット数 |
---|---|
1(数字のイチ) | 27,904件 |
一(漢字のイチ) | 27,899件 |
日 | 27,799件 |
年 | 27,771件 |
本 | 27,726件 |
人 | 27,709件 |
ます | 27,579件 |
ー(伸ばすやつ) | 27,572件 |
月 | 27,547件 |
中 | 27,375件 |
でも、1単語のランキングを基準に計算すっと、30,000冊が上限。そこで「集合」についてよく考えてみると、「集合」どうしの「相関」が、もっと重要だよねって思う。そんで、1(数字のイチ)と一(漢字のイチ)を2単語で検索すると、27,891件ヒットするわけだから、かなり相関が高いね。ということで、「1単語だと15,000〜20,000くらいのヒットがあって、でも2単語にすると、それほどヒットしなくて」っていう単語をいくつか探してこないといかん。今のところ、「はじめ、車、学校」のセットで、45,000冊くらいという結果になる。
まぁ、あとは想像だけど、この調子でいくと、対象の単語を3つからどんどん増やしても、60,000は超えんだろうな。そんで、当面、きりもいいことだし、50,000冊ってことにしちゃった。アバウトでごめんね。