「なか見!」の中身は、50,000冊


昨年11月の記事(『アマゾン ジャパン、書籍の全文検索ができる“なか見!検索”のサービスを開始』)、

なか見!検索は、その名のとおりAmazon.co.jpで販売されている書籍の内容の全文検索を行なえる機能。検索キーワードがヒットしたページの前後をプレビューする“立ち読み”に相当する機能も持つ。(株)講談社など280社の協力を得ており、現在800万点前後の取り扱いがある書籍のうち13万冊以上をデータベース化しているという。これには海外サービスですでに提供されている洋書のデータも含まれているが、洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない


さらに、今年5月に、谷口正晃さんの記事(『書籍全文検索サービス グーグル、日本でも 』)、

昨年11月から販売する書籍の検索・閲覧サービス「なか見!検索」を始めたアマゾン・ドット・コムでは、「最初は13万冊が閲覧対象だったが、5カ月後には22万冊に増えた」(アマゾン・ジャパン)と出版社側の理解の深まりを指摘。


両方とも、うまくお茶を濁してるよな。


まず、ascii24の記事だけど、「洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない」っていうけど、2003年10月に梅田さんが紹介してるCNET News.comの速報記事「Amazon turns a new page on search」で

(米国Amazonが提供する書籍のフルテキストサーチ・サービス「Search Inside the Book」)の対象は、190社(出版社)の12万冊、3300万ページに及ぶ。

って書いてあるんだから、和書の割合がかなり少なくて、多く見積もっても1万冊程度なんだろうな、ってことぐらい想像できたはず。*1


そんで谷口さんの記事だけど、アマゾン・ジャパンの広報戦略にひっかかってんのかな?米国のAmazonと、日本のアマゾン・ジャパンを、うまい具合に混同させて、うそではない範囲で、すごーいことになってる、って印象を伝えてるのでは、と不安。まず、「なか見!検索」を始めたのは、「アマゾン・ドット・コム」じゃなくて「Amazon.co.jp」だし、最初の13万冊のうち90%以上は米国Amazon.comからのデータだっただろうし、22万冊になったって言うけど、実は大半が米国Amazon.com側で増えたんじゃないの?もし、そうなら、「出版社側の理解の深まりを指摘」っていうのは、日本の出版社じゃなくて、米国の出版社だよね?と、お茶を濁されると、いろいろ心配になるわけ。


というわけで、お茶を濁さんためにも、アマゾン・ジャパンの「なか見!検索」の中身を知っとかんといけないね。


後で紹介する「推定方法」によると、「なか見!検索」としてアマゾン・ジャパンが用意したデータは、最低50,000冊だね。*2ということは、谷口さんが、「5ヶ月で13万冊から22万冊へと、9万冊も増えた!」っていうのを検証してみると、そのうち半分以上くらいはアマゾン・ジャパンが貢献した!ってことだね。そうすると、「出版社側の理解の深まり」っていうのは、日本の出版社を言ってるんだよ!


というわけで、お茶を濁さず計算してみた結論として、やっぱり何かが日本で動き出してんだよ。5万冊のスキャンは、すごいよ。



(推定方法)
肝心の推定方法だけど、大前提として、この「なか見!検索」ページから検索すると、アマゾン・ジャパンが用意したデータしかヒットしない、ってことね。これは、ありきたりな英単語入れて検索してみると、日本語の本か、日本向けに販売されてる英語の本しかでてこないので、ほぼ、そういうことなんだろうな、って気がするよ。


そんで、検索ワードとして、

これ、それ、ある、です、ます、そして、いい、いる、ない、もの、こと、ー(伸ばすやつね)、一(漢字のイチ)、1(数字のイチ)、二、中、人、月、日、年、本、私、山、上

などを、ひとつづつ入れてみる。


多かったやつを3つ(A、B、C)ピックアップして、「A B」「A C」「C B」みたいに2単語の検索、「A B C」みたいに3単語検索する。出てきた数字を全てメモっておいて、こちらで復習して、計算開始!


ちなみに、10月現在のMyトップ10は、

ワード ヒット数
1(数字のイチ) 27,904件
一(漢字のイチ) 27,899件
27,799件
27,771件
27,726件
27,709件
ます 27,579件
ー(伸ばすやつ) 27,572件
27,547件
27,375件


でも、1単語のランキングを基準に計算すっと、30,000冊が上限。そこで「集合」についてよく考えてみると、「集合」どうしの「相関」が、もっと重要だよねって思う。そんで、1(数字のイチ)と一(漢字のイチ)を2単語で検索すると、27,891件ヒットするわけだから、かなり相関が高いね。ということで、「1単語だと15,000〜20,000くらいのヒットがあって、でも2単語にすると、それほどヒットしなくて」っていう単語をいくつか探してこないといかん。今のところ、「はじめ、車、学校」のセットで、45,000冊くらいという結果になる。


まぁ、あとは想像だけど、この調子でいくと、対象の単語を3つからどんどん増やしても、60,000は超えんだろうな。そんで、当面、きりもいいことだし、50,000冊ってことにしちゃった。アバウトでごめんね。

*1:厳密に言うと、「海外サービスですでに提供されている(全ての)洋書のデータも含まれている」と言ってるわけじゃないから、分からんといえば、分からんけどね。

*2:アマゾン・ジャパンが用意したデータの目印として、画像の上と下に「著作権保護コンテンツ」って書いてあるよ。米国Amazonが提供するデータだと、画像上下に「Copyrighted Material」ね。