「なか見！」の中身は、50,000冊

昨年11月の記事（『アマゾンジャパン、書籍の全文検索ができる“なか見！検索”のサービスを開始』）、

なか見！検索は、その名のとおりAmazon.co.jpで販売されている書籍の内容の全文検索を行なえる機能。検索キーワードがヒットしたページの前後をプレビューする“立ち読み”に相当する機能も持つ。(株)講談社など280社の協力を得ており、現在800万点前後の取り扱いがある書籍のうち13万冊以上をデータベース化しているという。これには海外サービスですでに提供されている洋書のデータも含まれているが、洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない。

さらに、今年5月に、谷口正晃さんの記事（『書籍全文検索サービス　グーグル、日本でも』）、

昨年１１月から販売する書籍の検索・閲覧サービス「なか見！検索」を始めたアマゾン・ドット・コムでは、「最初は１３万冊が閲覧対象だったが、５カ月後には２２万冊に増えた」(アマゾン・ジャパン)と出版社側の理解の深まりを指摘。

両方とも、うまくお茶を濁してるよな。

まず、ascii24の記事だけど、「洋書・和書の割合、協力している出版社の内訳などは現時点で公開されていない」っていうけど、2003年10月に梅田さんが紹介してるCNET News.comの速報記事「Amazon turns a new page on search」で

（米国Amazonが提供する書籍のフルテキストサーチ・サービス「Search Inside the Book」）の対象は、190社(出版社)の12万冊、3300万ページに及ぶ。

って書いてあるんだから、和書の割合がかなり少なくて、多く見積もっても1万冊程度なんだろうな、ってことぐらい想像できたはず。*1

そんで谷口さんの記事だけど、アマゾン・ジャパンの広報戦略にひっかかってんのかな？米国のAmazonと、日本のアマゾン・ジャパンを、うまい具合に混同させて、うそではない範囲で、すごーいことになってる、って印象を伝えてるのでは、と不安。まず、「なか見！検索」を始めたのは、「アマゾン・ドット・コム」じゃなくて「Amazon.co.jp」だし、最初の13万冊のうち90%以上は米国Amazon.comからのデータだっただろうし、22万冊になったって言うけど、実は大半が米国Amazon.com側で増えたんじゃないの？もし、そうなら、「出版社側の理解の深まりを指摘」っていうのは、日本の出版社じゃなくて、米国の出版社だよね？と、お茶を濁されると、いろいろ心配になるわけ。

というわけで、お茶を濁さんためにも、アマゾン・ジャパンの「なか見！検索」の中身を知っとかんといけないね。

後で紹介する「推定方法」によると、「なか見！検索」としてアマゾン・ジャパンが用意したデータは、最低50,000冊だね。*2ということは、谷口さんが、「5ヶ月で13万冊から22万冊へと、9万冊も増えた！」っていうのを検証してみると、そのうち半分以上くらいはアマゾン・ジャパンが貢献した！ってことだね。そうすると、「出版社側の理解の深まり」っていうのは、日本の出版社を言ってるんだよ！

というわけで、お茶を濁さず計算してみた結論として、やっぱり何かが日本で動き出してんだよ。5万冊のスキャンは、すごいよ。

（推定方法）
肝心の推定方法だけど、大前提として、この「なか見！検索」ページから検索すると、アマゾン・ジャパンが用意したデータしかヒットしない、ってことね。これは、ありきたりな英単語入れて検索してみると、日本語の本か、日本向けに販売されてる英語の本しかでてこないので、ほぼ、そういうことなんだろうな、って気がするよ。

そんで、検索ワードとして、

これ、それ、ある、です、ます、そして、いい、いる、ない、もの、こと、ー（伸ばすやつね）、一（漢字のイチ）、１（数字のイチ）、二、中、人、月、日、年、本、私、山、上

などを、ひとつづつ入れてみる。

多かったやつを3つ（A、B、C）ピックアップして、「A　B」「A　C」「C　B」みたいに2単語の検索、「A　B　C」みたいに3単語検索する。出てきた数字を全てメモっておいて、こちらで復習して、計算開始！

ちなみに、10月現在のMyトップ10は、

ワード	ヒット数
１（数字のイチ）	27,904件
一（漢字のイチ）	27,899件
日	27,799件
年	27,771件
本	27,726件
人	27,709件
ます	27,579件
ー（伸ばすやつ）	27,572件
月	27,547件
中	27,375件

でも、1単語のランキングを基準に計算すっと、30,000冊が上限。そこで「集合」についてよく考えてみると、「集合」どうしの「相関」が、もっと重要だよねって思う。そんで、１（数字のイチ）と一（漢字のイチ）を2単語で検索すると、27,891件ヒットするわけだから、かなり相関が高いね。ということで、「1単語だと15,000〜20,000くらいのヒットがあって、でも2単語にすると、それほどヒットしなくて」っていう単語をいくつか探してこないといかん。今のところ、「はじめ、車、学校」のセットで、45,000冊くらいという結果になる。

まぁ、あとは想像だけど、この調子でいくと、対象の単語を3つからどんどん増やしても、60,000は超えんだろうな。そんで、当面、きりもいいことだし、50,000冊ってことにしちゃった。アバウトでごめんね。

*1:厳密に言うと、「海外サービスですでに提供されている（全ての）洋書のデータも含まれている」と言ってるわけじゃないから、分からんといえば、分からんけどね。

*2:アマゾン・ジャパンが用意したデータの目印として、画像の上と下に「著作権保護コンテンツ」って書いてあるよ。米国Amazonが提供するデータだと、画像上下に「Copyrighted Material」ね。