GoogleとInternet Archive

Googleは、着々とスキャン作業してますが、あまり多くの情報を開示しないので、何をしているのか、分からない。
公開された画像について、あれこれ言うくらい。

Steveさん曰く

「グーグルは、ダメなページがあったら言ってくれ、それは君たちの仕事だぞ、と言ってるような気がする。彼らは進んでダメなページをどうにかしようなんて思ってないんだな。ちょっと心配になってきぞ。I guess they're saying it's your job to notify them of bad pages; they're not going to take the initiative themselves.I'm really starting to worry about Google.」

Jillさん曰く

「グーグルのサイトを見て、すぐ分かったんだけど、スキャンの品質が悪いのなんの。もちろん、彼らの主張はさ、本を見つけることができるようにしただけで、誰も見えるようにしているなんていっちゃぁいないよ、ってことだろうけど、だからって、この品質の悪さを見逃せってこと?もうちょっとがんばろうよ。What we learn is that their quality isn't all good....Of course, Google would say that they want you to find the books online and not read the books online....So can we overlook the errors and problems because Google is helping us find books?...Google need to do better. 」おまけ(Finally, I found that if you page through a public domain book too quickly, Google senses that and feels that you may be a robot or virus, and thus stops you. You must then type in a code to continue. (This also occurs if you look at a book more than once.)

こちらもどうぞ。Business Weekが作成したスライド



それと比べて、Internet Archiveは、何でも公開しちゃう。例えば、これなんて、各マシンの稼動テストをしたもの。だから、いろいろと調べているとおもしろい。これから、しばらく、Internet Archiveを紹介する。

まずは、これから。

去年末くらいから、MSNやYahooがスポンサーになり、サンフランシスコの隣町であるリッチモンドという場所で、UCバークレー校の場所と本を借りて、スキャン作業をしている。リッチモンドだから、「Rich」と名づけたらしい。(安易だけど、素敵。)

上記リンクの4枚目に数台のマシンが見える。Internet ArchiveがScribeと名づけたマシン。(今度、詳しく紹介する)
現在10台が稼動していて、マシン右上に「RICH9」などと番号があり、スキャナーの識別番号。
例えば、これを見ると、SCANNERはRich5となっている。IDENTIFIERの末尾に「rich」とついているのは、この場所でスキャンされたもの。

Internet Archiveは、本1冊をPDFなどで公開するのが目的なので、Googleみたいな使い方を期待するとダメ。中身を検索して、重要なページだけピックアップする、というのは、MSNとYahooのお仕事で、まだ公開されていない。