スキャンプロジェクト
(ちなみに、日本は4月1日だけど、アメリカはまだ3月31日なんで、下記内容は、ウソじゃな〜い。)「あるわけないけど1億円あったらどうする?」(http://www.1oku-life.com/)ってなサイトがある。ちなみに、アメリカで90万ドル(約1億円)を銀行預金したら…
さて、昨日に引き続き、ニューヨークタイムズの記事をみましょ。昨日とセットで見てね。http://www.nytimes.com/2007/03/10/business/yourmoney/11archive.html?ex=1331355600&en=ac8d2f50c8dfc12d&ei=5124&partner=permalink&exprod=permalinkこの記事によ…
(必読)ニューヨークタイムズっていう有名な新聞に、『History, Digitized (and Abridged)』ってなタイトルの記事がでてたよ。http://www.nytimes.com/2007/03/10/business/yourmoney/11archive.html?ex=1331355600&en=ac8d2f50c8dfc12d&ei=5124&partner=pe…
世の中、「ネット+分散」がはやり。当然、スキャン作業もみんなでやろうと思うわけ。たとえ世界中に1億冊の本があろうが、1億人が1冊づつスキャンすれば、すぐ終わる(はずなんだけど)。 はるか昔に、http://d.hatena.ne.jp/bookscanner/20060819で、校正…
前に、スキャンされたデータは、画像派/文字派/しかたなく画像派に分かれる、って話をした。 http://d.hatena.ne.jp/bookscanner/20070222/p1 http://d.hatena.ne.jp/bookscanner/20070223/p1 (ご本人はどー思ってんのか知んないけど)日本の代表的「しかた…
(前回からの続きね。)bookscanner検察官: 「ところで、この資料によると、Questia社はあのケネス・レイさんと関係があんだよね?」
*1 bookscanner検察官: 「証人を呼んでもいい?」 裁判長: 「誰?」 bookscanner検察官: 「Questia社のCEOやってるTroy Williamsさんでーす。」 裁判長: 「いいよ。」 *1:「証人喚問」ってのは、国会のお話なんだって。知らんかった。なので、細かいとこ…
昨日紹介したとおり、Amazonの「Search Inside the Book(なか見!検索)」の「中身」を作ってる会社は、Innodata Isogen社ってとこね。長い名前だけど、Innodataって会社と、Isogenって会社がくっついてできたので、日本の大きな銀行みたいに、こんな長ーい…
最近、アメリカで進んでる「本の電子化」に関して、"Mass Digitization"という呼び方が一番聞かれるよーになったよ。これは、単なる大規模プロジェクト(Large Scale Digitization)ってのとはちょいと違う、「工場での大量生産(Mass Production)」みたいな…
すっかり年あけてるけど、今年もよろしくね。今年のテーマ: さっそく、Google Book Searchから始めましょ。http://books.google.com/books?vid=OCLC70339353 これは、Elyさんっていうちょっとした有名人が書いたもんなんだけど、とりあえず、19ページから始…
Si vous avez quelques questions concernant mon article, contactez moi svp.(bookscanner.sf@gmail.com) スキャン現場訪問ということで、フランスのInfotechnique社を見てんだけど、今日はその続き。この会社は、10年くらい前に設立されて、スキャン請負…
Amazon途中だけど、グーグル速報。(注意:この記事は、間違ってるので、訂正記事http://d.hatena.ne.jp/bookscanner/20061109/p2も読んでね)黒澤さんの記事によると、日本の「ブック検索」の実験サイトに遭遇したらしい。なので公開間近なはずの、日本版GB…
takuhonさんが正しくて、以下の90社リストは、今回日本でグーグルに協力したものじゃなかった。在米の日本語本がスキャンされたもんだった。最近になって出てきたので、てっきり日本から送られてきたと勘違いしちゃいました。みなさん、すみません。UC蔵書が…
(まちは仮装で仕事にならん。FedExの人は、天使の格好で配達してた。今夜は寝れないな。) 10月25日に、Microsoftのスキャンプロジェクトについて、書いた。 http://d.hatena.ne.jp/bookscanner/20061025その続報ね。Microsoft、やっぱり、やる気あんだよ。
スキャナメーカーKirtas Technologiesとコーネル大学が、書籍をデジタル化するというMicrosoftの新プロジェクト「Windows Live Book Search」で協業することに合意した。 ってニュースが10月19日付けでCNET Japanに出てんだけど、このニュースをどう読もっか…
約1ヶ月前、カレントアウェアネスっていう国会図書館のやってるサイトで、こんな記事があった。 2つの大学の契約条件の違いは?‐Google Book Search の契約書を比較する先日、カリフォルニア大学からGoogle Book Searchに関する契約書が公開されましたが、同…
美崎薫さんと言えば、巷では、BTRONというもので有名なんだそうだが、知らんかった。 そもそもBTRONというものを知らんかった。私はてっきり、美崎さんと言えば、「記憶する住宅プロジェクト」の人なのだと、ず〜っと思ってた。少なくとも今年の初めくらいま…
9月11日に書いたものの続編。前回の要約 出版された当時は「同じ本」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ本」とは言えないようになってる という感じで、本の状態に注目して「本の大量スキャ…
確かに、本の分類上、おおよそ「ISBNが同じなら同じ本」と言えるんだろうけど、大量スキャンプロジェクトの基準で言うと、「ダブりなんてない」って言える。また大量スキャンにおいては、「ダブる」ことは大して怖くないとも言える。「ダブり」に関するしめ…
9月2日に、kikoriさんから、 (仮に)国会図書館に800万冊、ICU図書館に65万冊の本があっても、865万種類の本があるわけじゃなくてある程度というか何万冊もダブりがあるわけですよね?となると、無駄なダブりを防ぐ為に情報交換が必要なんじゃないかと思う…
9月1日のエントリーで、「この本棚を全部やろう!」という感じの「とりあえず、やっちゃおう」的な考えがありうることを紹介した。そんでこっちで、「大量スキャンにおいては、ロジスティックスが重要だよ」って言ったけど、そんなの具体的に考えてみないと…
(本日の要約) もし、大量スキャン計画にロングテール的なものがあるとすると、「この本はスキャンする必要あるかな、どうしようかな?とりあえず、やっちゃおう!」ってあたりにある(だろう)。
こういう事件が勃発すると、日記計画が大混乱。 でも、重要だから、急遽、しばらくはこちらに話題を変更するだろう。(本当は、「そろそろスキャナのことを書き始めよう」と思ってたのにな。) どんな事件かというと、「UCがグーグルとの契約内容を公開した…
本日の要約: 1日3,000冊で、10日分が滞留するので、平均30,000冊が本棚に。しかも毎日3,000冊の出し入れ、運搬。まるで、毎日引越ししてるようなもんだよ。
復習 Googleのスキャンプロジェクトは、当面1,500万冊。 必要なストレージ容量は、20PB。金額にして、約20億円。 ストレージのことに関しては、とりあえず、今日で最後。本の電子化というと、スキャナそのものが脚光を浴びる。自動ブックスキャナが開発され…
昨日は、1冊1.5GBくらいかな、と想定した。では、ストレージはいくらくらいするのか? とりあえず、簡単に考えるだけなので、大きなストレージを買うのにいくらかかるか、ってことを考える。 電気代とか、維持費とかかかるんだけど、それは次の課題として、…
ストレージについて考える。本をスキャンしたとき、大切なことがある。「最低でも2種類のデータを作り、貯めておくこと。」 ひとつ目のデータは、マスターと呼ばれ、できるだけきれいな画像。 ふたつ目のデータは、アクセスと呼ばれ、ネットとかで見て、見苦…
やっぱり、Internet ArchiveのBrewster Kahleさんは、UCがGoogleとも組むことを、気に食わないらしい。 Jillさんのサイトで、この記事が紹介されていて、Kahleさんが怒ってるらしい。(でも、この人は、なんとなくいつも怒っているので、どこまで怒っている…
Internet Archiveの作業は、予定では1日200冊なのに、実際は1ヶ月400冊というペースでしか進んでいないことを紹介した。今日は、なんでそんなに遅いのか、もう少し詳しく見てみる。 1ヶ月だと、だいたい稼動日として20日ある。すると、1ヶ月400冊というのは…
Internet Archiveでどんな作業が行われているのか、を紹介する。(詳細を知りたい人は、こちらを。)昨日、オークランドに10台のマシンを並べて、スキャン作業をしていることを書いた。各マシンは、1時間あたり500ページのスキャンをする。オペレータは2交代…