2006-08-01から1ヶ月間の記事一覧

 グーグルは3,000冊/日だって

こういう事件が勃発すると、日記計画が大混乱。 でも、重要だから、急遽、しばらくはこちらに話題を変更するだろう。(本当は、「そろそろスキャナのことを書き始めよう」と思ってたのにな。) どんな事件かというと、「UCがグーグルとの契約内容を公開した…

 3,000冊/日って、毎日引越ししてるようなもんだよ

本日の要約: 1日3,000冊で、10日分が滞留するので、平均30,000冊が本棚に。しかも毎日3,000冊の出し入れ、運搬。まるで、毎日引越ししてるようなもんだよ。

 ダミーを追う日本

本日の要約: 「アメリカの後追いでない取り組みをする必要がある」と言ってみたけど、とりあえず、「後追い」。しかもダミーを追ってしまっているような感じ。

 やっぱり、「アナロジー(類推)で考えてはいけない」のかも

本日の要約: 電子化する目的ってのは、大きく分けて3つあって、保存目的、閲覧目的、「本が本を読む」目的。そんで、3番目の目的を理解するためには、「アナロジー(類推)で考えてはいけない」*1可能性が高い。 *1:http://www.shinchosha.co.jp/foresight/…

 日本だって、優れたものを持ってる

(引き続き、日本の電子化状況と、日本政府が考えている米国の電子化事情を紹介する。) 本日の要約:Google Book Searchみたいに、本をオンラインで見れる、というのはすばらしいよ。でも、日本だって、優れたもの持ってるじゃん。もし日本が電子化を本格的…

 日本における電子化の反省と対策

(2日ほど家庭の事情でお休みしていたが、再開。引き続き、日本の電子化状況と、日本政府が考えている米国の電子化事情を紹介する。) 本日の要約: 日本の電子化プロジェクトが、単に画像を電子化しただけという批判があるが、アメリカだっておんなじだった…

 日本には多くの埋没画像があるらしい

本日の要約: 日本には多くの埋没画像があるらしいが、米国で進行中の「本が本を読む」作戦から考えると、2ステップ遅れている。

 米国版青空文庫

富田さんは、「青空文庫は終わったのか?いや、そんなことはない」と熱く語った。 それを受けて、江坂健さんは、次のように言う。 googleやamazonの作業にも、OCR後の訂正が必要になるでしょうから、そうした部分で青空文庫の工作員の方と協力関係ができれば…

 1,000台のPCから始まった

復習 Googleのスキャンプロジェクトは、当面1,500万冊。 必要なストレージ容量は、20PB。金額にして、約20億円。 ストレージのことに関しては、とりあえず、今日で最後。本の電子化というと、スキャナそのものが脚光を浴びる。自動ブックスキャナが開発され…

 デジタルアーカイブ技術に関する国際会議(ICDAT)2006

今年の10月に、台湾で、ICDAT2006というものがあるとのこと。内容としては、ストレージ、プリザベーション、インデックス、サーチ、プレゼンテーション(見せ方)、情報発信、ネット上でのオーガナイズないしシェアの仕方など様々。(ほとんどカタカナに直し…

 1GBあたり100円、したがって1冊150円(電気代抜く)

昨日は、1冊1.5GBくらいかな、と想定した。では、ストレージはいくらくらいするのか? とりあえず、簡単に考えるだけなので、大きなストレージを買うのにいくらかかるか、ってことを考える。 電気代とか、維持費とかかかるんだけど、それは次の課題として、…

 1冊1.5GB、1500万冊だと20PB

ストレージについて考える。本をスキャンしたとき、大切なことがある。「最低でも2種類のデータを作り、貯めておくこと。」 ひとつ目のデータは、マスターと呼ばれ、できるだけきれいな画像。 ふたつ目のデータは、アクセスと呼ばれ、ネットとかで見て、見苦…

本の電子化の「あちら側」

とりあえず、詳細は徐々に紹介していくとして、お題だけでも提示しておく。 お題:本を電子化して何すんの? ネットで公開されるので、例えば家にいながら、本が見える。あらっ、便利。 一人旅に行くのに、五木寛之の小説を全部持っていったら大変だけど、電…

 グーグルとカリフォルニア大学が蔵書のデジタル化で合意

やっぱり、Internet ArchiveのBrewster Kahleさんは、UCがGoogleとも組むことを、気に食わないらしい。 Jillさんのサイトで、この記事が紹介されていて、Kahleさんが怒ってるらしい。(でも、この人は、なんとなくいつも怒っているので、どこまで怒っている…

 1冊40分

Internet Archiveの作業は、予定では1日200冊なのに、実際は1ヶ月400冊というペースでしか進んでいないことを紹介した。今日は、なんでそんなに遅いのか、もう少し詳しく見てみる。 1ヶ月だと、だいたい稼動日として20日ある。すると、1ヶ月400冊というのは…

Internet Archive、1日200冊、年間予算2億円

Internet Archiveでどんな作業が行われているのか、を紹介する。(詳細を知りたい人は、こちらを。)昨日、オークランドに10台のマシンを並べて、スキャン作業をしていることを書いた。各マシンは、1時間あたり500ページのスキャンをする。オペレータは2交代…

UCとGoogle

Internet Archiveと組んでいるはずのUCが、Googleとも組みます、って発表をした。こちら。大学図書館としては、どの企業でもいいから、お金出してくれて、スキャンしてくれるなら、大歓迎という感じ。

GoogleとInternet Archive

Googleは、着々とスキャン作業してますが、あまり多くの情報を開示しないので、何をしているのか、分からない。 公開された画像について、あれこれ言うくらい。Steveさん曰く「グーグルは、ダメなページがあったら言ってくれ、それは君たちの仕事だぞ、と言…

今日から始めます

梅田さんと話をして、米国では電子化が着々と進んでいるのに、日本ではあまり知られていないことに気づいた。だから、日本向けに、米国の電子化状況をお知らせしようと思う。ただ、ブログというのは初めてなので、いろんな機能について、試しながら。実は、…