美崎薫さんと言えば、巷では、BTRONというもので有名なんだそうだが、知らんかった。 そもそもBTRONというものを知らんかった。私はてっきり、美崎さんと言えば、「記憶する住宅プロジェクト」の人なのだと、ず〜っと思ってた。少なくとも今年の初めくらいま…
三上さんが、『グーグルが本の電子化で狙う「うまみ」の正体は』というエントリーで、この記で書いていることについて、かなり真剣に分析してくれた。正直言って、とってもうれしい。だから、三上さんの書いた内容について、こっちも真剣に応える。
日本では、とうとう16団体が著作権保護期間延長を求めたらしい。Copy&Copyrightさんによると、 (著作権保護期間の延長について)要望を出す...理由が「世界標準」というのは、何も考えていない証拠 ということで、なかなか情けない状況のようだ。情けない団…
昨日は、スキャンした画像ってのは、残念ながら傾いちゃうって話をした。 この(日)記は、具体例を挙げるのがモットーなので、どんくらい傾くのか、(かなり)具体的に話をしとく。マニア度がちょっと高めなので、ご注意あれ。 下の2枚の写真は、スキャン直…
9月11日に書いたものの続編。前回の要約 出版された当時は「同じ本」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ本」とは言えないようになってる という感じで、本の状態に注目して「本の大量スキャ…
本の電子化について、いろいろ書いてるんだけど、この(日)記が一番言いたいことは、「グーグル(とかYahoo、MSNなど)が本を電子化しているのは、人間が読むためじゃないよ」ってことに尽きる。この点は、かなり誤解されてて、というか過剰に期待されてて…
最近、著作権絡みのリングに登録したので、これから、著作権関係も話題にしようと思う。 第1弾として、「Google Book Searchで「海外ユーザー」に対してアクセス制限がされている」という問題。 この本って日本から見れる?こっちは? 上がミシガン大学が提…
「自動ブックスキャナを使うと、スキャン作業が省力化できる」ってのが通念だけど、スキャン作業における省力化なんて、たかが知れてる。正確に言うなら、「自動ブックスキャナを使うと、スキャン後のOCR作業が大幅に省力化できる」ってこと。
確かに、本の分類上、おおよそ「ISBNが同じなら同じ本」と言えるんだろうけど、大量スキャンプロジェクトの基準で言うと、「ダブりなんてない」って言える。また大量スキャンにおいては、「ダブる」ことは大して怖くないとも言える。「ダブり」に関するしめ…
日記をはじめて1ヶ月経った。だから気分一新。(デザイン変更)そんで、やっと気づいたけど、毎日書くのは大変。日記だから、毎日書かなきゃって思ってたけど、回りを見回してみたら、結構みんな毎日は書いてなかった。もっと早く気づけばよかった。なので、…
昨日は、「ダブり」かどうか判定するのも楽じゃない、ってことを書いた。そしたら、UNさんが、「これは一つの本なのか否か、分かりにくい本」の例をいくつか紹介してくれた。黒澤さんからは、「人名(本名も変化するし、人類の半分は、改名する、ペンネーム…
昨日は、グーグル1500万冊のうち、450万冊がダブってて、まぁ割とダブりがすくないんじゃないの、って話をした。myrmecoleonさんやkusamisusaさんも「少ないな」と言ってくれた。でも、「ダブりって何さ?」って聞かれると、分かってたようで、実はあまり分…
9月2日に、kikoriさんから、 (仮に)国会図書館に800万冊、ICU図書館に65万冊の本があっても、865万種類の本があるわけじゃなくてある程度というか何万冊もダブりがあるわけですよね?となると、無駄なダブりを防ぐ為に情報交換が必要なんじゃないかと思う…
9月1日のエントリーで、「この本棚を全部やろう!」という感じの「とりあえず、やっちゃおう」的な考えがありうることを紹介した。そんでこっちで、「大量スキャンにおいては、ロジスティックスが重要だよ」って言ったけど、そんなの具体的に考えてみないと…
米国で進行中の「本の電子化」が、日本で少しでも理解されたら良いな、と思って書いてるんだけど、この日記だけだとやっぱ限界がある。あとは、みんなが酒飲んでるときに話題にしてくれるのを待ってる。(かなり他力本願だけど。) そんときの小ネタをたまに…
(本日の要約) もし、大量スキャン計画にロングテール的なものがあるとすると、「この本はスキャンする必要あるかな、どうしようかな?とりあえず、やっちゃおう!」ってあたりにある(だろう)。
こういう事件が勃発すると、日記計画が大混乱。 でも、重要だから、急遽、しばらくはこちらに話題を変更するだろう。(本当は、「そろそろスキャナのことを書き始めよう」と思ってたのにな。) どんな事件かというと、「UCがグーグルとの契約内容を公開した…
本日の要約: 1日3,000冊で、10日分が滞留するので、平均30,000冊が本棚に。しかも毎日3,000冊の出し入れ、運搬。まるで、毎日引越ししてるようなもんだよ。
本日の要約: 「アメリカの後追いでない取り組みをする必要がある」と言ってみたけど、とりあえず、「後追い」。しかもダミーを追ってしまっているような感じ。
本日の要約: 電子化する目的ってのは、大きく分けて3つあって、保存目的、閲覧目的、「本が本を読む」目的。そんで、3番目の目的を理解するためには、「アナロジー(類推)で考えてはいけない」*1可能性が高い。 *1:http://www.shinchosha.co.jp/foresight/…
(引き続き、日本の電子化状況と、日本政府が考えている米国の電子化事情を紹介する。) 本日の要約:Google Book Searchみたいに、本をオンラインで見れる、というのはすばらしいよ。でも、日本だって、優れたもの持ってるじゃん。もし日本が電子化を本格的…
(2日ほど家庭の事情でお休みしていたが、再開。引き続き、日本の電子化状況と、日本政府が考えている米国の電子化事情を紹介する。) 本日の要約: 日本の電子化プロジェクトが、単に画像を電子化しただけという批判があるが、アメリカだっておんなじだった…
本日の要約: 日本には多くの埋没画像があるらしいが、米国で進行中の「本が本を読む」作戦から考えると、2ステップ遅れている。
富田さんは、「青空文庫は終わったのか?いや、そんなことはない」と熱く語った。 それを受けて、江坂健さんは、次のように言う。 googleやamazonの作業にも、OCR後の訂正が必要になるでしょうから、そうした部分で青空文庫の工作員の方と協力関係ができれば…
復習 Googleのスキャンプロジェクトは、当面1,500万冊。 必要なストレージ容量は、20PB。金額にして、約20億円。 ストレージのことに関しては、とりあえず、今日で最後。本の電子化というと、スキャナそのものが脚光を浴びる。自動ブックスキャナが開発され…
今年の10月に、台湾で、ICDAT2006というものがあるとのこと。内容としては、ストレージ、プリザベーション、インデックス、サーチ、プレゼンテーション(見せ方)、情報発信、ネット上でのオーガナイズないしシェアの仕方など様々。(ほとんどカタカナに直し…
昨日は、1冊1.5GBくらいかな、と想定した。では、ストレージはいくらくらいするのか? とりあえず、簡単に考えるだけなので、大きなストレージを買うのにいくらかかるか、ってことを考える。 電気代とか、維持費とかかかるんだけど、それは次の課題として、…
ストレージについて考える。本をスキャンしたとき、大切なことがある。「最低でも2種類のデータを作り、貯めておくこと。」 ひとつ目のデータは、マスターと呼ばれ、できるだけきれいな画像。 ふたつ目のデータは、アクセスと呼ばれ、ネットとかで見て、見苦…
とりあえず、詳細は徐々に紹介していくとして、お題だけでも提示しておく。 お題:本を電子化して何すんの? ネットで公開されるので、例えば家にいながら、本が見える。あらっ、便利。 一人旅に行くのに、五木寛之の小説を全部持っていったら大変だけど、電…
やっぱり、Internet ArchiveのBrewster Kahleさんは、UCがGoogleとも組むことを、気に食わないらしい。 Jillさんのサイトで、この記事が紹介されていて、Kahleさんが怒ってるらしい。(でも、この人は、なんとなくいつも怒っているので、どこまで怒っている…