周辺情報

ネットで「本」を読む?

むかーしに、「ネットで「本」を読みますか?」ってなことで、いろんな人が、いろんなこと言ってた。 http://slashdot.jp/askslashdot/article.pl?sid=04/09/25/083204 とりあえず、これは「ネット読書」に関する古典だと思ってるよ。必読。 あれから、ずん…

Wikipediaをどーやって使おっか?

前回、Amazonが「Citation」ってな感じで、本のパクり関係を教えてくれる、って話をした。これって、Amazonの商売の面で言うと、新たな「リコメンド」機能だよね。 そんで、リコメンドつながりってことで、

アベブのブログ

日本でも知ってる人が多いだろーけど、「古本探すなら、Abebooks!」(http://www.abebooks.com/) このアベブ*1に関連して、彼らのブログを知ってる? 本に関して、いろいろとおもろいことを書いてんだけど、いくつか最近のもんを紹介しておきましょ。http:…

規模のはなし

*1電子化プロジェクトの規模に関して、3つくらいの分け方があるよ。 並 (普通、何もつけず、"Digitization") 大 ("Large Scale Digitization") 特大 ("Mass Digitization") *1:本日の話は、かなりデフォルメされてんので、鵜呑み厳禁

「しかたなく画像派」

前回、画像派/文字派って区別ができる、って話をした。 そんで、画像派の特徴は「画像でなきゃ意味がない」ってところにあって、かなりすっきりしてんだよね。 ところが問題は、文字派で起こるわけ。

画像派と文字派

電子化されたデータに関連して、2つのグループがある。画像派と文字派。とりあえず、簡単なところから、攻略していきましょ。

カレントとアーカイブ

「本の電子化」ってのは、ある意味ブームだから、みんな、なんとなく分かってる。でも、「なんとなく」だから、いろんなことがごっちゃまぜになってて、ときたま、混乱してるよーに見える人がいるよ。 今回から数回にわたって、「電子化」にまつわる分類を、…

 Bibliographic Amnesiaと「本の電子化」

Bibliographic Amnesiaってのが、日本語で何て訳されてんのか、よーわからん。簡単に言えば、「へぇー、昔の本にすでに書かれてたのね」ってこと。例をみてみましょ。

 フォークソノミーで論争

http://www.dlib.org/dlib/november06/peterson/11peterson.html Beneath the Metadata Some Philosophical Problems with Folksonomyってのが、発表されてんだけど、日本じゃ、あんまし読まれてないよーな気がする。おもろいよ。(del.icio.usを見ると、300…

 8畳にはサンデー14,000冊まで

(プラプラと旅してたので、ちょっとしたブランクがあったけど、「捨てる」の続きね。) (サンフランシスコなんで)坂道を登りながら、こう考えた。 本を捨てれば悔やまれる。捨てずに残せば床抜ける。 兎角に人の世は住みにくい。住みにくさが高じると、安…

 残すもんと残さんもん

引き続き、「捨てる」を考え中。そんで、「捨てる」前に電子化して残しとかんと、後悔するかもしんない、って話をした。でも、こういう話をすると、スキャン画像はカラーか白黒か、解像度はいくつか、なんていう話にされちゃう。もちろん、そういうことも重…

 アメリカでおきた「ある揉め事」

年末大掃除に向けて、「捨てる」を考えてる。そんで、「捨てる」をめぐって、ロスアンゼルス近くの大学図書館がもめてんので、それについて見てみる。もめてる大学図書館ってのは、California State Polytechnic University, Pomona(カリフォルニア工科大学…

 捨てる

あと数日でサンクスギビンデーで、それが過ぎると、もう心は上の空。だから、このbookscanner記も、今年残すところ、数回。というわけで、「本の電子化」に関係する今年最後の大きなテーマは、「捨てる」ってこと*1。おそらく数回シリーズ。 *1:年末の大掃除…

 Amazonスキャンはなぜ安い?(3)

過去2回にわたって、Amazonの「1冊1ドル」伝説を検証してたんだけど、最後に、Amazonプロジェクトを、他のプロジェクトと比較してみるよ。そんで、なんでAmazonだけが「1冊1ドル」に挑戦できるのか、ってところね。本日の命題: スキャン料金は、残したい思…

 Amazonスキャンはなぜ安い?(2)

前回は、巷の「1冊1ドル」説はかなりいい加減!って話をした。でも、今回は翻って、(できるだけ具体的に見ていくことで、)「Amazonは、本当に1冊1ドルくらいでスキャンしてるかもしんない」ってことを書く。(でも、かなりいろんな条件がつくけどね。)

 Amazonスキャンはなぜ安い?(1)

ここ2年くらい、よく質問されることがある。 中国とかでスキャンすると、本当に1冊1ドルくらいでできるんの? って質問。これって、かなり返答に困るんだよね。何でかって言うと、

 1万分の1という「エラー率」って何だ?

Microsoftついでに、10月25日に言いかけたことを補足。 こっちの日経の記事によると、 Kirtasは,大容量の書籍デジタル化で独自のソリューションを用いており,「エラー率は1万ページに1ページ未満」 ってことらしい。だけど、これって相当お茶を濁されてる…

 「透明テキスト」を具体的に見る

10月4日エントリで、PDFとかに貼っついてんのが、「透明テキスト」だよって言った。そんで、「透明テキスト」ってのは、贅肉落とした"Image Coordinates"だって紹介したけど、どんなもんか、見せてなかった。やっぱり、この記の特徴は、「具体的に示す」って…

 本を読むと眠くなる理由

井野口さんが、10月2日の記に対してコメントしてくれて、こういう質問をしてくれた。 最近のスキャニング(+OCR)では、画像中の位置情報までメタデータとしてデータ化してしまう、ということは結構普通に行われていることなのでしょうか。 これに応えること…

 Googleが目指すは、「ページの切り売り」なんてショボいもんじゃない

もう1年も前になるけど、Amazonが「ページの切り売りを始めますよ」って発表した。この記事のTBとかを見れば、当時の反応が分かる。 いまや、時代は、ページ単位でもない。 どんな単位なのかってことは、こちらをみてね。 さらに、

 喉から手を出してまで、UCが欲しがった”Coordinates"とは?

前回、UCグーグル契約書の4.7にある Image Coordinates will only be provided (i) so long as University complies with the volume commitments set forth in Section 2.2 という部分を見たCoyleさんが、「もしUCが毎日3,000冊を提供するんだったら、Googl…

 どんくらい傾くのか?見てみよう。

昨日は、スキャンした画像ってのは、残念ながら傾いちゃうって話をした。 この(日)記は、具体例を挙げるのがモットーなので、どんくらい傾くのか、(かなり)具体的に話をしとく。マニア度がちょっと高めなので、ご注意あれ。 下の2枚の写真は、スキャン直…

 30個の『二都物語』と3世代の「トイレ本」

昨日は、「ダブり」かどうか判定するのも楽じゃない、ってことを書いた。そしたら、UNさんが、「これは一つの本なのか否か、分かりにくい本」の例をいくつか紹介してくれた。黒澤さんからは、「人名(本名も変化するし、人類の半分は、改名する、ペンネーム…

 ところで、ダブりって何さ?

昨日は、グーグル1500万冊のうち、450万冊がダブってて、まぁ割とダブりがすくないんじゃないの、って話をした。myrmecoleonさんやkusamisusaさんも「少ないな」と言ってくれた。でも、「ダブりって何さ?」って聞かれると、分かってたようで、実はあまり分…

 米国版青空文庫

富田さんは、「青空文庫は終わったのか?いや、そんなことはない」と熱く語った。 それを受けて、江坂健さんは、次のように言う。 googleやamazonの作業にも、OCR後の訂正が必要になるでしょうから、そうした部分で青空文庫の工作員の方と協力関係ができれば…