大量スキャンプロジェクトにおいて、ダブりなどない①


確かに、本の分類上、おおよそ「ISBNが同じなら同じ本」と言えるんだろうけど、大量スキャンプロジェクトの基準で言うと、「ダブりなんてない」って言える。また大量スキャンにおいては、「ダブる」ことは大して怖くないとも言える。

「ダブり」に関するしめくくりとして、「ダブりなんてない」理由を、以下の3点で整理しとく。(3回シリーズ)
1.本の状態
2.スキャン作業と後処理
3.わざとダブらせる



kikoriさんの「ダブりがあるわけですよね?」というコメントで始まったこの「ダブり」考察は、kikoriさんのコメントでほぼ終了する。

ダブり問題に関しては、コメント欄の皆様の発言(とっても参考になるので必見)やbookscannerさんがおっしゃられてる事を総合するとやはり「とりあえずやっちゃ」って、タグ付けて、後で判別していった方が結局効率的、という結論に落ち着きそうな感じですね。

でも、最後に「触れ残し」を、いくつか紹介しておく。今日は、「1.本の状態」について。


myrmecoleonさんが言うように、「同じ版で同じ時に出版された本なら,さすがに書いてあることは同じだろ」ってのは、本の分類上はそうなんだろうけど、いざスキャンするぞ!という場面では、「書いてあること」に加えて、「どうやって写るか?」ってことがとっても重要。見た目重視。(もちろん、中身も重要だけどね。)


極端な例を出せば、こういうこと。

ページの一部が切り取られたり焦げたりした本

宇部日報 『市立図書館で「汚破損本」目立つ』より

出版された当時は、「同じ本」だったかもしれないけど、その後、それぞれの本は、別々の道を歩んで、いろんな汚れつけられちゃったり、書き込みされたり、折られたり、切られたりしてる。そしたら、「スキャン」上、「同じ本」とは言えないってことになる。


さらに下の例は、左がInternet ArchiveがスキャンしたUCの本で、右がMOAがスキャンしたミシガン大学の本

両方とも、1875年に出版された「同じ本」だった(はず)。(色が違うのは、画像処理の違いね。念のため。)


そんで、左のUC本(ダウンロードはこっち、21MB)のOCR結果は、こんな感じで、明らかに「シミ」が悪さをしてるのが分かる。(赤字が誤変換、bookscanner追加。)

PROBLEMS. 145
By express^^ algebraically, the second condition of the
problem, we olBti a second equation,
y 240ic = 310.
Both members of t^Krst equation being divisible by 100
and those of the^j^conri^^^O, wre have,
= 31.
To eliminate cc, multiply the first equation by 8, and then
add the result to the second ; there results,
19y = 95, whence, y = 5.
Substituting for y, in the first equation, this value, and
that equation becomes,
3x 10 = 8, whence, x = 6.


参考までに、ミシガン本のOCR結果は、これね。(全部見たい人は、こっちから。でもとっても長いよ。赤字が誤変換、bookscanner追加。)

PROBLEMS. 145
By expressing, algebraically, the second condition of the
problem, we obtain a second equation,
350y - 240x = 310.
Both members of the first equation being divisible by 100
and those of the second by 10, we have,
x - -2 = 8, 35y -24x = 31.
To eliminate x, multiply the first equation by 8, and then
add the result to the second; there results,
19y = 95, whence, y = 5.
Substituting for y, in the first equation, this value, and
that equation becomes,
3x- 10 = 8, whence, x = 6.


でも、ミシガン本のほうが良いから、そっちだけスキャンすりゃいいじゃん、ってわけにもいかない。

1つ目の理由は、このMOAはとっても「慎重に」作業が進められたので、おそらく、スキャン前に相当な時間をかけてお掃除してたはず。そんなこと続けるわけにはいかない。(グーグルUCプロジェクトは、1日3,000冊のペースだってこと、思い出してね。)

2つ目の理由は、たまたまミシガン本は全体的にきれいだけど、普通は「一長一短」どうしの比較になって、どっちにするか、そんなことやってるだけで、日が暮れちゃう。(「グーグル・ファイブが、みんな持ってる本」ってのが31.5万冊もあるんだ、ってこと思い出してね。」

がんばって重箱の隅をつついてみれば、ミシガン本より、UC本が「きれい」なところも見つかる。(194ページ中段ね。)上がUC、下がミシガン。(MOAのあら捜しは、かなりしんどいよ。)

                                                                                              • -

そんで(英語だと「Last but not least」、日本語だとなんと言うのか知らんけど)、最後の理由は、「書き込みがもつ付加価値」のため。(宮崎さんも言ってるけど、「(誤解のないように、一言お断りしておくが、私は図書館の本への書き込みを推奨しているわけではない。当然のことながら、図書館所蔵の書誌への書き込み・落書き等は厳禁である。書き込みは自己所有の書物についてのみ許されるのである。」念のため。)


上に示した「シミ」だけじゃなくて、UC本は、たくさん書き込みがしてある。この場合、UC Berkeleyの教授だったJ. Henry Sengerさんが寄贈したらしいから、すでに書き込みしてあった本をあげたんだろう。ちなみに、Sengerさんってのは、こんなことで名を残してる。

(細かいことは調べて見ないと分からんけど、)このSengerさんが、「代数」の教科書でいろいろ勉強したのかもしれなくて、こんなお茶目な計算ミスをしてる。こういうのって、素敵。


おおもと:UC本の189ページ。


同様の良質「書き込み」は、こちらにもある。

また、書き込みを見て買いたくなる古書もあるわけだから、スキャンするときは、別物として扱うべきなんだろう。



というわけで、大量スキャンの現場では、

○保存・閲覧目的で考えたら、「書き込みがもつ付加価値」をスキャンしなくちゃいけないし、
○「本が本を読む」目的で考えたら、「汚破損」部分でOCRが邪魔されるかもしんないので、複数スキャンしておいて、補うしかないな(これについては、後日「3.わざとダブらせる」で詳述予定。)

っていう側面があるわけ。


したがって、「本の大量スキャンプロジェクトにおいては、FRBRのitemってのが、1冊と数えるには良いんではないか」と思い、そうすると、極端な話、「ダブりなんてないよ」ってことになる。

                                            • -

ちなみに、Google Book Searchでも同じ本がみれるけど、MOA提供のミシガン本だね。Google本のPDFをダウンロードして、194ページ(PDFの199ページ目)見れば、分かるよ。こんな風に、シミとかは、ひとつの「指紋」みたいなもんだね。筆跡鑑定みたいなもんで、スキャンデータをパクろうとしている人は、やめといたほうがいいよ。プロが見れば、もっと細かい点ですぐわかるよ。