米国版青空文庫


富田さんは、「青空文庫は終わったのか?いや、そんなことはない」と熱く語った。



それを受けて、江坂健さんは、次のように言う。

googleamazonの作業にも、OCR後の訂正が必要になるでしょうから、そうした部分で青空文庫工作員の方と協力関係ができればいいのに、などと考えました。

あまり知られてない(ような気がする)けど、米国にも、青空文庫みたいな人たちがいて、まさに江坂さんの考えをやってるので紹介しておく。




Distributed Proofreaders("あっちゃこっちゃにいる校正家たち")という団体。彼らのサイトの冒頭で、彼らは何する団体か述べる。

この団体は、2000年にできて、パブリックドメインの本を電子化するサポートをする。グーテンベルクプロジェクトを支援するサイトとして始まったが、今ではプロジェクト最大の貢献グループとなった。

Distributed Proofreaders was founded in 2000 by Charles Franks to support the digitization of Public Domain books. Originally conceived to assist Project Gutenberg (PG), Distributed Proofreaders (DP) is now the main source of PG e-books.

最近、寄付金に関する税金上の問題から、法人化した。(詳細


プロジェクトの進め方。

「電子化されてOCRかけられたけど、ちょっと変かも?」という本があったら、ページ毎に分割して、たくさんの人が同時に分散校正できるようにした。
By breaking the work into individual pages many proofreaders can be working on the same book at the same time. This significantly speeds up the proofreading/e-book creation process.

(中略)

ボランティア校正家さんが、ある本のあるページを校正しようと選ぶと、画像データと、とりあえずOCRした文字データが画面上に一緒に写る。
When a proofreader elects to proofread a page of a particular book, the text and image file are displayed on a single web page.

画面上で校正が終了したら、アップロードされ、念のため、もう一人のボランティア校正家さんが再チェック。再チェック・再修正後、ページが登録される。
The edited text is then submitted back to the site via the same web page that it was edited on. A second proofreader is then presented with the work of the first proofreader and the page image. Once they have verified the work of the first proofreader and corrected any additional errors the page text is again submitted back to the site.

(中略)

全部のページが終わると、e-Bookとしてまとめられ、グーテンベルクプロジェクトで公表される。
Once all pages for a particular book have been processed, a post-processor joins the pieces, properly formats them into a Project Gutenberg e-book and submits it to the Project Gutenberg archive.

青空文庫が現在5,000アイテムくらい。
このDistributed Proofreadersは、9,000アイテムくらい。



もし、正確な文字データが本当に必要なら、大量スキャンした画像を、ある程度の精度のOCRをかけ、あとは分散校正する仕組みに載せれば良い、ということになる。