Amazonスキャンした会社


昨日紹介したとおり、Amazonの「Search Inside the Book(なか見!検索)」の「中身」を作ってる会社は、Innodata Isogen社ってとこね。長い名前だけど、Innodataって会社と、Isogenって会社がくっついてできたので、日本の大きな銀行みたいに、こんな長ーい名前をもってるわけ。


名前はさておき、
この会社は、一体全体、どーやってスキャンしたの?って話。

この会社がケーススタディってのを公開してて、「Online Retailer Launches New Product Initiative To Let Customers Search Books Online」ってタイトルで紹介してる。Amazonって名前は使ってないんだけど、Amazonのことね。
http://www.innodata-isogen.com/knowledge_center/case_studies/online_retailer_cs


順番に見てみましょ。

まず、人集め。

While the company has never digitized this many books before, the production team rose to the task, mobilizing more than 2,000 people to work on both projects.

ってなわけで、「最初Amazonから20万冊のスキャンだって言われたとき、そーんな規模のプロジェクトやったことないから、どーなるかと思ったよ。でも、とりあえず、インドとフィリピンで2000人の作業者を確保したよ」って言ってる。


続いて、本運び。

Logistics were another challenge. The retailer shipped more than 120,000 books – via both air courier and ship – to the production center in Asia for the first project and then sent an additional 80,000 titles to Asia for the next project.

ってなわけで、「人集めも大変だったけど、本を運ぶのも大変だったよ。最初12万冊を運んで、次に8万冊を運んだんだ。そのとき、船便だけでなく、航空便も使ったよ」だって。


本が届いたら、

Once the books arrived at the content production centers, teams would de-spine the volumes, and then collate and scan the pages. The images were then converted into an electronic file and stored on tapes, which were flown to the retailers' data center in the United States as soon as they were full.

ってなわけで、「まず、背表紙を切っちゃって、整理して、スキャンしていくわけさ。スキャンデータは、テープに保存して、いっぱいになったら、航空便でアメリカに送るわけさ」ってことらしい。(前に紹介したフランスのAmalfiプロジェクトは、マダガスカルからフランスへ衛星を使ってデータ転送してたよね。)


スキャン作業のスピードだけど、

The teams scanned the entire contents of a book – almost 600 books per day – and then sent tapes containing up to 1,000 books to the United States, where the retailer would upload the contents to its website.

ってなわけで、「まぁ、1日に600冊って言ったところだよ」ってこと。まぁ、そんなペースだったら、20万冊を終わらせるには、2年は必要だな。


そんで、この会社がどこまでやったのかっていうことで、

Innodata Isogen also performed basic indexing for the file formats, creating one image and attribute file per page to help the retailer upload the digitized images to its website.

ってなわけで、「簡単なインデックス付けまでは、うちがやったよ」って言ってる。


そんで、スキャン画像の品質について、

In addition to complying with the tight deadlines, the production teams also met the retailers' rigorous quality control standards, sending each book through a final review to check the image quality and ensure that the pages were complete.

The retailer did not reject a single image.

ってなわけで、「Amazonは、画像の品質に関しちゃぁ、小うるさいんだけど、その彼らもうならせるくらいのすばらしー品質で納品したよ。だから、1ページも却下されなかったよ。ねっ、すごいでしょ?」って言ってるけど、すでにAmazonのひん曲がってる画像はいくつか紹介したので、みんなは知ってると思うけど、こーいうのは、いい加減な欧米基準でのお話ね。しかも、1ページも却下されんかったから、すごいでしょ?って最後に言ってる部分を翻訳すると、「ねぇ、Amazonってたいしたことないでしょ?ちょっとくらい曲がった画像いれておいたって、気づきゃぁせんよ」ってことね。


というわけで、結局何が言いたいのかっていうと、「2000人も確保して、船便だけでなく航空便も使って、簡単なインデックスまでつけちゃって、さらに”高品質”を確保するため最終チェックを入念にして、果たして1冊1ドルなんかでやれたのかい?20万冊ってことは、20万ドルだよ?このInnodata Isogen社が、20万ドル程度で、こんなプロジェクトを引き受けるのだろーか、かなり疑問だよ。」ってこと。