avva: (Default)
avva ([personal profile] avva) wrote2017-04-24 05:06 pm
Entry tags:

александрии не будет, нас всех тошнит

Torching the Modern-Day Library of Alexandria

Длинная, подробная, и очень интересная статья о том, как провалилась инициатива Гугла предоставить публичный доступ к гигантскому массиву в 25 миллионов книг, которые Гугл оцифровал в рамках проекта "Океан" во второй половине 2000-х. Эта коллекция включает в себя книги нескольких больших университетских библиотек, а также некоторых огромных публичных библиотек Америки и Европы. Эти 25 миллионов составляют по оценкам около пятой части всех книг мира, когда-либо опубликованных, и в планах проекта было продолжать и стремиться к 100% охвата. Книги, которые еще продаются издателями ("in print") нельзя было бы увидеть, но все книги, к которым уже нет коммерческого интереса - включая, что самое важное, огромный пласт книг последних 100 лет, до сих пор лежащих под копирайтом - можно было бы купить за номинальную цену или смотреть бесплатно в публичных библиотеках во всем мире.

Это был прекрасный проект - лучшее, на что можно было надеяться (с моей точки зрения, еще лучше было бы радикально сократить срок копирайта и освободить из плена этот огромный пласт книг - но это политически неосуществимо). Но он провалился, и виной тому сочетание копирайтных законов, особенностей американского судопроизводства, и активистов, которые протестовали против такой концентрации доступа у Гугла, и добились в итоге того, что никто эти книги не видит и в обозримом будущем не увидит.

Очень грустная статья, наводящая тоску.

Меня особенно бесит - и думаю, тут со мной согласятся другие цифровые гики и всякие программисты - ситуация, при которой все это богатство информации уже *есть*, оно уже оцифровано, уже распознано OCR, уже лежит на дисках, вся тяжелая работа уже сделана.. и из-за тупости законов и людей она недоступна никому, кроме горстки инженеров. Это хуже, чем если бы никто это не отсканировал и не приготовил. Такое же отношение у меня к проектам типа JStor и Project MUSE, которые оцифровали миллионы старых научных журналов, но не дают к ним доступа никому, кроме больших корпораций и учебных заведений за гигантские суммы.

Я не отрицаю копирайт и плату за книги в принципе - наоборот, я стремлюсь уже много лет всегда платить за цифровые книги, которые покупаю, если есть возможность это сделать по разумной цене. Но когда такой возможности нет, и книги или статьи лежат в плену бумаги и идиотского законодательства - это бесит.

Информация. Хочет. Быть. Свободной!

[identity profile] snyders.livejournal.com 2017-04-24 05:31 pm (UTC)(link)
Гугл же выиграл, показывает снипеты, в чем проблема?

"instead, it’s 50 or 60 petabytes on disk, and the only people who can see it are half a dozen engineers on the project."

Если в средней книге 300 страниц, то выходит 6 Mb на страницу, не многовато? К тому же после OCR это все занимает порядка 20 Tb, один современный хард диск.

(Anonymous) 2017-04-24 05:48 pm (UTC)(link)
6 Mb на страницу это совсем не много. OCR не заменяет картинку, а накладывается на нее. Добавьте сюда еще индексы для поиска.

[identity profile] snyders.livejournal.com 2017-04-24 07:22 pm (UTC)(link)
DJVU-подобное хранение очень компактно. Там, где есть сомнение хранится кусочек картинки. Несколько мег на всю книгу.

[identity profile] avva.livejournal.com 2017-04-24 05:53 pm (UTC)(link)
Снипеты это фигня по сравнению с целой книгой.

[identity profile] snyders.livejournal.com 2017-04-24 07:19 pm (UTC)(link)
Из статьи (в т.ч. и в вики) не очень понятно, какой план считался бы удачным исходом событий (при условии соблюдения копирайта). Разрешение на продажу книг по ценам, установеленным владельцем копирайта, и бесплатно, для бесхозных книг?

[identity profile] avva.livejournal.com 2017-04-24 08:23 pm (UTC)(link)
Насколько я понял: книги с известным владельцем - по его выбору; книги без известного владельца, но возможно под копирайтом - по установленной автоматически цене между $2 и $30, зависящей от каких-то факторов, и две третих прибыли откладываются для выплаты владельцу, если он объявится; и книги без копирайта бесплатно.

[identity profile] snyders.livejournal.com 2017-04-24 08:57 pm (UTC)(link)
Ясно. Насколько я понял примерно половина out of print книг бесхозные, но никто не знает какая.

Гуглу стоило предложить план, по которому Гугл получает доходы со всего этого пока его расходы на проект не компенсируются, а затем все передается под контроль non-profit организации типа Wiki (Гуглу платят только за
хранение и трафик).

[identity profile] mi-b.livejournal.com 2017-04-25 08:53 am (UTC)(link)
вот это бы как раз гарантировало бы монополию Гугла, потому что низкая цена убрала бы стимул Амазону или Микрософту самим тоже оцифровывать.

[identity profile] leonid-smetanin.livejournal.com 2017-04-25 09:27 am (UTC)(link)
> 6 Mb на страницу, не многовато?

Нормально, если хранить изначальные битмапы, что, без сомнения, делается.