avva: (Default)
[personal profile] avva
Torching the Modern-Day Library of Alexandria

Длинная, подробная, и очень интересная статья о том, как провалилась инициатива Гугла предоставить публичный доступ к гигантскому массиву в 25 миллионов книг, которые Гугл оцифровал в рамках проекта "Океан" во второй половине 2000-х. Эта коллекция включает в себя книги нескольких больших университетских библиотек, а также некоторых огромных публичных библиотек Америки и Европы. Эти 25 миллионов составляют по оценкам около пятой части всех книг мира, когда-либо опубликованных, и в планах проекта было продолжать и стремиться к 100% охвата. Книги, которые еще продаются издателями ("in print") нельзя было бы увидеть, но все книги, к которым уже нет коммерческого интереса - включая, что самое важное, огромный пласт книг последних 100 лет, до сих пор лежащих под копирайтом - можно было бы купить за номинальную цену или смотреть бесплатно в публичных библиотеках во всем мире.

Это был прекрасный проект - лучшее, на что можно было надеяться (с моей точки зрения, еще лучше было бы радикально сократить срок копирайта и освободить из плена этот огромный пласт книг - но это политически неосуществимо). Но он провалился, и виной тому сочетание копирайтных законов, особенностей американского судопроизводства, и активистов, которые протестовали против такой концентрации доступа у Гугла, и добились в итоге того, что никто эти книги не видит и в обозримом будущем не увидит.

Очень грустная статья, наводящая тоску.

Меня особенно бесит - и думаю, тут со мной согласятся другие цифровые гики и всякие программисты - ситуация, при которой все это богатство информации уже *есть*, оно уже оцифровано, уже распознано OCR, уже лежит на дисках, вся тяжелая работа уже сделана.. и из-за тупости законов и людей она недоступна никому, кроме горстки инженеров. Это хуже, чем если бы никто это не отсканировал и не приготовил. Такое же отношение у меня к проектам типа JStor и Project MUSE, которые оцифровали миллионы старых научных журналов, но не дают к ним доступа никому, кроме больших корпораций и учебных заведений за гигантские суммы.

Я не отрицаю копирайт и плату за книги в принципе - наоборот, я стремлюсь уже много лет всегда платить за цифровые книги, которые покупаю, если есть возможность это сделать по разумной цене. Но когда такой возможности нет, и книги или статьи лежат в плену бумаги и идиотского законодательства - это бесит.

Информация. Хочет. Быть. Свободной!

Date: 2017-04-24 05:43 pm (UTC)
From: [identity profile] pharmazevt.livejournal.com
Согласно статье в The Atlantic, сканирование и хранение электронных копий книг для поиска по сниппетам уже признано судом законным - fair use.

Date: 2017-04-25 08:07 am (UTC)
From: [identity profile] labas.livejournal.com
Да, я прочитал статью. Я просто не вполне согласен с уваж. [livejournal.com profile] avva насчет того, что сниппеты это фигня в сравнении с полным текстом. То есть меньше всего хотелось бы, чтобы, не получив разрешение на показ полного текста, Гугль начал бы бить об пол собственный хрусталь и полностью прикрыл бы проект (как он проделал это с газетами).
На пятибалльной шкале, если считать, что ситуация на 2005 год это 0 из 5, а показ полного текста (временами платный) это 5 из 5, я бы оценил сниппеты как 4 из 5.
Т.е. это очень серьезный шаг вперед.

В целом же, если тема руководству Гугля по-прежнему интересна, есть вполне очевидное возможное направление движения: газеты.
Там копирайт в разных странах колеблется, но в целом сейчас где-то на уровне 1945 года, т.е. фактически все газеты первой половины века можно цифровать и показывать.
Локально кое-что уже оцифровано, например, в Австралии, в Австрии, в Латвии, во Франции, берлинская SBB и московская ГПИБ имеют превосходные коллекции, сам Гугль тоже изрядно оцифровал (и слил всяким ancestry, наск. можно понять) но проблема именно в локальности. Связать это все в единую БД с возможностью сквозного поиска - задача весьма нетривиальная (форматы и API наверняка разнятся), но вполне подъемная для такого монстра как Гугль.

Впрочем, вероятно, это все лучше действительно юридически делать отдельным некоммерческим фондом, который кооперировался бы с библиотеками.

July 2025

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 8th, 2025 01:53 am
Powered by Dreamwidth Studios
OSZAR »