Редактор Илья Старков: самое сложное в оцифровке старинных изданий это распознавание текста
Самое сложное в оцифровке старинных изданий это распознание текста, рассказал дизайнер, редактор проекта «Электронекрасовка» Илья Старков.
Самое сложное в оцифровке старинных изданий это распознавание текста, заявил в интервью Международному пресс-центру МКР-Медиа дизайнер, редактор проекта «Электронекрасовка» московской Библиотеки им. Н. А. Некрасова Илья Старков.
«Электронекрасовка» – это проект, в рамках которого Библиотека им. Н. А. Некрасова оцифровывает свои уникальные фонды: издания 1564–2001 годов, уникальные коллекции книг, журналов и газет.
- Илья, в последние годы, кажется, что оцифрование стало не только модным, но и востребованным явлением. На ваш взгляд, почему?
- Проект «Электронекрасовка» – это командная работа Библиотеки им. Н.А. Некрасова. Если говорить о востребованности, то, наверное, это запрос не только на оцифровку, а на образование и просвещение в целом. Именно поэтому вокруг нашей библиотеки мы запустили собственное культурологическое медиа, где в формате лекций, подкастов и статей рассказываем про историю, культуру, архитектуру и другие сферы. А с помощью наших изданий полученные знания можно углубить и закрепить. Модным это делает использование актуальных медиаформатов, с учетом современных технологий. В качестве примера актуальных форматов могу привести подкасты, потому что мы запустили целый ряд подкастов. В «И так было» студенты Школы культурологии Высшей школы экономики обсуждают и анализируют старые газетные новости, в подкасте «Родченко в Париже» с помощью актеров электротеатра «Станиславский» мы сделали целую подкаст-постановку на основе переписки художников Александра Родченко и Варвары Степановой, еще есть «Пролеткульт» о культуре 1920-х годов, и ряд других проектов. Одно из наших старейших изданий «Слово о полку Игореве», изданное в 1800 году мы разобрали на цитаты, и собрали в вини-стикеры для мессенджера. Мы не ограничиваемся онлайн-деятельностью, и проводим кинопоказы, устраиваем лекции, делаем выставки вокруг наших оцифрованных архивов.
- Что самое сложное в оцифровке изданий? Есть ли разница в том, как дарить вторую жизнь журналу или газете?
- Самое сложное – это распознавание текста. Мы размещаем оцифрованные издания не просто как сканы, но и добавляем текстовый слой, чтобы можно было полнотекстово искать по книге или периодике. Старые газеты из-за плохого качества печати, плохой сохранности, потёртостей и сгибов очень сложно поддаются распознанию на текст современным программным обеспечением. Поэтому мы разработали и запустили в тестовом режиме собственную нейронную сеть, направленную на распознавание текста в газетах. Сеть постепенно обучается именно на наших изданиях.
- Работа над каким изданием стала самой интересной за время существования проекта «Электронекрасовка»?
- Все издания интересны в этой или иной степени. Здесь, наверное, можно отметить только интересные даты и факты. Самое старое наше издание – это архитектурная книга «Правило пяти ордеров» 1564 года. И даже если вам неинтересна тема, то поработать с таким артефактом, как минимум увлекательно. Лично мне интересна периодика авангарда, которой у нас очень много, и те, кто увлекается архитектурой, дизайном, кино и культурой 1920-х – 1930-х годов, найдет для себя массу интересного. Сейчас мы готовим к публикации 100 000 артефактов промграфики, это конфетные обертки, этикетки, бланки, календари и прочая малая графика начиная с XIX века. Это тоже очень интересно.
По материалам Международного пресс-центра МКР-Медиа