Искусственный интеллект расшифровывает манускрипты

Как быстро отыскать нужный фрагмент в архиве старинных манускриптов? До сих пор компьютеры не слишком хорошо справлялись с распознаванием такого текста, но теперь им на помощь приходит искусственный интеллект.

Тирольский Государственный архив в Инсбруке хранит бесчисленное множество документов. Некоторые из них датированы XI веком. В основном это официальные акты, юридические документы и другие важные рукописи из далёкого прошлого. Преобразовать эти книги в электронный вид — задача не из простых. Но этот архив работает с учёными над автоматизацией оптического распознавания текстов с использованием новейших компьютерных технологий.

«С таким сложным шрифтом, как этот, думаю, у новой техники возникнут проблемы. Но в работе с относительно аккуратным почерком, каллиграфией технологии обладают явным преимуществом», — объясняет Кристоф Хайдахер, директор Тирольского Государственного Архива.

Для оцифровки таких книг учёные, работающие над Европейским исследовательским проектом Read, разработали простую в применении систему. В её основе — специальное приложение для смартфонов. Оно реагирует, когда страницы переворачиваются, и автоматически делает фотографии высокого разрешения каждой из них.

«Это сочетание низкотехнологичных методов и новейших технологий. Этот навес — относительно простой, низкотехнологичный аксессуар. Но он работает с высокотехнологичным приложением, установленном на смартфоне. Устройство подключено к платформе «Транскрибус». Приложение загружает изображения на сервер. А он, в свою очередь, распознаёт рукописный текст», — рассказывает Гюнтер Мюльбергер, координатор проекта READ, исследователь в области оцифровки (Инсбрукский Университет).

«Транскрибус» значительно упрощает задачи, на выполнение которых обычно уходят годы, помогая учёным в работе со сложным почерком, необычными макетами.

Доктор Марио Кларер использует его для воссоздания пятисотстраничной «Книги героев» — наиболее значимой антологии в немецкой литературе Средневековья, написанной по заказу

«Преимущество этой технологии заключается в том, что она обеспечивает связь между изображением и текстом и делает это очень простым способом. Так, расшифровщик получает полную картину. Это позволяет свести число ошибок к минимуму. Любым другим способом такого результата достичь нельзя», — уверяет Марио Кларер, профессор литературы и истории культуры Инсбрукского Университета.

Сервер, находящийся в Университете, использует специальные алгоритмы машинного обучения для того, чтобы компьютер мог работать с новыми шрифтами. После того, как пользователи вводят в компьютер часть манускрипта вручную, ПО самостоятельно учится идентифицировать новые символы, а затем завершает расшифровку остального текста, делая это с точностью, превышающей 95%.

«Я ввожу в компьютер изображение и отрывок из текста. С их помощью в дальнейшем он будет распознавать подобный шрифт, стиль письма в манускриптах», — рассказывает Гюнтер Мюльбергер.

Эта система способна расшифровать текст на любом языке. Она объединяет лингвистов, учёных, архивистов и волонтеров из многих стран. Разработчики планируют сделать «Транскрибус» коммерчески доступным пользователям по всему миру.

«Мы не ожидали, что этот проект будет пользоваться таким большим успехом. С нами связались многочисленные учреждения и компании, заинтересованные в нём. Поскольку мы хотим расширить перечень наших услуг, то планируем открыть дочернюю компанию», — заключает наш собеседник.

Источник: ru.euronews.com

Добавить комментарий