В минувшие выходные Российская государственная библиотека и «Школа 21» провели онлайн-хакатон по прикладному применению средств алгоритмической обработки текстов на русском языке.
87 человек из двух кампусов «Школы 21» в течение двух дней решали до сих пор пока “не решаемую” задачу по созданию алгоритмов выявления необходимых данных из текстов подшивок газеты “Красная звезда” за 1941-1945 гг.
Перед участниками хакатона стояла задача представить программное решение, которое переводило бы в машиночитаемую форму все упоминания, которые относятся ко времени и датам, упоминаемым в подшивках: конкретные даты, исторические периоды, временные интервалы и т.д. Для английского языка подобные процедуры выполняются со сравнительно высокой точностью, например, с помощью Python-библиотеки duckling. В случае с русским – подходящего решения «из коробки» нет до сих пор.
Всего в хакатоне приняло участие 87 человек из двух кампусов «Школы 21». Они разделились на 34 команды. До финального этапа решений дошло 13 команд. Среди призёров — 6 команд, из которых три поделили между собой третье место и одна получила специальный приз за менеджмент процессов.
Состязающихся ждало множество подводных камней: им следовало учесть вероятность ошибок ввода, ошибок распознавания, разнобой в стандартах обозначения времени и даты, особенности морфологии и семантики русского языка: в статьях могут использоваться как точные формулировки формата «2 февраля 1944 года», так и менее очевидные: «во вторник через неделю» или «на прошлое 1 Мая».
Решение подобных задач имеет огромный потенциал прикладного применения — в первую очередь, непосредственно в Российской государственной библиотеке. Точное распознавание временных маркеров позволит сопоставлять описываемые в источниках события, имеющие хронологическую привязку, и, кроме того, более тонко работать с семантикой текстов и причинно-следственными связями.
Станислав Кузнецов, заместитель Председателя Правления Сбербанка:
«Сохранение памяти о подвигах нашего народа во времена Великой Отечественной войны — одна из прикладных и понятных абсолютно всем задач, которую можно ставить перед искусственным интеллектом. Сбербанк, используя свой технологический потенциал, уже предлагал цифровые решения для сбора данных о героях Великой Победы. Сегодня совместно с Российской государственной библиотекой мы значительно упростим поиск информации в, казалось бы, неподдающихся оцифровке легендарных подшивках прифронтовых газет».
Участникам была предоставлена полная свобода в выборе средств — так, не возбранялось использовать готовые библиотеки для обработки естественного языка и комбинировать их с собственноручно написанными алгоритмами.
За два дня хакатона большинство участников успели провести работу по чистке и обработке базового набора данных, собранного на основе архива газеты «Красная Звезда» за 1941–1945 гг. Отдельные команды при решении задачи преодолели 40%-й порог точности. Следует отметить, что несколько команд, в которые входили преимущественно новички, предпочли действовать путём перебора, благодаря чему показали более высокие результаты (до 70%).
Светлана Инфимовская, директор «Школы 21»:
«Один из важных форматов работы для «Школы 21» — проведение хакатонов на основе реальных задач. Мы вдохновились стремлением Российской государственной библиотеки решить одну очень сложную и важную задачу — оцифровать архивы ВОВ. Коллеги пошли на эксперимент и дали возможность нашим участникам в Москве и Казани за двое суток попробовать применить свои знания в области искусственного интеллекта, чтобы решить эту задачу. В итоге им удалось предложить технические решения, которые применимы в реальной жизни. Во время награждения один из участников «Школы 21» даже получил предложение о работе».
Таким образом, в ходе хакатона лишний раз подтвердилось общее положение дел в области анализа больших данных: на небольших объёмах данных человек пока справляется с определением даты и времени лучше, чем программные средства для естественной обработки языка, в том числе основанные на машинном обучении. В случае же с по-настоящему большими данными зрелые подходы natural language processing всё актуальнее.
Организаторы хакатона со стороны Российской государственной библиотеки сошлись на необходимости продолжить начатую в ходе мероприятия работу. Одним из последующих шагов станет создание открытого репозитория с программными решениями для распознавания и анализа временных конструкций в русскоязычных текстах. Также по этой линии предварительно запланирована научно-инженерная работа в Лаборатории исследований и разработки НЭБ, к которой предполагается привлечь и показавших наиболее примечательные результаты участников хакатона.
Вадим Дуда, генеральный директор Российской государственной библиотеки:
"Библиотечные и архивные фонды – настоящее богатство, память и история нашей страны. Не всегда события видятся современниками в должном масштабе, не всегда оценивается их влияние на дальнейший ход истории. Вызов современного информационного общества – встроить наши документы, информацию, знания в цифровое пространство. Конкретная и очень непростая задача, которую мы пытаемся решить в рамках хакатона, – это оцифровка и «разметка» газетного фонда. В результате мы получаем из скана газетной полосы невероятно ценный информационный массив для работы. Фактически, мы создаем основу совершенно нового библиотечного направления – цифровой библиографии!»
Источник информации и фото: Российская государственная библиотека