Цифровые технологии + литература = 🖤
Как научить нейросеть читать тексты в дореформенной орфографии? И какая ручная работа скрывается за автоматизацией? Александра Костина и Алёна Федюкина расспросили создательниц оцифрованного архива «Отечественных записок» о том, с какими сложностями сталкиваются студенческие проекты в области digital humanities: от заполнения грантовых заявок до сохранения мотивации в команде.
Александра Костина: Для начала мы бы хотели представиться. Я учусь в магистратуре, на первом курсе на направлении «Русская литература в кросс-культурной и интермедиальной перспективах».
Алёна Федюкина: Я тоже на русской филологии, но учусь в СПбГУ на бакалавриате на втором курсе.
Женя Заковоротная: Меня зовут Женя, я аспирантка первого курса ВШЭ в аспирантской школе филологических наук. Училась в магистратуре, и проект, о которым мы будем сегодня говорить, был создан тоже в магистратуре.
Катя Волошина: Меня зовут Катя. Сейчас я учусь на четвёртом курсе бакалавриата фундаментальной компьютерной лингвистики. У нас был курс, близкий тематике Жениной магистратуры, и нас позвали помочь этому проекту, тогда мы и познакомились.
Полина Кудрявцева: Я Полина, учусь вместе с Катей на последнем курсе фундаментальной компьютерной лингвистики. Я также попала в этот проект сначала волонтёром.
Алёна: Первый вопрос, который мне хочется задать как филологу: почему именно «Отечественные записки»?
Женя: Дело в том, что у нас в магистратуре был предмет — «Научно-исследовательский семинар», и по нему мы обязаны были в течение двух курсов магистратуры придумать проект и завершить его. Один из ассистентов-преподавателей — Герман Пальчиков — предложил сделать цифровой архив «Отечественных записок», он давно об этом мечтал. Его поддержал руководитель нашей магистратуры, на тот момент это был Даниил Скоринкин. Нам это понравилось. Тогда со мной в разработке проекта участвовали две мои прекрасные одногруппницы: Татьяна Колпакова, а также Юля Ким, которая была с нами до самого завершения проекта, но, к сожалению, не смогла поучаствовать в интервью.
Алёна: Получается, задание на курсе породило такой масштабный проект. А что лично каждую из вас удерживало в этом проекте? Почему хотелось в нём работать?
Женя: Я думаю для того, чтобы это понять, необходимо рассказать, как проходил рабочий процесс. Всё началось с того, что мы начали работать втроём в рамках курса, но оказалось, что наших сил будет недостаточно, потому что на тот момент мы ещё не умели программировать, а пары по программированию на Python в магистратуре всё-таки не позволяли делать такие масштабные вещи. Поэтому мы сначала решили заняться вычиткой материала. Использовали программу оптического распознавания изображений страниц «Отечественных записок» и получали тексты. Но они оказались очень плохого качества, потому что и изначальные pdf-ки были плохого качества. И тогда мы создали заявку на «Ярмарке проектов» и именно так познакомились с Катей, Полиной и другими прекрасными людьми, которые помогали нам вычитать вручную 20 томов. С моей стороны работа с этими людьми происходила в координационном формате: мы высылали волонтёрам материалы, а они отдавали нам обратно вычитанные части.
Полина: Важно заметить, что вычитывать эти тома «Отечественных записок» было очень тяжело, потому что ошибок в распознанных текстах много. На вычитку ста страниц уходило в среднем четырнадцать дней. В итоге наши волонтёры вычитали пятнадцать или даже двадцать томов. То есть работа была проведена колоссальная.
Катя: На самом деле, темп работы зависел, по крайней мере у меня, от материала. В какой-то момент мне достался кусок, где были напечатаны попытки дворян написать научные труды о сельскохозяйственных работах. Эти тексты публиковались в два столбика, там всё сильно поехало. И это было совершенно неинтересно читать. Но иногда попадались художественные тексты. Я в детстве пропустила то время, когда все читали «Оливера Твиста», и благодаря «Отечественным запискам» я его прочитала, потому что он попался в моём томе.
Полина: А ещё там были тексты на французском. И я не знаю французский. Это был интересный экспириенс.
Катя: Со стороны Жени хочу отметить, что у нас была хорошо организована работа. У нас были дедлайны, в среднем давалось десять дней на сто страниц. Но при этом ты всегда мог написать, что у тебя что-то не идёт, у тебя другие дедлайны, сессия. Мы присоединились к проекту в марте 2020, и потом, когда мы писали курсовые, с кучей дедлайнов в мае, мы могли попросить перенести дедлайны по проекту. Женя спокойно к этому относилась, было очень приятно.
Алёна: На самом деле даже звучит как колоссальная работа, потому что это не целиком программируемая вещь и многое приходится делать вручную. А как вообще удаётся поддерживать мотивацию в команде?
Женя: Алёна, вы абсолютно правы — это огромный объём работы. И девочки правильно заметили, что тексты, на минуточку, были в дореформенной орфографии, и при этом там попадались куски на иностранных языках. И ладно бы это были английский, немецкий или французский. Так там попадались отрывки на древнегреческом! Вот мне попался такой отрывок. Я не знаю древнегреческого! И если в случае с другими языками хотя бы что-то можно было в Яндекс Переводчике сопоставить, разобрать слово, то в древнегреческом вообще ничего не работало, там даже символов таких не было, как в книге! Но как-то выкручивались. Подбирали наиболее похожие.
Мотивация же была на самом деле очень простая. Мы (те, кто в магистратуре) руководили этим проектом, брали на себя какую-то часть по координации, сами вычитывали, тоже страдали. Нашей основной мотивацией было сдать этот проект, потому что очень хотелось сделать что-то классное. К тому моменту мы уже потратили силы и понимали, что в дальнейшем можем этот проект использовать в портфолио при приёме на работу.
Волонтёрам же мы поставили мотивацию в кредитах. То есть на «Ярмарке проектов» всё как устроено? Ты предлагаешь людям поучаствовать, они выбирают проект и получают по окончании кредиты, которые им идут в зачётку. Но на самом деле, поскольку Катя и Полина уже заметили, что работа была трудоёмкая, я сама не знаю, как бóльшая часть волонтёров всё-таки осталась с нами и довела свои тома до конца, потому что был процент людей, которые отказывались даже несмотря на кредиты.
Полина: Я пришла в проект по объявлению в чатике минора [дисциплины по выбору, не относящейся напрямую к основному профилю учебной программы — прим. ред.] по digital humanities, по цифровым методам в гуманитарных науках, и туда Даниил Скоринкин прислал рассылку, что вот, можно поучаствовать в проекте. Я учусь на фундаментальной компьютерной лингвистике, и мы не любой проект можем зачесть в виде кредитов в диплом. Я знала, что могу прийти в проект, мне дадут кредиты, но, возможно, я никак не смогу их использовать. Получается, что я изначально участвовала в этом проекте просто потому, что мне интересна концепция digital humanities. Я и не знала, что попаду в команду проекта и будет настолько классно. Вначале я действительно собиралась вычитать тысячу страниц на благо digital humanities.
Женя: Полина, я тебе аплодирую просто!
Полина: Но в процессе я осознала, что могу вычитать только пятьсот страниц… Если бы я не узнала, что могу попасть в команду проекта и делать ещё что-то, я бы, наверное, на шестисотой странице слилась.
Катя: У меня была похожая мотивация. Школа лингвистики немного отличается от других программ, и у нас почти не признают «Ярмарку проектов». Но когда я увидела это объявление — было начало пандемийного карантина, и я чувствовала, что мне нужна какая-то неучебная деятельность, более научная. Это был второй курс, соответственно нам ещё не хватало знаний, чтобы самим придумать какой-то проект. На дистанционке появилось ощущение, что у меня теперь много времени, достаточно, чтобы вычитать тысячу страниц в дореформенной орфографии. Но я согласна с Полиной, что эта мотивация долго бы не продлилась. Но потом — я помню, это было в конце мая, в день защиты наших курсовых — мне звонит Женя и спрашивает, хочу ли я присоединиться к команде, и я сказала: «Да».
Женя: Мы решили в какой-то момент, что нам не хватает мотивации учебной и кредитов, и мы подумали, что если хотим и дальше продолжать проект, то нужны деньги. Поэтому мы стали искать различные гранты. В итоге мы нашли грант от Инфокультуры. Моя сокомандница Татьяна мастерски заполнила заявки, мы выиграли грант. Когда мы нашли финансирование, то поняли, что команду надо расширять. Мы просматривали информацию об участниках в заявках на «Ярмарке проектов» и увидели, что Полина и Катя, оказывается, с компьютерной лингвистики, и мы такие: «Ой, здорово! Они лучше нас умеют программировать! Они помогут нам это сделать!» Тем более что Полина и Катя всегда всё сдавали вовремя, а мы уже знали, что там за материал, испытали всё на собственном опыте и понимали, что такие люди очень ценные и с ними надо сотрудничать. Заявку на следующий грант надо было подавать очень срочно, потому что грант от Инфокультуры не покрывал полностью те расходы, которые мы запланировали. Нам нужно было найти ещё двух официальных участников команды, и я такая: «Девочки, договорились?» — «Договорились!» — «Всё, я звоню Полине и Кате». В итоге мы поговорили и в тот же вечер отправили заявку на новый грант. Таким образом мы сохранили мотивацию.
Александра: Очень хотелось подробнее узнать о самом гранте. Вот вы придумали с командой проект, как его выдвинуть? Как это оформляется? Какие нужны документы? Насколько это тяжело, трудоёмко? Расскажите про весь процесс.
Женя: Этим у нас занималась бывшая участница — к сожалению, она по личным причинам его покинула, но всё равно мы ей очень признательны — Татьяна Колпакова. Она сама участвовала во многих грантах, когда ещё училась в бакалавриате в Вышке, поэтому она взяла на себя оформление документов на грант. Насколько я знаю, там было необходимо заполнить состав участников, что будет представлять из себя итоговый продукт, расписать более подробно этапы, подготовительные моменты, сколько сил понадобится, количество людей. Также необходимо было представить смету, то есть подробно расписать, например, 200 тысяч у нас уйдёт на вычитку платными корректорами, 200 тысяч — на формирование базы данных и сайта. Или на расходы, связанные с доработкой моделей, привлечением дополнительных IT-специалистов и так далее.
Полина: Ещё должны были быть преподаватели, которые бы поручились за нас. Насколько помню, там был пункт про людей, которые могут сказать: «Да, вот они занимаются этим проектом, я в них верю».
Женя: Да, действительно, у нас такими людьми стали Анастасия Бонч-Осмоловская и Даниил Скоринкин. Они на разных этапах, особенно в начале, помогали, обсуждали с нами идею проекта, ещё до того, как мы выиграли грант.
В общем, чем подробнее вы распишете, что вы планируете делать с деньгами, тем лучше.
Как мы получили сам грант? Мы участвовали в конкурсе на формирование проектных групп. Там было два направления: для проектов, которыми руководят преподаватели, и для проектов, которыми руководят сами студенты. Мы естественно пошли во второе, подали заявку, нас рассмотрели, и через месяца два-три нам пришёл ответ, вот и всё. Пока что это мой первый грантовый проект.
Полина: Я успела почувствовать, что всё равно проект должен быть не ради денег, а деньги ради проекта. И вы должны это чувствовать, когда пишете заявку, и настроиться так, что если нам не дадут денег, мы всё равно сделаем этот проект. И это должно в тексте прослеживаться, даже несмотря на то что он бюрократический. Вам надо понимать, что могут дать меньше денег, и суметь уменьшить свои расходы, чтобы всё равно выполнить этот проект, просто с меньшими ресурсами.
Алёна: Насколько часто такие проекты получают гранты?
Женя: На самом деле цифровые междисциплинарные проекты — очень интересны для инвесторов. Я могу привести в пример другие, у которых уже изначально был заказчик. Например, мои одногруппники делали проект по созданию цифрового архива фотографий Толстого. И у них был прямой заказчик — директор музея Толстого...
Полина: Мне кажется, это «Ясная поляна» была.
Женя: Да, именно. Софья Толстая прямо пришла и сказала: «Давайте делать вот этот проект, давайте вкладываться в него». Прямой заказчик — пожалуйста.
Если говорить исключительно про грантовую поддержку, Вышка очень поддерживает такие инициативы. Тем более здесь есть развитие гуманитарных наук, и использование «хайповых» IT-технологий, нейронные сети, все дела. Такие вещи очень хорошо «заходят» и на конференциях, и когда речь идёт о сохранении культурных объектов.
Катя: Я имела дело ещё с парой грантов на других проектах. И Женя абсолютно права в том, что когда речь заходит о цифровых гуманитарных науках, они вызывают бóльший интерес. Ещё хорошо для гранта, когда у тебя в конце есть какой-то продукт, который ты можешь показать. Не статья или исследование, а какой-то IT-продукт: база данных или веб-сайт с поддержкой базы данных, потому что ими можно пользоваться.
Женя: Мы этими проектами не занимались, но есть очень много сторонних проектов, посвящённых не только литературе, но и в целом узким филологическим направлениям. Например, люди делали «Дерево кириллических алфавитов» в центре «Слово». Если говорить конкретно про литературу, то моя одногруппница выпустила цифровой архив «Осип Мандельштам Digital». Там собраны все стихотворения поэта, а также комментарии к ним, и где эти работы находятся, в каких исследованиях разбираются. И нельзя не упомянуть проект «Живые страницы», которое делался совместно с Samsung. Это мобильное приложение, которое позволяет изучать произведения русских классиков в абсолютно новой форме. В общем, цифровые технологии плюс литература — сердечко.
Полина: И очень классно, что и Вышка, и «Инфокультура» дали гранты. Очень круто, что нас поддержали. Вот это — реальная мотивация. Потому что если бы это было никому не нужно, то тогда как это было бы нужно нам?
Александра: Ваш проект на самом деле очень нужный, но когда я впервые о нём узнала, не могла понять, почему никто раньше не догадался оцифровать «Отечественные записки»? Это же явно многим пригодится, даже в научной работе.
Женя: В целом существует огромное количество данных, потенциально интересных к изучению. Но проблема в том, что на работу с таким материалом — особенно со старыми элементами, которые могут быть в плохом состоянии — нужны специалисты. На это нужна финансовая поддержка.
Ещё причина может быть в том, что цифровые технологии стали развиваться активно совсем недавно, и если бы они гораздо раньше вошли в нашу повседневную жизнь, то возможно этим бы кто-то и занялся. Активное развитие искусственного интеллекта началось лет десять назад и сначала охватило скорее отрасли, которые интересны правительству или финансовым корпорациям, банкам, например. А сейчас, когда этим может пользоваться каждый, появилась возможность в рамках учёбы это как-то продвигать и развивать.
Полина: Как я понимаю, digital humanities в России начало развиваться даже не последние десять лет, а последние лет семь. С одной стороны, это происходит очень быстро, а с другой, его довольно сложно принимают такие «традиционалисты», как искусствоведы, литературоведы. И чтобы внедрить цифровые технологии непосредственно в гуманитарную среду, нужно, во-первых, много молодых людей, которые умели бы пользоваться цифровыми технологиями. И во-вторых, новаторы среди «традиционалистов», среди видных учёных в своих сферах.
Катя: Изначально это началось с проектов про литературные тексты, в первую очередь они сканировались и обрабатывались. А сейчас особенно стали популярны неочевидные материалы для историков и других гуманитарных наук. Например, как тот же проект «Прожито» про дневники, который был создан лет восемь назад. Мне кажется, всё это связано с модой в гуманитарных науках и с развитием компьютерной лингвистики. Буквально четыре года назад у нас не было моделей, которыми все пользуются сейчас, а без моделей этот труд превращается в ещё более тяжелый и долгий.
Александра: Тогда напрашивается закономерный вопрос: как происходит взаимодействие на таких разных уровнях — литература и программирование? Как уживаются вместе в одном проекте две совершенно, казалось бы, разные специальности.
Женя: До попадания в свою магистратуру для меня тоже было шоком: как именно могут уживаться такие разные направления. При этом мы забываем о том, что наука начала разделяться на отдельные узкие направления после эпохи Просвещения, а до этого многим исследователям нравилось всё и они занимались всем: математикой, литературой, политикой, историей.
И в этом, мне кажется, ещё один большой плюс digital humanities: самое главное, чтобы всем нравилось всё, чтобы шуточки в духе «а, гуманитарии», «а, технари» были бы исключительно по-доброму, чтобы это не было установкой людей, которые не принимают, как это может всё сочетаться.
А взаимодействие происходит в нашем проекте так: у нас есть материал, мы знаем, что с ним делать, выстроили работу, обсудили её с участниками проекта. Участники проекта предложили дополнительные идеи, мы эти идеи развили. В итоге у нас всё стало ещё лучше, и мы начали это исполнять. С дедлайнами, с созвонами, с отчетами небольшими, с поправками. Самое главное, чтобы всё всем нравилось, мне кажется.
Полина: Справедливости ради скажу, что у нас не было в проекте прямо программистов-программистов. У нас были люди с компьютерной лингвистики. То есть те, кто так или иначе очень сильно связаны с языком и кому гуманитарное очень близко к сердцу.
Катя: Нам очень повезло, что у нас все имели какой-то опыт программирования. Мы тогда не были большими специалистами в глубоком обучении, не были специалистами в истории журналистики, но мы достаточно знали и того, и другого, чтобы понимать друг друга всегда. Если у тебя что-то не получалось, ты не был одним-единственным, кто программирует в команде, ты мог попросить помощи у другого. И с другой стороны, мы все друг друга понимали, когда обсуждали то, что касалось гуманитарной стороны вопроса. У всех был одинаковый уровень знаний. И мне кажется, очень ценно, что есть такие специалисты, которые в одинаковой степени на достаточно хорошем уровне владеют и гуманитарным знанием, и технологиями.
Алёна: Каков сейчас состав команды, кто в неё входит и как организована работа?
Женя: Я должна вас немного удивить, но состав команды сейчас абсолютно другой. Объясню почему: на своём этапе мы полностью подготовили проект, выпустили финальную версию.
Алёна: Уже веб-сервис есть?
Женя: Да, есть. Вы можете сами его использовать, но дело в том, что его надо будет скачать и запустить через специальную программу. Мы всё ждем, когда Школа лингвистики опубликует проект, потому что второй грант, который мы выиграли, был непосредственно грантом от НИУ ВШЭ, и фактически они теперь владеют этим продуктом.
Дело в том, что мы уже над этим проектом не работаем. Проект настолько понравился нашим знакомым преподавателям, исследователям, и нынешний руководитель магистратуры Анастасия Бонч-Осмоловская договорилась с нами, что дальше этим проектом будут заниматься студенты следующих курсов нашего направления «Цифровые методы в гуманитарных науках». Также над этим проектом, если я не ошибаюсь, будет работать Герман Пальчиков. Теперь его мечта осуществилась в какой-то мере, но он также хотел бы расширить этот цифровой архив дополнительными материалами или другими журналами. Например, следующим он хотел взять «Современник». О нынешнем состоянии проекта, о новой его версии — мы пока не знаем. А свой проект мы закончили.
И возвращаясь к вопросу, назову состав команды, в котором мы работали весь оставшийся год: я, Полина, Катя и Юлия Ким, она, к сожалению, не смогла сегодня присоединиться, но передавала большой привет. Так что нас, получается, было всего четверо.
Алёна: Всего четверо?! Когда я читала про проект, там было написано, что уже оцифровано, но не вычитано — шестьдесят три тома. Я думала: как это вычитать вчетвером?!
Полина: У нас была большая команда волонтёров. Как раз последние полгода я занималась организационной работой с волонтёрами. Их было человек двадцать пять, кто вычитывал это всё за кредиты. И человек десять, может, за деньги.
Женя: Да, человек десять-пятнадцать, максимум.
Полина: В среднем они вычитывали по пятьсот страниц, это примерно полтома.
Женя: Ещё добавлю про команду. Я почему-то решила сначала сказать про состав команды, который в итоге программировал. Но необходимо сказать о том, как сильно нам помогли волонтёры с «Ярмарки проектов» и люди, которые вычитывали это за деньги. Потому что можно быть каким угодно богом программирования, но если у тебя материал плохого качества, то ты ничего с этим не сделаешь. Поэтому огромное спасибо волонтёрам, что они откликнулись на наш проект и довели дело до конца.
Александра: Какая целевая аудитория проекта? Каким научным областям будет интересно исследовать подобный материал?
Женя: Мне кажется, что в первую очередь он будет полезен специалистам как раз гуманитарных направлений: филологам, лингвистам, историкам, — потому что, помимо художественных произведений или стихотворений, в «Отечественных записках» публиковалось очень много дополнительных материалов, связанных с культурой, бытом, духовной жизнью России, а также зарубежные материалы по политике, истории и так далее.
А касательно IT-специалистов… Я думаю, это будет интересно людям, которые работают в похожих проектах, например, изучают дореформенную орфографию или хотят улучшить свою систему распознавания..
Александра: Давайте поговорим про будущее проекта. Вы сказали, что уже его завершили. Что будет дальше? Не хотелось бы, чтобы такая работа закончилась на одном проекте. Я до сих пор восхищаюсь силами, вложенными в него.
Женя: Да, мы этот проект уже завершили, то есть передали его другим людям. Я думаю, что это очень хорошая база. При этом проект можно развивать во всех направлениях: сайт, пополнение базы данных, вычитка, спеллчекер, улучшение модели, пополнение словаря. Здесь всё зависит от желания тех, кто будет этим заниматься, и от их умения. Как минимум вычитанными томами уже интересуются люди, хотят поработать с этим материалом.
Катя: Мы сделали, может быть, самое важное во всех проектах — первый шаг. И теперь можно продолжать по аналогии, добавлять другие тома или журналы. Потому что у нас есть методология пошаговой обработки каждого тома и текста, есть спеллчекер. У нас есть уже написанная программа, которая всё переводит в нужный формат, и методология работы с базами данных. И конечно, на дальнейших этапах это упрощает работу, это уже не так страшно, как начинать.
Полина: Мне бы хотелось, чтобы про этот проект узнало больше людей. Наверное, это тот этап, который наступит после того, как мы появимся в интернете в нормальном виде, когда можно будет искать что-то по томам «Отечественных записок» по сайту, по базе данных. Просто хотелось бы, чтобы об этом узнали исследователи в разных университетах: искусствоведы, литературоведы, филологи, лингвисты и все остальные, — потому что с ним можно сделать очень многое людям из самых разных сфер.
Беседовали Александра Костина и Алёна Федюкина.
Редактор Ирина Капитонова.