Итоги месяца. Март — экспертная оценка

В марте 2021 года на открытых семинарах НУГ с докладами выступили Борис Валерьевич Орехов и Александр Борисович Хомяков. В своих докладах Борис Валерьевич и Александр Борисович затронули тему эффективности методов машинного обучения — в задачах исследования литературы и генерации текста соответственно.

Подробнее о прошедших встречах читайте в этом материале.

«Как машинное обучение используется в гуманитарных науках?»

5 марта Борис Валерьевич Орехов — один из ведущих российских специалистов в области цифровой гуманитаристики, кандидат филологических наук, доцент Школы лингвистики НИУ ВШЭ (Москва) — в рамках семинаров НУГ рассказал об использовании методов машинного обучения в гуманитарных науках и лингвистике, а также о некоторых применениях методов NLP (англ. natural language processing) к исследованию прозы.

Гуманитарные науки изучают уникальные культурные объекты; их уникальность, как правило, противостоит поиску закономерностей, лежащему в основе методов машинного обучения. Таким образом, точка приложения машинного обучения к гуманитарной дисциплине — это та её область, где возможна формализация. К таким областям относятся, например, фольклористика (в контексте схем В. Я. Проппа) и стилеметрия.

Борис Валерьевич противопоставляет лингвистику гуманитарным наукам: лингвистика — номотетическая дисциплина (она занимается поиском закономерностей, описанием законов). Во многом поэтому машинное обучение активно применяется в решении многих лингвистических задач, среди которых — оценка читаемости текста (англ. readability) или контекстное снятие омонимии. При этом инструменты, разрабатывающиеся в области компьютерной лингвистики и связанные с машинным обучением, имеют прикладное значение; их сфера применения в научной деятельности представляется более узкой.

Говоря об использовании методов NLP в исследовании прозы, Борис Валерьевич поделился результатами тьюториалов, проводимых в рамках Московско-тартуской школы по цифровым методам в гуманитарных науках. Так, например, с помощью векторной модели была составлена «карта топонимов» фикционального мира романов «Песнь льда и пламени» Дж. Мартина. Другой тюториал представлял собой работу с томита-парсером — формировались динамики использования мотива смеха в романах «Анна Каренина» Л. Н. Толстого и «Преступление и наказание» Ф. М. Достоевского. В рамках третьего тьюториала был создан текстовый классификатор по литературным традициям.

После лекционной части встречи была проведена дискуссия. Обсуждалась суммаризация текста; затрагивались задачи генерации повествовательной прозы и поэтических текстов.

Встреча записывалась. Чтобы перейти на страницу с её записью, Вы можете нажать на изображение:

«Методы и проблемы порождения текста в системах искусственного интеллекте»

26 марта с докладом «Методы и проблемы порождения текста в системах искусственного интеллекта» выступил Александр Борисович Хомяков — специалист по искусственному интеллекту, занимающийся внедрением технологий искусственного интеллекта в бизнес-процессы компаний.

Александр Борисович рассказал о генеративной нейросети GPT-3, созданной компанией OpenAI в 2020-м году. GPT-3 отличается эффективностью: нейронная сеть была обучена на огромном массиве данных; она использует 175 миллиардов параметров и имеет слой «внимания». Отдельное внимание было уделено чат-боту Сбера на основе архитектуры GPT-3 (@GenerativeBeast2Bot); один из диалогов с этим чат-ботом представлен на скриншоте:

Вместе с тем GPT-3 может порождать бессмысленные тексты: нейросеть генерирует текст, основываясь на материале, который был «скормлен» ей ранее; она не опирается на здравый смысл или на какие-либо знания о реальном мире. Александр Борисович рассказал о возможном пути решения такой проблемы — абстрагированной суммаризации: используя краткое изложение текста, нейросеть может сгенерировать связный рассказ.

На данный момент нейросети не способны к рассуждению (в том числе к прослеживанию абстрактной идеи в тексте); но им свойственен высокий уровень креативности. Нейронная сеть DALL·E [было бы здорово «встроить» ссылку https://openai.com/blog/dall-e/ в «DALL·E»] это подтверждает: она способна генерировать изображения, основываясь на коротком тексте. Пример output’а DALL·E представлен ниже; так выглядят изображения, созданные сетью в ответ на текст «улитка, сделанная из арфы»:

Вторая половина встречи была посвящена дискуссии. Обсуждалась возможность нейросети обладать правами; задавались вопросы о чат-ботах и о распознавании машиной метафор, сарказма и сюжета в тексте.

Встреча также записывалась. Чтобы перейти к записи встречи, кликните на изображение ниже:

Post Scriptum

Мы выражаем благодарность Борису Валерьевичу Орехову и Александру Борисовичу Хомякову, а также всем, кто посетил мартовские семинары и принял участие в дискуссии! Спасибо Вам за Ваше время, внимание и интерес!

До новых встреч!

Дата

15 апреля 2021

Темы

профессора студенты дискуссии исследования и аналитика репортаж о событии инновации

В статье упомянуты

Научно-учебная группа междисциплинарных филологических исследований Санкт-Петербургского кампуса НИУ ВШЭ