О проекте 2024

«Текст как big data: методы и модели работы с большими текстовыми данными»

Аннотация проекта

Проект, реализуемый подразделением в 2024 году, направлен на продвижение одной из наиболее востребованных областей развития искусственного интеллекта — NLP (обработка естественного языка), а также тесно связанной с ней области — Natural Language Understanding (понимание естественного языка) в сферу таких массивов текстовых данных, которые традиционно считались сферой применения качественных методов филологического и коммуникативного анализа: художественные тексты и устная обыденная речь. Изучение данного массива методами искусственного интеллекта позволит создать ресурсную базу, которая послужит основой создания сервиса автоматического анализа и синтеза русской речи во всех сферах коммуникации, а также аналитических систем когнитивных основ коммуникации.

Цель научного исследования

Фундаментальная цель проекта состоит в интегральном моделировании конвергентных процессов, происходящие между разными жанрами, сферами, регистрами общения. Прикладная цель проекта состоит в апробации современных компьютерных методов обработки больших данных, включая методы машинного и глубокого обучения, к большим объемам текстовой и звуковой информации, а также в апробации методов искусственного порождения текстов — как письменных, так и устных, — и выявлении оптимальных подходов работы с большими текстовыми данными указанных жанров.

Задачи научного исследования

1) Завершение формирования корпуса малой русской прозы (русского рассказа) 1930-2000 гг.; продолжение формирования устного корпуса современной повседневной речи молодежи).
2) Апробация современных компьютерных методов обработки больших данных, включая методы машинного и глубокого обучения, на материале созданных лингвистических ресурсов.
3) Научное описание русского художественного текста малой формы (рассказа) как модели нарративного повествования, выполненное на материале художественных текстов XX века.
4) Научное описание особенностей современной повседневной речевой коммуникации, выполненное на материале новейших звукозаписей речи и/или общения в социальных сетях (2023-2024 гг.).

Участники научного проекта Лаборатории языковой конвергенции

Колмогорова Анастасия Владимировна

Лаборатория языковой конвергенции: Заведующий лабораторией

Кирина Маргарита Александровна

Лаборатория языковой конвергенции: Младший научный сотрудник