• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О проекте

«Текст как big data: моделирование конвергентных процессов в языке и речи цифровыми методами»

Аннотация проекта

Проект, реализуемый подразделением в 2023 году, направлен на продвижение одной из наиболее востребованных областей развития искусственного интеллекта — NLP (обработка естественного языка), а также тесно связанной с ней области — Natural Language Understanding (понимание естественного языка), в такие массивы текстовых данных, которые традиционно считались сферой применения качественных методов филологического и коммуникативного анализа: художественным текстам и устной повседневной речи. В данных социоречевых сферах формируются и манифестируются важнейшие паттерны мировоззренческого и обыденного осмысления социальной реальности, проявляются языковые и поведенческие сдвиги, в том числе — конвергентные процессы, происходящие между разными жанрами и регистрами общения. Изучение данного массива методами искусственного интеллекта позволит создать ресурсную базу, которая послужит основой создания сервиса автоматического анализа и синтеза русской речи во всех сферах коммуникации, а также аналитических систем когнитивных основ коммуникации.

Цель проекта

Фундаментальная цель проекта состоит в интегральном моделировании конвергентных процессов, происходящих между разными жанрами, сферами, регистрами общения. Прикладная цель проекта состоит в апробации современных компьютерных методов обработки больших данных, включая методы машинного и глубокого обучения, к большим объемам текстовой и звуковой информации, а также в апробации методов искусственного порождения текстов — как письменных, так и устных — и выявлении оптимальных подходов работы с большими текстовыми данными указанных жанров.

Задачи проекта

  • Разработка новых электронных лингвистических и филологических ресурсов (письменных и устных) для решения актуальных теоретических и практических задач как традиционной, так и компьютерной лингвистики.
  • Апробация современных компьютерных методов обработки больших данных, включая методы машинного и глубокого обучения, к большим объемам текстовой и звуковой информации.
  • Решение фундаментальных филологических задач, связанных с моделированием нарративной реальности письменных и устных текстов разных социо-речевых сфер, выявление их стилистических особенностей и степени их вариативности.
  • Моделирование конвергентных процессов, наблюдаемых на разных лингвистических уровнях между текстами разных жанров и разных социо-речевых сфер.
  • Апробация методов искусственного порождения текстов — как письменных, так и устных — обученных на больших текстовых данных, выявление их «слабых мест».
  • Подготовка практических рекомендаций для оптимизации систем искусственного интеллекта, связанных с обработкой и генерации текстов/звучащей речи.

Участники научного проекта Лаборатории языковой конвергенции

Шерстинова Татьяна Юрьевна

Лаборатория языковой конвергенции: Заведующий лабораторией

Колмогорова Анастасия Владимировна

Заместитель заведующего лабораторией

Кирина Маргарита Александровна

Лаборатория языковой конвергенции: Младший научный сотрудник; менеджер

Москвина Анна Денисовна

Департамент филологии: Преподаватель

Карышева Ася Сергеевна

Лаборатория языковой конвергенции: Стажер-исследователь

Колмогорова Полина Алексеевна

Стажер-исследователь

Колпащикова Евгения Олеговна

Лаборатория языковой конвергенции: Стажер-исследователь

Куликова Елизавета Романовна

Стажер-исследователь

Максименко Полина Игоревна

Лаборатория языковой конвергенции: Стажер-исследователь

Наседкин Андрей Олегович

Стажер-исследователь

Петрова Ирина Анатольевна

Стажер-исследователь

Родионов Руслан Андреевич

Лаборатория языковой конвергенции: Стажер-исследователь

Сейнова Анастасия Романовна

Лаборатория языковой конвергенции: Стажер-исследователь

Узденова Алена Дмитриевна

Лаборатория языковой конвергенции: Стажер-исследователь


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.