• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computational Linguistics

2025/2026
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
4 year, 1-3 module

Instructors


Фирсанова Виктория Игоревна

Программа дисциплины

Аннотация

Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины

Цель освоения дисциплины

  • ● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
  • ● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Разработан модуль автоматической обработки текстовых данных, который выполняет очистку и лингвистическую разметку (токенизация, лемматизация, удаление стоп-слов, извлечение сущностей) с использованием таких библиотек, как spaCy, NLTK, pymorphy2. Датасет опубликован в открытых репозиториях (Hugging Face Datasets, GitHub). Формат датасета подходит для разработки систем машинного обучения.
  • Представлен проект реализации векторного представления текста. Реализованы классические методы векторизации текста (BoW, TF-IDF), использованы классические модели построения эмбеддингов (Word2Vec, FastText), использованы инструменты визуализации многомерных пространств (t-SNE, PCA), произведен сравнительный анализ их эффективности на задаче классификации новостных заголовков. Выведены метрики оценки качества классификации, представлена матрица ошибок.
  • Представлен проект с демонстрацией обучения, тестирования и применения рекуррентных сетей (RNN, LSTM, GRU). Продемонстрирована работа моделей для генерации заголовков, анализа тональности отзывов. Произведен сравнительный анализ их производительности. Выведен результат работы моделей на задачах предсказания последовательностей и классификации текстов. Описана работа по оптимизации гиперпараметров и оценки качества работы моделей с использованием метрик Perplexity, Precision, Recall, F-Score.
  • Разработан модуль для анализа и реализации механизма внимания и архитектуры Transformer. Модуль включает низкоуровневые функции для работы с матрицами Query, Key, Value. Выведена визуализация работы матриц внимания. Представлен принцип работы многоголового внимания и позиционного кодирования. Реализована модель машинного перевода или суммаризации текстов на основе архитектуры Transformer. Произведена оптимизация гиперпараметров. Представлен отчет о производительности моделей.
  • Произведена тонкая настройка модели на основе архитектуры BERT (или аналогичной архитектуры) для распознавания именованных сущностей в сфере медицины. Представлена модель для генерации коротких текстов (например, анекдотов), полученная путем тонкой настройки модели GPT-2 (или аналогичной архитектуры). Выполнен отчет, который содержит значения метрик оценки качества работы систем (F1, Precision, Recall и Perplexity), сравнительный анализ моделей и обзор возможностей платформы Hugging Face.
  • Разработан Telegram-бот для генерации текста на основе дообученной и оптимизированной модели LLaMA или Mistral. Реализована система сбора пользовательской обратной связи. Представлен модуль для автоматической оценки качества генерации текста с помощью фреймворка RAGAS (или аналогичной системы). Продемонстрирована работа методов квантизации для ускорения работы системы. В проекте используется набор промптов для оптимизации работы бота.
  • Представлен набор промптов, системных ролей для виртуальных ассистентов. Реализован механизм автоматизации генерации контента. Разработаны скрипты для обработки пользовательских и системных промптов. Применены методы A/B тестирования для оценки эффективности систем на основе больших язковых моделей. Реализованы методы feedback loops для оптимизации генерации кода и анализа данных.
  • Разработан прототип RAG-системы для работы с данными Wikipedia. Использованы векторные базы данных. Применены инструменты такие, как LangChain, LlamaIndex, Weights & Biases для создания эффективных цепочек промптов, оптимизации алгоритмов поиска и извлечения информации из баз данных, контекстных промптов и комплексной оценкой качества на специализированных датасетах.
  • Представлена оптимизированная и развернутая на мобильном устройстве версия модели LLaMA с применением методов квантизации (QLoRA) и инструментов llama.cpp/ollama. Проведен детальный анализ различных методов сжатия больших языковых моделей. Произведено сравнение производительности моделей до и после оптимизации.
  • Разработан прототип мультиагентной системы, состоящей из агента-аналитика и агента-суммаризатора. Настроено взаимодействие агентов для решения комплексных задач (например, анализ данных и генерация отчетов). Представлен отчет с оценками эффективности работы системы.
  • Разработан прототип мультимодальной система для генерации подписей к изображениям и визуального поиска. Представлен проект веб-приложения. Описана интеграция таких нейросетевых моделей, как BLIP или CLIP. Продемонстрирована работа с инструментами для оценки качества генерации описаний и оценки релевантности поиска.
  • Представлен прототип системы для выбранной темы проекта, например, анализа тональности, генерации текста, извлечения информации и т.д., включающий полный цикл обработки данных, обучение модели, оценку качества и демонстрацию работы на тестовых примерах.
  • Представлен прототип промышленной RAG-системы, предназначенной для обработки специализированных данных (например, медицинских, юридических или технических документов). Реализован полный цикл работы системы от предобработки и векторного поиска до генерации ответов с помощью продвинутого промпт-инжиниринга. Продемонстрирована работа с инструментами для развертывания, мониторинга и оценки качества работы системы.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы обработки естественного языка. Предобработка текста
  • Векторизация текста и классические методы машинного обучения
  • Рекуррентные нейронные сети (RNN, LSTM, GRU)
  • Механизмы внимания и архитектура Transformer
  • Трансферное обучение языковых моделей
  • Большие языковые модели
  • Промпт-инжиниринг и оптимизация больших языковых моделей
  • RAG-системы (Retrieval-Augmented Generation)
  • Оптимизация больших языковых моделей
  • Мультиагентные системы
  • Мультимодальные модели
  • Развёртывание системы обработки естественного языка
  • Финальный проект. Разработка интеллектуальной RAG-системы
Элементы контроля

Элементы контроля

  • неблокирующий Финальный проект
  • неблокирующий Промежуточный проект
  • неблокирующий Практикум
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Практикум + 0.2 * Практикум + 0.6 * Промежуточный проект
  • 2025/2026 3rd module
    0.4 * Практикум + 0.6 * Финальный проект

Авторы

  • Фирсанова Виктория Игоревна
  • Афанасьева Анастасия Викторовна
  • Климов Александр Антонович
  • Шерстинова Татьяна Юрьевна