We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computational Linguistics

2023/2024
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
4 year, 1-3 module

Instructors


Klimov, Aleksandr


Фирсанова Виктория Игоревна

Программа дисциплины

Аннотация

Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины

Цель освоения дисциплины

  • ● Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
  • ● Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает программы по автоматической обработке текстов на лексическом и морфологическом уровнях и умеет ими пользоваться
  • Студент знает программы по автоматической обработке текстов на синтаксическом, семантическом и прагматическом уровнях и умеет ими пользоваться.
  • Студент знаком с основами статистического анализа, методами и подходами квантитативной лингвистики
  • Студент имеет представление об основных задачах и приложениях компьютерной лингвистики.
  • Студент знает базовые принципы работы с мультимедийным контентом
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные задачи, основания и приложения компьютерной лингвистики
  • Возможности и программы автоматической обработки текстов на лексическом и морфологическом уровнях
  • Возможности и программы автоматической обработки текстов на синтаксическом, семантическом и прагматическом уровнях
  • Возможности аннотирования и автоматического анализа мультимедийного контента (аудио- и видеозаписей)
  • Основы статистики. Элементы квантитативной лингвистики
  • Способы лингвистической обработки
  • Объектно-ориентированного программирование.
  • Дистрибутивная семантика.
  • Машинный перевод на основе правил
  • Статистический машинный перевод и введение в машинное обучение.
  • Механизм внимания и трансформеры для машинного перевода.
  • Проект.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Описание: Выполняется письменно, не разбивается на варианты и состоит из небольших упражнений, проверяющих усвоение материала лекций и семинаров. Направляется студентам по электронной почте в течение модуля. Студенты направляют ответ преподавателю также по электронной почте. Преподаватель дает обратную связь студентам на следующем семинаре, разбирая основные ошибки.
  • неблокирующий Проект
    Описание: Представляет собой исследовательскую работу с применением пройденных методов и инструментов компьютерной лингвистики
  • неблокирующий Проект
    Описание: Проект представляет собой разработку модели обработки естественного языка с использованием глубокого обучения. Для начинающих студентов следует выбрать проект, который соответствует их уровню знаний и навыков. Цель проекта: Разработать модель машинного обучения для анализа тональности текстов, которая способна определять, является ли текст положительным, отрицательным или нейтральным. Задачи проекта: Сбор и подготовка данных: Найти и загрузить набор данных, содержащий отзывы, комментарии или тексты с разной тональностью (положительной, отрицательной и нейтральной). Предобработка данных: Очистить и подготовить тексты для обучения, включая токенизацию, удаление стоп-слов, лемматизацию и преобразование текстов в числовой формат. Разработка модели: Создать нейронную сеть для классификации тональности текстов, например, с использованием сверточных нейронных сетей (CNN). Обучение модели: Обучить модель на подготовленных данных. Оптимизировать гиперпараметры модели для улучшения ее производительности. Оценка модели: Оценить производительность модели с использованием метрик, таких как точность, полнота, F1-мера и матрица ошибок. Тестирование: Провести тестирование модели на новых данных, чтобы убедиться, что она способна классифицировать тональность текстов. Инструменты и технологии: Python, библиотеки для машинного обучения (например, TensorFlow или PyTorch), библиотеки для обработки текста (например, NLTK или spaCy).
  • неблокирующий Аудиторная и домашняя работа
    Описание: Изучение основ обработки текстов с использованием библиотек Python Цель аудиторной и домашней работы: Освоить основы обработки текстов и текстовых данных с использованием Python и соответствующих библиотек.
  • неблокирующий Контрольная работа
    Описание: Основы обработки текстов и нейронных сетей в NLP
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 2 модуль
    0.4 * Домашнее задание + 0.6 * Проект
  • 2023/2024 учебный год 3 модуль
    0.4 * Аудиторная и домашняя работа + 0.2 * Контрольная работа + 0.4 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Davies, A., & Elder, C. (2004). The Handbook of Applied Linguistics. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=108713
  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500

Рекомендуемая дополнительная литература

  • Baker, P., Hardie, A., & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=169612

Авторы

  • Иванова Анастасия Сергеевна
  • Шерстинова Татьяна Юрьевна
  • Климов Александр Антонович
  • Фирсанова Виктория Игоревна