We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Computational Linguistics

2022/2023
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Course type:
Elective course
When:
4 year, 1-3 module

Instructors


Митренина Ольга Владимировна

Программа дисциплины

Аннотация

Курс предполагает знакомство студентов с основными направлениями и методами компьютерной лингвистики, формированию у них практических навыков работы с лингвистическими ресурсами и программами компьютерного анализа текстов, построение собственного корпуса текстов или лингвистической базы данных и проведение лингвистического исследования с использованием компьютерных средств. Курс предназначен для студентов-филологов и не требует специальной компьютерной подготовки или навыков программирования. Предлагаемый курс будет полезен не только студентам лингвистического направления, но и студентам-литературоведам, поскольку синтез традиционного и компьютерного подхода в филологических исследованиях является весьма перспективным.
Цель освоения дисциплины

Цель освоения дисциплины

  • Получение студентами знания об основных методах и направлениях развития компьютерной лингвистики.
  • Приобретение студентами навыков адекватного пользование основными программными продуктами, необходимыми при работе с текстами и корпусами текстов, и навыков создания собственных корпусов текстов для решения локальных научных и академических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает базовые принципы работы с мультимедийным контентом
  • Студент знает программы по автоматической обработке текстов на лексическом и морфологическом уровнях и умеет ими пользоваться
  • Студент знает программы по автоматической обработке текстов на синтаксическом, семантическом и прагматическом уровнях и умеет ими пользоваться.
  • Студент знаком с основами статистического анализа, методами и подходами квантитативной лингвистики
  • Студент имеет представление об основных задачах и приложениях компьютерной лингвистики.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основные задачи, основания и приложения компьютерной лингвистики
  • Возможности и программы автоматической обработки текстов на лексическом и морфологическом уровнях
  • Возможности и программы автоматической обработки текстов на синтаксическом, семантическом и прагматическом уровнях
  • Возможности аннотирования и автоматического анализа мультимедийного контента (аудио- и видеозаписей)
  • Основы статистики. Элементы квантитативной лингвистики
  • Разработка и создание диалоговых систем:
  • Объектно-ориентированного программирование:
  • Машинный перевод:
  • Создание чат-бота с помощью языка Python:
  • Создание чат-бота со своим характером на платформе JAICP
  • Обучение двух нейросетевых моделей машинного перевода:
  • Подведение итогов и написание тестов
Элементы контроля

Элементы контроля

  • неблокирующий Презентация
    Презентация не должна занимать более 7-10 минут и должна быть основана на собственных наблюдениях студента в рамках темы семинара. В конце презентации студент должен сформулировать один или два вопроса для дальнейшего обсуждения, обращенные к слушателям. По своему усмотрению студент может сопровождать устную презентацию слайдами PowerPoint или раздаточным материалом. Презентация, текст которой полностью заимствован из печатного или Интернет-источника и никак критически не переработан студентом, оценивается в 0 баллов.
  • неблокирующий Практическая работа №1
    Постройте частотные словари для двух предложенных текстов. Сопоставьте состав и относительные частоты 25 наиболее употребительных слов.
  • неблокирующий Домашнее задание
    Выполняется письменно, не разбивается на варианты и состоит из небольших упражнений, проверяющих усвоение материала лекций и семинаров. Направляется студентам по электронной почте в течение модуля. Студенты направляют ответ преподавателю также по электронной почте. Преподаватель дает обратную связь студентам на следующем семинаре, разбирая основные ошибки.
  • неблокирующий Практическая работа №2
    Выполните автоматический синтаксический парсинг заданных текстов с помощью разных утилит синтаксического анализа. Сопоставьте полученные результаты. Выполните с применением автоматических методов сравнение двух текстов с точки зрения используемых в них лексических средств.
  • неблокирующий Контрольная работа
    Выполняется письменно в аудитории без вариантов. Задания для контрольной работы разработаны на основе пройденного материала.. Во время написания работы разрешается пользоваться только указанными в варианте источниками.
  • неблокирующий Тест_1
    Выполняется письменно в аудитории без вариантов. Задания для контрольной работы разработаны на основе пройденного материала. Время выполнения – в сумме 60 минут.
  • неблокирующий Тест_2
    Выполняется письменно в аудитории без вариантов. Задания для контрольной работы разработаны на основе пройденного материала. Время выполнения – в сумме 60 минут.
  • неблокирующий Итоговый проект
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 2 модуль
    0.2 * Практическая работа №1 + 0.2 * Практическая работа №2 + 0.3 * Контрольная работа + 0.1 * Презентация + 0.2 * Домашнее задание
  • 2022/2023 учебный год 3 модуль
    0.25 * Тест_1 + 0.6 * Итоговый проект + 0.15 * Тест_2
Список литературы

Список литературы

Рекомендуемая основная литература

  • Davies, A., & Elder, C. (2004). The Handbook of Applied Linguistics. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=108713
  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500

Рекомендуемая дополнительная литература

  • Baker, P., Hardie, A., & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=169612

Авторы

  • Шерстинова Татьяна Юрьевна
  • Цветкова Екатерина Андреевна