We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Natural Language Processing and Conversational Design

2024/2025
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Delivered at:
Department of Informatics
Course type:
Elective course
When:
2 year, 1, 2 module

Instructor


Соколов Евгений Геннадьевич

Программа дисциплины

Аннотация

Является дисциплиной по выбору. Целью освоения дисциплины является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации.
Планируемые результаты обучения

Планируемые результаты обучения

  • Определяет тональность текстов при помощи автоматизированного инструментария
  • Применяет векторные модели документов в анализе
  • Применяет методы извлечения информации при проектировании чат-ботов
  • Применяет методы классификации и кластеризации текстов на языке Python
  • Формулирует задачу обработки текста в терминах как предметной области, так и области формальных объектов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку естественного языка
  • Классификация и кластеризация текстов
  • Информационный поиск
  • Введение в извлечение информации
  • Извлечение мнений
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 2
    Предобработка данных для обучения языковой модели. Обучение модели на обработанных данных
  • неблокирующий Итоговый проект
    Реализация своего чат бота, который запускается и работает в командной строке со одной из перечисленных фич
  • неблокирующий Упражнения
    Для закрепления навыков по работе с инструментарием студентам предлагается выполнить упражнения на онлайн-ресурсам. Выбор источника упражнений определяется преподавателем
  • неблокирующий Домашнее задание 1
    Задание направлено на применение методов парсинга данных и предварительной обработки текстов, используя библиотеки языка python
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.25 * Домашнее задание 1 + 0.25 * Домашнее задание 2 + 0.4 * Итоговый проект + 0.1 * Упражнения
Список литературы

Список литературы

Рекомендуемая основная литература

  • Zhai, C., & Aggarwal, C. C. (2012). Mining Text Data. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=537386

Рекомендуемая дополнительная литература

  • Davies, J., Goker, A., & Wiley InterScience (Online service). (2009). Information Retrieval : Searching in the 21st Century. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=308933
  • Munzert S. Automated data collection with R: a practical guide to Web scraping and text mining. Chichester, West Sussex, United Kingdom: Wiley, 2014. 1 p.

Авторы

  • Суворова Алёна Владимировна