• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Информационный поиск и обработка текстов на естественном языке

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
8
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1, 2 модуль

Преподаватель

Программа дисциплины

Аннотация

Является дисциплиной по выбору. Целью освоения дисциплины «Информационный поиск и обработка текстов на естественном языке» является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов. Курс содержит следующие разделы: Введение в обработку естественного языка; Классификация и кластеризация текстов; Информационный поиск; Введение в машинный перевод; Введение в извлечение информации; Методы машинного обучения в задаче извлечения информации; Извлечение мнений.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Информационный поиск и обработка текстов на естественном языке» является ознакомление слушателей с методами обработки текста на естественном языке, а также методами обработки слабоструктурированных данных и извлечения информации. Предполагается знакомство с методами извлечения отношений, анализа тональности, аннотирования и кластеризации текстов, а также с существующими программными реализациями этих методов.
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Знает этапы анализа текста; основные приложения автоматического анализа текста (АОТ) (машинный перевод, информационный поиск, и т.д.). Знает языковые модели; автоматический морфологический анализ и синтез и го виды (стемминг, лемматизация, полный морфоанализ). Знает принципы морфоанализа на базе словаря основ или словаря словоформ; морфологические процессоры для русского языка
  • Знает классификацию текстов как типичную задачу обработки текстов в области TextMining. Знает методы машинной классификации. Знает особенности кластеризации текстов. Умеет рубрицировать текстовые документы. Знает задачи АОТ, решаемые на основе классификации текстов. Знает модели и методы автоматической классификации и кластеризации текстовой информации. Владеет понятием интеллектуального анализа данных.
  • Владеет навыками автоматизированного поиска информации в сети Интернет. Владеет понятиями индексирования текстов для информационного поиска. Знает основные стратегии сжатия текста; типы аннотаций; обзорное реферирование; оценку качества аннотаций
  • Знает стратегии машинного перевода, основанного на лингвистических правилах. Знает статистический машинный перевод: особенности и виды. Знает и применяет принципы создания статистического переводчика
  • Знает основные способы представления смысла текста и модели представления знаний в искусственном интеллекте: семантические сети, язык предикатов. Владеет понятием семантического анализа текста на основе семантико-синтаксических моделей управления. Владеет понятием лингвистического шаблона для извлечения информации. Владеет инструментальными программными средствами для построения систем извлечения информации из текстов.
  • Знает формальные методы определения автора текста; лингвостатистические параметры; статистические методы атрибуции. Применяет методов кластеризации и классификации для установления авторства текстов. Знает методы обнаружения спама: вероятностные и статистические, байесовский классификатор
  • Владеет понятием автоматического анализа тональности текстов и извлечение мнений из текстов: особенности и подходы к решению.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку естественного языка
  • Классификация и кластеризация текстов
  • Информационный поиск
  • Введение в машинный перевод
  • Введение в извлечение информации
  • Методы машинного обучения в задаче извлечения информации
  • Извлечение мнений
Элементы контроля

Элементы контроля

  • неблокирующий Created with Sketch. Домашнее задание
  • неблокирующий Created with Sketch. Контрольная работа
  • блокирующий Created with Sketch. Итоговый экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.2 * Домашнее задание + 0.6 * Итоговый экзамен + 0.2 * Контрольная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Zhai, C., & Aggarwal, C. C. (2012). Mining Text Data. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=537386

Рекомендуемая дополнительная литература

  • Munzert, S. (2014). Automated Data Collection with R : A Practical Guide to Web Scraping and Text Mining. HobokenChichester, West Sussex, United Kingdom: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=878670