• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Research Seminar "Approaches to automatic text processing"

2020/2021
Academic Year
RUS
Instruction in Russian
5
ECTS credits
Course type:
Elective course
When:
4 year, 2, 3 module

Программа дисциплины

Аннотация

Научно-исследовательский семинар «Вопросы автоматической обработки текста» посвящен подготовке студентов к проведению собственных исследований и написанию научных работ в области компьютерной лингвистики. В ходе занятий слушатели знакомятся с направлениями в компьютерной лингвистики, учатся использовать программные системы для обработки текстов на естественном языке.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Вопросы автоматической обработки текста» является знакомство студентов основными задачами компьютерной лингвистики и с программными средствами обработки текстов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент знает основные задачи в области прикладной лингвистики и автоматической обработки текстов.
  • Студент умеет пользоваться программными средствами для автоматической обработки текстов, ориентируется в лингвистических ресурсах.
  • Студент умеет создавать корпусы текстов для собственных исследований, размечать данные.
  • Студент умеет грамотно оформить текст собственного исследования, ориентируется в научной литературе по вопросу.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Текст как объект исследования в компьютерной лингвистике
    Этапы обработки текста. Графематический анализ и токенизация. Морфологический уровень: словарные и бессловарные модели. Синтаксический уровень: деревья зависимостей и непосредственно составляющих. Семантический уровень: способы представления смысла текста. Дистрибутивная семантика, онтологии и тезаурусы.
  • Исследования в области компьютерной лингвистики и смежных дисциплин
    Машинное обучение в лингвистике. Машинный перевод (на основе правил и статистический). Извлечение информации из текстов, информационный поиск, анализ тональности, тематическое моделирование.
  • Системы обработки текстовых данных и ресурсы
    Сбор данных и их метаразметка. Программы морфологического и синтаксического анализа, разметка данных, совместная встречаемость слов. Статистические характеристики текстовых данных.
  • Общие принципы организации научной работы
    Работа с научной литературой, подбор материала, оформление исследования, принципы обработки текстовых данных в программах Microsoft Word и Excel, поисковые средства систем Яндекс и Google, электронные словари, работа с библиотеками.
Элементы контроля

Элементы контроля

  • неблокирующий Доклад
    Доклад представляет собой презентацию под одной из тем, предложенных преподавателем. Длительность сообщения - 8-10 минут. Доклад должен быть хорошо структурирован, содержать иллюстративные примеры и список литературы.
  • неблокирующий Домашнее задание
    Выполняется письменно, не разбивается на варианты и проверяет усвоение материала семинаров. Направляется студентам по электронной почте. Студенты направляют ответ преподавателю также по электронной почте.
  • неблокирующий Экзамен
    Экзамен сдается заочно, в качестве экзаменационной работы студентов предоставляется письменная исследовательская работа объемом около 20 тыс. знаков или код программы с подробным описанием.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Доклад + 0.4 * Домашнее задание + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Сабиржанов Равшан Анварович. (n.d.). Компьютерная Лингвистика Как Наука Автоматической Обработки Информации. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.https%3a%2f%2fcyberleninka.ru%2farticle%2fn%2fkompyuternaya-lingvistika-kak-nauka-avtomaticheskoy-obrabotki-informatsii

Рекомендуемая дополнительная литература

  • Lappin, S., Fox, C., & Clark, A. (2010). The Handbook of Computational Linguistics and Natural Language Processing. Chichester, West Sussex: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=330500