• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы компьютерной лингвистики

2025/2026
Учебный год
RUS
Обучение ведется на русском языке
Статус:
Курс обязательный
Когда читается:
1-й курс, 1, 2 модуль

Преподаватель

Программа дисциплины

Аннотация

Дисциплина входит в блок обязательных для обоих треков модуля Major и является постреквизитом к усвоению дисциплин профессионально-ориентированных треков. Общая лингвистическая подготовка дает каждому студенту возможность выбора траектории после цикла общих базовых лингвистических дисциплин. Курс особенно полезен студентам филологических специальностей, не изучавших информационные технологии в лингвистике ранее, так как он формирует базу знаний и умений по применению информационных технологий для работы с языковыми данными.
Цель освоения дисциплины

Цель освоения дисциплины

  • Овладеть терминологическим аппаратом компьютерной лингвистики.
  • Приобрести базовые навыки программирования на Python, необходимые для обработки текстовых данных.
  • Освоить практику работы с лингвистическими корпусами и корпусными менеджерами.
  • Научиться применять ключевые методы и готовые решения для автоматического анализа текста, получить практический опыт применения специализированных библиотек (таких как spaCy, NLTK, gensim и др.) для обработки текста.
  • Сформировать навык предобработки и первичного анализа текстовых данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Ориентируоваться в поле современной компьютерной лингвистики и ее основных направлениях.
  • Знать основные методы решения задач обработки текста: морфологический и синтаксический анализ, анализ тональности, автоматическое измерение сложности текста, векторную семантику.
  • Использовать корпусы в задачах преподавания иностранных языков и перевода, а также исследовательских проектах, использовать корпусные менеджеры.
  • Знать основы программирования на языке Python , ориентироваться в типах данных и переменных.
  • Уметь читать чужой код на Python и самостоятельно реализовывать базовые операции (работа со строками, циклы, основные библиотеки для анализа текстовых данных).
  • Уметь провести базовую предобработку текста, используя готовые фрагменты кода.
  • Ориентироваться в поле современной компьютерной лингвистики и ее основных направлениях.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Направления и задачи современной компьютерной лингвистики
  • Тема 2. Корпусная лингвистика
  • Тема 4. Возможности и программы автоматической обработки текстов на лексическом и морфологическом уровнях
  • Тема 5. Базовые статистические исследования текста
  • Тема 3. Основы работы с текстовыми данными на языке Python
  • Тема 6. Тезаурусы и онтологии
  • Тема 7. Возможности и программы автоматической обработки текстов на синтаксическом уровне
  • Тема 8. Автоматическое измерение сложности текста
  • Тема 9. Анализ тональности
  • Тема 10. Векторные представления текста
  • Тема 11. Экзамен
Элементы контроля

Элементы контроля

  • неблокирующий Homework
    Осуществляется в виде индивидуальных домашних заданий, в которых студенту предлагается решить комплексную практическую задачу в рамках обсуждаемых тем. Задания подразумевают работу с кодом на Python или онлайн-ресурсами (корпусами, корпусными менеджерами). На выполнение задания дается 1 неделя. Курс включает 5 домашних заданий, за каждое из которых можно получить 2, 1 или 0 баллов, всего max 10 баллов. Оценка за домашние задания входит в формулу итоговой оценки за курс.
  • неблокирующий Итоговый проект
    В конце курса выполняется итоговый проект (в группе до 3 человек). Итоговый проект представляет собой работу над исследовательской или практико-ориентированной задачей, позволяющей применить знания и навыки, полученные в ходе курса. Темы проектов предоставляются на выбор. Студент также может предложить свою тему проекта.
  • неблокирующий Экзамен
    Итоговый экзамен представляет собой ответ на вопросы в билетах (2 вопроса), составленных преподавателем на основе материалов лекций, и решение 1 практической задачи, проверяющей навыки работы с текстовыми данными. При подготовке к ответу на вопросы использование справочных материалов не допускается. При решении задачи разрешается пользоваться собственными справочными материалами (описания алгоритмов, фрагменты кода).
  • неблокирующий Посещение лекций
    Присутствие на лекциях отмечается в начале занятия и оценивается в 1 балл.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.4 * Homework + 0.3 * Итоговый проект + 0.1 * Посещение лекций + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition, Jurafsky, D., 2009
  • Захаров, В. П. Корпусная лингвистика : учебник / В. П. Захаров, С. Ю. Богданова. - 3-е изд., перераб. - Санкт-Петербург : СПбГУ, 2020. - 234 с. - ISBN 978-5-288-05997-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/1244746
  • Прикладная и компьютерная лингвистика, коллективная монография, под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо, 2-е изд., 315 с., , 2017

Рекомендуемая дополнительная литература

  • Сузи, Р. А. Язык программирования Python : учебное пособие / Р. А. Сузи. — 2-е изд. — Москва : ИНТУИТ, 2016. — 350 с. — ISBN 5-9556-0058-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100546 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Шкаберина, Г. Ш. Программирование. Основы языка Python : учебное пособие / Г. Ш. Шкаберина, Н. Л. Резова. — Красноярск : СибГУ им. академика М. Ф. Решетнёва, 2018. — 92 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/147450 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Куликова Елизавета Романовна
  • Нужа Ирина Витальевна
  • Дюгаева Ирина Дмитриевна