• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern methods of text analysis

2023/2024
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Elective course
When:
4 year, 3 module

Instructor

Программа дисциплины

Аннотация

Курс «Современные методы текстового анализа» направлен на формирование знаний, умений и компетенций в области текстового анализа источников различного содержания. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов. В рамках курса так же предполагается знакомство с корпусами, их анализ, оценка и использование в собственных исследованиях. Пререквизит - владение одним из восточных языков на уровне не ниже intermediate.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение ряда инструментов компьютерной лингвистики и цифровых методов в гуманитарных науках, которые могут быть использованы для анализа текста в языковых, культурологических и политологических исследованиях
  • Отработка практических навыков текстового анализа с использованием языка программирования Python
Планируемые результаты обучения

Планируемые результаты обучения

  • Имеет представления об основных направлениях в компьютерном анализе текстов
  • Может назвать основные сферы практического применения инструментов компьютерной лингвистики
  • Может назвать и проиллюстрировать примерами исследовательских вопросов основные направления лингвистики
  • Умеет дать определение корпуса в лингвистике
  • Может перечислить или умеет найти основные корпуса своего языка на программе Востоковедение
  • Может перечислить или умеет найти основные корпуса русского языка
  • Может перечислить основные типы корпусов и сформулировать различия между ними
  • Умеет составлять запросы для поиска в корпусе
  • Умеет при составлении поискового запроса задавать условия с опорой на разметку и мета-разметку
  • Умеет работать с выдачей при поиске в корпусе, умеет экспортировать её для дальнейшей обработки
  • Умеет перечислить основные частотностные характеристики текста
  • Умеет создать частотный список для текста или коллекции текстов
  • Умеет проанализировать частотный список
  • Может определить основные типы графиков
  • Может выбрать визуальную репрезентацию для данных различной структуры
  • Может построить графики разных типов с помощью языка Python
  • Может дать определение основным статистическим метрикам
  • Может сформулировать различие между средним арифметическим и медианой
  • Может посчитать основные статистические метрики
  • Может выбрать статистический инструмент, подходящий для проверки гипотезы
  • Может применить основные статистические тесты: t-test, хи-квадрат
  • Имеет представление о регрессии в статистике
  • Может назвать и объяснить основные инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
  • Умеет использовать инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
  • Может создать и использовать базу данных для хранения результатов обработки текста
  • Имеет представление об использовании методов машинного обучения для анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Методы корпусной лингвистики
  • Визуализация частотных характеристик текста
  • Статистические инструменты анализа текста
  • Основные инструменты компьютерной лингвистики
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Homework
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 3rd module
    0.6 * Homework + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Crompton, C., Lane, R. J., & Siemens, R. G. (2016). Doing Digital Humanities : Practice, Training, Research. London: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1360431
  • McEnery, T., & Hardie, A. (2012). Corpus Linguistics : Method, Theory and Practice. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408835
  • Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
  • Введение в лингвистику : учебное пособие / Н. А. Шабанова, С. А. Станиславская, О. И. Соколова, С. М. Федюнина. — 2-е изд., доп. — Москва : ФЛИНТА, 2019. — 71 с. — ISBN 978-5-9765-4249-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/123650 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Kurdi, M. Z. (2017). Natural Language Processing and Computational Linguistics 2 : Semantics, Discourse and Applications. London, UK: Wiley-ISTE. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1642577