We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Modern methods of text analysis

2023/2024
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Elective course
When:
4 year, 3 module

Instructor

Программа дисциплины

Аннотация

Курс «Современные методы текстового анализа» направлен на формирование знаний, умений и компетенций в области текстового анализа источников различного содержания. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов. В рамках курса так же предполагается знакомство с корпусами, их анализ, оценка и использование в собственных исследованиях. Пререквизит - владение одним из восточных языков на уровне не ниже intermediate.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение ряда инструментов компьютерной лингвистики и цифровых методов в гуманитарных науках, которые могут быть использованы для анализа текста в языковых, культурологических и политологических исследованиях
  • Отработка практических навыков текстового анализа с использованием языка программирования Python
Планируемые результаты обучения

Планируемые результаты обучения

  • Имеет представления об основных направлениях в компьютерном анализе текстов
  • Может назвать основные сферы практического применения инструментов компьютерной лингвистики
  • Может назвать и проиллюстрировать примерами исследовательских вопросов основные направления лингвистики
  • Умеет дать определение корпуса в лингвистике
  • Может перечислить или умеет найти основные корпуса своего языка на программе Востоковедение
  • Может перечислить или умеет найти основные корпуса русского языка
  • Может перечислить основные типы корпусов и сформулировать различия между ними
  • Умеет составлять запросы для поиска в корпусе
  • Умеет при составлении поискового запроса задавать условия с опорой на разметку и мета-разметку
  • Умеет работать с выдачей при поиске в корпусе, умеет экспортировать её для дальнейшей обработки
  • Умеет перечислить основные частотностные характеристики текста
  • Умеет создать частотный список для текста или коллекции текстов
  • Умеет проанализировать частотный список
  • Может определить основные типы графиков
  • Может выбрать визуальную репрезентацию для данных различной структуры
  • Может построить графики разных типов с помощью языка Python
  • Может дать определение основным статистическим метрикам
  • Может сформулировать различие между средним арифметическим и медианой
  • Может посчитать основные статистические метрики
  • Может выбрать статистический инструмент, подходящий для проверки гипотезы
  • Может применить основные статистические тесты: t-test, хи-квадрат
  • Имеет представление о регрессии в статистике
  • Может назвать и объяснить основные инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
  • Умеет использовать инструменты компьютерной лингвистики: лемматизация, токенизация, морфологический и синтаксический анализ, определение тональности текста, выявление именованных сущностей
  • Может создать и использовать базу данных для хранения результатов обработки текста
  • Имеет представление об использовании методов машинного обучения для анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Методы корпусной лингвистики
  • Визуализация частотных характеристик текста
  • Статистические инструменты анализа текста
  • Основные инструменты компьютерной лингвистики
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Homework
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 3rd module
    0.6 * Homework + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Crompton, C., Lane, R. J., & Siemens, R. G. (2016). Doing Digital Humanities : Practice, Training, Research. London: Routledge. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1360431
  • McEnery, T., & Hardie, A. (2012). Corpus Linguistics : Method, Theory and Practice. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408835
  • Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
  • Введение в лингвистику : учебное пособие / Н. А. Шабанова, С. А. Станиславская, О. И. Соколова, С. М. Федюнина. — 2-е изд., доп. — Москва : ФЛИНТА, 2019. — 71 с. — ISBN 978-5-9765-4249-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/123650 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Kurdi, M. Z. (2017). Natural Language Processing and Computational Linguistics 2 : Semantics, Discourse and Applications. London, UK: Wiley-ISTE. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1642577

Авторы

  • Старченко Алексей Миронович