• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Text Mining and Natural Language Processing

2025/2026
Academic Year
RUS
Instruction in Russian
Course type:
Compulsory course
When:
2 year, 1 module

Программа дисциплины

Аннотация

Курс направлен на ознакомление студентов с основными методами анализа текстовых данных при помощи языка программирования Python. Первая часть курса посвящена проблематике анализа текстовых данных в социальных науках, основным подходам к предобработке текста и базовым техникам извлечения текстовых данных из интернета. Вторая часть курса позволит студентам овладеть современными методами машинного обучения для классификации, кластеризации и моделирования текстовых данных. По окончании курса студентам предлагается представить собственный исследовательский проект с использованием методов анализа естественного языка.
Цель освоения дисциплины

Цель освоения дисциплины

  • предлагает студентам готовые инструменты анализа текстовых данных в социальных и политических науках
  • дает общее представление о состоянии области анализа естественного языка, доминирующих подхода и методах
Планируемые результаты обучения

Планируемые результаты обучения

  • разбираться в приложениях компьютерного анализа текстов для практических и исследовательских задач
  • понимать основные этапы обработки сырого текста для последующего анализа
  • уметь анализировать тональность и субъективность социально-политических текстов
  • извлекать из текста скрытые темы (топики)
  • извлекать структурированную информацию из текстов
  • уметь обучать большие языковые модели и работать с ними
  • уметь классифицировать тексты с помощью методов машинного обучения
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в Text mining и Natural language processing
  • Этапы автоматической обработки текста (NLP pipeline)
  • Анализ тональности
  • Тематическое моделирование
  • Web-scraping и получение данных из интернета
  • Методы машинного обучения в текстовом анализе
  • Извлечение информации из текста
  • Текстовые эмбеддинги
  • Языковые модели
Элементы контроля

Элементы контроля

  • неблокирующий Homeworks
  • неблокирующий In-class participation
  • неблокирующий In-Class Test
  • неблокирующий Final project
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    0.2 * Final project + 0.4 * Homeworks + 0.2 * In-Class Test + 0.2 * In-class participation
Список литературы

Список литературы

Рекомендуемая основная литература

  • 9781491962992 - Bengfort, Benjamin; Bilbro, Rebecca; Ojeda, Tony - Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning - 2018 - O'Reilly Media - https://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1827695 - nlebk - 1827695
  • Elfrinkhof, A. van, Maks, I., & Kaal, B. (2014). From Text to Political Positions : Text Analysis Across Disciplines. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=761345
  • From text to political positions : text analysis across disciplines, , 2014
  • GPT-3 : the ultimate guide to building NLP products with OpenAI API, Kublik, S., 2022
  • Grimmer, J. (2010). A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, 1, 1.
  • Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BC6A6457
  • Introduction to natural language processing, Eisenstein, J., 2019
  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
  • Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
  • Text analysis for the social sciences : methods for drawing statistical inferences from texts and transcripts, , 1997
  • The text mining handbook : advanced approaches in analyzing unstructured data, Feldman, R., 2009
  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
  • Young, L., & Soroka, S. (2012). Affective News: The Automated Coding of Sentiment in Political Texts. Political Communication, 29(2), 205–231. https://doi.org/10.1080/10584609.2012.671234
  • Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020

Рекомендуемая дополнительная литература

  • Handbook of quantifiers in natural language, , 2012
  • Using NLP to enhance behavior and learning : a handbook for teachers, Elston, T., 2009
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611

Авторы

  • Снарский Ярослав Александрович
  • Ильина Мария Ивановна