• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Text mining: Advanced Level

2024/2025
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
2 year, 1 module

Программа дисциплины

Аннотация

Курс вводит студентов в продвинутые алгоритмы машинного обучения и основы нейронных сетей для анализа текстов. Первая часть курса дает представление об использовании обучения с учителем и без учителя для решения задач анализа естественного языка (кластеризация и классификация текстов). Обсуждаются основные понятия обучения моделей методами машинного обучения и метрики оценки качества. Вторая часть курса позволит студентам использовать библиотеки TensorFlow и Keras для обучения и настройки нейронных сетей. Обсуждаются дискриминативные и генеративные модели, а также полносвязные нейронные сети, свертки, архитектура трансформеров. Hugging Face является основным репозиторием моделей для курса. По окончании занятий студенты сдают собственный проект.
Цель освоения дисциплины

Цель освоения дисциплины

  • Дает продвинутое понимание методов обработки естественного языка
  • Развивает навыки обучения моделей машинного обучения
  • Позволяет тренировать собственные нейронные сети
Планируемые результаты обучения

Планируемые результаты обучения

  • разбираться в приложениях компьютерного анализа текстов для практических и исследовательских задач
  • понимать основные этапы обработки сырого текста для последующего анализа
  • уметь обучать большие языковые модели и работать с ними
  • уметь классифицировать тексты с помощью методов машинного обучения
  • тренировать нейронные сети для анализа и генерации текстовых данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Математика машинного обучения
  • Предобработка текста для машинного обучения и нейронных сетей
  • Алгоритмы машинного обучения: обучение с учителем
  • Алгоритмы машинного обучения: обучение без учителя
  • Введение в глубокое обучение
  • Полносвязные нейронные сети
  • Сверточные нейронные сети
  • Рекуррентные нейронные сети
  • Механизм внимания. Архитектура трансформеров
  • Предобученные модели
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Экзамен
    Экзамен представляет собой соревнование (хакатон) по разработке лучшей модели анализа тональности для русскоязычного текста. В конце первой части курса будет предоставлен русскоязычный набор данных с оценками тональности. Студенты должны выучить свои классификационные модели на этом наборе данных. За неделю до экзамена студенты получат вторую часть набора данных, которую они должны использовать для тестирования полученных моделей. На последнем занятии студенты проводят презентацию своих моделей. Оценка за презентацию зависит, во-первых, от уровня презентации. Во-вторых, оценка зависит от полученных результатов (качества работы модели).
  • неблокирующий Промежуточный тест
  • неблокирующий Активность на семинарах
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 учебный год 1 модуль
    0.1 * Активность на семинарах + 0.3 * Домашнее задание + 0.3 * Промежуточный тест + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Elfrinkhof, A. van, Maks, I., & Kaal, B. (2014). From Text to Political Positions : Text Analysis Across Disciplines. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=761345
  • Grimmer, J. (2010). A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, 1, 1.
  • Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BC6A6457
  • Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
  • Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
  • Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
  • Young, L., & Soroka, S. (2012). Affective News: The Automated Coding of Sentiment in Political Texts. Political Communication, 29(2), 205–231. https://doi.org/10.1080/10584609.2012.671234
  • Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка - 978-5-4461-1153-4 - Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/365298 - 365298 - iBOOKS

Рекомендуемая дополнительная литература

  • 9781491962992 - Bengfort, Benjamin; Bilbro, Rebecca; Ojeda, Tony - Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning - 2018 - O'Reilly Media - https://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1827695 - nlebk - 1827695

Авторы

  • Ильина Мария Ивановна