• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
19
Февраль

Введение в прикладную лингвистику

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Преподаватель


Хохлова Мария Владимировна

Программа дисциплины

Аннотация

Целью дисциплины является знакомство студентов с основными компонентами и основными направлениями специальности (машинный перевод, информационный поиск, извлечение информации, диалоговые системы, анализ тональностей, квантитативная лингвистика и др.). В результате освоения дисциплины студенты получат базовое представление об основных направлениях современной прикладной лингвистики.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать представления о различных способах работы с данными.
  • Ознакомить с методами визуализации результатов анализа датасетов.
  • Развить умение писать программы с использованием методов статистического, кластерного и регрессионного анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент освоит работу с базовыми объектами языка R, функциями, пакетами, а также научится создавать собственные функции и циклы.
  • Студент применяет трансформации данных: tidyverse, dplyr; освоит работу со строками и текстами: tidytext, udpipe; сможет осуществлять сбор данных из интернета: rvest. OCR.
  • Студент применяет методы визуализации сетевых данных c помощью пакетов ggplot и ggplot2
  • Студент решает задачи по программированию, демонстрируя умение анализировать строки тексты и весь текст с помощью пакета ling
  • Студент анализирует данные путём применения инструментов, время, карты, OCR.
  • Студент производит вычисления, применяя знания по описательной и симуляционной статистике, z-преобразованию, используя пакет анализа RLing
  • Студент создает пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y.
  • Студент способен создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев.
  • Студент применяет PCA CA, MCA, MDS, t-SNE для анализа различных датасетов и уменьшения размерности данных.
  • Студент применяет методы визуализации сетевых данных c помощью пакетов, ggiraph
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы R
    установки основные понятия
  • Трансформация данных
    работа с массивами и рядами
  • Визуализация и представление данных
    с помощью пакетов визуализации
  • Работа со строками и текстом
    использование пакетов лингвистического анализа
  • Необычные источники данных: время, карты, OCR
    извлечение и наложение текстовых данных на другие источники.
  • Основы статистики
    пакеты статистического анализа в R
  • Регрессионный анализ
    Корреляция и простая линейная регрессия. Множественная регрессия, link-functions. Логистическая и мультиномиальная регрессия.
  • Кластеризация
    лингвистических данных, анализ тематики и topic modeling
  • Методы уменьшения размерности кластеров
    PCA, CA, MCA, MDS, t-SNE
  • Сетевой анализ
    Создание графов и их визуализация
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
    В течение курса студенты пишут шесть самостоятельных работ, которые выполняются аудиторно. На выполнение каждой работы у студента есть 30 минут. Самостоятельная работа состоит из практических заданий и вопросов. В случае пропуска по уважительной причине работа пересдаются десяти дней до начала сессии. Эти работы не являются блокирующими. Работа может содержать от двух до десяти задач. При необходимости осуществляется дистанционная поддержка контроля (выдача заданий, проверка работ и др.) с помощью эл. ресурсов филиала.
  • блокирующий Экзамен
    Экзамен проводится в форме двух хакатонов: один проходит в конце второго модуля, а второй проходит в конце четвертого модуля. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Для участия в хакатоне студент должен выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим аккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для дискриминационного отстранения студента от участия в хакатоне. Все элементы контроля по курсу подлежат пересдаче в виде 2-ух часовой контрольной работы по всем темам, во время которой можно пользоваться любыми материалами. Время проведения устанавливается факультетом гуманитарных наук.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.7 * Самостоятельная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Stowell, S. (2014). Using R for Statistics. Berkeley, CA: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174344

Рекомендуемая дополнительная литература

  • Toomey, D. (2014). R for Data Science. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=933765