• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Введение в прикладную лингвистику

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
6
Кредиты
Статус:
Курс обязательный
Когда читается:
1-й курс, 3, 4 модуль

Преподаватель

Программа дисциплины

Аннотация

Целью дисциплины является знакомство студентов с основными компонентами и основными направлениями специальности (машинный перевод, информационный поиск, извлечение информации, диалоговые системы, анализ тональностей, квантитативная лингвистика и др.). В результате освоения дисциплины студенты получат базовое представление об основных направлениях современной прикладной лингвистики.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать представления о различных способах работы с данными.
  • Ознакомить с методами визуализации результатов анализа датасетов.
  • Развить умение писать программы с использованием методов статистического, кластерного и регрессионного анализа.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент создает пуассоновскую регрессию, позволяющую предсказывать результаты показателя X на основе имеющихся данных показателя Y.
  • Студент применяет PCA CA, MCA, MDS, t-SNE для анализа различных датасетов и уменьшения размерности данных.
  • Студент применяет методы визуализации сетевых данных c помощью пакетов, ggiraph
  • Студент применяет трансформации данных: tidyverse, dplyr; освоит работу со строками и текстами: tidytext, udpipe; сможет осуществлять сбор данных из интернета: rvest. OCR.
  • Студент производит вычисления, применяя знания по описательной и симуляционной статистике, z-преобразованию, используя пакет анализа RLing
  • Студент анализирует данные путём применения инструментов, время, карты, OCR.
  • Студент освоит работу с базовыми объектами языка R, функциями, пакетами, а также научится создавать собственные функции и циклы.
  • Студент применяет методы визуализации сетевых данных c помощью пакетов ggplot и ggplot2
  • Студент решает задачи по программированию, демонстрируя умение анализировать строки тексты и весь текст с помощью пакета ling
  • Студент способен создавать метрики расстояний, k-means, иерархические кластеризации, визуализации деревьев.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы R
  • Трансформация данных
  • Визуализация и представление данных
  • Работа со строками и текстом
  • Необычные источники данных: время, карты, OCR
  • Основы статистики
  • Регрессионный анализ
  • Кластеризация
  • Методы уменьшения размерности кластеров
  • Сетевой анализ
Элементы контроля

Элементы контроля

  • блокирующий Экзамен
    Экзамен проводится в форме двух хакатонов: один проходит в конце второго модуля, а второй проходит в конце четвертого модуля. Во время хакатона студенты делятся на команды и совместно решают поставленные задачи, используя любые доступные средства (в том числе любые удобные участникам средства связи друг с другом). Для участия в хакатоне студент должен выбрать команду, в которой он хочет работать (в том числе состоящей из одного человека), и пройти по ссылке на платформе Github под своим аккаунтом. Во время хакатона студент волен делать все, что считает нужным. Нарушения связи любой длительности считаются досадной неприятностью, которая ни в коем случае не должны служить причиной для дискриминационного отстранения студента от участия в хакатоне. Все элементы контроля по курсу подлежат пересдаче в виде 2-ух часовой контрольной работы по всем темам, во время которой можно пользоваться любыми материалами. Время проведения устанавливается факультетом гуманитарных наук.
  • неблокирующий Самостоятельная работа
    В течение курса студенты пишут шесть самостоятельных работ, которые выполняются аудиторно. На выполнение каждой работы у студента есть 30 минут. Самостоятельная работа состоит из практических заданий и вопросов. В случае пропуска по уважительной причине работа пересдаются десяти дней до начала сессии. Эти работы не являются блокирующими. Работа может содержать от двух до десяти задач. При необходимости осуществляется дистанционная поддержка контроля (выдача заданий, проверка работ и др.) с помощью эл. ресурсов филиала.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 4 модуль
    0.7 * Самостоятельная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Stowell, S. (2014). Using R for Statistics. Berkeley, CA: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1174344

Рекомендуемая дополнительная литература

  • Toomey, D. (2014). R for Data Science. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=933765