• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы информационных технологий

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс по выбору
Когда читается:
1-й курс, 1 модуль

Программа дисциплины

Аннотация

Целями освоения дисциплины «Основы информационных технологий» является ознакомление студентов с основными задачами информационных технологий, задач автоматической обработки языка. Дисциплина является выравнивающей и дает базовые знания в предметной области студентам, которые не имеют образования в сфере информационных технологий.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомить студентов с основными задачами компьютерной лингвистики и автоматической обработки языка
  • Ознакомить студентов с современными подходами к решению задач компьютерной лингвистики
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют обучать seq2seq модели для перевода; использовать предобученные модели для текстовых аугментаций; оценивать качество машинного перевода
  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Умеют использовать natasha для извлечения стандартных сущностей; разрабатывать грамматики для yargy для извлечения специфических сущностей
  • Умеют использовать матричные разложения для построения представлений слов; обучать word2vec, fastext из gensim, различать эти алгоритмы между собой; оценивать качество векторных представления на задаче определения перефразирования
  • Умеют использовать неотрицательное матричное разложение (NMF) из sklearn; использовать LDA из gensim; использовать BigARTM, настраивать регуляризаторы; оценивать качество тематических моделей (интерпретируемость, перплексия, когерентность), подбирать оптимальное количество тем
  • Умеют использовать предобученные модели (UdPipe, SyntaxNet) для построения деревьев зависимости; извлекать тройки субъект-предикат-объект из графов зависимостей предложений; находить структурно близкие предложения с помощью tree edit distance
  • Умеют определять опечатки с помощью словаря и классификатора; использовать алгоритм Норвига для генерации исправления; сравнивать различные меры редактирования (расстояние левенштейна, хэмминга и др.); оптимизировать поиск исправления с помощью векторизации
  • Умеют оценивать степень устойчивости сочетаний слов с помощью различных метрик; пользоваться Phraser из gensim для объединения токенов в нграммы; использовать nltk для нахождения устойчивых биграммов и триграммов
  • Умеют пользоваться wordnet; использовать алгоритм Леска для определения значения слова по контексту; обучать Adagram и определять нужное значение слова по контексту; кластеризовать контексты слов для определения количества значений слова; оценивать качество кластеризации при наличии разметки
  • Умеют реализовывать алгоритм витерби для нахождения правильных частей речи; реализовывать beam search для ускорения работы витерби
  • Умеют создавать вопросно-ответные системы на данных википедии с помощью мешка слов (DrQA)
  • Умеют создавать языковые модели с помощью keras; использовать предобученные state-of-the-art модели (BERT, ELMO, GPT-2) для получения векторных представлений; дообучать (fine-tuning) предобученные модели для задач классификации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в информационные технологии
  • Выделение и исправление опечаток
  • Векторные представления
  • Синтаксический парсинг
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Домашние задания представляют собой небольшие практические задания, которые выполняются студентами вне аудитории. Преподаватель оценивает самостоятельную работу студентов по выполнению домашних работ, выдаваемых на практических занятиях. При этом оценивается правильность выбора метода решения задачи в соответствии с заранее установленным критериями. Домашние работы сдаются за 2 дня до следующего занятия (до 23:59 предыдущего дня). После проверки заданий студенты получают обратную связь и оценку по своей работе по почте. Работы, которые были сданы после крайнего срока, штрафуются на три балла. Оценки за домашние задания выставляются в рабочую ведомость, перед экзаменом модуля оценки за домашние задания усредняются и выставляется единая средняя оценка по десятибалльной шкале.
  • блокирующий Экзамен
    Экзамен проводится в форме теста. Тест содержит 20 вопросов формата множественного выбора, каждый правильный ответ оценивается в 1 балл. На выполнение тестов у студентов есть 30 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 1 модуль
    0.6 * Домашнее задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Сабиржанов Равшан Анварович. (n.d.). Компьютерная Лингвистика Как Наука Автоматической Обработки Информации. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.https%3a%2f%2fcyberleninka.ru%2farticle%2fn%2fkompyuternaya-lingvistika-kak-nauka-avtomaticheskoy-obrabotki-informatsii

Рекомендуемая дополнительная литература

  • Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471