• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
19
Февраль

Основы информационных технологий

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс адаптационный
Когда читается:
1-й курс, 1, 2 модуль

Программа дисциплины

Аннотация

Целями освоения дисциплины «Основы информационных технологий» является ознакомление студентов с основными задачами информационных технологий, задач автоматической обработки языка. Дисциплина является выравнивающей и дает базовые знания в предметной области студентам, которые не имеют образования в сфере информационных технологий.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомить студентов с основными задачами компьютерной лингвистики и автоматической обработки языка
  • Ознакомить студентов с современными подходами к решению задач компьютерной лингвистики
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Умеют оценивать степень устойчивости сочетаний слов с помощью различных метрик; пользоваться Phraser из gensim для объединения токенов в нграммы; использовать nltk для нахождения устойчивых биграммов и триграммов
  • Умеют определять опечатки с помощью словаря и классификатора; использовать алгоритм Норвига для генерации исправления; сравнивать различные меры редактирования (расстояние левенштейна, хэмминга и др.); оптимизировать поиск исправления с помощью векторизации
  • Умеют использовать natasha для извлечения стандартных сущностей; разрабатывать грамматики для yargy для извлечения специфических сущностей
  • Умеют использовать неотрицательное матричное разложение (NMF) из sklearn; использовать LDA из gensim; использовать BigARTM, настраивать регуляризаторы; оценивать качество тематических моделей (интерпретируемость, перплексия, когерентность), подбирать оптимальное количество тем
  • Умеют использовать матричные разложения для построения представлений слов; обучать word2vec, fastext из gensim, различать эти алгоритмы между собой; оценивать качество векторных представления на задаче определения перефразирования
  • Умеют пользоваться wordnet; использовать алгоритм Леска для определения значения слова по контексту; обучать Adagram и определять нужное значение слова по контексту; кластеризовать контексты слов для определения количества значений слова; оценивать качество кластеризации при наличии разметки
  • Умеют реализовывать алгоритм витерби для нахождения правильных частей речи; реализовывать beam search для ускорения работы витерби
  • Умеют использовать предобученные модели (UdPipe, SyntaxNet) для построения деревьев зависимости; извлекать тройки субъект-предикат-объект из графов зависимостей предложений; находить структурно близкие предложения с помощью tree edit distance
  • Умеют создавать языковые модели с помощью keras; использовать предобученные state-of-the-art модели (BERT, ELMO, GPT-2) для получения векторных представлений; дообучать (fine-tuning) предобученные модели для задач классификации
  • Умеют создавать вопросно-ответные системы на данных википедии с помощью мешка слов (DrQA)
  • Умеют обучать seq2seq модели для перевода; использовать предобученные модели для текстовых аугментаций; оценивать качество машинного перевода
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в информационные технологии
    Предобработка текста, н-граммы, распознавание языка, анализ тональности
  • Выделение и исправление опечаток
    Извлечение именованных сущностей, извлечение ключевых слов, тематическое моделирование
  • Векторные представления
    Лексическая дизамбигуация, разметка последовательности, морфологическая дизамбигуация
  • Синтаксический парсинг
    Языковое моделирование, вопросно-ответные системы, машинный перевод
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Критерии оценивания домашних заданий Оценка Критерии «Отлично» (8-10) Задание выполнено в полном объем е. Метод решения всех задач выбран правильно. Исходный код значительно изменён. Есть незначительные неточности на всех этапах. «Хорошо» (6-7) Задание выполнено в полном объеме. 60- 75 процентов всех задач имею верное решение. Исходный код изменен заметно. Есть менее двух серьёзных ошибки «Удовлетворительно» (4-5) Задание выполнено частично. Половина задач решена правильно. Исходный код незначительно изменен. Имеется менее пяти серьезных ошибок. «Неудовлетворительно» (0-3) Задание выполнено частично. Менее половины задач решены правильно. Исходный код не изменен. Более пяти серьёзных ошибок.
  • блокирующий Экзамен
    Экзамен проводится в форме теста. Тест содержит 20 вопросов формата множественного выбора, каждый правильный ответ оценивается в 1 балл. На выполнение тестов у студентов есть 30 минут.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (2 модуль)
    0.6 * Домашнее задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Сабиржанов Равшан Анварович. (n.d.). Компьютерная Лингвистика Как Наука Автоматической Обработки Информации. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.https%3a%2f%2fcyberleninka.ru%2farticle%2fn%2fkompyuternaya-lingvistika-kak-nauka-avtomaticheskoy-obrabotki-informatsii

Рекомендуемая дополнительная литература

  • Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471