We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Information technology basics

2021/2022
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Course type:
Bridging course
When:
1 year, 1, 2 module

Программа дисциплины

Аннотация

Целями освоения дисциплины «Основы информационных технологий» является ознакомление студентов с основными задачами информационных технологий, задач автоматической обработки языка. Дисциплина является выравнивающей и дает базовые знания в предметной области студентам, которые не имеют образования в сфере информационных технологий.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомить студентов с основными задачами компьютерной лингвистики и автоматической обработки языка
  • Ознакомить студентов с современными подходами к решению задач компьютерной лингвистики
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеют обучать seq2seq модели для перевода; использовать предобученные модели для текстовых аугментаций; оценивать качество машинного перевода
  • Умеют различать токенизацию, лемматизацию и стемминг; применять регулярные выражения для токенизации текстов; использовать word_tokenizer, snowball stemmer из nltk; пользоваться pymorphy2 и mystem3 для лемматизации
  • Умеют использовать natasha для извлечения стандартных сущностей; разрабатывать грамматики для yargy для извлечения специфических сущностей
  • Умеют использовать матричные разложения для построения представлений слов; обучать word2vec, fastext из gensim, различать эти алгоритмы между собой; оценивать качество векторных представления на задаче определения перефразирования
  • Умеют использовать неотрицательное матричное разложение (NMF) из sklearn; использовать LDA из gensim; использовать BigARTM, настраивать регуляризаторы; оценивать качество тематических моделей (интерпретируемость, перплексия, когерентность), подбирать оптимальное количество тем
  • Умеют использовать предобученные модели (UdPipe, SyntaxNet) для построения деревьев зависимости; извлекать тройки субъект-предикат-объект из графов зависимостей предложений; находить структурно близкие предложения с помощью tree edit distance
  • Умеют определять опечатки с помощью словаря и классификатора; использовать алгоритм Норвига для генерации исправления; сравнивать различные меры редактирования (расстояние левенштейна, хэмминга и др.); оптимизировать поиск исправления с помощью векторизации
  • Умеют оценивать степень устойчивости сочетаний слов с помощью различных метрик; пользоваться Phraser из gensim для объединения токенов в нграммы; использовать nltk для нахождения устойчивых биграммов и триграммов
  • Умеют пользоваться wordnet; использовать алгоритм Леска для определения значения слова по контексту; обучать Adagram и определять нужное значение слова по контексту; кластеризовать контексты слов для определения количества значений слова; оценивать качество кластеризации при наличии разметки
  • Умеют реализовывать алгоритм витерби для нахождения правильных частей речи; реализовывать beam search для ускорения работы витерби
  • Умеют создавать вопросно-ответные системы на данных википедии с помощью мешка слов (DrQA)
  • Умеют создавать языковые модели с помощью keras; использовать предобученные state-of-the-art модели (BERT, ELMO, GPT-2) для получения векторных представлений; дообучать (fine-tuning) предобученные модели для задач классификации
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в информационные технологии
  • Выделение и исправление опечаток
  • Векторные представления
  • Синтаксический парсинг
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
    Критерии оценивания домашних заданий Оценка Критерии «Отлично» (8-10) Задание выполнено в полном объем е. Метод решения всех задач выбран правильно. Исходный код значительно изменён. Есть незначительные неточности на всех этапах. «Хорошо» (6-7) Задание выполнено в полном объеме. 60- 75 процентов всех задач имею верное решение. Исходный код изменен заметно. Есть менее двух серьёзных ошибки «Удовлетворительно» (4-5) Задание выполнено частично. Половина задач решена правильно. Исходный код незначительно изменен. Имеется менее пяти серьезных ошибок. «Неудовлетворительно» (0-3) Задание выполнено частично. Менее половины задач решены правильно. Исходный код не изменен. Более пяти серьёзных ошибок.
  • блокирующий Экзамен
    Экзамен проводится в форме теста. Тест содержит 20 вопросов формата множественного выбора, каждый правильный ответ оценивается в 1 балл. На выполнение тестов у студентов есть 30 минут.
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 2 модуль
    0.4 * Экзамен + 0.6 * Домашнее задание
Список литературы

Список литературы

Рекомендуемая основная литература

  • Сабиржанов Равшан Анварович. (n.d.). Компьютерная Лингвистика Как Наука Автоматической Обработки Информации. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.https%3a%2f%2fcyberleninka.ru%2farticle%2fn%2fkompyuternaya-lingvistika-kak-nauka-avtomaticheskoy-obrabotki-informatsii

Рекомендуемая дополнительная литература

  • Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471

Авторы

  • Грановский Дмитрий Владимирович