• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Презентация проекта «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами» и Лаборатории языковой конвергенции НИУ ВШЭ в СПб

0+
Мероприятие завершено

Дорогие коллеги,

Мы с московскими коллегами выиграли конкурс Фундаментальных научных исследований распределенными межкампусными научными подразделениями НИУ ВШЭ по теме «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами» . Более того, для осуществления этого проекта в Санкт-Петербургском кампусе НИУ ВШЭ создана новая исследовательская лаборатория — Лаборатория языковой конвергенции

В пятницу, 16 июня, в 18:00 по МСК состоится встреча, посвященная презентации нашего проекта, на которой руководители основных направлений расскажут об исследованиях, проводимых партнерскими подразделениями:

·        Татьяна Шерстинова. Краткая презентация проекта «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами »

·        Георгий Мороз, заведующий Международной лаборатории языковой конвергенции НИУ ВШЭ, Москва: «Построение ландшафта лингвистики: анализ аннотаций лингвистических статей»

В рамках проекта производится выгрузка и анализ аннотаций из лингвистических журналов. Круг журналов, который будет анализироваться, уже очерчен, и «выкачано» более 100 тысяч аннотаций. Есть основание надеяться, что в рамках проекта удастся представить полученные аннотации в 2D пространстве, которое осмысленно определит, кто есть кто в лингвистике. Такое пространство позволит анализировать междисциплинарную близость лингвистических областей, кластеризовать лингвистические журналы, исследовать публикационные практики (среднее количество авторов работ, гендерное распределение по областям лингвистики), исследовать междисциплинарность отдельных исследователей и многое другое.

·        Борис Орехов , Ведущий научный сотрудник Международной лаборатории языковой конвергенции, руководитель магистерской образовательной программы «Цифровые методы в гуманитарных науках»: о проектах «Культуромика» на базе Google N-gram Viewer, «Тематическое моделирование коллекции дневников «Прожито»», «Разработка современных языковых моделей для computational literary studies»

Обрабатываются данные Google N-gram Viewer для области, которая называется «культуромика», которую  в своих публикациях на русском языке развивала А. А. Бонч-Осмоловская. В ее основе лежит идея о том, что частотность слов в письменных источниках за определенный период не случайна, а соотносится с культурно значимыми событиями. Наша задача в том, чтобы с помощью статистики «отловить» выбросы в этой частотности, и таким образом создать набор модельных случаев, где культуромика для русского языка показывает значимые результаты.

Ведется работа с коллекцией дневников «Прожито», целью которой является поиск с помощью тематического моделирования тенденций о том, о чем писали люди в разные периоды своей жизни и в разные эпохи истории страны.

С помощью глубокого обучения проводится работа над созданием  современных языковых моделей, которые помогали бы решать задачи computational literary studies.

·        Анастасия Колмогорова , зам. заведующего Лаборатории языковой конвергенции НИУ ВШЭ в СПб, академический руководитель образовательной программы «Языковые технологии в бизнесе и образовании»: О проектах «Школьникам об истории, но в разное время», «Эмоциональный анализ текстов социальных сетей», «Моделирование наиболее эффективных продающих стратегий на материале звукозаписей речи торговых представителей»

«Школьникам об истории, но в разное время». Проект с текстами учебников по истории России, изданных в разное время. Цель – проанализировать при помощи методов компьютерной обработки текстов, как меняется тональность и тематический фокус внимания при изложении одного и того же материала в текстах учебников, изданных в разные периоды развития советского/ российского общества.

Эмоциональная разметка текстов на русском языке: проводятся эксперименты с разными интерфейсами, моделями эмоций, способами постановки вопроса для разметчика, а также с моделями для мультимодальной разметки эмоции, манифестируемой по разным каналам (текстовому, жестовому, просодическому). 

Распознавание и аннотирование коллекции записей устной речи торговых представителей, поиск речевых паттернов успешного «продажника» и разработка способов их автоматического детектирования.

·        Татьяна Шерстинова , заведующий Лаборатории языковой конвергенции НИУ ВШЭ в СПб, академический руководитель образовательной программы «Филология»: «О создании Корпуса русского рассказа XX века и Звукового корпуса повседневной речи молодежи (ОРД версии 2023)»

В рамках Лаборатории языковой конвергенции большое внимание будет уделено построению новых лингвистических ресурсов. Прежде всего, планируется расширение Корпуса русского рассказа 1900-1930 (https://russian-short-stories.ru/ ) на весь XX век, на его материале будет продолжена апробация современных компьютерных методов обработки методов машинного и глубокого обучения к литературным текстам. Другое важное направление работы – создание представительных ресурсов устной звучащей русской речи: расширение расшифрованного объема корпуса ОРД и создание нового корпуса повседневной звучащей речи - Устного корпуса современной повседневной речи молодежи («Один речевой день» версии 2023 г.), работа над которым уже началась.

Модератор встречи — Маргарита Кирина, младший научный сотрудник Лаборатории языковой конвергенции.

Для получения ссылки на Zoom-конференцию, пожалуйста, заполните регистрационную форму. Ссылка будет выслана за 30 минут до начала семинара.

Приглашаем к участию всех филологов (как литературоведов, так и лингвистов), а также представителей любых других гуманитарных и социальных дисциплин — всех, кто использует (или планирует использовать) компьютерные средства для анализа текстовых данных.

Будем рады Вас видеть!