Итоги месяца. Октябрь – знакомство с текстометрией
В октябре на открытом семинаре НУГ выступил Алексей Михайлович Лаврентьев – кандидат филологических наук, доктор лингвистики, инженер-исследователь Национального центра научных исследований Франции. А.М. Лаврентьев представил доклад о методах текстометрии, а также продемонстрировал, как они применяются на практике для количественного и качественного анализа текстовых данных с использованием платформы TXM.
Говоря о лингвистическом применении методов текстометрии, А.М. Лаврентьев отмечает, что особое внимание французская школа уделяет, прежде всего, тексту. При этом текст рассматривается не только на лексическом уровне, но и на структурном. Текстометрия не приемлет популярного в машинном обучении подхода к представлению текста как «мешка слов» (bag-of-words). Напротив, эти методы характеризует стремление не упрощать модель текста, а анализировать его комплексно с учетом задач исследователя.
Текст представляет собой сложный объект, как источник данных вызывающий интерес у представителей разных областей знания. Сочетая инструменты количественного и качественного анализа, текстометрия открывает возможности для изучения на основе корпуса языка, дискурса, литературы, истории и т.д. Осуществлять текстометрический анализ позволяет платформа TXM (http://textometrie.org). TXM представляет собой свободно распространяемое программное обеспечение с открытым кодом. Платформа активно развивается и на сегодняшний день поддерживает работу с разными формами текстовых данных – как структурированными, так и нет.
В ходе семинара А.М. Лаврентьев не только познакомил слушателей с основными положениями и отличительными особенностями текстометрии, но и рассказал, как установить программу TXM, а также показал примеры работы на платформе.
Публикуем видеозапись мероприятия:
Post Scriptum
Выражаем благодарность Алексею Михайловичу Лаврентьеву, а также всем участникам семинара. Спасибо за интерес и оживленную дискуссию!
До новых встреч!