Скачивание данных: от веб-сервисов к скрапингу в R

В субботу прошёл семинар НУГа «Машинное обучение и социальный компьютинг». Он включал в себя воркшоп по скачиванию данных и дальнейшее обсуждение применения самостоятельного получения данных в исследовательских работах.

О том, как скачивать данные из Интернета рассказывали участники нашей научно-учебной группы Анастасия Кузнецова и Виктор Карепин. Анастасия рассказала о специальном расширении для Google Chrome - Data Miner - гибком приложении с удобным пользовательским дизайном и возможностью задавать свои собственные настройки и скрипты для скачивания. Data Miner удобен тем, что для скрапинга данных с его помощью чаще всего не нужно писать код, а данные сразу собираются в удобные форматы csv и xlsx. При этом у него большие возможности по созданию публичных скриптов (“recipes”), поэтому для скачивания некоторых сайтов даже не нужен свой скрипт. Однако если у сайта плохо размеченная архитектура, со скачиванием нужных данных могут возникнуть сложности.

Решением этой проблемы может быть метод скачивания данных с помощью R. Виктор рассказал о применении пакета rvest для скачивания данных с помощью тегов html-страницы. Более сложная часть воркшопа состояла из изучения применения пакета RSelenium. Это инструмент для автоматизации действий веб-браузера и он позволяет «грабить» данные со страницы.

Семинар посетила Анна Широканова, старший научный сотрудник Лаборатории сравнительных социальных исследований:

На такие воркшопы НУГа я попадаю довольно редко, но это всегда замечательный опыт. Семинар по топик-моделингу в прошлом году перерос в научное сотрудничество с конференцией и публикацией, вот и сегодня тоже было очень интересно. Больше всего мне понравилось, насколько заинтересованно, понятно и увлекательно оба спикера говорили о своих темах - такое всегда заразительно, и к тому же получается настоящее peer-to-peer learning. Очень понравилось и то, как живо ребята приводили примеры применения этих методов в своих научных проектах, будь то структурирование информации о гостиницах Петербурга или карта "ночи музеев". Еще было интересно сравнить работу RSelenium с тем, что проходили в прошлом году на спецкурсе по Python. Data culture, про которую все говорят, культивируется именно на таких семинарах.

Широканова Анна Александровна
Департамент социологии: Доцент

В конце участники семинара обсудили возможности применения такого способа поиска данных. Участники НУГ рассказали о том, как они ищут данные для своих исследований. В частности, был подробно обсуждён кейс TripAdvisor, данные с которого использовались для анализа отелей Санкт-Петербурга и создания георейтингов.

Дата

18 сентября 2018

Темы

идеи и опыт мастер-классы

В статье упомянуты

Научно-учебная группа «Машинное обучение и социальный компьютинг»