Скачивание данных: от веб-сервисов к скрапингу в R
В субботу прошёл семинар НУГа «Машинное обучение и социальный компьютинг». Он включал в себя воркшоп по скачиванию данных и дальнейшее обсуждение применения самостоятельного получения данных в исследовательских работах.
О том, как скачивать данные из Интернета рассказывали участники нашей научно-учебной группы Анастасия Кузнецова и Виктор Карепин. Анастасия рассказала о специальном расширении для Google Chrome - Data Miner - гибком приложении с удобным пользовательским дизайном и возможностью задавать свои собственные настройки и скрипты для скачивания. Data Miner удобен тем, что для скрапинга данных с его помощью чаще всего не нужно писать код, а данные сразу собираются в удобные форматы csv и xlsx. При этом у него большие возможности по созданию публичных скриптов (“recipes”), поэтому для скачивания некоторых сайтов даже не нужен свой скрипт. Однако если у сайта плохо размеченная архитектура, со скачиванием нужных данных могут возникнуть сложности.
Решением этой проблемы может быть метод скачивания данных с помощью R. Виктор рассказал о применении пакета rvest для скачивания данных с помощью тегов html-страницы. Более сложная часть воркшопа состояла из изучения применения пакета RSelenium. Это инструмент для автоматизации действий веб-браузера и он позволяет «грабить» данные со страницы.
Семинар посетила Анна Широканова, старший научный сотрудник Лаборатории сравнительных социальных исследований:
На такие воркшопы НУГа я попадаю довольно редко, но это всегда замечательный опыт. Семинар по топик-моделингу в прошлом году перерос в научное сотрудничество с конференцией и публикацией, вот и сегодня тоже было очень интересно. Больше всего мне понравилось, насколько заинтересованно, понятно и увлекательно оба спикера говорили о своих темах - такое всегда заразительно, и к тому же получается настоящее peer-to-peer learning. Очень понравилось и то, как живо ребята приводили примеры применения этих методов в своих научных проектах, будь то структурирование информации о гостиницах Петербурга или карта "ночи музеев". Еще было интересно сравнить работу RSelenium с тем, что проходили в прошлом году на спецкурсе по Python. Data culture, про которую все говорят, культивируется именно на таких семинарах.
В конце участники семинара обсудили возможности применения такого способа поиска данных. Участники НУГ рассказали о том, как они ищут данные для своих исследований. В частности, был подробно обсуждён кейс TripAdvisor, данные с которого использовались для анализа отелей Санкт-Петербурга и создания георейтингов.
Широканова Анна Александровна
Департамент социологии: Доцент