• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Введение в статистический анализ для социальных исследований

15 – 26 июля

Очное участие/Онлайн

Язык преподавания: Английский

52 Контактных часа
3 ECTS

Этот курс представляет собой введение в количественные методы исследования для нужд социальных наук.

Описание курса

К концу этого курса студенты смогут эффективно оценивать и анализировать исследования, в которых используются количественные методы сбора и анализа данных; понимать базовую статистику, корреляцию и каузальность; и получат опыт сбора, анализа, визуализации и интерпретации количественных данных в статистической среде R.

Первое правило статистики: корреляция не отражает причинно-следственную связь. Второе правило статистики: причинно-следственная связь никогда не бывает абсолютной. Зная эти два правила, мы можем дать достоверные и корректные ответы на большие вопросы, которые подкидывает нам наш постоянно меняющийся мир.

Почему именно этот курс?

Благодаря интенсивному курсу студенты приобретут практические навыки работы со статистическими данными, которые имеют очень большое значение для современной науки, индустрии и государственной службы. К концу курса студенты будут иметь четкое представление о логике построения любого статистического исследования, необходимых пререквизитах сбора и анализа данных, алгоритмах проведения каузального эмпирического анализа. Особым преимуществом курса является то, что он преподается на R, одном из самых популярных языков программирования в мире.

Содержание курса

Тема 1. Базовый синтаксис и основы R

Алгоритм установки и запуска статистической среды R и R-Studio. Основные команды, объекты и функции в R. Оператор присваивания. Способы ввода данных в R. Работа с импортированными данными. Создание таблиц и работа с ними.

Тема 2. Описательная статистика

Генеральная совокупность и выборка. Типы данных. Описательная статистика: меры центральной тенденции и меры дисперсии. Нормальное распределение и центральная предельная теорема. Способы вывода описательной статистики в R.

Тема 3. Визуализация данных: принципы, инструменты, примеры

Роль визуализации данных в представлении результатов исследования. Принципы визуализации данных. Типы диаграмм: диаграмма рассеяния (гистограмма), «ящик с усами», скрипичная диаграмма, столбчатая диаграмма, круговая диаграмма. Базовый R для визуализации и пакет ggplot2.

Тема 4. Статистические гипотезы и ошибки. Сравнение выборок

Статистические гипотезы. Статистические ошибки. Статистическая значимость. Биномиальный тест. Сравнение выборок: обзор статистических тестов (параметрический-непараметрический; двусторонний; левосторонний; правосторонний). Параметрические тесты: t-критерий для независимых и парных выборок. ANOVA-тест. Непараметрические тесты: тест Манна-Уитни для независимых и парных выборок.

Тема 5. Корреляция

Корреляция и ковариация. Коэффициент корреляции Пирсона. Интерпретация значений коэффициента корреляции. Значение коэффициента корреляции. Коэффициент корреляции Спирмена. Корреляционная матрица.

Тема 6. Парная линейная регрессия: принцип, интерпретация, дизайн

Разница между регрессией и корреляцией. Зависимые и независимые переменные. Метод наименьших квадратов (МНК): суть, предположения. Парная линейная регрессия: уравнение регрессии, интерпретация результатов регрессии. Коэффициент детерминации. Представление результатов регрессии в stargazer. Композиционное построение исследования с использованием регрессионного анализа. Реализация парной линейной регрессии в R. Интерпретация результатов регрессионного анализа.

Тема 7. Множественная линейная регрессия: принцип, интерпретация, дизайн

Множественная линейная регрессия: уравнение регрессии, параметры, рассчитанные для независимых переменных, значение F-статистики для регрессионных моделей. Сравнение регрессионных моделей. Нюансы интерпретации коэффициента детерминации и стандартизованных коэффициентов независимых переменных. Рассмотрение композиционного построения исследования с использованием множественной линейной регрессии в качестве основного метода анализа данных.

Тема 8. Технические проблемы и предпосылки линейной регрессии

Технические проблемы регрессионных моделей: мультиколлинеарность, гетероскедастичность, выбросы, влиятельные наблюдения. Диагностика и пути решения технических проблем регрессионных моделей.

Тема 9. Содержательные проблемы регрессионных моделей.

Основные проблемы регрессионных моделей: эндогенность, исключение из анализа релевантных объясняющих переменных, включение в анализ нерелевантных объясняющих переменных. Проблема смещения выборки.

Тема 10. Логистическая регрессия: принцип, интерпретация, дизайн

Обобщенные линейные модели: суть, виды. Логистическая регрессия: суть, виды. Бинарное и порядковое уравнение логистической регрессии. Параметры оценки логистических моделей. Выдача логистической регрессии, ее интерпретация. Прогнозируемые вероятности и отношение шансов.

Навыки и умения

Навыки сбора, анализа, визуализации и интерпретации количественных данных, использование эвристики статистической среды R.

Требования к участникам

Для данного курса нет специальных требований, за исключением базового понимания алгебры и умения пользоваться компьютером. Для практических занятий необходимо программное обеспечение R и RStudio.

Метод преподавания

Лекции, практики.

Финальный экзамен

Проект.

Оценка работы

Выполнение тренингов (скриптов) и финальный проект

Курс читают

Доцент А.Б. Сорбалэ.

Рекомендации по литературе

Kabacoff, R. (2022). R in action: data analysis and graphics with R and Tidyverse. Simon and Schuster.

Field, A., Miles, J., & Field, Z. (2017). Discovering statistics using R (p. 992). W. Ross MacDonald School Resource Services Library.

Geddes, B. (1990). How the cases you choose affect the answers you get: Selection bias in comparative politics. Political analysis, 2, 131-150.