Дата занятия: 5 сентября

Будем знать панельные данные “в лицо”

Для начала посмотрим на то, как панельные данные могут быть представлены в массиве. Возьмем “кусочек” данных (включает только часть стран исходного массива), с которыми будем работать далее на практическом занятии. Источник данных – проект Всемирного банка Worldwide Governance Indicators. В текущем массиве представлены данные по политической стабильности и контролю коррупции за 2006 – 2015 гг. для Австралии, Великобритании, Канады, Новой Зеландии и США.

pol_stab – Политическая стабильность и отсутствие насилия/терроризма. Отражает склонность к политической нестабильности и/или политически мотивированному насилию, включая терроризм. Значения показателя варьируются от −2.5 до 2.5, причем более высокие значения означают более высокий уровень политической стабильности.

con_cor – Показатель контроля коррупции. Отражает восприятие степени использования государственной власти для личной выгоды, включая как мелкие, так и крупные формы коррупции. Показатель изменяется от −2.5 до 2.5, причем более высокие значения соответствуют более низкому уровню коррупции (т.е. более высокому контролю).

Посмотрим, как представлены данные для первой страны в массиве – Австралии. В качестве наблюдения теперь можно рассматривать не пространственную единицу, а комбинацию: “страна – год”:

dta1 <- readRDS("RAPDC_lecture1_example1.rds")

head(dta1, 10) 

Точно таким же образом организованы данные и для других стран. Так для США – последней страны в массиве – видим аналогичную структуру:

tail(dta1, 10) 

В общем виде можно использовать следующее обозначение: \(x_{it}\), где \(x\) – сам показатель, \(i\) – субиндекс, отвечающий за пространственную единицу, \(t\) – субиндекс, отвечающий за временной период. Далее будем также обозначать как N - общее количество пространственных единиц, а T – общее количество временных периодов.

А что если, как уже умеем, применить pooled model?

Такие данные отличаются от тех данных, которые мы рассматривали в прошлом году, тем, что наблюдения в данном случае не являются независимыми. Условно массив можно разделить на N подгрупп – N стран. Внутри каждой такой подгруппы данные связаны: наблюдается зависимость между значениями показателей в разные временные периоды. Кстати, аналогично мы могли бы разделить массив на T подгрупп, выделенных на основе количества временных периодов, и посмотреть, а как же связаны данные по странам, собранные за один и тот же год.

Посмотрим, можно ли применить классическую линейную регрессионную модель без всяких поправок (pooled model – то есть, будем рассматривать массив как единый, закрывая глаза на то, что есть и пространственная, и временная перспектива) – ту модель, которую мы рассматривали в прошлом году – для анализа таких данных. Применить-то можем, но то, что получится, нас не порадует. В результате такого подхода “в лоб” получим вот такие результаты, картинку ниже можно было бы считать, как то, что с ростом контроля коррупции увеличивается и показатель политической стабильности.

ggplot(dta1, aes(x = con_cor, y = pol_stab)) + 
  geom_point() +
  geom_smooth(method = lm, se = F) +
  xlab("Control of Corruption") +
  ylab("Political Stability")

Однако если учесть разные подгруппы наблюдений, выделенные по пространственным единицам (разным цветом на графике обозначим разные страны), то увидим, что не все так однозначно. Картинка же выше “съела” имеющиеся различия.

ggplot(dta1, aes(x = con_cor, y = pol_stab, color = country)) + 
  geom_point() +
  geom_smooth(method = lm, se = F) +
  xlab("Control of Corruption") +
  ylab("Political Stability")

Таким образом, можно отметить, что необдуманное применение pooled model может привести к смещению в результатах. Кроме того, возникнут проблемы со значимостью результатов. Так как массив воспринимается как единый, без разграничения на подгруппы, N велико, а значит стандартные ошибки малы, и вследствие этого мы будем с большей вероятностью интерпретировать результаты как значимые, когда это не так.

Что же делать?

В качестве одной из возможных альтернатив для анализа панельных данных выступает модель с фиксированными эффектами (FE-model). Пока мы будем исходить из простой предпосылки о том, что стартовые условия разные, а взаимосвязь рассматриваемых показателей одинакова во всех странах.

1. Далекая от элегантной LSDV-модель

Для начала запишем спецификацию FE-модели в форме LSDV (least-squares dummy-variable model, то есть, первая часть названия в явном виде указывает на то, что модель будет оцениваться с помощью хорошо Вам знакомого МНК, а вторая часть – на то, что в модели стоит ожидать набор дамми-переменных)

\[y_{it} = b_{0} + \gamma_{1}*D_{1i} + ... \gamma_{n-1}*D_{(n-1)i} + b_{1}*x_{it} + e_{it}\],

где \(D_{i}\) – дамми для i-ой пространственной единицы (принимает значение 1 для i-ой пространственной единицы, 0 – для всех остальных). Обратите внимание на то, что таких дамми в модели \(N-1\), так как базовая категория (та страна, с которой мы будем сравнивать все остальные) вынесена в константу. При такой спецификации все \(N\) дамми в модель включить не получится по причине строгой мультиколлинеарности (dummy-variable trap).

\(\hat{b_{0}}\) – чему в среднем равно значение зависимой переменной в базовой категории при равенстве предикторов 0;

\(\hat{\gamma_{i}}\) – на сколько в среднем отклоняется значение зависимой переменной в i-ой пространственной единице в отличие от базовой категории при прочих равных

Для понимания изобразим схематично на картинке (пока без привязки к предыдущему массиву, оставим его до практического занятия). Пусть первая страна, выделенная красным цветом, выступает базовой категорией. Константа для нее равна \(\hat{b_{0}}\), а вот для второй “зеленой” страны значение зависимой переменной в среднем выше на \(\hat{\gamma_{1}}\) при прочих равных; для третьей страны, обозначенной синим цветом – выше на \(\hat{\gamma_{2}}\) по сравнению с первой “красной” страной – базовой категорией – при прочих равных.