Анализ панельных данных. FE-модели (продолжение)

Дата занятия: 12 сентября

FE-модель

Внутригрупповое преобразование

Согласитесь, что спецификация модели с набором дамми-переменных (LSDV-модель), которую мы рассматривали на прошлом занятии, довольно громоздкая. К примеру, если бы у нас было 30 стран, то 29 параметров (коэффициентов) нам пришлось бы оценивать только для дамми-переменных. Если Вы оцените такую модель, мера \(R^2\) “вздуется” из-за такого обилия параметров, но это отнюдь не означает, что модель прекрасна и на ней стоит остановиться. Не будем тащить за собой “хвост” параметров и представим модель в более экономном виде, для этого воспользуемся внутригрупповым преобразованием. Для этого для каждой подгруппы (страна) рассчитаем среднее (как по зависимой переменной, так и по предикторам), а затем заменим исходные переменные на ее отклонение от среднего группового. Посредством такого центрирования избавляемся от константы и шлейфа параметров для дамми.

\[y_{it} - \overline{y_i.} = b_{1}*(x_{it} - \overline{x_i.}) + (e_{it}-\overline{e_i.})\]

Мы вернемся еще к этой спецификации на следующем занятии в рамках практики, чтобы понять алгоритм внутригруппового преобразование на примере.

Practice makes perfect

Немного попрактикуемся. Задания к семинару можно найти здесь.

Проинтерпретируем оценки коэффициентов

Оценка для константы показывает, что среднее значение заработной платы для первого индивида составляет 5.371 фунтиков при равенстве эффективности труда = 0.
Оценка коэффициента при дамми для третьего индивида составляет 0.146, что означает, что в среднем заработная плата для третьего индивида выше по сравнению с первым индивидом (в данном случае – базовой категорией) на 0.146 при прочих равных. Или можем сразу рассчитать стартовую точку – для третьего индивида – \(5.371 + 0.146 = 5.517\) фунтиков – в среднем зарабатывает третий индивид при нулевой эффективности труда.
Оценка коэффициента при эффективности труда – видим, что оценка незначима, следовательно, эффективность труда значимым образом не влияет на заработную плату. Предполагаем, что различий между индивидами относительно влияния эффективности труда нет.

Было бы использовано внутригрупповое преобразование?

В данном случае внутригрупповое преобразование не применялось, имеем дело с LSDV-моделью (набор дамми для индивидов)

Решена ли проблема эндогенности?

Такая модель лишь отчасти решает проблему эндогенности: дамми-переменные поглощают все неизменяющиеся во времени характеристики (к примеру, пол индивида, будем считать его неизменным во временной перспективе, несмотря на то, что кто-нибудь может нам здесь возразить). При этом в ошибку уходят оставшиеся изменяющиеся во времени характеристики индивида, потенциально влияющие на заработную плату и связанные с эффективностью труда.

Откуда берется оценка коэффициента при предикторе в FE-модели?

Начнем с несколько неожиданного вопроса, а можно ли получить оценку коэффициента при предикторе в FE-модели на основе результатов оценивания моделей по подгруппам? На первый взгляд, вопрос кажется праздным: мы же можем получить оценку коэффициентов автоматически с помощью R или Python, вряд ли кто-то будет в стиле “Очумелых ручек” мастерить оценку на основе результатов по подгруппам. Однако понимание того, откуда берется оценка коэффициента, позволит нам продвинуться в интерпретации результатов.

Мы по-прежнему работаем с FE-моделью, запишем ее, к примеру, в виде LSDV. Для простоты представим, что у нас один предиктор, и сбалансированные данные:

\[\hat{y}_{it} = \hat{b}_{0} + \hat{\gamma}_{1}*D_{1i} + ... \hat{\gamma}_{n-1}*D_{(n-1)i} + \hat{b}_{1}*x_{it}\],

Представьте, что мы поделили общий массив данных на N кусочков, каждый из которых представляет i-ую пространственную единицу (к примеру, страну или регион). На данных каждой такой подвыборки оценили отдельную регрессионную модель, где \(y\) – по-прежнему зависимая переменная, а \(x\) – объясняющая переменная. Итого таких моделей у нас будет N штук:

\[\hat{y}_{1t} = \hat{a}_{01} + \hat{a}_{11}x_{1t}\]

\[\cdots\]

\[\hat{y}_{Nt} = \hat{a}_{0N} + \hat{a}_{1N}x_{Nt}\]

Выгрузим все оценки коэффициентов при предикторе (с \(\hat{a}_{11}\) до \(\hat{a}_{N1}\)). Далее посчитаем их взвешенную сумму. При этом в качестве веса будет выступать доля внутристрановой вариации предиктора i-ой страны от суммы всех внутристрановых вариаций по всем странам.

\[\hat{b}_{1} = \sum_{i=1}^n\hat{a}_{1i}\times\frac{\widehat{Var}(x|unit = i)}{\sum_{i=1}^N\widehat{Var}(x|unit = i)}\] Таким образом, оценка коэффициента при предикторе в модели c FE на пространственные единицы – это взвешенная сумма оценок соответствующих коэффициентов, полученных на предварительном шаге в результате оценивания отдельных регрессионных моделей \(y\) на \(x\) на каждой из подвыборок, заданных принадлежностью к i-ой пространственной единице. Тем странам, в которых наблюдается наибольшая изменчивость по \(x\), будет присваиваться больший вес при формировании итоговой оценки коэффициента в FE-модели. И наоборот, те страны, в которых \(x\) остается постоянным, неизменяется во времени, не будут учитываться при формировании данной оценки. Знакомство с такой процедурой взвешивания позволит понять границы интерпретации результатов оценивания FE-модели, выявить, на какие пространственные единицы интерпретацию распространять поспешно.