Согласитесь, что спецификация модели с набором дамми-переменных (LSDV-модель), которую мы рассматривали на прошлом занятии, довольно громоздкая. К примеру, если бы у нас было 30 стран, то 29 параметров (коэффициентов) нам пришлось бы оценивать только для дамми-переменных. Если Вы оцените такую модель, мера \(R^2\) “вздуется” из-за такого обилия параметров, но это отнюдь не означает, что модель прекрасна и на ней стоит остановиться. Не будем тащить за собой “хвост” параметров и представим модель в более экономном виде, для этого воспользуемся внутригрупповым преобразованием. Для этого для каждой подгруппы (страна) рассчитаем среднее (как по зависимой переменной, так и по предикторам), а затем заменим исходные переменные на ее отклонение от среднего группового. Посредством такого центрирования избавляемся от константы и шлейфа параметров для дамми.
\[y_{it} - \overline{y_i.} = b_{1}*(x_{it} - \overline{x_i.}) + (e_{it}-\overline{e_i.})\]
Мы вернемся еще к этой спецификации на следующем занятии в рамках практики, чтобы понять алгоритм внутригруппового преобразование на примере.
Немного попрактикуемся. Задания к семинару можно найти здесь.
Оценка для константы показывает, что среднее значение заработной платы для первого индивида составляет 5.371 фунтиков при равенстве эффективности труда = 0.
Оценка коэффициента при дамми для третьего индивида составляет 0.146, что означает, что в среднем заработная плата для третьего индивида выше по сравнению с первым индивидом (в данном случае – базовой категорией) на 0.146 при прочих равных. Или можем сразу рассчитать стартовую точку – для третьего индивида – \(5.371 + 0.146 = 5.517\) фунтиков – в среднем зарабатывает третий индивид при нулевой эффективности труда.
Оценка коэффициента при эффективности труда – видим, что оценка незначима, следовательно, эффективность труда значимым образом не влияет на заработную плату. Предполагаем, что различий между индивидами относительно влияния эффективности труда нет.
В данном случае внутригрупповое преобразование не применялось, имеем дело с LSDV-моделью (набор дамми для индивидов)
Такая модель лишь отчасти решает проблему эндогенности: дамми-переменные поглощают все неизменяющиеся во времени характеристики (к примеру, пол индивида, будем считать его неизменным во временной перспективе, несмотря на то, что кто-нибудь может нам здесь возразить). При этом в ошибку уходят оставшиеся изменяющиеся во времени характеристики индивида, потенциально влияющие на заработную плату и связанные с эффективностью труда.
Начнем с несколько неожиданного вопроса, а можно ли получить оценку коэффициента при предикторе в FE-модели на основе результатов оценивания моделей по подгруппам? На первый взгляд, вопрос кажется праздным: мы же можем получить оценку коэффициентов автоматически с помощью R или Python, вряд ли кто-то будет в стиле “Очумелых ручек” мастерить оценку на основе результатов по подгруппам. Однако понимание того, откуда берется оценка коэффициента, позволит нам продвинуться в интерпретации результатов.
Мы по-прежнему работаем с FE-моделью, запишем ее, к примеру, в виде LSDV. Для простоты представим, что у нас один предиктор, и сбалансированные данные:
\[\hat{y}_{it} = \hat{b}_{0} + \hat{\gamma}_{1}*D_{1i} + ... \hat{\gamma}_{n-1}*D_{(n-1)i} + \hat{b}_{1}*x_{it}\],
Представьте, что мы поделили общий массив данных на N кусочков, каждый из которых представляет i-ую пространственную единицу (к примеру, страну или регион). На данных каждой такой подвыборки оценили отдельную регрессионную модель, где \(y\) – по-прежнему зависимая переменная, а \(x\) – объясняющая переменная. Итого таких моделей у нас будет N штук:
\[\hat{y}_{1t} = \hat{a}_{01} + \hat{a}_{11}x_{1t}\]
\[\cdots\]
\[\hat{y}_{Nt} = \hat{a}_{0N} + \hat{a}_{1N}x_{Nt}\]
Выгрузим все оценки коэффициентов при предикторе (с \(\hat{a}_{11}\) до \(\hat{a}_{N1}\)). Далее посчитаем их взвешенную сумму. При этом в качестве веса будет выступать доля внутристрановой вариации предиктора i-ой страны от суммы всех внутристрановых вариаций по всем странам.
\[\hat{b}_{1} = \sum_{i=1}^n\hat{a}_{1i}\times\frac{\widehat{Var}(x|unit = i)}{\sum_{i=1}^N\widehat{Var}(x|unit = i)}\] Таким образом, оценка коэффициента при предикторе в модели c FE на пространственные единицы – это взвешенная сумма оценок соответствующих коэффициентов, полученных на предварительном шаге в результате оценивания отдельных регрессионных моделей \(y\) на \(x\) на каждой из подвыборок, заданных принадлежностью к i-ой пространственной единице. Тем странам, в которых наблюдается наибольшая изменчивость по \(x\), будет присваиваться больший вес при формировании итоговой оценки коэффициента в FE-модели. И наоборот, те страны, в которых \(x\) остается постоянным, неизменяется во времени, не будут учитываться при формировании данной оценки. Знакомство с такой процедурой взвешивания позволит понять границы интерпретации результатов оценивания FE-модели, выявить, на какие пространственные единицы интерпретацию распространять поспешно.