·

Economia ·

Econometria

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

Notas de aula para o curso de Econometria II Nota 9 dados empilhados e dados em painel Thiago Fonseca Morello fonsecamorelloufabcedubr sala 301 Bloco Delta SBC 1 Introdução A estrutura de dados denotada por dados transversais ou crosssection consiste em v alores para algumas vari á veis referentes a um conjunto de unidades observadas em um ú nico per í odo de tempo É possível repetir a coleta de informação para as mesmas variáveis em períodos subsequentes o que permite aumentar a quantidade de informação relevante disponível Com isso obtémse uma estrutura de dados híbrida a qual combina elementos de crosssection e de séries temporais Há duas maneiras de ampliar a crosssection com dados coletados em múltiplos períodos Em primeiro lugar é possível tomar amostras aleatórias independentes em cada um dos períodos desejados de maneira a que as unidades selecionadas em cada período sejam potencialmente distintas É o que se entende por dados empilhados O conjunto de unidades como um todo é específico ao período São exemplos os dados de pesquisas por amostragem coletados com uma periodicidade definida anos biênios quinquênios etc em âmbito nacional pelo IBGE como é o caso da Pesquisa de Orçamentos Familiares POF repetida de cinco em cinco anos a partir de 20022003 e da Pesquisa por Amostragem de Domicílio PNAD repetida anualmente A principal especificidade estatística dos dados empilhados está em que enquanto os subconjuntos de observações referentes a cada um dos períodos são independentes el a s não podem ser dit as identicamente distribuíd a s E isso pois a distribuição de probabilidade d e algumas variáveis pode variar com o tempo possibilidade esta que é algo corriqueiro em séries de tempo especialmente as nãoestacionárias um tópico a ser visto com o devido detalhe em Econometria III A segunda maneira de ampliar uma crosssection no tempo é o que se entende por dados longitudinais ou dados em painel Ao invés de selecionar as unidades em cada período a partir de um sorteio aleatório independente as unidades são previamente definidas segundo o objetivo da análise e procurase acompanhalas em todos os períodos de tempo As unidades são pois invariantes no tempo E é como se um dado grupo de pessoas ou empresas por exemplo fosse seguid o ao longo de alguns períodos subsequentes registrandose em cada período os valores assumidos por variáveis capazes de caracterizar seus comportamentos Para dados em painel portanto a hipótese de amostragem aleatória não é cabível Os subconjuntos de dados referentes a períodos específicos são dependentes dado que retratam as mesmas unidades Cabe prestar um esclarecimento Uma das diferenças entre dados transversais empilhados e dados em painel está em que nos primeiros as unidades retratadas em cada período podem diferir É possível contudo que no conjunto de dados empilhados disponível uma dada unidade esteja presente em mais de um período mas uma vez que as unidades são amostradas aleatoriamente em cada período a probabilidade de uma unidade ser sorteada mais de uma vez é baixa desprezível A estrutura de dados em painel pode ser disposta em uma tabela tal como ilustrado na figura abaixo Os blocos de valores para as variáveis referentes a períodos específicos podem ser dispostos sequencialmente na direção horizontal uma vez que as mesmas unidades são observadas em todos os períodos Já os dados empilhados uma vez que captam unidades distintas são mais adequadamente armazenados em uma tabela tal como a d a figura a seguir em que o s blocos de valores para as variáveis referentes a período distintos são empilhados ie dispostos sequ encialmente na direção vertical U ma vez as unidades neles captadas tendem a ser distintas a disposição na direção horizontal é incorreta Os dados exibidos na tabela são características de alguns dos domicílios amostrados pela POF nos períodos de 20022003 e 20082009 A variável código identifica os domicílios e as demais variáveis captam características como número de moradores número de cômodos e de banheiros bem como renda total dos residentes 2 Função de expectativa condicional A FEC para estruturas de dados transversais empilhados e dados longitudinais transversais pode ser escrita da seguinte forma E y it x it f x it i1N t 1T em que o índice i identifica a unidade e o índice t o período de tempo A priori pois assumese que há uma FEC para cada período O objetivo da análise portanto está em inferir a relação possivelmente variante no tempo entre as explicativas x it e a variável dependente Tomando se a melhor aproximação linear à FEC obtémse a seguinte FRP E y it x it x it β i1N t 1T O modelo populacional é pois y it x it β u it 3 Within and between variation Os dados em painel captam uma mistura de duas fontes de variação a variação intraobservação ou within variation e a variação interobservações ou between variation O que pode ser mais bem compreendido a partir da decomposição d a variância calculad a para o painel como um todo em componentes específicos a cada uma das dimensões A variância total VT da k ésima variável é 1 NT t1 T i1 I x itk x k 2 Em que a média tomandose o painel como um todo é denotada por x k A variância intraunidades ou interna within é 1 N i1 I x ik x k 2 1 NT t1 T i1 I x itk x k 2 1 NT1 t1 T i1 I x itk x k x ik x ik 2 1 NT1 t1 T i1 I x itk x ik 2 x ik x k 2 2 x itk x ik x ik x k 1 NT t1 T i1 I x itk x ik 2 x ik x k 2 2 x itk x ik x ik x k 1 NT t1 T i1 I x itk x ik 2 T i1 I x ik x k 2 2 i1 I x ik x k t1 T x itk x ik Uma vez que t1 T x itk x ik t1 T x itk t1 T x ik T x ik T x ik 0 Ou seja a soma de desvios em relação à média é zero o terceiro termo é nulo Com isso a decomposição é 1 NT t1 T i1 I x itk x k 2 1 NT t1 T i1 I x itk x ik 2 T i1 I x ik x k 2 1 NT t1 T i1 I x itk x k 2 1 NT t1 T i1 I x itk x ik 2 1 N i1 I x ik x k 2 VT Variância interna variância externa Na tabela abaixo temse quatro variáveis macroeconômicas de um painel internacional com 94 países no período de 1995 a 2013 É notório que i a maior parte da variância é oriunda da crosssection ou seja diz respeito ao fato de que as diferenças internacionais são grandes e ii as variáveis com maior e menor fração de variância oriunda da dimensão temporal interna são o PIB per capita e o capital humano respectivamente Tabela 1 Decomposição da variância 94 países 19952013 Penn World Table e World Resources Institute PIB per capita Emissão de gases de efeito estufa per capita Capital manufaturado per capita Capital humano Variância Fração Variância Fração Variância Fração Variância Fração interna 4503089894 14 852 8 000 7 001 4 externa 26989488812 86 9201 91 002 93 034 96 total 31510221607 100 10059 100 002 100 036 100 É importante saber se a fonte de variabilidade principal é temporal interna ou social externa pois as estimativas pontuais dos parâmetros da função de regressão populacional tendem a refletir a fonte mais importante De fato q uanto maior a variabilidade ao long o do tempo menor ao longo da crosssection mais as pontuais captam va riação ao longo do tempo para uma determinada unidade do que ao long o das unidades Ou seja mais refletem a variação interna within variation E viceversa 3 Estimação com dados empilhados Na estrutura de dados empilhados o conjunto de unidades referente a um dado período pode ser concebido como um conjunto específico É como se assumindo por simplicidade que o númer o total de unidades observacionais N é o mesmo em todos os períodos mesmo que as unidades em si sejam distintas o s dados consistissem em uma crosssection de TN unidades observacionais em que T é o número de períodos O que é consistente com a disposição vertical ilustrada anteriormente A estrutura de dados transversais empilhados pode ser apreendida pois como uma crosssection aumentada no tempo O estimador de MQO para β aplicado à crosssection empilhada é não viesado consistente e eficiente sob a validade das h ipóteses a seguir E u it x it 0 i1N t 1T ie as explicativas são exógenas em cada um dos períodos t1 T E x t x t é inver tível para t 1T ie tem posto completo sendo x t x 1t x 2t x Nt A matriz de variânciacovariância dos resíduos É homocedástica E u t 2 x t σ 2 t 1T É não autocorrelacionada E u t u s x t x s 0 t s ts 1T Geralmente procurase distinguir as observações em função do período da amostra a que pertencem adicionandose para isso variáveis binárias dummies que indicam se a observação pertencem ou não a um dado período t 1 t T de modo que é necessário incluir T 1 variáveis binárias Desta maneira acabase por incorporar à estimação a possibilidade de que as distribuições de probabilidades das variáveis explicativas e do termo de perturbação referentes a cada período possam ser distintas O que é equivalente a afirmar que a FEC cuja previsão constitui o objetivo da análise E YX e pois a relação entre a variável dependente e as explicativas que ela representa tende a variar no tempo Sob as três hipóteses anteriores os dados transversais empilhados não requerem procedimentos de inferência distintos daqueles empregados para o MCRL em dados em crosssection Os testes de significância estatística individual t e conjunta F e LM são equivalentes 4 Dados em painel e heterogeneidade não observada Dados em painel t ê m como especificidade o fato de que um dado c onjunto de unidades é acompanha do ao longo do tempo coletandose em cada instante informações acerca das mesmas variáveis Neste caso características invariantes no tempo mas porém que distinguem as unidades observacionais tendem a ser relevantes enquanto variáveis explicativas A FRP pois pode ser descrita como função não apenas de fatores que variam no tempo conforme a especificação abaixo y it β 0 x it β 1 s i β 2 a i u it 1 Em que x it é um vetor 1 x K com todas as variáveis que variam n o tempo e ao longo das unidades e s i é um vetor 1 x S de variáveis invariantes no tempo Já o termo a i capta variáveis explicativas invariantes no tempo nãoobservadas E st e recebe o nome de heterogeneidade nãoobservad a Mesmo que seja possível considerar os blocos de dados correspondentes a períodos distintos como capturando unidades distintas empilhandoos de modo a produzir uma estrutura de dados transversal a estimação por MQO seria inconsistente E isso pois o s fatores invariantes no tempo não observáveis captados pelo termo a i tendem a estar correlacionados com as variáveis explicativas contidas em x it e s i Neste caso a hipótese de exogeneidade seria violada pois a i sendo não observada é relegada ao termo de perturbação o qual também contém u it Esta é uma causa adicional de endogeneidade além das três vistas nas notas de aula sobre variáveis instrumentais a qual introduz viés e inconsistência sendo associada ao termo viés de heterogeneidade Há duas alternativas para obter estimadores consistentes e eficientes mesmo na presença de efeitos nãoobserváveis correlacionados com os regressores a abordagem de efeitos fixos e a abordagem de efeitos aleatórios A primeira procura contornar a eventual correlação d a heterogeneidade não observada com as explicativas considerando apenas a informação referente à variação temporal das variáveis o que exclui portanto explicativas invariantes no tempo entre eles os componentes de s it e a heterogeneidade não observada A abordagem de efeitos aleatórios não despreza informação referente a discrepâncias nas unidades mas porém assume que a heterogeneidade não observada é não correlacionad a com as explicativas Um esclarecimento no que segue o vetor de variáveis observadas invariantes no tempo será subsumido ie incorporado ao vetor x it Devese ter em mente portanto que entre as explicativas há não apenas características variantes no tempo mas também características invariantes no tempo 5 Estimação com dados em painel efeitos fixos EF A abordagem de efeitos fixos consiste em transformar os dados de maneira a eliminar o efeito nãoobservado Mais precisamente tomase para cada uma das variáveis seu desvio em relação ao valor médio no tempo considerando se todos os períodos do conjunto de dados Esta média é calculada para cada uma das unidades observacionais Ie para a variável dependente Y por exemplo tomase y i 1 T t1 T y it O modelo especificado em função das médias temporais das variáveis assume a forma y i β 0 x i β 1 a i u i 2 Se o modelo original 1 for subtraído pelo modelo em médias temporais temse y it y i x it x i β 1 u it u i Ou de maneira sintética y i x i β 1 u i A estimação por MQO desta equação transformada empilhando os dados gera os estimadores de efeitosfixos Há porém uma perda crucial imposta pelo emprego deste recurso algébrico as explicativas invariantes no tempo são eliminadas não estando presentes no modelo transformado Não é pois possível estimar o efeito de explicativas invariantes no tempo sobre a variável dependente com base no método de EF As propriedades de ausência de viés consistência e eficiência são atendidas desde que as hip óteses abaixo sejam verificadas Elas são formuladas com base em uma notação alternativa para a matriz de explicativas qual seja X i Tratase da matriz que contém os valores de todas as variáveis para todos os períodos mas apenas para a i ésima observação E u it x i a i 0 t 1T exogeneidade estrita E X i X i é invertível ie tem posto completo A matriz de variânciacovariância do termo de perturbação idiossincrático u it é homocedástica e não autocorrelacionada E u it 2 x i a i σ 2 corr u it u is x i a i 0 t 1T A primeira hipótese é denominada por exogeneidade estrita uma vez que ela requer que o termo de perturbação referente ao período t seja não correlaciona do com as explicativas referentes não apenas ao período t mas a todos os períodos Esta hipótese de exoge neidade é forte por requerer ex ogeneidade contemporânea E u it x i t a i 0 e extemporânea E u it x i s a i 0 ts Ela se mostra necessári a para garantir a exogeneidade em conjunto s de dados que cont ê m mais de um período de tempo Há uma característica do estimador de EF que deve ser destacada A natureza da operação matemática que dá base aos efeitos fixos faz com que as perturbações transformadas u it sejam negativamente autocorrelacionadas É preciso para ter um estimador eficiente empregar um estimador consistente para a matriz de variânciacovariância que incorpore esta característica do estimador de efeitos fixos Um detalhe importante é de que o número de graus de liberdade essencial para obter as estatísticas com base nas quais a inferência é realizada não é NT K mas sim NT N K uma vez que a transformação exige que seja calculado um conjunto de médias uma média para cada variável para cada período o que sacrifica um grau de liberdade para cada observação e portanto N graus de liberdade no total 6 Estimação com dados em painel efeitos aleatórios EA Seja o modelo populacional dado por y it β 0 x it β 1 s i β 2 a i u it 1 Uma abordagem alternativa a EF está em assumir que a heterogeneidade nãoobservad a é não correlacionad a com as variáveis explicativas ie co rr a i x i tk 0 k 1K i1N t1T Sob esta hipótese a omissão da heterogeneidade nãoobservada a i não implica em endogeneidade e o modelo pode ser escrito com base em um termo de perturbação composto que inclui tanto a perturbação idiossincrática u it como a i ie y it β 0 x it β 1 s i β 2 v it 2 Em que v it a i u it O termo de perturbação composto v it será contudo autocorrelacionado uma vez que perturbações referentes à mesma observação mas porém a períodos distintos carregam um termo comum exatamente a i De fato é possível demonstrar que corr v it v is V a V a V u t s em que V a variância de a i e V u variância de u it Friso que se trata de uma correlação das perturbações ao longo do tempo o que a literatura denomina por correlação serial de maneira a distinguir da correlação entre perturbações referentes a observações distintas esta última sendo mais comum em estruturas de dados transversais crosssections Deste modo um estimador eficiente para o modelo 2 tem de incorporar a verdadeira estrutura da matriz de variância covarância das perturbações a qual contém autocorrelação A informação referente à maneira pela qual perturbações de períodos distintos se correlacionam não deve ser descartada Daí porque o estimador de MQO aplicado à 2 é ineficiente Um estimador mais eficiente do que o de MQO neste caso é o de mínimos quadrados generalizados factíveis MQGF aplicado aos dados tratados como dados empilhados Devese assinalar que tal estimador é viesado contudo consistente não sendo portanto o melhor estimador linear não viesado MELNV ou BLUE Neste caso conforme argumenta Wooldridge a transformação dos dados capaz de eliminar a autocorrelação envolve a constante λ 1 V u V u T V a A FRP transformada é y it β 0 1 λ β 1 x it 1 λ x i1 β K x it K λ x iK v it λ v i A semelhança com a transformação empregada pelo estimador de efeitos fixos é clara por ém parcial C omo esclarece Wooldridge enquanto que em efeitos fixos cada variável do lado direito é subtra ída pela totalidade da respectiva média temporal em efeitos aleatórios a subtração é feita por uma fração da média temporal Tal fração é diretamente proporcional à participação do componente invariante no tempo ie do termo a i na variância da perturbação composta Ou seja quanto maior é a proporção da variância do termo de perturbação proveniente da dimensão temporal e pois menor a correlação serial menor a fração da média temporal subtraída Um melhor guia para interpretar a transformação de efeitos aleatórios é o termo de perturbação transformado sendo ele v it λ v i a i u it λ 1 T t1 T a i u it a i u it λa i λ u i a i 1λ u it λ u i Fica pois evidente que a perturbação transformada contém apenas uma fração da heterogeneidade não observada a i Tal fração é de 1 λ de modo que como afirma Wooldridge o fator 1 λ atenua a endogeneidade decorrente da invalidade da hipótese central de efeitos aleatórios a de que corr a i x ik 0 Além disso é nítido que com λ tendendo à unidade ie λ 1 a perturbação transformada não contém a i o que é razoável pois neste caso o estimador de efeitos aleatórios se torna no limite equivalente ao de efeitos fixos Neste caso mesmo sendo inválida a hipótese central do estimador de efeitos aleatórios o viés de tal estimador será no limite desprezível Já com λ 0 a perturbação transformada contém parcela integral de a i e deste modo a inconsistência do estimador de efeitos aleatórios é maior caso a hipótese de que corr a i x ik 0 não seja verdadeira Ou seja o viés do estimador de efeitos aleatórios é inversamente proporcional à λ As hipóteses que garantem as propriedades de maior eficiência comparativamente ao MQO e consistência ao estimador em questão são as que seguem E u it x i a i 0 t 1T exogeneidade estrita E X i Ω 1 X i é inver tível ie tem posto complet o em que Ω é a matriz de variânciacovariância das perturbações compostas dadas por v i a i u it a qual se caracteriza pela autocorrela ção E u i u i u i a i σ 2 u I T ie o termo de perturbação idiossincrático n ão se trata do termo de perturbação composto mas apenas de uma parte dele u it é homocedástico e não autocorrelacionado E a i x i a 0 a expectativa da heterogeneidade não observada não varia ao longo das observações E a i 2 x i σ 2 a ie a variância da heterogeneidade não observada não varia ao longo d as observações Devese assinalar que a hipótese de exogeneidade estrita não se aplica ao termo de perturbação de um modelo de dados em painel uma vez que este é dado por v it a i u it Ela se aplica apenas a um dos componentes deste termo de perturbação u it Assim mesmo com a validade da exogeneidade estrita ie com as explicativas não sendo correlacionadas com u it componente este denominado por erro idiossincrático as explicativas podem ser correlacionadas com v it É o que ocorre quando caso corr x itk a i 0 para pelo menos uma explicativa Por isso para evitar endogeneidade é preciso assumir tanto exogeneidade estrita quanto a hipótese fundamental de efeitos aleatórios qual seja a de que corr x itk a i 0 7 Estimação com dados em painel efeitos fixos ou aleatórios A abordagem de efeitos aleatórios deve ser empregada apenas quando existir um argumento convincente para defender que a heterogeneidade nãoobservada é não correlacionada com as variáveis explicativas Caso não exista é preciso uti lizar o método de efeitos fixos Este método porém não é adequado quando a teoria sugere a incorporação de explicativas que captam características invariantes no período coberto pelos dados Alguns exemplos mais comuns de variáveis socioeconômicas invariantes em períodos de tempo limitados são gênero local de nascimento data de nascimento escolaridade dos pais entre outras A educação dos próprios indivíduos pode não variar a depender dos grupos sociais focados É o caso por exemplo de trabalhadores que exercem tarefas que exige pouca qualificação contratados por empresas que não remuneram a qualificação A prática econométrica vigente tem em boa parte dos casos dado preferência ao emprego dos dois métodos ie estimase tanto por EF como por EA E então procurase comparar a performance dos dois métodos de maneira a determinar qual se adéqua melhor ao s dados Um critério adicional disponível é o teste de Hausman para a inexistência de autocorrelação significativa entre a heterogeneidade nãoobservada e as explicativas Este teste toma por base dois princípios Em primeiro lugar há uma correspondência perfeita entre o fato de a correlação em questão ter ou não valor populacional nulo e o fato do estimador de EA ser ou não consistente Em segundo lugar a consistência do estimador de EF é válida sendo ou não a heterogeneidade nãoobservada correlacionada com as explicativas A tabela abaixo sintetiza como os dois princípios dão base a uma estatística de teste fundamentada na discrepância entre as estimativas pontuais geradas pelos métodos de EA e EF Tabela T este de Hausman para dados em painel Heterogeneidade não observada Efeitos fixos Efeitos aleatórios Estimativas comparadas Não correlacionada com as explicativas Consistente Consistente Equivalentes Correlacionad a com as explicativas Consistente Inconsistente Distintas A estatística do teste pois incorpora a diferença entre as estimativas por EF e EA Os principais softwares de econometria computam este teste de Hausman A rejeição da hipótese nula segundo a qual as estimativas por EF e EA são idênticas é uma evidência de que a heterogeneidade não observada é correlacionada com as explicativas O que portanto recomenda que o estimador de efeitos aleatórios não seja adotado e que sejam considerados apenas os resultados gerados com o estimador de efeitos fixos Caso a hipótese nula não seja rejeitada o adeq uado é empregar os dois métodos e além disso também utilizar o estimador de MQO o qual assume dados empilhados Conforme esc larece Wooldri d g e pode m se comparar os três estimadores disponíveis para dados em painel em função da fração da heterogeneidade não observada que compõe o termo de perturbação relevante MQO com dados empilhados a perturbação é composta por 100 da heterogeneidade nãoobservada Efeitos aleatórios a perturbação é composta por 1 λ da heterogeneidade nãoobservada Efeitos fixos a perturbação não é composta pela heterogeneidade nãoobservada a última é eliminada pela transformação de efeitos fixos 11 Esta estrutura de dados recebe o nome de dados agrupados na tradução em Português do livro Economia Introdutória de Wooldridge J Também é chamado de efeito fixo mas este termo não será empregado para evitar confusões com um dos métodos de estimação a serem apresentados