·

Economia ·

Econometria

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

Notas de aula para o curso de Econometria II Nota 9 dados empilhados e dados em painel Thiago Fonseca Morello fonsecamorelloufabcedubr sala 301 Bloco Delta SBC 1 Introdução A estrutura de dados denotada por dados transversais ou crosssection consiste em v alores para algumas vari á veis referentes a um conjunto de unidades observadas em um ú nico per í odo de tempo É possível repetir a coleta de informação para as mesmas variáveis em períodos subsequentes o que permite aumentar a quantidade de informação relevante disponível Com isso obtémse uma estrutura de dados híbrida a qual combina elementos de crosssection e de séries temporais Há duas maneiras de ampliar a crosssection com dados coletados em múltiplos períodos Em primeiro lugar é possível tomar amostras aleatórias independentes em cada um dos períodos desejados de maneira a que as unidades selecionadas em cada período sejam potencialmente distintas É o que se entende por dados empilhados O conjunto de unidades como um todo é específico ao período São exemplos os dados de pesquisas por amostragem coletados com uma periodicidade definida anos biênios quinquênios etc em âmbito nacional pelo IBGE como é o caso da Pesquisa de Orçamentos Familiares POF repetida de cinco em cinco anos a partir de 20022003 e da Pesquisa por Amostragem de Domicílio PNAD repetida anualmente A principal especificidade estatística dos dados empilhados está em que enquanto os subconjuntos de observações referentes a cada um dos períodos são independentes el a s não podem ser dit as identicamente distribuíd a s E isso pois a distribuição de probabilidade d e algumas variáveis pode variar com o tempo possibilidade esta que é algo corriqueiro em séries de tempo especialmente as nãoestacionárias um tópico a ser visto com o devido detalhe em Econometria III A segunda maneira de ampliar uma crosssection no tempo é o que se entende por dados longitudinais ou dados em painel Ao invés de selecionar as unidades em cada período a partir de um sorteio aleatório independente as unidades são previamente definidas segundo o objetivo da análise e procurase acompanhalas em todos os períodos de tempo As unidades são pois invariantes no tempo E é como se um dado grupo de pessoas ou empresas por exemplo fosse seguid o ao longo de alguns períodos subsequentes registrandose em cada período os valores assumidos por variáveis capazes de caracterizar seus comportamentos Para dados em painel portanto a hipótese de amostragem aleatória não é cabível Os subconjuntos de dados referentes a períodos específicos são dependentes dado que retratam as mesmas unidades Cabe prestar um esclarecimento Uma das diferenças entre dados transversais empilhados e dados em painel está em que nos primeiros as unidades retratadas em cada período podem diferir É possível contudo que no conjunto de dados empilhados disponível uma dada unidade esteja presente em mais de um período mas uma vez que as unidades são amostradas aleatoriamente em cada período a probabilidade de uma unidade ser sorteada mais de uma vez é baixa desprezível A estrutura de dados em painel pode ser disposta em uma tabela tal como ilustrado na figura abaixo Os blocos de valores para as variáveis referentes a períodos específicos podem ser dispostos sequencialmente na direção horizontal uma vez que as mesmas unidades são observadas em todos os períodos Já os dados empilhados uma vez que captam unidades distintas são mais adequadamente armazenados em uma tabela tal como a d a figura a seguir em que o s blocos de valores para as variáveis referentes a período distintos são empilhados ie dispostos sequ encialmente na direção vertical U ma vez as unidades neles captadas tendem a ser distintas a disposição na direção horizontal é incorreta Os dados exibidos na tabela são características de alguns dos domicílios amostrados pela POF nos períodos de 20022003 e 20082009 A variável código identifica os domicílios e as demais variáveis captam características como número de moradores número de cômodos e de banheiros bem como renda total dos residentes 2 Função de expectativa condicional A FEC para estruturas de dados transversais empilhados e dados longitudinais transversais pode ser escrita da seguinte forma E y it x it f x it i1N t 1T em que o índice i identifica a unidade e o índice t o período de tempo A priori pois assumese que há uma FEC para cada período O objetivo da análise portanto está em inferir a relação possivelmente variante no tempo entre as explicativas x it e a variável dependente Tomando se a melhor aproximação linear à FEC obtémse a seguinte FRP E y it x it x it β i1N t 1T O modelo populacional é pois y it x it β u it 3 Within and between variation Os dados em painel captam uma mistura de duas fontes de variação a variação intraobservação ou within variation e a variação interobservações ou between variation O que pode ser mais bem compreendido a partir da decomposição d a variância calculad a para o painel como um todo em componentes específicos a cada uma das dimensões A variância total VT da k ésima variável é 1 NT t1 T i1 I x itk x k 2 Em que a média tomandose o painel como um todo é denotada por x k A variância intraunidades ou interna within é 1 N i1 I x ik x k 2 1 NT t1 T i1 I x itk x k 2 1 NT1 t1 T i1 I x itk x k x ik x ik 2 1 NT1 t1 T i1 I x itk x ik 2 x ik x k 2 2 x itk x ik x ik x k 1 NT t1 T i1 I x itk x ik 2 x ik x k 2 2 x itk x ik x ik x k 1 NT t1 T i1 I x itk x ik 2 T i1 I x ik x k 2 2 i1 I x ik x k t1 T x itk x ik Uma vez que t1 T x itk x ik t1 T x itk t1 T x ik T x ik T x ik 0 Ou seja a soma de desvios em relação à média é zero o terceiro termo é nulo Com isso a decomposição é 1 NT t1 T i1 I x itk x k 2 1 NT t1 T i1 I x itk x ik 2 T i1 I x ik x k 2 1 NT t1 T i1 I x itk x k 2 1 NT t1 T i1 I x itk x ik 2 1 N i1 I x ik x k 2 VT Variância interna variância externa Na tabela abaixo temse quatro variáveis macroeconômicas de um painel internacional com 94 países no período de 1995 a 2013 É notório que i a maior parte da variância é oriunda da crosssection ou seja diz respeito ao fato de que as diferenças internacionais são grandes e ii as variáveis com maior e menor fração de variância oriunda da dimensão temporal interna são o PIB per capita e o capital humano respectivamente Tabela 1 Decomposição da variância 94 países 19952013 Penn World Table e World Resources Institute PIB per capita Emissão de gases de efeito estufa per capita Capital manufaturado per capita Capital humano Variância Fração Variância Fração Variância Fração Variância Fração interna 4503089894 14 852 8 000 7 001 4 externa 26989488812 86 9201 91 002 93 034 96 total 31510221607 100 10059 100 002 100 036 100 É importante saber se a fonte de variabilidade principal é temporal interna ou social externa pois as estimativas pontuais dos parâmetros da função de regressão populacional tendem a refletir a fonte mais importante De fato q uanto maior a variabilidade ao long o do tempo menor ao longo da crosssection mais as pontuais captam va riação ao longo do tempo para uma determinada unidade do que ao long o das unidades Ou seja mais refletem a variação interna within variation E viceversa 3 Estimação com dados empilhados Na estrutura de dados empilhados o conjunto de unidades referente a um dado período pode ser concebido como um conjunto específico É como se assumindo por simplicidade que o númer o total de unidades observacionais N é o mesmo em todos os períodos mesmo que as unidades em si sejam distintas o s dados consistissem em uma crosssection de TN unidades observacionais em que T é o número de períodos O que é consistente com a disposição vertical ilustrada anteriormente A estrutura de dados transversais empilhados pode ser apreendida pois como uma crosssection aumentada no tempo O estimador de MQO para β aplicado à crosssection empilhada é não viesado consistente e eficiente sob a validade das h ipóteses a seguir E u it x it 0 i1N t 1T ie as explicativas são exógenas em cada um dos períodos t1 T E x t x t é inver tível para t 1T ie tem posto completo sendo x t x 1t x 2t x Nt A matriz de variânciacovariância dos resíduos É homocedástica E u t 2 x t σ 2 t 1T É não autocorrelacionada E u t u s x t x s 0 t s ts 1T Geralmente procurase distinguir as observações em função do período da amostra a que pertencem adicionandose para isso variáveis binárias dummies que indicam se a observação pertencem ou não a um dado período t 1 t T de modo que é necessário incluir T 1 variáveis binárias Desta maneira acabase por incorporar à estimação a possibilidade de que as distribuições de probabilidades das variáveis explicativas e do termo de perturbação referentes a cada período possam ser distintas O que é equivalente a afirmar que a FEC cuja previsão constitui o objetivo da análise E YX e pois a relação entre a variável dependente e as explicativas que ela representa tende a variar no tempo Sob as três hipóteses anteriores os dados transversais empilhados não requerem procedimentos de inferência distintos daqueles empregados para o MCRL em dados em crosssection Os testes de significância estatística individual t e conjunta F e LM são equivalentes 4 Dados em painel e heterogeneidade não observada Dados em painel t ê m como especificidade o fato de que um dado c onjunto de unidades é acompanha do ao longo do tempo coletandose em cada instante informações acerca das mesmas variáveis Neste caso características invariantes no tempo mas porém que distinguem as unidades observacionais tendem a ser relevantes enquanto variáveis explicativas A FRP pois pode ser descrita como função não apenas de fatores que variam no tempo conforme a especificação abaixo y it β 0 x it β 1 s i β 2 a i u it 1 Em que x it é um vetor 1 x K com todas as variáveis que variam n o tempo e ao longo das unidades e s i é um vetor 1 x S de variáveis invariantes no tempo Já o termo a i capta variáveis explicativas invariantes no tempo nãoobservadas E st e recebe o nome de heterogeneidade nãoobservad a Mesmo que seja possível considerar os blocos de dados correspondentes a períodos distintos como capturando unidades distintas empilhandoos de modo a produzir uma estrutura de dados transversal a estimação por MQO seria inconsistente E isso pois o s fatores invariantes no tempo não observáveis captados pelo termo a i tendem a estar correlacionados com as variáveis explicativas contidas em x it e s i Neste caso a hipótese de exogeneidade seria violada pois a i sendo não observada é relegada ao termo de perturbação o qual também contém u it Esta é uma causa adicional de endogeneidade além das três vistas nas notas de aula sobre variáveis instrumentais a qual introduz viés e inconsistência sendo associada ao termo viés de heterogeneidade Há duas alternativas para obter estimadores consistentes e eficientes mesmo na presença de efeitos nãoobserváveis correlacionados com os regressores a abordagem de efeitos fixos e a abordagem de efeitos aleatórios A primeira procura contornar a eventual correlação d a heterogeneidade não observada com as explicativas considerando apenas a informação referente à variação temporal das variáveis o que exclui portanto explicativas invariantes no tempo entre eles os componentes de s it e a heterogeneidade não observada A abordagem de efeitos aleatórios não despreza informação referente a discrepâncias nas unidades mas porém assume que a heterogeneidade não observada é não correlacionad a com as explicativas Um esclarecimento no que segue o vetor de variáveis observadas invariantes no tempo será subsumido ie incorporado ao vetor x it Devese ter em mente portanto que entre as explicativas há não apenas características variantes no tempo mas também características invariantes no tempo 5 Estimação com dados em painel efeitos fixos EF A abordagem de efeitos fixos consiste em transformar os dados de maneira a eliminar o efeito nãoobservado Mais precisamente tomase para cada uma das variáveis seu desvio em relação ao valor médio no tempo considerando se todos os períodos do conjunto de dados Esta média é calculada para cada uma das unidades observacionais Ie para a variável dependente Y por exemplo tomase y i 1 T t1 T y it O modelo especificado em função das médias temporais das variáveis assume a forma y i β 0 x i β 1 a i u i 2 Se o modelo original 1 for subtraído pelo modelo em médias temporais temse y it y i x it x i β 1 u it u i Ou de maneira sintética y i x i β 1 u i A estimação por MQO desta equação transformada empilhando os dados gera os estimadores de efeitosfixos Há porém uma perda crucial imposta pelo emprego deste recurso algébrico as explicativas invariantes no tempo são eliminadas não estando presentes no modelo transformado Não é pois possível estimar o efeito de explicativas invariantes no tempo sobre a variável dependente com base no método de EF As propriedades de ausência de viés consistência e eficiência são atendidas desde que as hip óteses abaixo sejam verificadas Elas são formuladas com base em uma notação alternativa para a matriz de explicativas qual seja X i Tratase da matriz que contém os valores de todas as variáveis para todos os períodos mas apenas para a i ésima observação E u it x i a i 0 t 1T exogeneidade estrita E X i X i é invertível ie tem posto completo A matriz de variânciacovariância do termo de perturbação idiossincrático u it é homocedástica e não autocorrelacionada E u it 2 x i a i σ 2 corr u it u is x i a i 0 t 1T A primeira hipótese é denominada por exogeneidade estrita uma vez que ela requer que o termo de perturbação referente ao período t seja não correlaciona do com as explicativas referentes não apenas ao período t mas a todos os períodos Esta hipótese de exoge neidade é forte por requerer ex ogeneidade contemporânea E u it x i t a i 0 e extemporânea E u it x i s a i 0 ts Ela se mostra necessári a para garantir a exogeneidade em conjunto s de dados que cont ê m mais de um período de tempo Há uma característica do estimador de EF que deve ser destacada A natureza da operação matemática que dá base aos efeitos fixos faz com que as perturbações transformadas u it sejam negativamente autocorrelacionadas É preciso para ter um estimador eficiente empregar um estimador consistente para a matriz de variânciacovariância que incorpore esta característica do estimador de efeitos fixos Um detalhe importante é de que o número de graus de liberdade essencial para obter as estatísticas com base nas quais a inferência é realizada não é NT K mas sim NT N K uma vez que a transformação exige que seja calculado um conjunto de médias uma média para cada variável para cada período o que sacrifica um grau de liberdade para cada observação e portanto N graus de liberdade no total 6 Estimação com dados em painel efeitos aleatórios EA Seja o modelo populacional dado por y it β 0 x it β 1 s i β 2 a i u it 1 Uma abordagem alternativa a EF está em assumir que a heterogeneidade nãoobservad a é não correlacionad a com as variáveis explicativas ie co rr a i x i tk 0 k 1K i1N t1T Sob esta hipótese a omissão da heterogeneidade nãoobservada a i não implica em endogeneidade e o modelo pode ser escrito com base em um termo de perturbação composto que inclui tanto a perturbação idiossincrática u it como a i ie y it β 0 x it β 1 s i β 2 v it 2 Em que v it a i u it O termo de perturbação composto v it será contudo autocorrelacionado uma vez que perturbações referentes à mesma observação mas porém a períodos distintos carregam um termo comum exatamente a i De fato é possível demonstrar que corr v it v is V a V a V u t s em que V a variância de a i e V u variância de u it Friso que se trata de uma correlação das perturbações ao longo do tempo o que a literatura denomina por correlação serial de maneira a distinguir da correlação entre perturbações referentes a observações distintas esta última sendo mais comum em estruturas de dados transversais crosssections Deste modo um estimador eficiente para o modelo 2 tem de incorporar a verdadeira estrutura da matriz de variância covarância das perturbações a qual contém autocorrelação A informação referente à maneira pela qual perturbações de períodos distintos se correlacionam não deve ser descartada Daí porque o estimador de MQO aplicado à 2 é ineficiente Um estimador mais eficiente do que o de MQO neste caso é o de mínimos quadrados generalizados factíveis MQGF aplicado aos dados tratados como dados empilhados Devese assinalar que tal estimador é viesado contudo consistente não sendo portanto o melhor estimador linear não viesado MELNV ou BLUE Neste caso conforme argumenta Wooldridge a transformação dos dados capaz de eliminar a autocorrelação envolve a constante λ 1 V u V u T V a A FRP transformada é y it β 0 1 λ β 1 x it 1 λ x i1 β K x it K λ x iK v it λ v i A semelhança com a transformação empregada pelo estimador de efeitos fixos é clara por ém parcial C omo esclarece Wooldridge enquanto que em efeitos fixos cada variável do lado direito é subtra ída pela totalidade da respectiva média temporal em efeitos aleatórios a subtração é feita por uma fração da média temporal Tal fração é diretamente proporcional à participação do componente invariante no tempo ie do termo a i na variância da perturbação composta Ou seja quanto maior é a proporção da variância do termo de perturbação proveniente da dimensão temporal e pois menor a correlação serial menor a fração da média temporal subtraída Um melhor guia para interpretar a transformação de efeitos aleatórios é o termo de perturbação transformado sendo ele v it λ v i a i u it λ 1 T t1 T a i u it a i u it λa i λ u i a i 1λ u it λ u i Fica pois evidente que a perturbação transformada contém apenas uma fração da heterogeneidade não observada a i Tal fração é de 1 λ de modo que como afirma Wooldridge o fator 1 λ atenua a endogeneidade decorrente da invalidade da hipótese central de efeitos aleatórios a de que corr a i x ik 0 Além disso é nítido que com λ tendendo à unidade ie λ 1 a perturbação transformada não contém a i o que é razoável pois neste caso o estimador de efeitos aleatórios se torna no limite equivalente ao de efeitos fixos Neste caso mesmo sendo inválida a hipótese central do estimador de efeitos aleatórios o viés de tal estimador será no limite desprezível Já com λ 0 a perturbação transformada contém parcela integral de a i e deste modo a inconsistência do estimador de efeitos aleatórios é maior caso a hipótese de que corr a i x ik 0 não seja verdadeira Ou seja o viés do estimador de efeitos aleatórios é inversamente proporcional à λ As hipóteses que garantem as propriedades de maior eficiência comparativamente ao MQO e consistência ao estimador em questão são as que seguem E u it x i a i 0 t 1T exogeneidade estrita E X i Ω 1 X i é inver tível ie tem posto complet o em que Ω é a matriz de variânciacovariância das perturbações compostas dadas por v i a i u it a qual se caracteriza pela autocorrela ção E u i u i u i a i σ 2 u I T ie o termo de perturbação idiossincrático n ão se trata do termo de perturbação composto mas apenas de uma parte dele u it é homocedástico e não autocorrelacionado E a i x i a 0 a expectativa da heterogeneidade não observada não varia ao longo das observações E a i 2 x i σ 2 a ie a variância da heterogeneidade não observada não varia ao longo d as observações Devese assinalar que a hipótese de exogeneidade estrita não se aplica ao termo de perturbação de um modelo de dados em painel uma vez que este é dado por v it a i u it Ela se aplica apenas a um dos componentes deste termo de perturbação u it Assim mesmo com a validade da exogeneidade estrita ie com as explicativas não sendo correlacionadas com u it componente este denominado por erro idiossincrático as explicativas podem ser correlacionadas com v it É o que ocorre quando caso corr x itk a i 0 para pelo menos uma explicativa Por isso para evitar endogeneidade é preciso assumir tanto exogeneidade estrita quanto a hipótese fundamental de efeitos aleatórios qual seja a de que corr x itk a i 0 7 Estimação com dados em painel efeitos fixos ou aleatórios A abordagem de efeitos aleatórios deve ser empregada apenas quando existir um argumento convincente para defender que a heterogeneidade nãoobservada é não correlacionada com as variáveis explicativas Caso não exista é preciso uti lizar o método de efeitos fixos Este método porém não é adequado quando a teoria sugere a incorporação de explicativas que captam características invariantes no período coberto pelos dados Alguns exemplos mais comuns de variáveis socioeconômicas invariantes em períodos de tempo limitados são gênero local de nascimento data de nascimento escolaridade dos pais entre outras A educação dos próprios indivíduos pode não variar a depender dos grupos sociais focados É o caso por exemplo de trabalhadores que exercem tarefas que exige pouca qualificação contratados por empresas que não remuneram a qualificação A prática econométrica vigente tem em boa parte dos casos dado preferência ao emprego dos dois métodos ie estimase tanto por EF como por EA E então procurase comparar a performance dos dois métodos de maneira a determinar qual se adéqua melhor ao s dados Um critério adicional disponível é o teste de Hausman para a inexistência de autocorrelação significativa entre a heterogeneidade nãoobservada e as explicativas Este teste toma por base dois princípios Em primeiro lugar há uma correspondência perfeita entre o fato de a correlação em questão ter ou não valor populacional nulo e o fato do estimador de EA ser ou não consistente Em segundo lugar a consistência do estimador de EF é válida sendo ou não a heterogeneidade nãoobservada correlacionada com as explicativas A tabela abaixo sintetiza como os dois princípios dão base a uma estatística de teste fundamentada na discrepância entre as estimativas pontuais geradas pelos métodos de EA e EF Tabela T este de Hausman para dados em painel Heterogeneidade não observada Efeitos fixos Efeitos aleatórios Estimativas comparadas Não correlacionada com as explicativas Consistente Consistente Equivalentes Correlacionad a com as explicativas Consistente Inconsistente Distintas A estatística do teste pois incorpora a diferença entre as estimativas por EF e EA Os principais softwares de econometria computam este teste de Hausman A rejeição da hipótese nula segundo a qual as estimativas por EF e EA são idênticas é uma evidência de que a heterogeneidade não observada é correlacionada com as explicativas O que portanto recomenda que o estimador de efeitos aleatórios não seja adotado e que sejam considerados apenas os resultados gerados com o estimador de efeitos fixos Caso a hipótese nula não seja rejeitada o adeq uado é empregar os dois métodos e além disso também utilizar o estimador de MQO o qual assume dados empilhados Conforme esc larece Wooldri d g e pode m se comparar os três estimadores disponíveis para dados em painel em função da fração da heterogeneidade não observada que compõe o termo de perturbação relevante MQO com dados empilhados a perturbação é composta por 100 da heterogeneidade nãoobservada Efeitos aleatórios a perturbação é composta por 1 λ da heterogeneidade nãoobservada Efeitos fixos a perturbação não é composta pela heterogeneidade nãoobservada a última é eliminada pela transformação de efeitos fixos 8 Exemplo explicando a despesa pública ambiental Broietti et al 2018 81 Objetivo e dados O o bjetivo do artigo de Broietti et al 2018 é descobrir quais variáveis influenciam a parcela do orçamento público despendida com proteção ambiental Dados a base de dados conteve 4269 municípios brasileiros observados durante os cinco anos do período de 2012 a 2016 totalizando 21329 observações 8 2 Modelo e estimadores O modelo econométrico foi o seguinte Participaçãomeioambientedespesatotal β 0 β 1 receitatribmun β 2 população β 3 áreaterritorial β 4 densidade demográfica β 5 PIB β 6 IDH β 7 participaçãoconsórcioambiental Em que a participação em consórcio ambiental se refere a um grupo formado por governantes municipais para debater questões ambientais A variável dependente é uma medida da importância dada ao meio ambiente pelo governo municipal Quat ro estimadores foram utilizados POLS ou MQO empilhado com termos de perturbação clusterizados na escala municipal E stimador between interno este tomando por base as médias temporais das variáveis calculadas para cada município e pois incorporando dados invariantes no tempo tal como um modelo de crosssection Ou seja y i β 0 β 1 x i1 β K x iK a i u i E stimador de efeitos fixos sem e com perturbações clusterizadas na escala municipal E stimador de efeitos aleatórios sem e com perturbações clusterizadas na escala municipal A clusterização de perturbações é equivalente a levar em conta a correlação serial a observações pertencentes à mesma unidade de crosssection utilizando para isso de uma matriz de variânciacovariância de perturbações que incorpora a estrutura de correlação serial Tratase de algo recomendável Na verdade é possível ir além levando em conta o estado atual da prática econométrica tratase de algo obrigatório Descrição dos dados a participação do meio ambiente na despesa municipal atingiu maior valor médio em 2004 de 091 estabilizandose entre 2011 a 2016 dentro do intervalo de 087 a 091 Comparações com outros países são mencionadas observandose que a China apresentou crescimento de 2173 da parcela em questão no período enquanto que na cidade argentina de Buenos Aires a parcela foi de 022 entre 1997 e 2012 essa comparação não é adequada pois diz respeito a período distinto ao da análise de dados Já os Estados Unidos a parcela ambiental foi de 126 em 2010 Em termos regionais três dos estados brasileiros com maior participação estão localizados na região Norte Amapá 356 Acre 202 e Tocantins 194 e dois na região Sul Paraná 186 e Rio Grande do Sul 138 8 3 Resultados É apresentada a decomposição da variância na tabela 6 e é visível que a maior proporção da variância da variável dependente é externa ou seja devida à crosssection o que já era visível na figura X dada a virtual invariabilidade de 2011 a 2016 A única exce ç ão à dominância da parcela externa é o PIB o qual apresentou desviopadrão interno 25 vezes maior aproximadamente Cabe comparar as estimativas pontuais de coeficientes entre pares de modelos para com isso compreender ao que se deve tais diferenças Antes disso esclarecese que a tabela com as estimativas pontuais está fora do padrão da literatura contendo em cada linha referente a uma variável explicativa o pvalor como primeiro número e como segundo número a estimativa pontual do coeficiente ver Tabela 1 ao final Efeitos fixos vs POLS esta comparação conforme visto na seção anterior se refere a modelos que captam participações extremas da heterogeneidade não observada no termo de perturbação zero e 100 nos casos de EF e POLS respectivamente Se tal heterogeneidade está correlacionada com o termo de perturbação pois as estimativas pontuais têm de diferir em magnitude notória É o que de fato se observa uma vez que a discrepância absoluta percentual média foi de 460 Efeitos fixos vs interno os dois modelos comparados estimam os parâmetros exclusivamente com base na variação interna das variáveis e pois não deveriam apresentar grande discrepâ ncia nas estimativas pontuais Esta semelhança contudo diz respeito a uma compreensão imprecisa do FE Este a rigor explora a variação entre unidades de crosssection dos desvios em relação à média temporal de cada unidade Ou seja o FE utiliza tanto variação interna como externa enquanto que o estimador interno utiliza apenas a segunda Ocorre que para os dados em questão a maior proporção da variação é externa como revelado pela decomposição da variância É por conta disso que a diferença entre os dois estimadores não deveria ser grande De fato ela foi consideravelmente menor do que no caso do par anterior de 94 na média da discrepância percentual absoluta Efeitos fixos vs efeitos aleatórios a principal diferença entre os dois estimadores está em que apenas um deles é consistente caso a heterogeneidade não observada seja correlacionada com o termo de perturbação Como isso é provável é esperada uma discrepância considerável entre as estimativas pontuais de cada estimador Como isso é provável é esperada uma discrepância considerável entre as estimativas pontuais de cada estimador Contudo conforme visto na seção anterior os dois estimadores diferem em função da participação da heterogeneidade não observada na perturbação em menor magnitude do que no caso do par EF e POLS E isso pois no EA a participação é menos do que plena De fato foi o que ocorreu uma vez que a discrepância percentual absoluta do par atingiu valor intermediário em relação à dos outros pares A comparação de modelos por ter detectado discrepâncias relevantes sugere que a heterogeneidade não observada é correlacionada com as variáveis explicativas Não fosse isso as comparações entre EF de um lado e POLS e EA de outro não relevariam discrepâncias tão substanciais como as observadas Mas a verificação apropriada é o teste de Hausman Este foi realizado pelos autores não deixando dúvida quanto ao viés de heterogeneidade dado que a estatística do teste assumiu um valor grande de 2747 bastante maior do que o número de graus de liberdade este último igual ao número de coeficientes do modelo igual a sete lembrese da nota de aula 9 em que a comparação entre valor observado da estatística e número de graus de liberdade é feita no artigo de Angrist 1991 Devese portanto considerar apenas o estimador de EF com perturbações clusterizadas O principal resultado da análise é referente às vari áveis que foram significativas sendo elas receita municipal população densidade demográfica e PIB Ou seja tanto fatores fiscais como econômicos e demográficos influenciam a importância dada ao meio ambiente pela administração municipal Tabela 1 Modelos estimados por Broietti et al 2018 Variable POLS with standard robust clustered errors Estimator between Fixed effects Fixed effects with standard robust clustered errors Random effects Random effects with standard robust clustered errors absPOLSFE 1 abs Interno FE 1 absREFE 1 Revenue 0000a 0000a 0000a 0000a 0000a 0000a 2377165 1604119 333371 3333521 278173 278173 29 52 17 Population 0000a 0000a 0000a 0001a 0000a 0000a 188409 1279924 3915961 3915961 2201283 2201283 52 67 44 Area 0007a 0079 0445 0768 0000a 0002a 00068052 00035198 0372998 0372998 00098046 00098046 102 101 103 Density 0007a 0000a 0069 0009a 0000a 0005a 01235079 0118974 09077005 09077005 01403055 01403055 114 113 115 GDP 0003a 0000a 0000a 0002a 0000a 0000a 0156189 00118974 00084687 00084687 00132622 00132622 1944 NA erro no original 257 HDI 0001a 0000a 0000a 0000a 0000a 0000a 4720782 2758559 5032975 5032975 6735062 6735062 91 95 87 Consortium 0374 0676 0571 0544 2962258 1634867 2380086 2380086 Constant 0000a 0000a 0000a 0062 0000a 0000a 1999654 1368729 1280432 1280432 2270089 2270089 NT 21329 21329 21329 21329 21329 21329 R 2 R 2 overall 04563 04554 00755 00755 04531 04531 R 2 between 03105 00246 00246 03006 03006 R 2 within 05841 00755 06344 05948 05948 F 175 27408 493240 327 sig F 00922 0000 0000 00033 Wald 2 2431874 1554 sig 2 0000 00297 Média da discrepância pontual 460 94 121 9 Esta estrutura de dados recebe o nome de dados agrupados na tradução em Português do livro Economia Introdutória de Wooldridge J Também é chamado de efeito fixo mas este termo não será empregado para evitar confusões com um dos métodos de estimação a serem apresentados