·

Engenharia Industrial Madeireira ·

Estatística Experimental

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

CAPÍTULO VII – ANÁLISE DE REGRESSÃO Prof. Gilson Fernandes da Silva Departamento de Ciências Florestais e da Madeira (DCFM) Programa de Pós-graduação em Ciências Florestais (PGCF) Universidade Federal Espírito Santo (UFES) 3. REGRESSÃO LINEAR MÚLTIPLA O modelo de regressão linear múltipla pode ser escrito como: Yi = 0 + 1X1i + 2X2i + ... + kXki + i No estudo dos modelos de regressão linear simples, pôde-se observar que o que caracteriza este tipo de modelo é a existência de apenas uma variável independente X. Para os modelos de regressão linear múltipla, pode-se considerar mais de uma variável independente X. Representação matricial do modelo: Y = X +  n k kn n n k k n X X X X X X X X X Y Y Y                  2 1 1 0 2 1 2 22 12 1 21 11 2 1 1 1 1   em que: Y = vetor dos valores observados para Y; X = matriz dos valores observados ou fixados para as Xi variáveis independentes;  = vetor dos parâmetros do modelo;  = vetor dos erros aleatórios. Pressuposições do modelo de Regressão linear múltipla As pressuposições apresentadas para o modelo de regressão linear simples são as mesmas válidas para o modelo de regressão linear múltipla. Por outro lado, as pressuposições 4 e 5 podem ser reescritas na notação matricial da seguinte maneira: E[ε ε’] = Iσ2 Isto é:   2 2 1 2 2 2 1 2 1 2 1 2 1 2 1 2 1 n n n n n n n E E E                                                Y = X +  (54)  = Y – X (55) Sabendo-se, contudo, que a soma dos desvios em relação a um valor médio é nula, tem-se que: ´ = (Y - X)´(Y - X) (56) Derivando a matriz de erros (´) em relação a , tem-se:     0 ˆ         X Y X X       X Y X X    ˆ (57) Estimação dos parâmetros por MQO Pré-multiplicando ambos os lados da expressão (31) por (X’X)-1, tem-se: (X' X) X' Y (X' X) (X' X) -1 -1 ˆ  (X' X) X' Y -1  ˆ Propriedades dos estimadores do modelo de regressão Assim como na regressão linear simples, pode- se demonstrar que o vetor é um estimador de mínimos quadrados não tendencioso. Para isso, é necessário comprovar que: ˆ      E ˆ      ˆ E Sabe-se que:   X Y X X    1 ˆ Y  X  e             X X X X 1 ˆ        X X X X X X X         1 1 ˆ      X X X I     1 ˆ          X X X E I E     1 ˆ          X E X X E     1 ˆ Variâncias e covariâncias dos estimadores dos parâmetros 𝑉 𝛽 = 𝐸 𝛽 − 𝐸 𝛽 2 No modelo de regressão linear simples, foi considerado que:             1 1 0 0 1 0 ˆ ˆ ˆ ˆ cov ˆ , ˆ       E E E    𝑉 𝛽 = 𝐸 𝛽 − 𝛽 2       1  1 0 0 1 0 ˆ ˆ cov ˆ , ˆ          E Do ponto de vista matricial, as variâncias e covariâncias dos estimadores dos parâmetros podem ser expressas da seguinte forma:                  ˆ ˆ var cov ˆ E                2 0 0 0 0 1 1 0 0 2 0 0 ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ cov ˆ var k k k k k k E                                                       k k k k k V V V                 ˆ cov ˆ , ˆ ˆ , ˆ cov ˆ ,ˆ cov ˆ ˆ ,ˆ cov cov ˆ , ˆ cov ˆ , ˆ ˆ cov ˆ var 1 0 1 1 2 1 0 1 0 0          Admitindo que:      X X X     1 ˆ temos que:      X X X     1 ˆ                                 X X X X X X E E 1 1 ˆ ˆ          1 1 ˆ ˆ               X X X X E X X E           I X X E 2 1 ˆ ˆ                     2 1 ˆ ˆ                X X E 𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽 = 𝑋′𝑋 −1𝑠2 é a matriz de variância e covariância dos estimadores dos parâmetros. Na diagonal principal desta matriz encontram-se as variâncias dos estimadores dos parâmetros e fora da diagonal principal se encontram as covariâncias. 𝑋′𝑋 −1𝑠2 (58) Análise de variância da regressão Sabe-se que a soma de quadrados do total (SQTot) corrigida para a média é:             n i n i i i n Y Y SQTot 1 2 1 2 Em termos matriciais, a SQTot é a seguinte:  uu nY Y I SQTot       n Y uu Y Y Y SQTot      1 em que:      1n Y uu Y Correção (C) para a média. u  Vetor de 1’s com dimensão n x 1, isto é: 1 1 1 1   u Então, temos que:   1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 nx xn nx xn n Y Y Y Y Y n Y n Y uu Y             C n Y Y Y Y Y Y n Y Y uu Y n n i i n n                    2 1 2 1 2 1 1 1   Logo, C Y Y SQTot      n Y Y Y Y g SQ n i i n i i n i i 2 1 1 2 1 2 ˆ ˆ ˆ Re                   n Y uu Y Y Y g SQ      1 ˆ ˆ Re C Y Y g SQ    ˆ ˆ Re ˆ ˆ X Y  C X X g SQ       ˆ ˆ Re X Y X X    ˆ C X Y g SQ  ˆ   Re Mas, sabe-se que: mas Pode-se finalmente deduzir que: g SQ SQTot s SQ Re Re      C X Y C Y Y s SQ        ˆ Re X Y Y Y s SQ      ˆ Re ANÁLISE DE VARIÂNCIA DA REGRESSÃO (ANOVA) FV GL SQ QM FCalc. Regressão p – 1 SQReg/GLReg (V1) V1/V2 Resíduo n – p SQRes/GLRes (V2) Total n – 1 X' Y - C 'βˆ X'Y Y Y 'ˆ   Y - C Y'  p gl e n p Ftab   1  %; As hipóteses estatísticas testadas pelo teste F      0 : 0 : 1 0 i i H H   Se o valor de F calculado for menor do que o valor tabelado obtido em uma tabela de F a um determinado nível de probabilidade  com (p – 1; n – p) graus de liberdade, não se rejeita H0. Uma vez efetuada a análise de variância, todas as medidas de precisão apresentadas no item anterior podem ser calculadas e interpretadas aqui da mesma maneira. Entre elas, tem-se: o Coeficiente de Determinação (R2), o Erro Padrão da Estimativa (sy.x) e o Erro Padrão Relativo (sy.x (%)). O coeficiente de determinação corrigido Diferentemente do modelo de regressão linear simples, no modelo de regressão linear múltipla pode- se ter um número indeterminado de variáveis independentes. Umas das propriedades do R2 (na regressão múltipla usamos o R maiúsculo) é que ele é uma função não decrescente do número de variáveis explanatórias presentes no modelo. Sendo assim, o R2 nunca diminui quando o número de regressores (variáveis explanatórias) aumenta. Em função do exposto, para se comparar dois ou mais modelos de regressão em termos de R2, é preciso levar em conta o número de variáveis X presentes em cada modelo. Para alcançar este propósito, é definido a seguir o conceito de coeficiente de determinação ajustado, isto é, . Sabe-se que: 2 R SQTot g SQ R Re 2         n i i n i i y e SQTot s SQ R 1 2 1 2 2 Re 1        p n n SQTot s SQ n SQTot p n s SQ R         1 Re 1 1 Re 1 2 Pelas expressões anteriores, pode-se deduzir que: 2 1 Re R SQTot s SQ        p n n R R      1 1 1 2 2 e, portanto: (59) Com base na expressão (32), pode-se deduzir que: - Para p > 1, < R2. - O pode ser negativo. Quando isso acontece na prática, assumimos que o seu valor é zero. 2 R R2 Observação sobre o R2: De acordo com o que afirma Gujarati (2005), é fundamental observar que, ao se comparar dois modelos com base no coeficiente de determinação, ajustado ou não, o tamanho da amostra n e a variável dependente devem ser os mesmos; as variáveis explantórias podem assumir qualquer forma. Testes de hipóteses a respeito dos parâmetros O teste F da análise de variância permite verificar se pelo menos um dos parâmetros estimados para o modelo de regressão é diferente de zero. Entretanto, este teste não permite discriminar qual ou quais entre todos os parâmetros estimados apresentam valores estatisticamente diferentes de zero. Para se testar esta hipótese, isto é, de que um determinado parâmetro do modelo de regressão é igual a zero, pode-se empregar a estatística t:   i i i V tcalc    ˆ ˆ ˆ .   Para βi = 0, tem-se:   i i V tcalc   ˆ ˆ ˆ .  Para ttab.(α; n – p), rejeita-se H0 se ttab. for menor que tcalc. para um determinado nível α de probabilidade. As variâncias estimadas dos parâmetros podem ser obtidas na diagonal principal da matriz s2(X’X)-1. Exercício Considerando os dados apresentados no exemplo de regressão simples, ajustar o seguinte modelo de regressão múltipla utilizando o método matricial: Realize a análise de variância da regressão e aplique o teste t para verificar a significância dos parâmetros do modelo ao nível de 5% de probabilidade. Vi = 0 + 1D1i + 2H2i + i Dica!!!!!                                  n 1 i k n 1 i 2 n 1 i 1 n 1 i Y X Y X Y X Y Y X'  (X' X) X' Y -1  ˆ                                                        n 1 i 2 k n 1 i 2 K n 1 i 1 K n 1 i k n 1 i k 2 n 1 i 2 2 n 1 i 1 2 n 1 i 2 n 1 i k 1 n 1 i 2 1 n 1 i 2 1 n 1 i 1 n 1 i k n 1 i 2 n 1 i 1 X X X X X X X X X X X X X X X X X X X X X n X) (X'          - O caso da regressão linear simples Como apresentado anteriormente, sabe-se que:        1  1 2 , ˆ cov 2 ˆ ˆ   Y x x V V Y V Y i i i    i i x Y Y 1ˆ ˆ    então, Mas,   0 , ˆ cov Y 1  logo:       n i i i i x x n Y V 1 2 2 2 2 ˆ   ou   2 1 2 2 1 ˆ                  n i i i i x x n Y V 4. Intervalos de confiança e intervalo de previsão Admitindo que σ2 é desconhecido, temos que:   2 1 2 2 1 ˆ ˆ s x x n V Y n i i i i                 Assim, é possível estimar o valor de Y correspondente a um valor de X que não exista na amostra. Se reservarmos o índice i para indicar os elementos pertencentes à amostra, deve-se introduzir aqui um outro índice (h) para indicar outros valores de X. O novo valor, Xh , pode coincidir ou não com um dos valores (Xi) da amostra. Neste caso, temos: h h h x Y X Y 1 1 0 ˆ ˆ ˆ ˆ        Admitindo que:   2 1 2 2 1 ˆ ˆ s x x n V Y n i i i i                 temos que:                    1 ˆ ˆ ˆ 2 ˆ 2 h h Y h h Y h s t Y E Y s t Y P O intervalo de confiança para E(Yh) = β0 + β1Xh é Frequentemente têm-se interesse em estimar o valor de uma nova observação (Yh), relativa ao valor Xh da variável independente, isto é, queremos prever o valor da variável dependente para uma nova observação com X = Xh. O estimador de Yh = β0 + β1Xh + εh é h h X Y 1 0 ˆ ˆ ˆ     O erro de previsão é: h h h h h X X Y Y            1 0 1 0 ˆ ˆ ˆ     h h h h X Y Y            1 1 0 0 ˆ ˆ ˆ Neste caso pode-se dizer que é uma previsão não- tendenciosa do valor de Yh, porque a esperança do erro de previsão é igual a zero, isto é,     h h E Y E Y  ˆ Yˆh Admitindo o erro de previsão definido anteriormente e considerando-se que Yh e são variáveis aleatórias independentes, a variância do erro de previsão pode ser calculada como se segue: h Yˆ       h h h h V Y V Y Y V Y ˆ ˆ      2 1 2 2 2 1 ˆ                     n i i h h h x x n Y Y V                                                                                1 1 1 ˆ 1 1 ˆ 2 1 2 1 2 2 2 1 2 1 2 2 s x x n t Y Y s x x n t P Y n i i h h h n i i h h O conceito de intervalo de previsão é análogo ao de intervalo de confiança, com a diferença de que, enquanto o intervalo de confiança se refere a uma constante, o intervalo de previsão se refere a uma variável aleatória (Yh , no caso). - O caso da regressão linear múltipla Admitindo que o modelo de regressão linear múltipla pode ser escrito como: Yi = 0 + 1X1i + 2X2i + ... + kXki + i ou Y = Xβ + ε Dados valores X1h, X2h, ... , Xkh das variáveis independentes, a estimativa de: E(Yh) = 0 + 1X1h + 2X2h + ... + kXkh = é h X       ˆ ˆ ˆ ˆ ˆ ˆ 2 2 2 1 1 0 h k k h h h X X X X Y          em que: kh h h h X X X X  2 1   1 Sabendo que ˆ ˆ h h X Y   , a variância de h Yˆ pode ser calculada como:       h h h h X X V V X V Y   ˆ ˆ ˆ     Entretanto, tal como já demonstrado, sabe- se que     2 1 ˆ      X X V e, portanto:     2 1 ˆ h h h X X X X Y V     Logo:     2 1 ˆ ˆ X s X X X V Y h h h     o que permite escrever                            1 ˆ ˆ 2 1 2 2 1 2 X s X X X t X E Y X s X X X t X P h h h h h h h Para o caso do intervalo de previsão, temos que: h h h X Y        h h h h l X Y Y       1 1 0 0 ˆ ˆ ˆ     ˆ ˆ h h X Y   e   h h h h X Y Y         ˆ ˆ Dizemos que é uma previsão não tendenciosa do valor de Yh porque a esperança do erro de previsão é igual a zero. Verifica-se também que: h Yˆ     h h E Y E Y  ˆ mas, por outro lado,   h h h Y X E Y     ˆ Admitindo que, de acordo com a pressuposição de que o erro (εh) da nova observação é independente dos erros (εi , i = 1, 2, 3, ... , n) das novas observações (pressuposição 5) da amostra utilizada para obter a estimativa de β, temos que a variância do erro de previsão é dada por: ˆ       2 ˆ ˆ         h h h V X Y Y V     2 1 2 ˆ   h h h h X X X X Y Y V            h  h h h X X X X Y Y V 1 2 1 ˆ        ou      h  h h h X X X X s Y Y V 1 2 1 ˆ ˆ       Sendo tα/2 o valor crítico com n – p graus de liberdade ao nível de confiança adotado, o intervalo de previsão para a nova observação é:                                1 1 ˆ 1 ˆ 2 1 2 2 1 2 s X X X X t X Y s X X X X t X P h h h h h h h A previsão do valor da variável dependente para uma nova observação feita para valores de Xh fora da região onde estão os valores das variáveis independentes da amostra, isto é, uma previsão extrapolada, deve ser cuidadosamente examinada. É possível também construir intervalos de confiança para os parâmetros da regressão. Escolhido o coeficiente de confiança (1 - α) e um valor tabelado de t com n – p graus de liberdade ao nível de confiança adotado, o intervalo de confiança para βi é:                       1 ˆ ˆ ˆ ˆ 2 2 i i i i i s t s t P Deve-se ressaltar que tanto o teste t como o intervalo de confiança só serão válidos se os erros εi tiverem distribuição normal. 5. ANÁLISE DE REGRESSÃO PARA O CASO DE DADOS COM REPETIÇÃO Quando se dispõe, para um ou mais valores de X, de mais de um valor observado de Y, é possível se obter duas ou mais estimativas da variância residual (σ2). Uma é dada pelo quadrado médio do resíduo da análise de variância da regressão e a outra estimativa de σ2 é dada pelo quadrado médio do resíduo de uma análise de variância em que cada valor distinto de X é encarado como um diferente tratamento a que está sendo submetida a variável Y (Hoffmann e Vieira, 1983). 5.1 – Análise de variância da regressão com o teste para falta de ajustamento Para ilustrar o uso desta técnica, é apresentado a seguir um exemplo (Regazzi, 2011) de como é feita a análise de variância para o caso de dados com repetições. No caso do exemplo apresentado, será considerado um delineamento experimental no delineamento casual simples, com cinco tratamentos e duas repetições por tratamento, conforme Tabela apresentada na sequência. Tratamentos (X) Repetições Total do Tratamento (Ti) Média de Tratamentos ( ) 1 2 2 5 5 10 5,0 4 5 7 12 6,0 6 7 8 15 7,5 8 8 9 17 8,5 10 9 12 21 10,5 G 75 𝑌 Tabela X - Dados experimentais no delineamento inteiramente ao acaso para cinco tratamentos e duas repetições em que X é uma variável quantitativa. Fonte: Regazzi (2011), em que G = Total geral n = número total de observações, ou seja, n = 10. I = número de tratamentos, isto é, I = 5. r = número de repetições, isto é, r = 2. Uma vez que o tratamento é um fator é quantitativo, os dados serão analisados por meio de análise de regressão. De qualquer modo, com o objetivo de se estimar uma variância residual (erro puro), uma ANOVA preliminar é feita, cujo modelo estatístico para o exemplo é dado por: Yij =  + ti + eij Neste caso, teremos que: 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 = 𝑌𝑖𝑗 2 𝑛 𝑖,𝑗 − 𝐶 Em que: 𝐶 = 𝐺2 𝑛 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 = 607 − 752 10 = 44,50 𝑆𝑄𝑇𝑟𝑎𝑡 = 1 𝑟 𝑇𝑖 2 𝐼 𝑖=1 − 𝐶 𝑆𝑄𝑇𝑟𝑎𝑡 = 1 2 102 + 122 + ⋯ + 212 − 752 10 = 37,00 𝑆𝑄𝑅𝑒𝑠 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡. 𝑆𝑄𝑅𝑒𝑠 = 44,50 − 37,00 = 7,50 O resultado da ANOVA segundo o modelo inteiramente casualizado é apresentado a seguir: FV GL SQ QM Trat 4 37,00 Res 5 7,50 1,50 Total 9 44,50 De acordo com esta análise, podemos concluir que: 𝑄𝑀𝑅𝑒𝑠 = 𝜎 2 = 𝑠2 = 1,50, 𝑐𝑜𝑚 5 𝑔. 𝑙. Note que o teste F não foi executado e caso fosse testaria a hipótese de igualdade das médias dos tratamentos. Uma vez que tratamento é um fator quantitativo e com mais de dois níveis, a análise de regressão passa a ser a mais adequada. Realizando a análise de regressão por meio do modelo de regressão linear simples: Yi = 0 + 1Xi + i , i  NID(0, 2) No caso de dados com repetição, existem três maneiras de se trabalhar com os dados. Caso os dados sejam trabalhados de forma correta, todas levarão ao mesmo resultado final. As possibilidades são: Utilizar as observações individualizadas; utilizar as médias dos tratamentos e utilizar os totais dos tratamentos. 1 caso: Utilizando as observações individualizadas. 𝑌 = 5 5 5 7 7 8 8 9 9 12 𝑋 = 1 2 1 2 1 1 1 1 1 1 1 1 4 4 6 6 8 8 10 10 𝛽 = 𝛽 0 𝛽 1 𝑋´𝑋 = 10 60 60 440 𝑋´𝑌 = 75 504 𝛽 = 𝑋´𝑋 −1 𝑋´𝑌 = 1 800 440 −60 −60 10 75 504 = 3,450 0,675 𝑌 𝑖 = 3,450 + 0,675𝑋𝑖 SQTotal = Y´Y ̶ C = 607,00 ̶ 562,50 = 44,50 𝑆𝑄𝑅𝑒𝑔 = 𝛽 ´ 𝑋´𝑌 − C 𝑆𝑄𝑅𝑒𝑔 = 3,450 0,675 75 504 − 562,50 = 36,45 SQResíduo da regressão = SQTotal ̶ SQReg SQResíduo da regressão = 44,50 ̶ 36,45 = 8,05 A soma de quadrados para a "falta de ajustamento (SQFA)" é dada por: 𝑆𝑄𝐹𝐴 = 𝑟 𝑌 𝑖 − 𝑌 𝑖 2 𝐼 𝑖=1 Xi 𝒀 𝒊 𝒀 𝒊 𝒀 𝒊 − 𝒀 𝒊 𝒀 𝒊 − 𝒀 𝒊 𝟐 2 5,0 4,80 0,20 0,0400 4 6,0 6,15 -0,15 0,0225 6 7,5 7,50 0,00 0,0000 8 8,5 8,85 -0,35 0,1225 10 10,5 10,20 0,30 0,0900 0,00 0,2750 SQFA = 2(0,2750) = 0,55. É possível demonstrar que: SQResíduo da regressão = SQResíduo + SQFA ou SQFA = SQResíduo da regressão ̶ SQResíduo Uma vez que SQResíduo da regressão = SQTotal ̶ SQRegressão e SQResíduo = SQTotal ̶ SQTratamentos, uma maneira fácil de se obter a SQFA é dada por: SQFA = SQTratamentos ̶ SQRegressão, com nf graus de liberdade, em que: nf = (I – 1) – p = I – p – 1. No caso do exemplo apresentado, temos que: nf = 5 – 1 – 1 = 3, sendo p, neste caso, o grau de liberdade da regressão. De posse dos resultados apresentados, pode-se estruturar a análise de variância da regressão com teste para falta de ajustamento, tal como apresentado na tabela que se segue: FV GL SQ QM F Regressão 1 36,45 36,45 24,30** Resíduo da Regressão 8 8,05 1,00 Falta de Ajustamento 3 0,55 0,18 0,12ns Resíduo 5 7,50 1,50 Total 9 44,50 Tabela X - Análise de variância da regressão com o teste para falta de ajustamento. ** P < 0,01 ns P > 0,05 SQResíduo da Regressão com nr g.l. SQResíduo com ne g.l. QMR = s2 SQFA com nf g.l. QMFA Estima 2 Compare esses Estima 2 se o modelo é correto; 2 + “Bias” se o modelo é inadequado Figura X – Decomposição da SQResíduo da Regressão (Adaptado de Regazzi, 2011). O teste para falta de ajustamento é dado por: 𝐹 = 𝑄𝑀𝐹𝐴 𝑄𝑀𝑅𝑒𝑠í𝑑𝑢𝑜 , comparado com o valor tabelado Fα(nf ; ne). A conclusão sobre este teste é a seguinte: i) F ≥ Fα(nf ; ne) F significativo. Neste caso, conclui-se que o QMFA está estimando alguma coisa a mais que 2, isto é, 2 + “Bias”. Este seria um erro sistemático devido ao uso de um modelo inapropriado, devendo-se evitá-lo. ii) F < Fα(nf ; ne) F não significativo. Isto indica que o podemos admitir que o modelo é adequado para descrever os dados e tanto o QMFA quanto o QMResíduo podem ser utilizados como estimativa de 2. Neste caso, uma estimativa conjunta de 2, denotada aqui por , pode ser obtida pela seguinte expressão: 𝑠𝑐2 𝑠𝑐2 = 𝑆𝑄𝐹𝐴 + 𝑆𝑄𝑅𝑒𝑠í𝑑𝑢𝑜 𝑛𝑓 + 𝑛𝑒 = 𝑆𝑄𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜 𝑛𝑟 𝑠𝑐2 = 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑚é𝑑𝑖𝑜 𝑑𝑜 𝑟𝑒𝑠í𝑑𝑢𝑜 𝑑𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜. No exemplo, teríamos: 𝑠𝑐2 = 0,55 + 7,50 3 + 5 = 8,05 8 = 1,00 Resumindo, o que comumente se faz na prática, é decompor a SQTratamentos em SQRegressão e SQFA, cujos resultados da análise usualmente apresentados nos trabalhos de pesquisa para o modelo adotado estão na Tabela X. FV GL SQ QM F Regressão 1 36,45 36,45 24,30** Falta de Ajustamento 3 0,55 0,18 0,12ns Tratamento (4) (37,00) Resíduo 5 7,50 1,50 Total 9 44,50 Tabela X - Análise de variância da regressão com o teste para falta de ajustamento. ** P < 0,01 ns P > 0,05 Note que na Tabela X, o teste F tanto para a regressão quanto para a falta de ajustamento, tem como denominador o QMResíduo (erro puro). Na prática, ocorre com certa frequência, um resultado significativo para a falta de ajustamento, mesmo testando-se diferentes modelos. Esta é uma situação embaraçosa (Regazzi, 2011). Uma recomendação que pode ser adotada em tais casos é, apesar desta restrição, optar pelo “melhor” modelo testado, considerando-se outros critérios de avaliação. Sob o ponto de vista da estatística experimental, quando se tem dados de um delineamento experimental e se utiliza a análise de regressão, é usual obter o coeficiente de determinação r2 (regressão simples) ou R2 (regressão múltipla) pela razão entre a SQRegressão e a SQTratamentos. No caso do exemplo, tem-se: ou seja, 98,50% da soma de quadrados de tratamentos é “explicada” pela regressão linear simples. 𝑟2 = 36,45 37,00 = 0,985 𝑜𝑢 98,50% A estimativa da matriz de variâncias e covariâncias das estimativas dos parâmetros é dada por: 𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽 = 𝑋´𝑋 −1𝑠2, 𝑠2= 𝑄𝑀𝑅𝑒𝑠í𝑑𝑢𝑜 𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽 = 1 800 440 −60 −60 10 ∗ 1,50 𝑣𝑎𝑟 − 𝑐𝑜𝑣 𝛽 = 0,8250 −0,1125 −0,1125 0,0187 Assim, 𝑉 𝛽 0 = 0,8250 𝑉 𝛽 1 = 0,0187 𝑐𝑜𝑣 𝛽 0, 𝛽 1 = −0,1125 Para testar hipóteses do tipo H0: βi = 0 vs Ha: βi ≠ 0, pode-se empregar a estatística t de student, em que: ne = número de graus de liberdade associado à variância residual, isto é, o QMResíduo. 𝑡 = 𝛽 𝑖 𝑉 𝛽 𝑖 ~ 𝑡 𝑛𝑒 6. ANÁLISE DE REGRESSÃO PELO MÉTODO DA MÁXIMA VEROSSIMILHANÇA 5.1 – O caso da Regressão Linear Simples Para se obter estimadores para os parâmetros da regressão utilizando-se o método da máxima verossimilhança, vamos relembrar alguns fundamentos apresentados no Capítulo IV relacionados a este método de estimação. Inicialmente, vamos admitir que o modelo de regressão linear simples pode ser escrito como: i i i X Y       1 0 Em que os Yi se distribuem de maneira normal e independente, com média igual a 0 + 1Xi e variância igual a 2. Em função disso, de acordo com Gujarati (2005), a função densidade de probabilidade conjunta de Y1, Y2, ... , Yn, dadas a média e a variância anteriores, pode ser escrita como: f(Y1, Y2, ... , Yn  0 + 1Xi, 2) Contudo, admitindo a independência dos Y, esta fdp conjunta pode ser expressa como um produto de n funções de densidade individuais, isto é: f(Y1, Y2, ... , Yn  0 + 1Xi, 2) = f(Y1  0 + 1Xi, 2) f(Y2  0 + 1Xi, 2).... f(Yn  0 + 1Xi, 2) Considerando que a fdp seja a distribuição normal, pode-se escrever que: Tendo em vista os argumentos apresentados e com base nos conceitos de função de verossimilhança (FV) apresentados no capítulo IV, a FV neste caso pode ser escrita como:                2 1 0 2 1 2 1      Xi iY e Y f i                       n i Xi iY e X Y f Y Y n n i n 1 2 2 1 0 2 1 2 1 0 2 1 2 1 , , , ,          (34) Uma vez que Y1, Y2, ... , Yn são conhecidos e 0 , 1 e 2 são parâmetros a serem estimados, a FV definida pela expressão (34) pode ser reescrita como: Seguindo aquilo que foi apresentado no capítulo IV para se obter estimadores pelo método da máxima verossimilhança, o primeiro passo é obter o logaritmo da expressão 35, isto é:                     n i Xi iY e x L n n 1 2 2 1 0 2 1 2 1 0 2 1 ; , ,         (35)                   n i i i X Y n n x L 1 2 2 1 0 2 1 0 2 1 2 ln 2 ln ; , , ln         O passo seguinte é obter as derivadas parciais da expressão (36) em relação a 0 , 1 e 2 e igualá-las a zero: (36)                 n i i i X Y n n x l 1 2 2 1 0 2 2 1 0 2 1 2 ln 2 2 ln ; , ,              0 1 1 ; , , 1 1 0 2 0 2 1 0           n i i i X Y x l             0 1 ; , , 1 1 0 2 1 2 1 0           i n i i i X X Y x l            0 2 1 2 ; , , 1 2 1 0 4 2 2 2 1 0           n i i i X Y n x l         (37) (38) (39) As expressões (37) e (38), uma vez resolvidas, vão levar a resultados idênticos aos produzidos pelo MQO. Resolvendo-se a expressão (39), chega-se a: Assim, o estimador de 2 para o método da máxima verossimilhança é diferente daquele encontrado pelo MQO.   0 2 1 2 1 2 1 0 4 2        n i i i X Y n       2 4 1 2 1 0 2 2     n X Y n i i i        2 1 2 1 0 4 2 2 1     n X Y n i i i        2 1 2 1 0    n X Y n i i i        n X Y n i i i     1 2 1 0 2 ˆ ˆ    (40) Observando-se a expressão (40) nota-se que: Assim, a expressão (40) pode ser reescrita como: Aplicando-se esperança matemática a este estimador (41), temos que:   s SQ X Y n i i i Re ˆ ˆ 1 2 1 0        n 2  SQ Re s        2 2 2 2 2 2 1 Re 1 Re     n n n s n E SQ n s E SQ E              (42) (41) A expressão (42) permite concluir que o estimador de máxima verossimilhança para a variância é tendencioso ou viciado por baixo, isto é, subestima o verdadeiro valor de 2. Contudo, observa-se que, quando n tende a infinito, o estimador de máxima verossimilhança passa a ser não tendencioso, isto é:   2 2 lim       E n FIM DO CAPITULO VII A derivada de l em relação a 2 pode ser dividida em três componentes, a saber: Por facilidade, fazendo 2 = z, temos:                                     n i i i X Y n n l 1 2 2 1 0 2 2 2 2 2 2 1 2 ln 2 2 ln            2 2 2 1 2 2 ln  n z n z n z n z               0 ln 2 2 2          n                                      n i i i n i i i n i i i X Y z X Y z z z X Y z 1 2 1 0 2 1 2 1 0 1 2 1 0 2 2 1 2 1                              n i i i n i i i n i i i X Y X Y X Y z 1 2 1 0 4 1 2 1 0 2 2 1 2 1 0 2 2 1 2 1 2 1        