·

Engenharia Industrial Madeireira ·

Estatística Experimental

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

CAPÍTULO VII – ANÁLISE DE REGRESSÃO Prof. Gilson Fernandes da Silva Departamento de Ciências Florestais e da Madeira (DCFM) Programa de Pós-graduação em Ciências Florestais (PGCF) Universidade Federal Espírito Santo (UFES) 1. OBJETIVOS DO CAPÍTULO VII - Apresentar conceitos básicos sobre análise de correlação. - Apresentar conceitos básicos sobre análise de Regressão. - Regressão Linear Simples e Múltipla - Análise de Regressão para o caso de dados com repetição. 2. INTRODUÇÃO À ANÁLISE DE CORRELAÇÃO A análise de correlação procura determinar o grau de relacionamento entre duas variáveis, isto é, se procura medir a covariabilidade entre elas. Na análise de regressão é necessário distinguir a variável dependente e a variável independente, enquanto que, na análise de correlação, tal distinção não é necessária. Assim, a análise de correlação não pressupõe uma relação causa x efeito, fato que ocorre na análise de regressão. 3. O COEFICIENTE DE CORRELAÇÃO Como já visto no Capítulo I, o coeficiente de correlação populacional pode ser definido como: O coeficiente de correlação de uma amostra (rXY) pode se calculado considerando-se uma amostra de tamanho n tomada de uma população bidimensional (X, Y). (Xi, Yi), i = 1, 2, ,,, , n 𝝆𝑿𝒀 = 𝑬 𝑿 − 𝑬 𝑿 𝒀 − 𝑬 𝒀 𝝈𝑿𝝈𝒀 = 𝝈𝑿𝒀 𝝈𝑿𝝈𝒀 = 𝑪𝒐𝒗 𝑿, 𝒀 𝑽 𝑿 𝑽 𝒀 Temos que a média amostral é dada por: e a variância amostral é dada por: Analogamente temos que: e 𝑿 = 𝑿𝒊 𝒏 𝒊=𝟏 𝒏 𝒔𝑿 𝟐 = 𝑿𝒊 − 𝑿 𝟐 𝒏 𝒊=𝟏 𝒏 − 𝟏 𝒀 = 𝒀𝒊 𝒏 𝒊=𝟏 𝒏 𝒔𝒀 𝟐 = 𝒀𝒊 − 𝒀 𝟐 𝒏 𝒊=𝟏 𝒏 − 𝟏 Temos que a covariância da amostra é dada por: Assim, ou ainda 𝑠𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 𝑛 𝑖=1 𝑛 − 1 𝑟𝑋𝑌 = 𝜌 𝑋𝑌 = 𝑠𝑋𝑌 𝑠𝑋𝑠𝑌 𝑟𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 𝑛 𝑖=1 𝑋𝑖 − 𝑋 2 𝑛 𝑖=1 𝑌𝑖 − 𝑌 2 𝑛 𝑖=1 −1 ≤ 𝑟𝑋𝑌≤ 1 4. AVALIAÇÃO GRÁFICA DO rXY Figura 4.1 – Correlação positiva. Figura 4.2 – Correlação negativa. Figura 4.3 – Correlação aproximadamente igual a zero, Figura 4.4 – relação parabólica entre X e Y, em que r tende em direção a zero. 5. EXEMPLOS DE CÁLCULO DO rXY Considere a tabela a seguir: Calcule o coeficiente de correlação entre X e Y, X e Z e X e W. X Y Z W -2 4 0 12 -1 6 -2 5 0 8 -4 0 1 10 -6 -3 2 12 -8 -4 3 14 -10 -3 4 16 -12 0 5 18 -14 5 6 20 -16 12 7 22 -18 21 Solução: a) Correlação entre X e Y X Y SQDX SQDY SPDXY -2 4 20,25 81 40,5 -1 6 12,25 49 24,5 0 8 6,25 25 12,5 1 10 2,25 9 4,5 2 12 0,25 1 0,5 3 14 0,25 1 0,5 4 16 2,25 9 4,5 5 18 6,25 25 12,5 6 20 12,25 49 24,5 7 22 20,25 81 40,5 62,30 249,0 124,5 𝑟𝑋𝑌 = 𝐶𝑜𝑣 𝑋, 𝑌 𝑉 𝑋 𝑉 𝑌 = 𝑠𝑋𝑌 𝑠𝑋𝑠𝑌 ou 𝑟𝑋𝑌 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 𝑛 𝑖=1 𝑋𝑖 − 𝑋 2 𝑛 𝑖=1 𝑌𝑖 − 𝑌 2 𝑛 𝑖=1 = 𝑆𝑃𝐷𝑋𝑌 𝑆𝑄𝐷𝑋𝑆𝑄𝐷𝑌 𝑟𝑋𝑌 = 18,3333 9,17 ∗ 36,67 = 1,00 ou 𝑟𝑋𝑌 = 165,0 82,5 ∗ 330 = 1,00 Gráfico: 0 5 10 15 20 25 -3 -2 -1 0 1 2 3 4 5 6 7 8 Y X b) Correlação entre X e Z X Z SQDX SQDZ SPDXZ -2 0 20,25 81 -40,5 -1 -2 12,25 49 -24,5 0 -4 6,25 25 -12,5 1 -6 2,25 9 -4,5 2 -8 0,25 1 -0,5 3 -10 0,25 1 -0,5 4 -12 2,25 9 -4,5 5 -14 6,25 25 -12,5 6 -16 12,25 49 -24,5 7 -18 20,25 81 -40,5 62,30 249,0 -124,5 𝑟𝑋𝑍 = 𝐶𝑜𝑣 𝑋, 𝑍 𝑉 𝑋 𝑉 𝑍 = 𝑠𝑋𝑍 𝑠𝑋𝑠𝑍 ou 𝑟𝑋𝑍 = 𝑋𝑖 − 𝑋 𝑍𝑖 − 𝑍 𝑛 𝑖=1 𝑋𝑖 − 𝑋 2 𝑛 𝑖=1 𝑍𝑖 − 𝑍 2 𝑛 𝑖=1 = 𝑆𝑃𝐷𝑋𝑍 𝑆𝑄𝐷𝑋𝑆𝑄𝐷𝑍 𝑟𝑋𝑍 = −18,3333 9,17 ∗ 36,67 = −1,00 ou 𝑟𝑋𝑍 = −165,0 82,5 ∗ 330 = −1,00 Gráfico: -20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 -3 -2 -1 0 1 2 3 4 5 6 7 8 z X c) Correlação entre X e W X W SQDX SQDW SPDXW -2 12 20,25 56,25 -33,75 -1 5 12,25 0,25 -1,75 0 0 6,25 20,25 11,25 1 -3 2,25 56,25 11,25 2 -4 0,25 72,25 4,25 3 -3 0,25 56,25 -3,75 4 0 2,25 20,25 -6,75 5 5 6,25 0,25 1,25 6 12 12,25 56,25 26,25 7 21 20,25 272,25 74,25 62,30 338,30 8,30 𝑟𝑋𝑊 = 𝐶𝑜𝑣 𝑋, 𝑊 𝑉 𝑋 𝑉 𝑊 = 𝑠𝑋𝑊 𝑠𝑋𝑠𝑊 ou 𝑟𝑋𝑊 = 𝑋𝑖 − 𝑋 𝑊𝑖 − 𝑊 𝑛 𝑖=1 𝑋𝑖 − 𝑋 2 𝑛 𝑖=1 𝑊𝑖 − 𝑊 2 𝑛 𝑖=1 = 𝑆𝑃𝐷𝑋𝑊 𝑆𝑄𝐷𝑋𝑆𝑄𝐷𝑊 𝑟𝑋𝑊 = −18,3333 9,17 ∗ 36,67 = − 0,3676 ou 𝑟𝑋𝑊 = −165,0 82,5 ∗ 330 = − 0,3676 Gráfico: -6 -4 -2 0 2 4 6 8 10 12 14 -3 -2 -1 0 1 2 3 4 5 6 7 W X 6. TESTES DE HIPÓTESES SOBRE  É possível testar a hipótese de que o coeficiente de correlação linear é igual a zero, isto é: A estatística apropriada para este teste é a seguinte: em que tcalc. é a estatística do teste, n é o tamanho da amostra e r é a estimativa do coeficiente de correlação. H0 :  = 0 contra Ha:   0 𝑡𝑐𝑎𝑙𝑐. = 𝑟 1 − 𝑟2 𝑛 − 2 A estatística do teste, tcalc., segue a distribuição t de student com (n – 2) graus de liberdade. A hipótese nula é rejeitada se: em que é o valor crítico para a estatística do teste bilateral para um nível de significância  , com (n – 2) graus de liberdade. Testes de hipóteses para  diferente de zero são mais complicados, podendo-se utilizar neste caso a estatística Z. 𝑡𝑐𝑎𝑙𝑐. > 𝑡𝛼 2 ,𝑛−2 𝑡𝛼 2 , 𝑛−2 Exemplo: Verifique a hipótese de que o coeficiente de correlação calculado para as variáveis X e W do item anterior é igual a zero para  = 0,05. Solução: Rejeita-se H0. H0 : XW = 0 contra Ha: XW  0 𝑡𝑐𝑎𝑙𝑐. = −0,3676 1 − 0,36762 10 − 2 𝑡𝑐𝑎𝑙𝑐. = − 2,60 𝑡5%, 8 = − 2,31 𝑡𝑐𝑎𝑙𝑐. > 𝑡𝛼 2 ,𝑛−2 7. MATRIZ DE CORRELAÇÃO Sejam p variáveis X1, X2, ... , Xp. A matriz de correlação entre essas variáveis é dada por: Denotaremos a estimativa de P por C, em que: 𝑃 = 𝜌11 𝜌12 𝜌21 𝜌22 ⋯ 𝜌1𝑝 𝜌2𝑝 ⋮ ⋱ ⋮ 𝜌𝑝1 𝜌𝑝2 ⋯ 𝜌𝑝𝑝 Em que ij = ji , isto é, P é simétrica. 𝐶 = 𝑟11 𝑟12 𝑟21 𝑟22 ⋯ 𝑟1𝑝 𝑟2𝑝 ⋮ ⋱ ⋮ 𝑟𝑝1 𝑟𝑝2 ⋯ 𝑟𝑝𝑝 Coeficiente de correlação parcial A correlação entre duas variáveis quaisquer quando os efeitos de outras variáveis são mantidos fixos é chamada “correlação parcial”. O fato de que correlação não implica em relação de causa e efeito pode ser a razão de equívocos na interpretação do coeficente de correlação simples. Como exemplo, um alto (ou baixo) coeficiente de correlação entre duas variáveis pode ser o resultado do efeito que exerce sobre elas uma terceira variável ou grupo de variáveis. Cálculo do coeficiente de correlação parcial Dadas p variáveis, denotadas por X1, X2, ... , Xp . Para obter o coeficiente de correlação parcial entre as variáveis Xi e Xj , ou seja, rij.m , em que m representa as variáveis mantidas constantes, deve-se seguir os seguintes passos (Regazzi, 1995): i) Calcular a matriz de correlação C destas variáveis. Note que C é uma matriz p x p. Assim, caso se queira, por exemplo, calcular r12.4 , C será uma matriz 3 x 3, isto é, será a matriz de correlação apenas para as 3 variáveis envolvidas. ii) Obter a inversa de C, isto é, C-1 iii) Aplicar a expressão 𝐶−1 = 𝑐11 𝑐12 𝑐21 𝑐22 ⋯ 𝑐1𝑝 𝑐2𝑝 ⋮ ⋱ ⋮ 𝑐𝑝1 𝑐𝑝2 ⋯ 𝑐𝑝𝑝 𝑟𝑖𝑗.𝑚 = − 𝑐𝑖𝑗 𝑐𝑖𝑖𝑐𝑗𝑗 Teste de significância para os coeficientes de correlação parciais Em que: n = número de observações v = número de variáveis. Valor tabelado: F (1, n – v) 𝐹 = (𝑛 − 𝑣)𝑟𝑖𝑗.𝑚 2 1 − 𝑟𝑖𝑗.𝑚 2 Interpretação do coeficiente de correlação parcial Sejam as variáveis (Regazzi, 2010): X1 = notas em matemática; X2 = notas em estatística; X3 = notas em pesquisa operacional; X4 = notas em processamento de dados. i) r12.4 = 0,875 Este valor representa o coeficiente de correlação parcial entre as notas em matemática e estatística, para os estudantes com as mesma nota em processamento de dados. As notas em pesquisa operacional não foram consideradas. ii) r12.34 = 0,824 Este valor representa o coeficiente de correlação parcial entre as notas em matemática e estatística, para os estudantes com a mesma nota em pesquisa operacional e processamento de dados. Exemplo de aplicação: Em um estudo envolvendo as variáveis X1, X2, X3 e X4 , a matriz de correlações foi, para n = 62 observações: Pede-se: a) Calcular r12.34, r13.24 e r14.23 b) Verificar se estes coeficientes são estatisticamente significativos ao nível de 5% de probabilidade pelo teste F. 𝐶 = 𝑋1 𝑋2 𝑋3 𝑋4 1,0000 0,3597 0,5749 0,4109 0,3597 1,0000 0,4630 0,3050 0,5749 0,4630 1,0000 0,2702 0,4109 0,3050 0,2702 1,0000 X1 X2 X3 X4 Solução: a) 𝐶−1 = 1,676540 −0,098097 −0,798683 −0,443169 −0,098097 1,337790 −0,500161 −0,232576 −0,798683 −0,500161 1,683770 0,025773 −0,443169 −0,232576 0,025773 1,246070 𝑟12.34 = − 𝑐12 𝑐11𝑐22 = − −0,098097 1,676540 1,337790 = 0,066 𝑟13.24 = − 𝑐13 𝑐11𝑐33 = − −0,798683 1,676540 1,683770 = 0,475 𝑟14.23 = − 𝑐14 𝑐11𝑐44 = − −0,443169 1,676540 1,246070 = 0,307 b) No caso presente, temos: n = 62 e v = 4. O valor tabelado para F será: F(1; n – v) F5%(1; 58) = 4,01. 𝐹 = 62 − 4 𝑟12.34 2 1 − 𝑟12.34 2 = 58 0,066 2 1 − 0,066 2 = 0,2526 0,9956 = 0,25 𝐹 = 62 − 4 𝑟13.24 2 1 − 𝑟13.24 2 = 58 0,475 2 1 − 0,475 2 = 13,0862 0,7744 = 16,90 𝐹 = 62 − 4 𝑟14.23 2 1 − 𝑟14.23 2 = 58 0,307 2 1 − 0,307 2 = 5,4664 0,9058 = 6,03 Logo, r13.24 e r14.23 são significativos ao nível de 5% de probabilidade pelo teste F. FIM DO CAPITULO VIIa