·

Engenharia Civil ·

Probabilidade e Estatística 2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

PROBABILIDADE E ESTATÍSTICA DIRIGENTES EDIÇÃO ABRIL2021 PRESIDÊNCIA Prof Dr Clèmerson Merlin Clève REITORIA Profa Dra Lilian Pereira Ferrari DIRETORIA ACADÊMICA EAD Profa Me Daniela Ferreira Correa DIRETORIA ACADÊMICA PRESENCIAL Profa Me Márcia Maria Coelho DIRETORIA DE PESQUISA E EXTENSÃO Profa Dra Liya Regina Mikami DIRETORIA EXECUTIVA Profa Esp Silmara Marchioretto COORDENAÇÃO PEDAGÓGICA DE GRADUAÇÃO EAD Prof Me João Marcos Roncari Mari COORDENAÇÃO PEDAGÓGICA DE PÓSGRADUAÇÃO EAD Prof Me Marcus Vinícius Roncari Mari AUTOR Prof Dr Guilherme Augusto Pianezzer COORDENAÇÃO DA PRODUÇÃO DE MATERIAIS EAD Esp Janaína de Sá Lorusso PROJETO GRÁFICO Esp Janaína de Sá Lorusso Esp Cinthia Durigan DIAGRAMAÇÃO Marcelo Winck REVISÃO Esp Ísis C DAngelis Esp Idamara Lobo Dias PRODUÇÃO AUDIO VISUAL Esp Rafael de Farias Forte Canonico Estúdio NEAD Núcleo de Educação a Distância UniBrasil ORGANIZAÇÃO NEAD Núcleo de Educação a Distância UniBrasil IMAGENS Shutterstock FICHA TÉCNICA EAD SUMÁRIO UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA UNIDADE 01 PROBABILIDADES E DISTRIBUIÇÕES DE PROBABILIDADE OBJETIVOS DE APRENDIZAGEM 08 INTRODUÇÃO 09 1 PROBABILIDADES ESPAÇOS AMOSTRAIS EVENTOS REGRAS DE PRO BABILIDADE INDEPENDÊNCIA E TEOREMA DE BAYES 09 11 Espaços amostrais 10 12 Eventos 11 13 Probabilidade e regras de probabilidade 12 14 Independência 13 15 Teorema de Bayes 14 16 Exemplo 14 2 DISTRIBUIÇÕES AMOSTRAIS 15 21 Algumas definições 15 22 Distribuições amostrais exemplos 16 3 LEI FRACA DOS GRANDES NÚMEROS E TEOREMA CENTRAL DO LIMITE 19 31 Lei Fraca dos Grandes Números 19 32 Teorema Central do Limite 19 4 DISTRIBUIÇÃO AMOSTRAL DE UMA VARIÁVEL ALEATÓRIA BINOMIAL 20 41 Distribuição amostral 20 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida 21 5 DISTRIBUIÇÃO AMOSTRAL DE DADOS NORMAIS 23 51 Estudo de Caso tempo para atingir o nível de corpos cetônicos aceitável 24 52 Distribuição quiquadrado 27 CONSIDERAÇÕES FINAIS 30 SUMÁRIO UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA UNIDADE 02 TESTES DE HIPÓTESES OBJETIVOS DE APRENDIZAGEM 31 INTRODUÇÃO 32 1 HIPÓTESES ESTATÍSTICAS 32 11 Testes de Hipóteses Estatísticas 33 2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL COM VARI ÂNCIA CONHECIDA 35 21 Teste de Hipóteses para a Média 36 22 Teste de Hipóteses Unilateral para a Média 38 23 Ponto de Fusão de Material para Sondagem 39 3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL COM VARI ÂNCIA DESCONHECIDA 40 31 Teste de Hipóteses para a Média 40 32 Projeto de Raquete de Tênis 40 33 Distribuição de Água pela Rede 42 4 TESTES PARA A VARIÂNCIA E O DESVIOPADRÃO DE UMA DISTRIBUI ÇÃO NORMAL 44 41 Controle de Qualidade em uma Empresa Produtora de Refrigerante 44 42 Vida Útil de um Pneu 45 5 TESTES PARA A PROPORÇÃO DE UMA POPULAÇÃO 46 51 Nível de Falhas Aceitável em uma Indústria de Pregos 46 CONSIDERAÇÕES FINAIS 47 SUMÁRIO UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA UNIDADE 03 REGRESSÃO LINEAR SIMPLES E REGRESSÃO LINEAR MÚLTIPLA OBJETIVOS DE APRENDIZAGEM 49 INTRODUÇÃO 50 1 REGRESSÃO LINEAR SIMPLES 50 11 Modelo Estatístico 51 12 Estimação dos Parâmetros do Modelo 52 13 Exemplo 54 14 Intervalo de Confiança para os Parâmetros 56 2 COEFICIENTE DE DETERMINAÇÃO 57 21 Obtenção do Coeficiente de Determinação 57 22 Exemplo 58 3 LINEARIZAÇÃO DOS DADOS 59 31 Linearização do tipo yax2 59 32 Linearização do tipo yaxα 60 33 Linearização do tipo yax 60 34 Linearização do tipo yax 60 4 REGRESSÃO LINEAR MÚLTIPLA 60 41 Modelo Estatístico 61 42 Suposições para o Modelo 61 43 Exemplo 62 44 Estimação dos Parâmetros do Modelo 62 45 Representação Matricial do Método dos Mínimos Quadrados 64 SUMÁRIO UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 46 Análise do Exemplo na Forma Algébrica 65 47 Análise do Exemplo na Forma Matricial 66 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂ METROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA 67 51 Intervalo de Confiança para α 67 52 Intervalo de Confiança para β 67 53 Intervalo de Confiança para γ 67 54 Previsão para a Variável Resposta 68 CONSIDERAÇÕES FINAIS 69 UNIDADE 04 ANÁLISE DE VARIÂNCIA OBJETIVOS DE APRENDIZAGEM 70 INTRODUÇÃO 71 1 MODELO ESTATÍSTICO 71 11 Definições e Propriedades Básicas 72 12 Condições Necessárias para Utilização da ANOVA 73 2 DECOMPOSIÇÃO DA SOMA DOS QUADRADOS 73 21 Uma Medida de Variabilidade 73 22 Decomposição da Soma dos Quadrados Totais 74 23 Graus de Liberdade 75 24 Médias Quadráticas 75 25 Tabela da ANOVA 76 26 Exemplo 76 SUMÁRIO UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 3 ANÁLISE ESTATÍSTICA 78 31 O Teste da ANOVA 78 32 Exemplo 79 4 ESTIMAÇÃO DOS PARÂMETROS DO MODELO 79 41 Estimação das Médias 80 42 Intervalo de Confiança para as Médias 80 5 ANÁLISE DE RESÍDUOS 81 51 Independência Normalidade e Homogeneidade de Variâncias 82 52 Análise de Resíduos 82 53 Análise do Coeficiente de Determinação R2 83 CONSIDERAÇÕES FINAIS 84 REFERÊNCIAS 85 UNIDADE OBJETIVOS DE APRENDIZAGEM VÍDEOS DA UNIDADE httpsbitly3dhVkCE httpsbitly3gbCmPF httpsbitly3gnaZ5F 01 PROBABILIDADES E DISTRIBUIÇÕES DE PROBABILIDADE Compreender os conceitos de distribuições de probabilidades com base nos concei tos de probabilidade Investigar distribuições comuns como a distribuição binomial e a distribuição normal UNIDADE 01 9 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA INTRODUÇÃO Caro alunoa Seja bemvindoa à disciplina de Probabilidade e Estatística Preparamos esse curso pensando em você dominar as principais ferramentas utilizadas em estatística voltada ao curso de Enge nharia em especial as técnicas de regressão linear tanto simples como múltipla e a análise de variância Mas antes disso você será convidado a aprender sobre probabilidades distribuições de probabilidade e os principais testes de hipóteses Nesta Unidade iniciaremos discutindo os conceitos de probabilidade definindo espaços amos trais e eventos para em seguida discutir algumas regras de probabilidade além da propriedade de eventos independentes e o Teorema de Bayes Na sequência discutiremos o conceito de distri buição amostral O objetivo é tratar a construção desse conceito a partir de um exemplo de fácil entendimento mas que traz uma enorme riqueza conceitual Na sequência antes de tratarmos de distribuições amostrais específicas vamos tratar sobre a Lei dos Grandes Números e o Teorema Central do Limite os quais evidenciam características im portantes das observações de alguns experimentos Por fim os dois últimos itens irão discutir a distribuição amostral de uma variável binomial e de uma variável normal O intuito aqui não é encerrar as possibilidades de abordagem na temática da estatística mas fornecer a você um arcabouço teórico suficiente para poder utilizar a estatística em problemas reais 1 PROBABILIDADES ESPAÇOS AMOSTRAIS EVENTOS REGRAS DE PROBABILIDADE INDEPENDÊNCIA E TEOREMA DE BAYES Ao tratar do estudo de estatística devemos ter em mente que a principal qualidade que buscamos descrever é conhecida como aleatoriedade Assim quando queremos observar nossa própria massa na balança ou quando buscamos realizar ensaios de resistência acerca de um deter minado material estamos executando um experimento E a aleatoriedade dessas medidas surge por conta de diversos fatores os quais nem sempre são previstos adequadamente pelos modelos tradicionais ie surgem devido a fatores muitas vezes não observados UNIDADE 01 10 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Claro que a aleatoriedade muda de magnitude a depender dos diversos tipos de experimentos Então caso usemos diferentes balanças para extrair uma determinada medida de massa esperamos que a variabilidade seja pequena Mas ao tentar determinar o tamanho de um campo de futebol utili zando uma caminhada diferentes pessoas chegarão a resultados muito distintos De qualquer forma mesmo que busquemos métodos para obter medidas mais precisas ainda sim a variabilidade gerada pela aleatoriedade se preserva e devemos procurar métodos estatísticos para resolver os problemas 11 ESPAÇOS AMOSTRAIS Veja que o objeto de estudo de nosso curso é a interpretação e execução de experimentos aleatórios Montgomery os define como experimento que pode fornecer diferentes resultados muito embora seja repetido toda vez da mesma maneira MONTGOMERY 2016 p 11 Nosso primeiro objetivo aqui é determinar modos de descrever os resultados de um determina do experimento Para isso evocamos o conceito de espaço amostral definido como O conjunto de todos os resultados possíveis de um experimento aleatório O espaço amostral é denotado por S MONTGOMERY 2016 p 11 Ainda no experimento de extrairmos nossa massa na balança toda manhã note que podería mos definir o espaço amostral como sendo o conjunto S1xx0 Visto que para cada massa extraída na balança nunca visualizaremos um resultado negativo Alguém que não acha razoável medidas para sua própria massa acima de 100 kg ou abaixo de 50 kg poderia afirmar que o espaço amostral é definido por S2x50x100 Claro que a análise do espaço amostral deve ser realizada cuidadosamente para compreender to dos os resultados possíveis Um detalhe é que nem toda observação precisa ser numérica Alguém poderia ter como espaço amostral dos valores observados em sua balança as únicas duas observações S3dentro do pesofora do peso Note com esse exemplo que podemos extrair alguns conceitos Em primeiro lugar os dados observáveis podem ser numéricos ie quantitativos como S1 ou S2 ou podem ser qualitativos como S3 Em segundo lugar os dados podem ser discretos o que significa que o espaço amostral contém um conjunto finito de dados como S3 ou pode ser considerado contínuo se contém um intervalo de números reais como S1 ou S2 Entre os diversos tipos de experimentos que iremos analisar ao longo do curso está presente a seleção de uma determinada bola de uma urna com ou sem repetição Para a representação des se espaço amostral digamos que conhecemos três bolas A B e C Nesse caso ao selecionarmos duas bolas sem reposição temos o seguinte conjunto de eventos observáveis SsrABACBABCCACB UNIDADE 01 11 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Enquanto se considerarmos a reposição das bolas teremos o seguinte espaço amostral ScrAAABACBABBBCCACBCC Claro que ainda existem várias outras formas de representação do espaço amostral mas até aqui é importante ficar claro que o espaço amostral é uma forma de representar todos os resulta dos possíveis de um determinado experimento 12 EVENTOS Montgomery define evento como Um subconjunto do espaço amostral de um experimento aleatório MONTGOMERY 2016 p 13 Note que estamos trazendo a linguagem de teoria dos conjuntos para análise estatística de forma que as operações de conjuntos terão suas interpretações aqui Assim considere um expe rimento que foi realizado com o intuito de a partir de 50 amostras de casacos para motociclistas verificar quais são resistentes ao frio e quais são resistentes ao vento O experimento trouxe os dados apresentados na Tabela 1 TABELA 1 RESISTÊNCIA AO FRIO E AO VENTO DE 50 CASACOS PARA MOTOCICLISTAS ANALISADOS Resistência ao frio Resistência ao vento Alta Baixa Alta 40 4 Baixa 1 5 Fonte O autor 2020 Veja que podemos considerar como o evento que ocorre quando um dos casacos tem alta resistência ao frio e como o evento que ocorre quando tem alta resistência ao vento Usamos a notação nX para indicar o número de elementos de um determinado conjunto de forma que nA41 nB44 Note também que podemos determinar nAB que seria o número de casacos que são resistentes ao frio e ao vento Note que nAB40 Também podemos determinar nAB que representa o número de casacos resistentes ao frio ou ao vento ie nAB45 Além disso po demos determinar nA em que trazemos a notação de complemento para indicar os elementos que não fazem parte do conjunto ie os elementos que não têm resistência ao frio Desse modo nA9 De forma análoga nB6 A título de curiosidade por se tratar de conjuntos podemos utilizar os diagramas de Venn para representar um espaço amostral e seus eventos Com essa análise fica simples verificar que dois eventos são mutuamente exclusivos quando E1E2ø UNIDADE 01 12 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Vários outros resultados e analogias com a teoria dos conjuntos também podem ser extraídas daqui e o leitor mais interessado pode investigar nessa direção para compreender mais alguns conceitos de teoria da probabilidade e estatística 13 PROBABILIDADE E REGRAS DE PROBABILIDADE O conceito de probabilidade é de difícil abstração mas quantifica a possibilidade ou a chance de ocorrência de um determinado resultado para um determinado experimento aleatório Entre tanto o que é importante destacarmos aqui para podermos dar continuidade ao curso é que o resultado é medido com valores entre 0 e 1 de forma que assumimos a probabilidade zero para um evento impossível e a probabilidade um para um evento que ocorrerá com certeza Valores intermediários indicam nosso grau de confiança na ocorrência ou não do evento Note que geral mente transformamos os valores possíveis em porcentagens de forma que 000330086861100 Além de outras possibilidades Para alguns experimentos específicos conseguimos calcular uma probabilidade associada a uma série de resultados Isso porque se os resultados forem igualmente prováveis ie têm a mesma chance de ocorrência então considerando N resultados cada um terá uma probabilidade de 1N Geralmente utilizamos como notação PE para indicar a probabilidade de um determinado evento Para os espaços amostrais discretos podemos calcular a probabilidade desse evento reali zando a soma das probabilidades do resultado em E Então por exemplo ao considerar a observa ção de peças defeituosas e percebermos que entre 100 peças analisadas 70 não têm defeito 20 têm 1 defeito 8 têm 2 defeitos e 2 têm mais de 2 defeitos podemos concluir que a probabilidade de tirar ao acaso uma peça sem defeito chamamos de evento B é de Enquanto a probabilidade de tirar ao acaso uma peça com 1 defeito chamamos de evento é de Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que ABø isto é quando os eventos são mutuamente excludentes Nos casos em que ABø devemos utilizar a regra geral da adição em que Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de Vários outros resultados e analogias com a teoria dos conjuntos também podem ser extraídas daqui e o leitor mais interessado pode investigar nessa direção para compreender mais alguns conceitos de teoria da probabilidade e estatística 13 Probabilidade e regras de probabilidade O conceito de probabilidade é de difícil abstração mas quantifica a possibilidade ou a chance de ocorrência de um determinado resultado para um determinado experimento aleatório Entretanto o que é importante destacarmos aqui para podermos dar continuidade ao curso é que o resultado é medido com valores entre 0 e 1 de forma que assumimos a probabilidade zero para um evento impossível e a probabilidade um para um evento que ocorrerá com certeza Valores intermediários indicam nosso grau de confiança na ocorrência ou não do evento Note que geralmente transformamos os valores possíveis em porcentagens de forma que 0 0 03 30 086 86 1 100 Além de outras possibilidades Para alguns experimentos específicos conseguimos calcular uma probabilidade associada a uma série de resultados Isso porque se os resultados forem igualmente prováveis ie têm a mesma chance de ocorrência então considerando 𝑁𝑁 resultados cada um terá uma probabilidade de 1𝑁𝑁 Geralmente utilizamos como notação 𝑃𝑃𝐸𝐸 para indicar a probabilidade de um determinado evento Para os espaços amostrais discretos podemos calcular a probabilidade desse evento realizando a soma das probabilidades do resultado em E Então por exemplo ao considerar a observação de peças defeituosas e percebermos que entre 100 peças analisadas 70 não têm defeito 20 têm 1 defeito 8 têm 2 defeitos e 2 têm mais de 2 defeitos podemos concluir que a probabilidade de tirar ao acaso uma peça sem defeito chamamos de evento 𝐴𝐴 é de 𝑝𝑝𝐴𝐴 70 100 70 Enquanto a probabilidade de tirar ao acaso uma peça com 1 defeito chamamos de evento 𝐵𝐵 é de 𝑝𝑝𝐵𝐵 20 100 20 Vários outros resultados e analogias com a teoria dos conjuntos também podem ser extraídas daqui e o leitor mais interessado pode investigar nessa direção para compreender mais alguns conceitos de teoria da probabilidade e estatística 13 Probabilidade e regras de probabilidade O conceito de probabilidade é de difícil abstração mas quantifica a possibilidade ou a chance de ocorrência de um determinado resultado para um determinado experimento aleatório Entretanto o que é importante destacarmos aqui para podermos dar continuidade ao curso é que o resultado é medido com valores entre 0 e 1 de forma que assumimos a probabilidade zero para um evento impossível e a probabilidade um para um evento que ocorrerá com certeza Valores intermediários indicam nosso grau de confiança na ocorrência ou não do evento Note que geralmente transformamos os valores possíveis em porcentagens de forma que 0 0 03 30 086 86 1 100 Além de outras possibilidades Para alguns experimentos específicos conseguimos calcular uma probabilidade associada a uma série de resultados Isso porque se os resultados forem igualmente prováveis ie têm a mesma chance de ocorrência então considerando 𝑁𝑁 resultados cada um terá uma probabilidade de 1𝑁𝑁 Geralmente utilizamos como notação 𝑃𝑃𝐸𝐸 para indicar a probabilidade de um determinado evento Para os espaços amostrais discretos podemos calcular a probabilidade desse evento realizando a soma das probabilidades do resultado em E Então por exemplo ao considerar a observação de peças defeituosas e percebermos que entre 100 peças analisadas 70 não têm defeito 20 têm 1 defeito 8 têm 2 defeitos e 2 têm mais de 2 defeitos podemos concluir que a probabilidade de tirar ao acaso uma peça sem defeito chamamos de evento 𝐴𝐴 é de 𝑝𝑝𝐴𝐴 70 100 70 Enquanto a probabilidade de tirar ao acaso uma peça com 1 defeito chamamos de evento 𝐵𝐵 é de 𝑝𝑝𝐵𝐵 20 100 20 Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 UNIDADE 01 13 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Enquanto a probabilidade de selecionar um que goste de salgado é de Note que como Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 ie a probabilidade de selecionar ao acaso um en trevistado que goste de doce e salgado é de 70 verificamos que DBø de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevis tado que goste de salgado goste de doce ou goste de ambos Isso será dado por Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se com porta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento B sabendo qual será o resultado do even to A o qual é denotada por PBA Veja que seu cálculo é dado por Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilida de da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a A qual pode ser mais uma vez generalizada na regra da probabilidade total Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 INDEPENDÊNCIA Uma das condições mais utilizadas para o estudo da estatística é a independência entre even tos Note que dizemos que dois eventos por ex A e B são independentes se acontecer uma das seguintes condições Veja que quando são independentes a ocorrência do evento A não altera a probabilidade de ocorrência do evento B Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 Note que a probabilidade de tirar ao acaso uma peça com no máximo 1 defeito é de 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 70 20 90 100 90 Caso tenha um bom conhecimento de Diagrama de Venn perceba que essa soma só pode ser realizada no caso em que 𝐴𝐴 𝐵𝐵 isto é quando os eventos são mutuamente excludentes Nos casos em que 𝐴𝐴 𝐵𝐵 devemos utilizar a regra geral da adição em que 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝑃𝑃𝐴𝐴 𝐵𝐵 Para entender esse resultado veja os resultados de uma pesquisa que foi realizada com 50 entrevistados com o objetivo de determinar o gosto deles em relação a doces eou salgados O resultado apresentou que 40 deles gostam de doce 30 gostam de salgado e 35 gostam de doce e salgado Assim a probabilidade de selecionar um entrevistado ao acaso que goste de doce é de 𝑃𝑃𝐷𝐷 40 50 80 Enquanto a probabilidade de selecionar um que goste de salgado é de 𝑃𝑃𝑆𝑆 30 50 60 Note que como 𝑃𝑃𝐷𝐷 𝑆𝑆 35 50 70 ie a probabilidade de selecionar ao acaso um entrevistado que goste de doce e salgado é de 70 verificamos que 𝐷𝐷 𝐵𝐵 de forma que podemos utilizar a regra geral da adição para encontrar a probabilidade de selecionar ao acaso um entrevistado que goste de salgado goste de doce ou goste de ambos Isso será dado por 𝑃𝑃𝐷𝐷 𝑆𝑆 𝑃𝑃𝐷𝐷 𝑃𝑃𝑆𝑆 𝑃𝑃𝐷𝐷 𝑆𝑆 80 60 70 70 Caso esteja interessadoa fica aqui o convite para investigar como a regra da adição se comporta no caso de 3 ou mais eventos Outro cálculo de probabilidades relevante é feito para as probabilidades condicionais obtidas quando desejamos saber a probabilidade de um evento 𝐵𝐵 sabendo qual será o resultado do evento 𝐴𝐴 o qual é denotada por 𝑃𝑃𝐵𝐵𝐴𝐴 Veja que seu cálculo é dado por 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴 Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes UNIDADE 01 14 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 15 TEOREMA DE BAYES Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação De forma que podemos escrever Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes 16 EXEMPLO A título de exemplo para reforçar nossa análise considere um experimento em que é verifica do um grupo de pacientes em relação à sua propensão para desenvolver diabetes Nesse caso os resultados estão resumidos na Tabela 2 TABELA 2 PROPENSÃO DE DESENVOLVER DIABETES ENTRE UM GRUPO DE PACIENTES Probabilidade Diabetes Classes Pacientes Probabilidade Classe 01 Homem 40 02 0005 Outros 08 Fonte O autor 2020 Veja que diretamente da tabela podemos concluir algumas coisas Por exemplo entre os pacientes 20 é homem acima dos 40 anos de forma que 80 ie o seu complemento são outros pacientes Observe que podemos ler diretamente a probabilidade condicional discutida ao longo da seção Indicando que a probabilidade de desenvolver diabetes sabendo que se trata de um homem acima dos 40 anos é de 10 mas quando se trata de outro tipo de paciente a probabilidade é de 05 Note que a regra da probabilidade total nos permite chegar à seguinte probabilidade a qual não é fornecida na tabela que nos mostra a probabilidade de que dado um paciente qualquer ele tenha propensão a desenvolver diabetes Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes Veja que essa expressão pode ser reescrita para definirmos uma regra para calcular a probabilidade da intersecção de dois eventos conhecida como regra da multiplicação Nesse caso chegamos a 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 A qual pode ser mais uma vez generalizada na regra da probabilidade total 𝑃𝑃𝐵𝐵 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 Todas essas regras podem ser generalizadas para mais de dois eventos e caso tenha interesse também oa convidamos a pesquisar essas generalizações 14 Independência Uma das condições mais utilizadas para o estudo da estatística é a independência entre eventos Note que dizemos que dois eventos por ex 𝐴𝐴 e 𝐵𝐵 são independentes se acontecer uma das seguintes condições 𝐼𝐼 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐴𝐴 𝐼𝐼𝐼𝐼 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐵𝐵 ou 𝐼𝐼𝐼𝐼𝐼𝐼 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐴𝐴𝑃𝑃𝐵𝐵 Veja que quando são independentes a ocorrência do evento 𝐴𝐴 não altera a probabilidade de ocorrência do evento 𝐵𝐵 15 Teorema de Bayes Observe que o resultado tratado na probabilidade condicional nos trouxe a seguinte equação 𝑃𝑃𝐴𝐴 𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 𝐴𝐴 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵 De forma que podemos escrever 𝑃𝑃𝐴𝐴𝐵𝐵 𝑃𝑃𝐵𝐵𝐴𝐴 𝑃𝑃𝐴𝐴 𝑃𝑃𝐵𝐵 Note que antes de analisar o Teorema de Bayes descrito acima o tipo de problema que estávamos resolvendo consistia em determinar a probabilidade de um evento por exemplo a propensão para desenvolver diabetes dada uma condição por exemplo ser homem e estar acima dos 40 anos O Teorema de Bayes apresenta a resolução de um problema ligeiramente inverso Nesse exemplo seria determinar a probabilidade de estarmos lidando com um homem acima dos 40 anos sabendo que o paciente tem propensão para desenvolver diabetes 16 Exemplo A título de exemplo para reforçar nossa análise considere um experimento em que é verificado um grupo de pacientes em relação à sua propensão para desenvolver diabetes Nesse caso os resultados estão resumidos na Tabela 2 Tabela 2 Propensão de desenvolver diabetes entre um grupo de pacientes Probabilidade Diabetes Classes Pacientes Probabilidade Classe 01 Homem 40 02 0005 Outros 08 Fonte O autor 2020 Veja que diretamente da tabela podemos concluir algumas coisas Por exemplo entre os pacientes 20 é homem acima dos 40 anos de forma que 80 ie o seu complemento são outros pacientes Observe que podemos ler diretamente a probabilidade condicional discutida ao longo da seção 𝑃𝑃𝐷𝐷𝐻𝐻40 01 10 𝑃𝑃𝐷𝐷𝐻𝐻40 0005 05 Indicando que a probabilidade de desenvolver diabetes sabendo que se trata de um homem acima dos 40 anos é de 10 mas quando se trata de outro tipo de paciente a probabilidade é de 05 Note que a regra da probabilidade total nos permite chegar à seguinte probabilidade a qual não é fornecida na tabela que nos mostra a probabilidade de que dado um paciente qualquer ele tenha propensão a desenvolver diabetes 𝑃𝑃𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷 0102 000508 0024 24 Veja que o Teorema de Bayes nos responde outra probabilidade Podemos calcular o seguinte resultado 𝑃𝑃𝐻𝐻40𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻 𝑃𝑃𝐻𝐻 𝑃𝑃𝐷𝐷 0102 0024 083 83 16 Exemplo A título de exemplo para reforçar nossa análise considere um experimento em que é verificado um grupo de pacientes em relação à sua propensão para desenvolver diabetes Nesse caso os resultados estão resumidos na Tabela 2 Tabela 2 Propensão de desenvolver diabetes entre um grupo de pacientes Probabilidade Diabetes Classes Pacientes Probabilidade Classe 01 Homem 40 02 0005 Outros 08 Fonte O autor 2020 Veja que diretamente da tabela podemos concluir algumas coisas Por exemplo entre os pacientes 20 é homem acima dos 40 anos de forma que 80 ie o seu complemento são outros pacientes Observe que podemos ler diretamente a probabilidade condicional discutida ao longo da seção 𝑃𝑃𝐷𝐷𝐻𝐻40 01 10 𝑃𝑃𝐷𝐷𝐻𝐻40 0005 05 Indicando que a probabilidade de desenvolver diabetes sabendo que se trata de um homem acima dos 40 anos é de 10 mas quando se trata de outro tipo de paciente a probabilidade é de 05 Note que a regra da probabilidade total nos permite chegar à seguinte probabilidade a qual não é fornecida na tabela que nos mostra a probabilidade de que dado um paciente qualquer ele tenha propensão a desenvolver diabetes 𝑃𝑃𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷 0102 000508 0024 24 Veja que o Teorema de Bayes nos responde outra probabilidade Podemos calcular o seguinte resultado 𝑃𝑃𝐻𝐻40𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻 𝑃𝑃𝐻𝐻 𝑃𝑃𝐷𝐷 0102 0024 083 83 UNIDADE 01 15 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Veja que o Teorema de Bayes nos responde outra probabilidade Podemos calcular o se guinte resultado Que nos mostra qual a probabilidade de que sabendo que o paciente tenha diabetes esteja mos tratando de um homem acima dos 40 anos 2 DISTRIBUIÇÕES AMOSTRAIS Temos como interesse descrever testes estatísticos que permitam tirar conclusões mais seguras acerca de um determinado experimento Entretanto geralmente não temos condições de verificar o que ocorre ao longo de todo o espaço amostral de forma que precisamos realizar inferências estatísticas com base nos dados observáveis Para caminharmos ao longo dessa direção nas próximas Unidades precisamos de algumas defi nições básicas em estatística além de discutir o conceito de distribuição amostral 21 ALGUMAS DEFINIÇÕES Para compreender os modelos estatísticos de inferência estatística necessitamos entender al guns termos Chamamos de variável aleatória a característica numérica de um determinado ex perimento a qual pode ser interpretada matematicamente como uma função que associa um número real a cada elemento do espaço amostral Chamamos de população o conjunto de todos os elementos de uma determinada situação Por exemplo em uma pesquisa eleitoral para presidente um resultado preciso envolve uma pergunta para cada cidadão brasileiro Nesse caso a população analisada são todos os cidadãos brasileiros e aqui fica evidente que muitas vezes uma pesquisa envolvendo toda a população é inviável Pode mos usar o conceito de população também quando recebemos parafusos de um determinado lote 16 Exemplo A título de exemplo para reforçar nossa análise considere um experimento em que é verificado um grupo de pacientes em relação à sua propensão para desenvolver diabetes Nesse caso os resultados estão resumidos na Tabela 2 Tabela 2 Propensão de desenvolver diabetes entre um grupo de pacientes Probabilidade Diabetes Classes Pacientes Probabilidade Classe 01 Homem 40 02 0005 Outros 08 Fonte O autor 2020 Veja que diretamente da tabela podemos concluir algumas coisas Por exemplo entre os pacientes 20 é homem acima dos 40 anos de forma que 80 ie o seu complemento são outros pacientes Observe que podemos ler diretamente a probabilidade condicional discutida ao longo da seção 𝑃𝑃𝐷𝐷𝐻𝐻40 01 10 𝑃𝑃𝐷𝐷𝐻𝐻40 0005 05 Indicando que a probabilidade de desenvolver diabetes sabendo que se trata de um homem acima dos 40 anos é de 10 mas quando se trata de outro tipo de paciente a probabilidade é de 05 Note que a regra da probabilidade total nos permite chegar à seguinte probabilidade a qual não é fornecida na tabela que nos mostra a probabilidade de que dado um paciente qualquer ele tenha propensão a desenvolver diabetes 𝑃𝑃𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷𝐻𝐻40 𝑃𝑃𝐻𝐻40 𝑃𝑃𝐷𝐷 0102 000508 0024 24 Veja que o Teorema de Bayes nos responde outra probabilidade Podemos calcular o seguinte resultado 𝑃𝑃𝐻𝐻40𝐷𝐷 𝑃𝑃𝐷𝐷𝐻𝐻 𝑃𝑃𝐻𝐻 𝑃𝑃𝐷𝐷 0102 0024 083 83 O livro O andar do bêbado de Leonard Mlodinow conta a história de como a estatística se desen volveu ao longo dos anos A escrita bem humorada e os casos relatados pelo autor trazem luz à importância da estatística como definidora do século XXI MLODINOW L O andar do bêbado como o acaso determina nossas vidas Rio de Janeiro Zahar 2009 LEITURA UNIDADE 01 16 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Um subconjunto da população é considerado sua amostra no qual as propriedades observá veis de cada elemento podem ser medidas Na pesquisa eleitoral citada geralmente escolhemos uma amostra de alguns cidadãos para estimar a proporção de votantes no candidato A ou B e na análise de qualidade de um determinado lote coletamos uma determinada amostra de parafusos para estimar a quantidade de peças defeituosas Assim chamamos de parâmetro uma característica numérica que é desconhecida sobre a dis tribuição dos elementos dessa população qual seja proporção de eleitores ou quantidade de peças defeituosas O estimador é uma função extraída com base na amostra e que tem como objetivo representar um parâmetro de interesse da população o seu valor numérico é conhecido como estimativa 22 DISTRIBUIÇÕES AMOSTRAIS EXEMPLOS Vejamos como desenvolver o conceito de distribuição e como determinados experimentos con vergem para distribuições conhecidas Quando consideramos uma amostra aleatória com n elemen tos de uma determinada população definida como X1 X2 Xn a sua média aritmética X sua variância amostral s2 e seu desviopadrão amostral s são considerados estatísticas os quais são definidos como Como primeiro exemplo vejamos qual a distribuição amostral para a média X de um conjunto de dados Para isso imagine uma urna com 4 bolas numeradas de 1 a 4 e X como uma variável aleatória que registra o sorteio de uma bola Veja que nesse cenário visto que possuem a mesma chance de ocorrência A Figura 1 apresenta a distribuição amostral da média considerando essa única ocorrência o conceito de população também quando recebemos parafusos de um determinado lote Um subconjunto da população é considerado sua amostra no qual as propriedades observáveis de cada elemento podem ser medidas Na pesquisa eleitoral citada geralmente escolhemos uma amostra de alguns cidadãos para estimar a proporção de votantes no candidato 𝐴𝐴 ou 𝐵𝐵 e na análise de qualidade de um determinado lote coletamos uma determinada amostra de parafusos para estimar a quantidade de peças defeituosas Assim chamamos de parâmetro uma característica numérica que é desconhecida sobre a distribuição dos elementos dessa população qual seja proporção de eleitores ou quantidade de peças defeituosas O estimador é uma função extraída com base na amostra e que tem como objetivo representar um parâmetro de interesse da população o seu valor numérico é conhecido como estimativa 22 Distribuições amostrais exemplos Vejamos como desenvolver o conceito de distribuição e como determinados experimentos convergem para distribuições conhecidas Quando consideramos uma amostra aleatória com 𝑛𝑛 elementos de uma determinada população definida como 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 a sua média aritmética 𝑋𝑋 sua variância amostral 𝑠𝑠2 e seu desvio padrão amostral 𝑠𝑠 são considerados estatísticas os quais são definidos como 𝑋𝑋 1 𝑛𝑛 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 𝑛𝑛 𝑠𝑠2 1 𝑛𝑛 1 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑠𝑠 1 𝑛𝑛 1 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 Como primeiro exemplo vejamos qual a distribuição amostral para a média 𝑋𝑋 de um conjunto de dados Para isso imagine uma urna com 4 bolas numeradas de 1 a 4 e 𝑋𝑋 como uma variável aleatória que registra o sorteio de uma bola Veja que nesse cenário 𝑃𝑃𝑋𝑋 1 𝑃𝑃𝑋𝑋 2 𝑃𝑃𝑋𝑋 3 𝑃𝑃𝑋𝑋 4 025 visto que possuem a mesma chance de ocorrência A Figura 1 apresenta a distribuição amostral da média considerando essa única ocorrência Figura 1 Distribuição amostral da média para um único sorteio entre 4 bolas Fonte O autor 2020 Podemos concluir que no caso em que temos uma amostra de tamanho unitário a distribuição amostral da média é a mesma da variável aleatória 𝑋𝑋 Para prosseguirmos na análise imagine a retirada de forma independente e com reposição de 2 bolas 𝑋𝑋1 e 𝑋𝑋2 Nesse caso podemos ter as seguintes situações 𝑋𝑋1 1 𝑋𝑋2 1 𝑋𝑋 1 𝑋𝑋1 1 𝑋𝑋2 2 𝑋𝑋 15 𝑋𝑋1 1 𝑋𝑋2 3 𝑋𝑋 2 𝑋𝑋1 1 𝑋𝑋2 4 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋1 1 𝑋𝑋 15 𝑋𝑋1 2 𝑋𝑋2 2 𝑋𝑋 2 𝑋𝑋1 2 𝑋𝑋3 3 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋3 4 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 1 𝑋𝑋 2 𝑋𝑋1 3 𝑋𝑋2 2 𝑋𝑋 25 𝑋𝑋1 3 𝑋𝑋2 3 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 4 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 1 𝑋𝑋 25 𝑋𝑋1 4 𝑋𝑋2 2 𝑋𝑋 3 𝑋𝑋1 4 𝑋𝑋2 3 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 4 𝑋𝑋 4 Veja que a partir da contagem dessas possibilidades podemos encontrar a probabilidade de ocorrência de cada valor para a média obtendo assim 𝑃𝑃𝑋𝑋 1 1 16 00625 UNIDADE 01 17 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 1 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA PARA UM ÚNICO SORTEIO ENTRE 4 BOLAS Fonte O autor 2020 Podemos concluir que no caso em que temos uma amostra de tamanho unitário a distribuição amostral da média é a mesma da variável aleatória X Para prosseguirmos na análise imagine a retirada de forma independente e com reposição de 2 bolas X1 e X2 Nesse caso podemos ter as seguintes situações Veja que a partir da contagem dessas possibilidades podemos encontrar a probabilidade de ocorrência de cada valor para a média obtendo assim 𝑃𝑃𝑋𝑋 1 𝑃𝑃𝑋𝑋 2 𝑃𝑃𝑋𝑋 3 𝑃𝑃𝑋𝑋 4 025 visto que possuem a mesma chance de ocorrência A Figura 1 apresenta a distribuição amostral da média considerando essa única ocorrência Figura 1 Distribuição amostral da média para um único sorteio entre 4 bolas Fonte O autor 2020 Podemos concluir que no caso em que temos uma amostra de tamanho unitário a distribuição amostral da média é a mesma da variável aleatória 𝑋𝑋 Para prosseguirmos na análise imagine a retirada de forma independente e com reposição de 2 bolas 𝑋𝑋1 e 𝑋𝑋2 Nesse caso podemos ter as seguintes situações 𝑋𝑋1 1 𝑋𝑋2 1 𝑋𝑋 1 𝑋𝑋1 1 𝑋𝑋2 2 𝑋𝑋 15 𝑋𝑋1 1 𝑋𝑋2 3 𝑋𝑋 2 𝑋𝑋1 1 𝑋𝑋2 4 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋1 1 𝑋𝑋 15 𝑋𝑋1 2 𝑋𝑋2 2 𝑋𝑋 2 𝑋𝑋1 2 𝑋𝑋3 3 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋3 4 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 1 𝑋𝑋 2 𝑋𝑋1 3 𝑋𝑋2 2 𝑋𝑋 25 𝑋𝑋1 3 𝑋𝑋2 3 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 4 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 1 𝑋𝑋 25 𝑋𝑋1 4 𝑋𝑋2 2 𝑋𝑋 3 𝑋𝑋1 4 𝑋𝑋2 3 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 4 𝑋𝑋 4 Veja que a partir da contagem dessas possibilidades podemos encontrar a probabilidade de ocorrência de cada valor para a média obtendo assim 𝑃𝑃𝑋𝑋 1 1 16 00625 𝑃𝑃𝑋𝑋 1 𝑃𝑃𝑋𝑋 2 𝑃𝑃𝑋𝑋 3 𝑃𝑃𝑋𝑋 4 025 visto que possuem a mesma chance de ocorrência A Figura 1 apresenta a distribuição amostral da média considerando essa única ocorrência Figura 1 Distribuição amostral da média para um único sorteio entre 4 bolas Fonte O autor 2020 Podemos concluir que no caso em que temos uma amostra de tamanho unitário a distribuição amostral da média é a mesma da variável aleatória 𝑋𝑋 Para prosseguirmos na análise imagine a retirada de forma independente e com reposição de 2 bolas 𝑋𝑋1 e 𝑋𝑋2 Nesse caso podemos ter as seguintes situações 𝑋𝑋1 1 𝑋𝑋2 1 𝑋𝑋 1 𝑋𝑋1 1 𝑋𝑋2 2 𝑋𝑋 15 𝑋𝑋1 1 𝑋𝑋2 3 𝑋𝑋 2 𝑋𝑋1 1 𝑋𝑋2 4 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋1 1 𝑋𝑋 15 𝑋𝑋1 2 𝑋𝑋2 2 𝑋𝑋 2 𝑋𝑋1 2 𝑋𝑋3 3 𝑋𝑋 25 𝑋𝑋1 2 𝑋𝑋3 4 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 1 𝑋𝑋 2 𝑋𝑋1 3 𝑋𝑋2 2 𝑋𝑋 25 𝑋𝑋1 3 𝑋𝑋2 3 𝑋𝑋 3 𝑋𝑋1 3 𝑋𝑋2 4 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 1 𝑋𝑋 25 𝑋𝑋1 4 𝑋𝑋2 2 𝑋𝑋 3 𝑋𝑋1 4 𝑋𝑋2 3 𝑋𝑋 35 𝑋𝑋1 4 𝑋𝑋2 4 𝑋𝑋 4 Veja que a partir da contagem dessas possibilidades podemos encontrar a probabilidade de ocorrência de cada valor para a média obtendo assim 𝑃𝑃𝑋𝑋 1 1 16 00625 𝑃𝑃𝑋𝑋 15 2 16 0125 𝑃𝑃𝑋𝑋 2 3 16 01875 𝑃𝑃𝑋𝑋 25 4 16 025 𝑃𝑃𝑋𝑋 3 3 16 01875 𝑃𝑃𝑋𝑋 35 2 16 0125 𝑃𝑃𝑋𝑋 4 1 16 00625 A Figura 2 apresenta a distribuição amostral da média para dois sorteios entre 4 bolas independentes e com reposição Figura 2 Distribuição amostral da média para dois sorteios entre 4 bolas independentes e com reposição Fonte O autor 2020 De modo similar podemos encontrar a distribuição amostral da média para 𝒏𝒏 sorteios À medida que fazemos 𝒏𝒏 esse gráfico vai se aproximando do tão conhecido gráfico da Distribuição Normal A Figura 3 apresenta alguns gráficos de distribuição normal que são construídos com os diferentes valores de média e desvio padrão Figura 3 Exemplo de gráficos da distribuição normal Elaborado no software WolframAlpha UNIDADE 01 18 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA A Figura 2 apresenta a distribuição amostral da média para dois sorteios entre 4 bolas indepen dentes e com reposição FIGURA 2 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA PARA DOIS SORTEIOS ENTRE 4 BOLAS INDEPENDENTES E COM REPOSIÇÃO Fonte O autor 2020 De modo similar podemos encontrar a distribuição amostral da média para sorteios À medi da que fazemos n esse gráfico vai se aproximando do tão conhecido gráfico da Distribuição Normal A Figura 3 apresenta alguns gráficos de distribuição normal que são construídos com os diferentes valores de média e desviopadrão FIGURA 3 EXEMPLO DE GRÁFICOS DA DISTRIBUIÇÃO NORMAL ELABORADO NO SOFTWARE WOLFRAMALPHA Fonte O autor 2020 Uma senhora toma chá livro de David Salsburg demonstra como uma área importante da esta tística se desenvolveu a partir da questão O gosto do chá muda de acordo com a ordem em que as ervas e o leite são colocados Essa pequena questão trouxe inovação a métodos estatísticos que revolucionaram os diversos campos da ciência SALSBURG D Uma senhora toma chá como a estatística revolucionou a ciência no século XX Rio de Janeiro Zahar 2009 LEITURA UNIDADE 01 19 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 3 LEI FRACA DOS GRANDES NÚMEROS E TEOREMA CENTRAL DO LIMITE Considere uma função densidade de probabilidade F θ como a desenvolvida no exemplo anterior no qual a variável aleatória tem valor esperado μ Note que como discutido no início da seção anterior na maior parte dos casos não podemos realizar medições acerca de toda a po pulação é o caso da pesquisa eleitoral e da análise da remessa de parafusos Mas então como podemos retirar valores confiáveis sobre o valor esperado de XEx 31 LEI FRACA DOS GRANDES NÚMEROS Desejamos portanto encontrar a probabilidade de que X μ esteja dentro de uma zona aceitá vel digamos 1δ Em outras palavras gostaríamos de concluir que P ϵX μϵ 1δ indicando que o valor esperado e o valor real estejam suficientemente próximos Veja que para toda variável aleatória X e toda função não negativa h podemos escrever para k0 Como os eventos hXk e hXk são complementares é equivalente a escrever No caso em que hXX μ2 e kϵ2 podemos obter Assim unindo os resultados encontrados verificamos que Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teo rema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações po dem ser encontradas na literatura da área de Estatística 32 TEOREMA CENTRAL DO LIMITE Quando analisamos uma função densidade de probabilidade f como do exemplo anterior no qual se possui média μ e variância σ2 o Teorema Central do Limite afirma que a variável aleatória 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura UNIDADE 01 20 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA tende a se tornar a distribuição normal padrão ie μ0 e σ21 quando n Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente gran de a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 4 DISTRIBUIÇÃO AMOSTRAL DE UMA VARI ÁVEL ALEATÓRIA BINOMIAL Em vários modelos teremos uma variável aleatória binomial ou seja aquela que só pode assu mir um entre dois possíveis valores sim ou não desligado ou ligado forte ou fraco 0 ou 1 entre outros Nesse caso o Teorema Central do Limite permite concluir qual a distribuição amostral dessa variável adiantamos tratase de uma distribuição normal 41 DISTRIBUIÇÃO AMOSTRAL No caso da distribuição binomial suponhamos um experimento em que desejamos conhecer a proporção de adultos com idade inferior aos 30 anos e que possuem casa própria Para essa aná lise devemos definir qual a variável aleatória X que registra essa informação Note que se trata de uma variável binomial visto que pode assumir apenas dois valores ie 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura 𝑷𝑷𝒉𝒉𝑿𝑿 𝒌𝒌 𝑬𝑬𝒉𝒉𝑿𝑿 𝒌𝒌 Como os eventos 𝒉𝒉𝑿𝑿 𝒌𝒌 e 𝒉𝒉𝑿𝑿 𝒌𝒌 são complementares é equivalente a escrever 𝑷𝑷𝒉𝒉𝒙𝒙 𝒌𝒌 𝟏𝟏 𝑬𝑬𝒉𝒉𝒙𝒙 𝒌𝒌 No caso em que 𝒉𝒉𝑿𝑿 𝑿𝑿 𝝁𝝁𝟐𝟐 e 𝒌𝒌 𝝐𝝐𝟐𝟐 podemos obter 𝑷𝑷𝝐𝝐 𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐 𝑷𝑷𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 Assim unindo os resultados encontrados verificamos que 𝑷𝑷𝑿𝑿 𝝁𝝁 𝝐𝝐𝟐𝟐 𝟏𝟏 𝑬𝑬𝑿𝑿 𝝁𝝁𝟐𝟐 𝝐𝝐𝟐𝟐 𝟏𝟏 𝝈𝝈𝟐𝟐 𝒏𝒏 𝝐𝝐𝟐𝟐 𝟏𝟏 𝜹𝜹 Esse resultado é conhecido como Lei Fraca dos Grandes Números A interpretação desse teorema é perceber que à medida que a amostra cresce a média dos resultados obtidos se aproxima da média da população Inúmeras versões desse teorema e suas respectivas demonstrações podem ser encontradas na literatura da área de Estatística 32 Teorema Central do Limite Quando analisamos uma função densidade de probabilidade 𝒇𝒇 como do exemplo anterior no qual se possui média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 o Teorema Central do Limite afirma que a variável aleatória 𝒁𝒁𝒏𝒏 𝑿𝑿 𝑬𝑬𝑿𝑿 𝑽𝑽𝑽𝑽𝑽𝑽𝑿𝑿 𝑿𝑿 𝝁𝝁 𝝈𝝈 𝒏𝒏 tende a se tornar a distribuição normal padrão ie 𝝁𝝁 𝟎𝟎 e 𝝈𝝈𝟐𝟐 𝟏𝟏 quando 𝒏𝒏 Esse é um dos principais resultados de toda a Estatística visto que para qualquer amostra suficientemente grande a distribuição das médias amostrais será aproximadamente normalmente distribuída ou seja 𝑿𝑿𝑵𝑵𝝁𝝁 𝝈𝝈 𝒏𝒏 Leitura Os números do jogo obra de Chris Anderson e David Sally mostra como a ciência estatística traz formas diferentes de compreender o papel da previsibilidade e da aleatoriedade Tudo isso tendo como pano de fundo o futebol ANDERSON C SALLY D Os números do jogo por que tudo o que você sabe sobre futebol está errado São Paulo Paralela 2013 LEITURA Os números do jogo obra de Chris Anderson e David Sally mostra como a ciência estatística traz formas diferentes de compreender o papel da previsibilidade e da aleatoriedade Tudo isso tendo como pano de fundo o futebol ANDERSON C SALLY D Os números do jogo por que tudo o que você sabe sobre futebol está errado São Paulo Paralela 2013 4 DISTRIBUIÇÃO AMOSTRAL DE UMA VARIÁVEL ALEATÓRIA BINOMIAL Em vários modelos teremos uma variável aleatória binomial ou seja aquela que só pode assumir um entre dois possíveis valores sim ou não desligado ou ligado forte ou fraco 𝟎𝟎 ou 𝟏𝟏 entre outros Nesse caso o Teorema Central do Limite permite concluir qual a distribuição amostral dessa variável adiantamos tratase de uma distribuição normal 41 Distribuição amostral No caso da distribuição binomial suponhamos um experimento em que desejamos conhecer a proporção de adultos com idade inferior aos 30 anos e que possuem casa própria Para essa análise devemos definir qual a variável aleatória 𝑿𝑿 que registra essa informação Note que se trata de uma variável binomial visto que pode assumir apenas dois valores ie 𝑿𝑿 𝟏𝟏 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊í𝒗𝒗𝒊𝒊𝒊𝒊𝒗𝒗𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 𝟎𝟎 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒗𝒗í𝒊𝒊𝒗𝒗𝒐𝒐 𝒊𝒊ã𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 Como tal variável possui uma distribuição de Bernoulli percebemos que 𝝁𝝁 𝑬𝑬𝑿𝑿 𝒑𝒑 𝝈𝝈𝟐𝟐 𝑽𝑽𝒄𝒄𝒑𝒑𝑿𝑿 𝒑𝒑𝟏𝟏 𝒑𝒑 Em que 𝒑𝒑 representa 𝑷𝑷𝑿𝑿 𝟏𝟏 Como comentado anteriormente não temos condição de obter informação acerca de todos os elementos da população Assim devemos realizar uma amostragem extraindo uma amostra aleatória 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒊𝒊 de 𝒊𝒊 termos sem reposição Indicando por 𝒀𝒀𝒊𝒊 o total de indivíduos que possuem casa própria nessa amostra podemos verificar que 𝒀𝒀𝒊𝒊𝑩𝑩𝒊𝒊𝒊𝒊𝒐𝒐𝑩𝑩𝒊𝒊𝒄𝒄𝑩𝑩𝒊𝒊 𝒑𝒑 Ou seja 𝒀𝒀𝒊𝒊 segue uma distribuição de Bernoulli Lembrese de que sendo assim UNIDADE 01 21 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Como tal variável possui uma distribuição de Bernoulli percebemos que Em que p representa PX1 Como comentado anteriormente não temos condição de obter informação acerca de todos os elementos da população Assim devemos realizar uma amostragem extraindo uma amostra alea tória X1 X2 Xn de n termos sem reposição Indicando por Yn o total de indivíduos que possuem casa própria nessa amostra podemos verificar que Ou seja Yn segue uma distribuição de Bernoulli Lembrese de que sendo assim Definindo como p a proporção de indivíduos que possuem casa própria podemos escrever Assim O que significa que a distribuição amostral de p pode ser obtida da distribuição de Yn e como Yn X1 X2 Xn com distribuição de Bernoulli com média μp e variância σ2p1p podemos escrever Ao utilizarmos o Teorema Central do Limite podemos concluir que X terá distribuição aproxi madamente normal com média p e variância p1pn ou seja E por consequência Observando que X p concluímos que para n a distribuição amostral de é aproximada mente normal 42 ESTUDO DE CASO PORCENTAGEM DE PETS QUE PASSAM DOS 10 ANOS DE VIDA Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Os números do jogo obra de Chris Anderson e David Sally mostra como a ciência estatística traz formas diferentes de compreender o papel da previsibilidade e da aleatoriedade Tudo isso tendo como pano de fundo o futebol ANDERSON C SALLY D Os números do jogo por que tudo o que você sabe sobre futebol está errado São Paulo Paralela 2013 4 DISTRIBUIÇÃO AMOSTRAL DE UMA VARIÁVEL ALEATÓRIA BINOMIAL Em vários modelos teremos uma variável aleatória binomial ou seja aquela que só pode assumir um entre dois possíveis valores sim ou não desligado ou ligado forte ou fraco 𝟎𝟎 ou 𝟏𝟏 entre outros Nesse caso o Teorema Central do Limite permite concluir qual a distribuição amostral dessa variável adiantamos tratase de uma distribuição normal 41 Distribuição amostral No caso da distribuição binomial suponhamos um experimento em que desejamos conhecer a proporção de adultos com idade inferior aos 30 anos e que possuem casa própria Para essa análise devemos definir qual a variável aleatória 𝑿𝑿 que registra essa informação Note que se trata de uma variável binomial visto que pode assumir apenas dois valores ie 𝑿𝑿 𝟏𝟏 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊í𝒗𝒗𝒊𝒊𝒊𝒊𝒗𝒗𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 𝟎𝟎 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒗𝒗í𝒊𝒊𝒗𝒗𝒐𝒐 𝒊𝒊ã𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 Como tal variável possui uma distribuição de Bernoulli percebemos que 𝝁𝝁 𝑬𝑬𝑿𝑿 𝒑𝒑 𝝈𝝈𝟐𝟐 𝑽𝑽𝒄𝒄𝒑𝒑𝑿𝑿 𝒑𝒑𝟏𝟏 𝒑𝒑 Em que 𝒑𝒑 representa 𝑷𝑷𝑿𝑿 𝟏𝟏 Como comentado anteriormente não temos condição de obter informação acerca de todos os elementos da população Assim devemos realizar uma amostragem extraindo uma amostra aleatória 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒊𝒊 de 𝒊𝒊 termos sem reposição Indicando por 𝒀𝒀𝒊𝒊 o total de indivíduos que possuem casa própria nessa amostra podemos verificar que 𝒀𝒀𝒊𝒊𝑩𝑩𝒊𝒊𝒊𝒊𝒐𝒐𝑩𝑩𝒊𝒊𝒄𝒄𝑩𝑩𝒊𝒊 𝒑𝒑 Ou seja 𝒀𝒀𝒊𝒊 segue uma distribuição de Bernoulli Lembrese de que sendo assim Os números do jogo obra de Chris Anderson e David Sally mostra como a ciência estatística traz formas diferentes de compreender o papel da previsibilidade e da aleatoriedade Tudo isso tendo como pano de fundo o futebol ANDERSON C SALLY D Os números do jogo por que tudo o que você sabe sobre futebol está errado São Paulo Paralela 2013 4 DISTRIBUIÇÃO AMOSTRAL DE UMA VARIÁVEL ALEATÓRIA BINOMIAL Em vários modelos teremos uma variável aleatória binomial ou seja aquela que só pode assumir um entre dois possíveis valores sim ou não desligado ou ligado forte ou fraco 𝟎𝟎 ou 𝟏𝟏 entre outros Nesse caso o Teorema Central do Limite permite concluir qual a distribuição amostral dessa variável adiantamos tratase de uma distribuição normal 41 Distribuição amostral No caso da distribuição binomial suponhamos um experimento em que desejamos conhecer a proporção de adultos com idade inferior aos 30 anos e que possuem casa própria Para essa análise devemos definir qual a variável aleatória 𝑿𝑿 que registra essa informação Note que se trata de uma variável binomial visto que pode assumir apenas dois valores ie 𝑿𝑿 𝟏𝟏 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊í𝒗𝒗𝒊𝒊𝒊𝒊𝒗𝒗𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 𝟎𝟎 𝒔𝒔𝒔𝒔 𝒐𝒐 𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒗𝒗í𝒊𝒊𝒗𝒗𝒐𝒐 𝒊𝒊ã𝒐𝒐 𝒑𝒑𝒐𝒐𝒔𝒔𝒔𝒔𝒗𝒗𝒊𝒊 𝒄𝒄𝒄𝒄𝒔𝒔𝒄𝒄 𝒑𝒑𝒑𝒑ó𝒑𝒑𝒑𝒑𝒊𝒊𝒄𝒄 Como tal variável possui uma distribuição de Bernoulli percebemos que 𝝁𝝁 𝑬𝑬𝑿𝑿 𝒑𝒑 𝝈𝝈𝟐𝟐 𝑽𝑽𝒄𝒄𝒑𝒑𝑿𝑿 𝒑𝒑𝟏𝟏 𝒑𝒑 Em que 𝒑𝒑 representa 𝑷𝑷𝑿𝑿 𝟏𝟏 Como comentado anteriormente não temos condição de obter informação acerca de todos os elementos da população Assim devemos realizar uma amostragem extraindo uma amostra aleatória 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒊𝒊 de 𝒊𝒊 termos sem reposição Indicando por 𝒀𝒀𝒊𝒊 o total de indivíduos que possuem casa própria nessa amostra podemos verificar que 𝒀𝒀𝒊𝒊𝑩𝑩𝒊𝒊𝒊𝒊𝒐𝒐𝑩𝑩𝒊𝒊𝒄𝒄𝑩𝑩𝒊𝒊 𝒑𝒑 Ou seja 𝒀𝒀𝒊𝒊 segue uma distribuição de Bernoulli Lembrese de que sendo assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝒏𝒏 𝒌𝒌 𝒑𝒑𝒌𝒌𝟏𝟏 𝒑𝒑𝒏𝒏𝒌𝒌 Definindo como 𝒑𝒑 a proporção de indivíduos que possuem casa própria podemos escrever 𝒑𝒑 𝒀𝒀𝒏𝒏 𝒏𝒏 Assim 𝑷𝑷𝒀𝒀𝒏𝒏 𝒌𝒌 𝑷𝑷 𝒀𝒀𝒏𝒏 𝒏𝒏 𝒌𝒌 𝒏𝒏 𝑷𝑷 𝒑𝒑 𝒌𝒌 𝒏𝒏 O que significa que a distribuição amostral de 𝒑𝒑 pode ser obtida da distribuição de 𝒀𝒀𝒏𝒏 e como 𝒀𝒀𝒏𝒏 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 com distribuição de Bernoulli com média 𝝁𝝁 𝒑𝒑 e variância 𝝈𝝈𝟐𝟐 𝒑𝒑𝟏𝟏 𝒑𝒑 podemos escrever 𝒀𝒀𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒏𝒏 𝒊𝒊𝟏𝟏 𝒏𝒏𝑿𝑿 Ao utilizarmos o Teorema Central do Limite podemos concluir que 𝑿𝑿 terá distribuição aproximadamente normal com média 𝒑𝒑 e variância 𝒑𝒑𝟏𝟏 𝒑𝒑𝒏𝒏 ou seja 𝑿𝑿𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 E por consequência 𝒀𝒀𝒏𝒏𝑵𝑵𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑𝟏𝟏 𝒑𝒑 Observando que 𝑿𝑿 𝒑𝒑 concluímos que para 𝒏𝒏 a distribuição amostral de 𝒑𝒑 é aproximadamente normal 𝒑𝒑𝑵𝑵 𝒑𝒑 𝒑𝒑𝟏𝟏 𝒑𝒑 𝒏𝒏 42 Estudo de Caso porcentagem de pets que passam dos 10 anos de vida Imagine que seu filho gostaria de ter um pet novo e você está preocupadoa se este animal passaria dos 10 anos de vida Como você não tem condições suficientes de identificar o tempo de vida de cada um dos elementos animais dessa população deseja estimar essa porcentagem com base em um pequeno conjunto de dados Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado UNIDADE 01 22 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Suponha que você tenha dados obtidos de 10 animais obtendo o seguinte resultado Assim podemos notar que entre os pets analisados os únicos que viveram mais de 10 anos foram aqueles observados em X1 X5 e X10 Veja que a quantidade de sobreviventes nesse modelo é dada por E a probabilidade estimada de que um pet sobreviva por mais de 10 anos é dada por Sabendo que se trata de uma distribuição binomial caso conhecêssemos a priori a proba bilidade real p de sobrevivência poderíamos calcular a probabilidade de obter p 03 para uma amostra de tamanho n10 Veja que nesse caso Assim se a probabilidade real for p04 então p30215 indicando que nessa distribuição existe uma chance de 215 de a amostra coletada apresentar p 03 Para prosseguirmos imagine que 1000 pais estão com a mesma preocupação e resolvem de forma independente realizar a mesma pesquisa Para a análise desse cenário suponha que a po pulação tenha uma proporção de sobrevivência real dada por p03 Agora cada pai pesquisador observará em sua amostra de 10 pets um resultado diferente o primeiro pai poderá observar p 05 o segundo observará p 02 e assim por diante A Tabela 3 apresenta a distribuição p de encontrada por cada pesquisador TABELA 3 PROPORÇÃO DE PETS SOBREVIVENTES ALÉM DOS 10 ANOS DE IDADE ENCONTRADA POR DIVERSOS PAIS PESQUISADORES p n p n 0 29 06 41 01 122 07 7 02 240 08 1 03 253 09 0 04 200 1 0 05 107 Fonte O autor 2020 𝑿𝑿 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐚𝐚ã𝐨𝐨 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝑿𝑿𝟏𝟏 𝟏𝟏 𝑿𝑿𝟐𝟐 𝟏𝟏 𝑿𝑿𝟑𝟑 𝟏𝟏 𝑿𝑿𝟒𝟒 𝟏𝟏 𝑿𝑿𝟓𝟓 𝟏𝟏 𝑿𝑿𝟔𝟔 𝟏𝟏 𝑿𝑿𝟕𝟕 𝟏𝟏 𝑿𝑿𝟖𝟖 𝟏𝟏 𝑿𝑿𝟗𝟗 𝟏𝟏 𝑿𝑿𝟏𝟏𝟏𝟏 𝟏𝟏 Assim podemos notar que entre os pets analisados os únicos que viveram mais de 10 anos foram aqueles observados em 𝑿𝑿𝟏𝟏 𝑿𝑿𝟓𝟓 e 𝑿𝑿𝟏𝟏𝟏𝟏 Veja que a quantidade de sobreviventes nesse modelo é dada por 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟑𝟑 E a probabilidade estimada de que um pet sobreviva por mais de 10 anos é dada por 𝒑𝒑 𝟑𝟑 𝟏𝟏𝟏𝟏 𝟏𝟏 𝟑𝟑 Sabendo que se trata de uma distribuição binomial caso conhecêssemos a priori a probabilidade real 𝒑𝒑 de sobrevivência poderíamos calcular a probabilidade de obter 𝒑𝒑 𝟏𝟏 𝟑𝟑 para uma amostra de tamanho 𝒏𝒏 𝟏𝟏𝟏𝟏 Veja que nesse caso 𝒑𝒑𝟑𝟑 𝟏𝟏𝟏𝟏 𝟑𝟑 𝒑𝒑𝟑𝟑𝟏𝟏 𝒑𝒑𝟕𝟕 Assim se a probabilidade real for 𝒑𝒑 𝟏𝟏 𝟒𝟒 então 𝒑𝒑𝟑𝟑 𝟏𝟏 𝟐𝟐𝟏𝟏𝟓𝟓 indicando que nessa distribuição existe uma chance de 𝟐𝟐𝟏𝟏 𝟓𝟓 de a amostra coletada apresentar 𝒑𝒑 𝟏𝟏 𝟑𝟑 Para prosseguirmos imagine que 1000 pais estão com a mesma preocupação e resolvem de forma independente realizar a mesma pesquisa Para a análise desse cenário suponha que a população tenha uma proporção de sobrevivência real dada por 𝒑𝒑 𝟏𝟏 𝟑𝟑 Agora cada pai pesquisador observará em sua amostra de 10 pets um resultado diferente o primeiro pai poderá observar 𝒑𝒑 𝟏𝟏 𝟓𝟓 o segundo observará 𝒑𝒑 𝟏𝟏 𝟐𝟐 e assim por diante A Tabela 3 apresenta a distribuição de 𝒑𝒑 encontrada por cada pesquisador 𝑿𝑿 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐚𝐚ã𝐨𝐨 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝑿𝑿𝟏𝟏 𝟏𝟏 𝑿𝑿𝟐𝟐 𝟏𝟏 𝑿𝑿𝟑𝟑 𝟏𝟏 𝑿𝑿𝟒𝟒 𝟏𝟏 𝑿𝑿𝟓𝟓 𝟏𝟏 𝑿𝑿𝟔𝟔 𝟏𝟏 𝑿𝑿𝟕𝟕 𝟏𝟏 𝑿𝑿𝟖𝟖 𝟏𝟏 𝑿𝑿𝟗𝟗 𝟏𝟏 𝑿𝑿𝟏𝟏𝟏𝟏 𝟏𝟏 Assim podemos notar que entre os pets analisados os únicos que viveram mais de 10 anos foram aqueles observados em 𝑿𝑿𝟏𝟏 𝑿𝑿𝟓𝟓 e 𝑿𝑿𝟏𝟏𝟏𝟏 Veja que a quantidade de sobreviventes nesse modelo é dada por 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟑𝟑 E a probabilidade estimada de que um pet sobreviva por mais de 10 anos é dada por 𝒑𝒑 𝟑𝟑 𝟏𝟏𝟏𝟏 𝟏𝟏 𝟑𝟑 Sabendo que se trata de uma distribuição binomial caso conhecêssemos a priori a probabilidade real 𝒑𝒑 de sobrevivência poderíamos calcular a probabilidade de obter 𝒑𝒑 𝟏𝟏 𝟑𝟑 para uma amostra de tamanho 𝒏𝒏 𝟏𝟏𝟏𝟏 Veja que nesse caso 𝒑𝒑𝟑𝟑 𝟏𝟏𝟏𝟏 𝟑𝟑 𝒑𝒑𝟑𝟑𝟏𝟏 𝒑𝒑𝟕𝟕 Assim se a probabilidade real for 𝒑𝒑 𝟏𝟏 𝟒𝟒 então 𝒑𝒑𝟑𝟑 𝟏𝟏 𝟐𝟐𝟏𝟏𝟓𝟓 indicando que nessa distribuição existe uma chance de 𝟐𝟐𝟏𝟏 𝟓𝟓 de a amostra coletada apresentar 𝒑𝒑 𝟏𝟏 𝟑𝟑 Para prosseguirmos imagine que 1000 pais estão com a mesma preocupação e resolvem de forma independente realizar a mesma pesquisa Para a análise desse cenário suponha que a população tenha uma proporção de sobrevivência real dada por 𝒑𝒑 𝟏𝟏 𝟑𝟑 Agora cada pai pesquisador observará em sua amostra de 10 pets um resultado diferente o primeiro pai poderá observar 𝒑𝒑 𝟏𝟏 𝟓𝟓 o segundo observará 𝒑𝒑 𝟏𝟏 𝟐𝟐 e assim por diante A Tabela 3 apresenta a distribuição de 𝒑𝒑 encontrada por cada pesquisador 𝑿𝑿 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐚𝐚ã𝐨𝐨 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝑿𝑿𝟏𝟏 𝟏𝟏 𝑿𝑿𝟐𝟐 𝟏𝟏 𝑿𝑿𝟑𝟑 𝟏𝟏 𝑿𝑿𝟒𝟒 𝟏𝟏 𝑿𝑿𝟓𝟓 𝟏𝟏 𝑿𝑿𝟔𝟔 𝟏𝟏 𝑿𝑿𝟕𝟕 𝟏𝟏 𝑿𝑿𝟖𝟖 𝟏𝟏 𝑿𝑿𝟗𝟗 𝟏𝟏 𝑿𝑿𝟏𝟏𝟏𝟏 𝟏𝟏 Assim podemos notar que entre os pets analisados os únicos que viveram mais de 10 anos foram aqueles observados em 𝑿𝑿𝟏𝟏 𝑿𝑿𝟓𝟓 e 𝑿𝑿𝟏𝟏𝟏𝟏 Veja que a quantidade de sobreviventes nesse modelo é dada por 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟑𝟑 E a probabilidade estimada de que um pet sobreviva por mais de 10 anos é dada por 𝒑𝒑 𝟑𝟑 𝟏𝟏𝟏𝟏 𝟏𝟏 𝟑𝟑 Sabendo que se trata de uma distribuição binomial caso conhecêssemos a priori a probabilidade real 𝒑𝒑 de sobrevivência poderíamos calcular a probabilidade de obter 𝒑𝒑 𝟏𝟏 𝟑𝟑 para uma amostra de tamanho 𝒏𝒏 𝟏𝟏𝟏𝟏 Veja que nesse caso 𝒑𝒑𝟑𝟑 𝟏𝟏𝟏𝟏 𝟑𝟑 𝒑𝒑𝟑𝟑𝟏𝟏 𝒑𝒑𝟕𝟕 Assim se a probabilidade real for 𝒑𝒑 𝟏𝟏 𝟒𝟒 então 𝒑𝒑𝟑𝟑 𝟏𝟏 𝟐𝟐𝟏𝟏𝟓𝟓 indicando que nessa distribuição existe uma chance de 𝟐𝟐𝟏𝟏 𝟓𝟓 de a amostra coletada apresentar 𝒑𝒑 𝟏𝟏 𝟑𝟑 Para prosseguirmos imagine que 1000 pais estão com a mesma preocupação e resolvem de forma independente realizar a mesma pesquisa Para a análise desse cenário suponha que a população tenha uma proporção de sobrevivência real dada por 𝒑𝒑 𝟏𝟏 𝟑𝟑 Agora cada pai pesquisador observará em sua amostra de 10 pets um resultado diferente o primeiro pai poderá observar 𝒑𝒑 𝟏𝟏 𝟓𝟓 o segundo observará 𝒑𝒑 𝟏𝟏 𝟐𝟐 e assim por diante A Tabela 3 apresenta a distribuição de 𝒑𝒑 encontrada por cada pesquisador 𝑿𝑿 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝟏𝟏 𝐬𝐬𝐬𝐬 𝐨𝐨 𝒑𝒑𝒑𝒑𝒑𝒑 𝐚𝐚ã𝐨𝐨 𝐩𝐩𝐩𝐩𝐬𝐬𝐬𝐬𝐩𝐩 𝐝𝐝𝐨𝐨𝐬𝐬 𝟏𝟏𝟏𝟏 𝐩𝐩𝐚𝐚𝐨𝐨𝐬𝐬 𝐝𝐝𝐬𝐬 𝐯𝐯𝐯𝐯𝐝𝐝𝐩𝐩 𝑿𝑿𝟏𝟏 𝟏𝟏 𝑿𝑿𝟐𝟐 𝟏𝟏 𝑿𝑿𝟑𝟑 𝟏𝟏 𝑿𝑿𝟒𝟒 𝟏𝟏 𝑿𝑿𝟓𝟓 𝟏𝟏 𝑿𝑿𝟔𝟔 𝟏𝟏 𝑿𝑿𝟕𝟕 𝟏𝟏 𝑿𝑿𝟖𝟖 𝟏𝟏 𝑿𝑿𝟗𝟗 𝟏𝟏 𝑿𝑿𝟏𝟏𝟏𝟏 𝟏𝟏 Assim podemos notar que entre os pets analisados os únicos que viveram mais de 10 anos foram aqueles observados em 𝑿𝑿𝟏𝟏 𝑿𝑿𝟓𝟓 e 𝑿𝑿𝟏𝟏𝟏𝟏 Veja que a quantidade de sobreviventes nesse modelo é dada por 𝑿𝑿𝒊𝒊 𝒏𝒏 𝒊𝒊𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟑𝟑 E a probabilidade estimada de que um pet sobreviva por mais de 10 anos é dada por 𝒑𝒑 𝟑𝟑 𝟏𝟏𝟏𝟏 𝟏𝟏 𝟑𝟑 Sabendo que se trata de uma distribuição binomial caso conhecêssemos a priori a probabilidade real 𝒑𝒑 de sobrevivência poderíamos calcular a probabilidade de obter 𝒑𝒑 𝟏𝟏 𝟑𝟑 para uma amostra de tamanho 𝒏𝒏 𝟏𝟏𝟏𝟏 Veja que nesse caso 𝒑𝒑𝟑𝟑 𝟏𝟏𝟏𝟏 𝟑𝟑 𝒑𝒑𝟑𝟑𝟏𝟏 𝒑𝒑𝟕𝟕 Assim se a probabilidade real for 𝒑𝒑 𝟏𝟏 𝟒𝟒 então 𝒑𝒑𝟑𝟑 𝟏𝟏 𝟐𝟐𝟏𝟏𝟓𝟓 indicando que nessa distribuição existe uma chance de 𝟐𝟐𝟏𝟏 𝟓𝟓 de a amostra coletada apresentar 𝒑𝒑 𝟏𝟏 𝟑𝟑 Para prosseguirmos imagine que 1000 pais estão com a mesma preocupação e resolvem de forma independente realizar a mesma pesquisa Para a análise desse cenário suponha que a população tenha uma proporção de sobrevivência real dada por 𝒑𝒑 𝟏𝟏 𝟑𝟑 Agora cada pai pesquisador observará em sua amostra de 10 pets um resultado diferente o primeiro pai poderá observar 𝒑𝒑 𝟏𝟏 𝟓𝟓 o segundo observará 𝒑𝒑 𝟏𝟏 𝟐𝟐 e assim por diante A Tabela 3 apresenta a distribuição de 𝒑𝒑 encontrada por cada pesquisador UNIDADE 01 23 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Veja que quando desenhamos o gráfico dessa distribuição encontramos uma distribuição aproximadamente normal validando o resultado do Teorema Central do Limite FIGURA 4 GRÁFICO DA PROPORÇÃO DE PETS SOBREVIVENTES VERSUS A QUANTIDADE DE RESPECTIVOS PAIS PESQUISADORES QUE ENCONTRARAM ESSAS PROPORÇÕES Fonte O autor 2020 Observe que o gráfico apresenta a proporção de pets sobreviventes contra a quantidade de respectivos pais pesquisadores que encontraram cada uma dessas proporções Note que essa se aproxima de uma distribuição normal em torno de p03 quando realizamos uma grande quantida de de experimentos Note também que para n1000 Ep 0299 enquanto Varp 002125124 o que reforça que Ep EX μ no qual μ representa a média populacional para o caso de n Lembrese de que sabendo que a população possui uma distribuição de Bernoulli sabemos que EX p03 e VarXp1p0307021 5 DISTRIBUIÇÃO AMOSTRAL DE DADOS NORMAIS No caso em que os dados são descritos de forma contínua e possuem distribuição normal com média μ e variância σ2 vamos verificar o que ocorre com uma amostra aleatória concluindo que ela também se comporta como uma distribuição normal com média μ e variân cia σ2n ou seja O Guia mangá de estatística de Shin Takahashi e Iroha Inoue apresenta os principais conceitos estatísticos de uma forma distinta a partir de um mangá Para quem está familiarizado com esse tipo de leitura essa pode ser uma estratégia interessante para aprender estatística com diversão TAKAHASHI S INOUE I Guia mangá de estatística São Paulo Novatec 2010 LEITURA Leitura O Guia mangá de estatística de Shin Takahashi e Iroha Inoue apresenta os principais conceitos estatísticos de uma forma distinta a partir de um mangá Para quem está familiarizado com esse tipo de leitura essa pode ser uma estratégia interessante para aprender estatística com diversão TAKAHASHI S INOUE I Guia mangá de estatística São Paulo Novatec 2010 5 DISTRIBUIÇÃO AMOSTRAL DE DADOS NORMAIS No caso em que os dados são descritos de forma contínua e possuem distribuição normal com média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 vamos verificar o que ocorre com uma amostra aleatória 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 concluindo que ela também se comporta como uma distribuição normal com média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐𝒏𝒏 ou seja 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏𝑵𝑵 𝝁𝝁 𝝈𝝈𝟐𝟐 𝒏𝒏 51 Estudo de Caso tempo para atingir o nível de corpos cetônicos aceitável Dentre as dietas para emagrecimento mais famosas podemos citar a dieta cetogênica que busca uma alimentação com o objetivo de aumentar o nível de corpos cetônicos no sangue Esses são responsáveis pela quebra de gordura no organismo e aumentam significativamente após uma determinada quantidade de horas em jejum Suponha que um pesquisador deseje saber qual o tempo em horas para atingir o nível de corpos cetônicos aceitável para essa dieta Imagine que esse teste é realizado em 20 indivíduos encontrando a média amostral 𝑿𝑿 𝟖𝟖 𝟐𝟐 horas Note que se essa pesquisa fosse realizada com outros 20 indivíduos poderíamos encontrar 𝑿𝑿 𝟏𝟏𝟏𝟏 𝟏𝟏 horas repetindo o estudo encontraríamos 𝑿𝑿 𝟐𝟐 𝟔𝟔 horas e assim por diante Assim cada pesquisa realizada encontra uma variação entre as médias amostrais Para descobrirmos o valor real de 𝑿𝑿 deveríamos realizar essa pesquisa infinitas vezes o que é notavelmente inviável UNIDADE 01 24 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 51 ESTUDO DE CASO TEMPO PARA ATINGIR O NÍVEL DE CORPOS CETÔNICOS ACEITÁVEL Dentre as dietas para emagrecimento mais famosas podemos citar a dieta cetogênica que busca uma alimentação com o objetivo de aumentar o nível de corpos cetônicos no sangue Esses são responsáveis pela quebra de gordura no organismo e aumentam significativamente após uma determinada quantidade de horas em jejum Suponha que um pesquisador deseje saber qual o tempo em horas para atingir o nível de corpos cetônicos aceitável para essa dieta Imagine que esse teste é realizado em 20 indivíduos encontrando a média amostral X 82 horas Note que se essa pesquisa fosse realizada com outros 20 indivíduos poderíamos encontrar X 133 horas repetindo o estudo encontraríamos X 26 horas e assim por diante Assim cada pesquisa realizada encontra uma variação entre as médias amostrais Para descobrir mos o valor real de X deveríamos realizar essa pesquisa infinitas vezes o que é notavelmente inviável Então vejamos uma possível simulação de cenário para esse experimento Vamos considerar uma população normalmente distribuída que possui μ10 h e variância σ24 A Tabela 4 apresen ta a quantidade de horas que cada um dos 20 indivíduos das 15 amostras demorou para atingir o nível de corpos cetônicos aceitável em jejum TABELA 4 DADOS SOBRE A QUANTIDADE DE HORAS PARA OS 20 INDIVÍDUOS DE CADA 15 AMOSTRAS ATINGI REM O NÍVEL DE CORPOS CETÔNICOS ACEITÁVEL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 798 1070 741 992 962 844 1446 559 756 866 967 1140 1218 1279 1206 1516 1022 978 1182 939 589 840 1213 1372 1242 1069 811 1025 758 784 813 1430 669 1001 990 1173 1192 877 1098 1024 641 868 998 830 1223 984 792 1255 891 750 1043 1299 1122 752 850 873 973 949 787 797 915 838 952 1039 1363 863 908 1217 1080 818 832 1270 895 612 1252 1080 1236 1131 812 1225 1260 811 1441 986 837 1148 842 1148 1012 1269 743 1107 871 1406 1158 1006 1058 665 1321 1029 1365 1075 1070 1298 1136 1061 1080 909 885 1293 1386 1066 1176 1112 777 1170 1038 1289 1100 1005 964 1167 835 951 749 863 1222 1091 1107 699 908 990 1008 985 924 1044 890 772 510 956 847 1578 1145 738 1021 823 1434 778 1231 1063 1098 964 1161 1180 737 868 1253 968 1063 964 818 886 1111 858 970 996 990 889 1094 1249 940 1097 613 964 1293 990 1317 1026 923 1143 950 1093 946 609 1090 974 1193 1213 1071 858 940 1205 1075 1286 1048 1530 1058 1074 812 591 935 527 1022 1222 982 1224 897 1254 871 1128 813 881 1072 752 1186 774 1253 742 1038 1028 1127 885 1119 611 898 947 1146 905 922 1006 1246 689 995 1254 686 770 1255 1166 750 1152 914 902 1198 852 642 724 1004 579 964 957 966 1003 936 1180 988 1147 1356 926 819 909 883 1018 960 877 923 850 1221 809 1067 1168 965 811 1008 1085 799 1246 1030 858 984 1398 1064 872 878 1222 996 1267 896 843 1053 1052 1018 849 1105 1027 732 928 1014 1220 751 959 Fonte O autor 2020 Com base nesses dados foi possível gerar as médias amostrais obtendo os dados contidos na Tabela 5 Leitura O Guia mangá de estatística de Shin Takahashi e Iroha Inoue apresenta os principais conceitos estatísticos de uma forma distinta a partir de um mangá Para quem está familiarizado com esse tipo de leitura essa pode ser uma estratégia interessante para aprender estatística com diversão TAKAHASHI S INOUE I Guia mangá de estatística São Paulo Novatec 2010 5 DISTRIBUIÇÃO AMOSTRAL DE DADOS NORMAIS No caso em que os dados são descritos de forma contínua e possuem distribuição normal com média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐 vamos verificar o que ocorre com uma amostra aleatória 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏 concluindo que ela também se comporta como uma distribuição normal com média 𝝁𝝁 e variância 𝝈𝝈𝟐𝟐𝒏𝒏 ou seja 𝑿𝑿𝟏𝟏 𝑿𝑿𝟐𝟐 𝑿𝑿𝒏𝒏𝑵𝑵 𝝁𝝁 𝝈𝝈𝟐𝟐 𝒏𝒏 51 Estudo de Caso tempo para atingir o nível de corpos cetônicos aceitável Dentre as dietas para emagrecimento mais famosas podemos citar a dieta cetogênica que busca uma alimentação com o objetivo de aumentar o nível de corpos cetônicos no sangue Esses são responsáveis pela quebra de gordura no organismo e aumentam significativamente após uma determinada quantidade de horas em jejum Suponha que um pesquisador deseje saber qual o tempo em horas para atingir o nível de corpos cetônicos aceitável para essa dieta Imagine que esse teste é realizado em 20 indivíduos encontrando a média amostral 𝑿𝑿 𝟖𝟖 𝟐𝟐 horas Note que se essa pesquisa fosse realizada com outros 20 indivíduos poderíamos encontrar 𝑿𝑿 𝟏𝟏𝟏𝟏 𝟏𝟏 horas repetindo o estudo encontraríamos 𝑿𝑿 𝟐𝟐 𝟔𝟔 horas e assim por diante Assim cada pesquisa realizada encontra uma variação entre as médias amostrais Para descobrirmos o valor real de 𝑿𝑿 deveríamos realizar essa pesquisa infinitas vezes o que é notavelmente inviável UNIDADE 01 25 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA TABELA 5 MÉDIAS AMOSTRAIS DO TEMPO PARA QUE OS CORPOS CETÔNICOS NO SANGUE ATINJAM UM NÍVEL ACEITÁVEL 1 1027 2 1037 3 957 4 942 5 982 6 974 7 1067 8 978 9 1039 10 949 11 974 12 1050 13 1049 14 974 15 1055 Fonte O autor 2020 Com base nessas médias amostrais podemos desenhar um gráfico representando como essa distribuição se comporta Nesse caso decidimos por desenvolver um histograma iniciando em 94 com passo de 02 o qual pode ser conferido na Figura 5 FIGURA 5 HISTOGRAMA APRESENTANDO A DISTRIBUIÇÃO DAS MÉDIAS AMOSTRAIS PARA 15 AMOSTRAS Fonte O autor 2020 Note que esse histograma já começa a apresentar uma distribuição aproximadamente normal para os dados coletados Quando calculamos a média nesse cenário encontramos 100336 e des viopadrão de 0435847 Observe também que aumentar a quantidade de amostras faz com que os dados se tornem cada vez mais próximos de uma distribuição normal A Figura 6 apresenta o histograma gerado para um total de 200 amostras n200 Nesse caso o gráfico encontrado visivelmente está mais próximo de uma distribuição normal UNIDADE 01 26 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 6 HISTOGRAMA DESENVOLVIDO PARA A MÉDIA AMOSTRAL DOS 20 INDIVÍDUOS ENTRE AS 200 AMOSTRAS Fonte O autor 2020 Ao calcularmos a média das médias amostrais encontramos μ1002 e para o desviopadrão s2048 o que se aproxima muito do valor real do começo do problema Para o mesmo experimento mas considerando uma quantidade de 10000 amostras n10000 obtemos o histograma da Figura 7 FIGURA 7 HISTOGRAMA DESENVOLVIDO PARA A MÉDIA AMOSTRAL DOS 20 INDIVÍDUOS ENTRE AS 10000 AMOSTRAS Fonte O autor 2020 Nesse gráfico podemos observar que a distribuição está cada vez mais próxima de Fonte O autor 2020 Nesse gráfico podemos observar que a distribuição está cada vez mais próxima de 𝑁𝑁 𝜇𝜇 𝜎𝜎 𝑛𝑛 𝑁𝑁 10 2 20 𝑁𝑁10 04472 Tanto que ao se calcular sua média amostral e desviopadrão encontramos 𝜇𝜇 99993 e 𝑠𝑠2 04500 Vale reforçar que esse resultado se deve ao Teorema Central do Limite mostrando que as médias amostrais para uma quantidade de amostras 𝑛𝑛 tende à média populacional 52 Distribuição quiquadrado No caso da estatística 𝑠𝑠2 podemos encontrar a sua distribuição Essa é chamada de quiquadrado e representa um estimador não viciado da variância 𝜎𝜎2 Dada a função densidade de probabilidade 𝑓𝑓𝑋𝑋𝑥𝑥 1 Γ 𝑘𝑘 2 1 2 𝑘𝑘 2 𝑥𝑥 𝑘𝑘 21𝑒𝑒𝑥𝑥 2Π0 𝑥𝑥 para uma variável aleatória 𝑋𝑋 dizemos que 𝑋𝑋 tem uma distribuição quiquadrado com 𝑘𝑘 ℕ graus de liberdade Para as variáveis aleatórias 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 independentes e normalmente distribuídas com médias 𝜇𝜇𝑖𝑖 e variância 𝜎𝜎𝑖𝑖 2 verificamos que 𝑈𝑈 𝑋𝑋𝑖𝑖 𝜇𝜇𝑖𝑖 𝜎𝜎𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 UNIDADE 01 27 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Tanto que ao se calcular sua média amostral e desviopadrão encontramos μ99993 e s204500 Vale reforçar que esse resultado se deve ao Teorema Central do Limite mostrando que as mé dias amostrais para uma quantidade de amostras n tende à média populacional 52 DISTRIBUIÇÃO QUIQUADRADO No caso da estatística s2 podemos encontrar a sua distribuição Essa é chamada de quiquadrado e representa um estimador não viciado da variância σ2 Dada a função densidade de probabilidade para uma variável aleatória X dizemos que X tem uma distribuição quiquadrado com kN graus de liberdade Para as variáveis aleatórias X1 X2 Xn independentes e normalmente distri buídas com médias μi e variância σi 2 verificamos que possui uma distribuição quiquadrado com n graus de liberdade Além disso sendo X1 X2 Xn uma amostra aleatória com distribuição normal padrão pode mos afirmar que X e possui uma distribuição quiquadrado com 𝑛𝑛 graus de liberdade Além disso sendo 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 uma amostra aleatória com distribuição normal padrão podemos afirmar que 𝑋𝑋 e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 são independentes e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Disso extraise que se 𝑠𝑠2 representa a variância amostral de uma amostra 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 aleatória que possui uma distribuição normal de média 𝜇𝜇 e variância 𝜎𝜎2 então 𝑈𝑈 𝑛𝑛 1𝑠𝑠2 𝜎𝜎2 também tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Para analisar esse resultado vamos revisitar a Tabela 4 que apresenta os dados dos 20 indivíduos de cada uma das 15 amostras sobre a quantidade horas necessária para que o nível de corpos cetônicos fique aceitável Agora em vez de calcular a média das amostras a Tabela 6 apresenta o resultado do cálculo da variância do tempo para que o nível dos corpos cetônicos no sangue atinja um nível aceitável a cada uma das amostras Tabela 6 Variâncias amostrais do tempo para que os corpos cetônicos no sangue atinjam um nível aceitável 1 1027 2 1037 3 957 4 942 5 982 6 974 7 1067 8 978 9 1039 10 949 11 974 12 1050 13 1049 14 974 são independentes e possui uma distribuição quiquadrado com 𝑛𝑛 graus de liberdade Além disso sendo 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 uma amostra aleatória com distribuição normal padrão podemos afirmar que 𝑋𝑋 e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 são independentes e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Disso extraise que se 𝑠𝑠2 representa a variância amostral de uma amostra 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 aleatória que possui uma distribuição normal de média 𝜇𝜇 e variância 𝜎𝜎2 então 𝑈𝑈 𝑛𝑛 1𝑠𝑠2 𝜎𝜎2 também tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Para analisar esse resultado vamos revisitar a Tabela 4 que apresenta os dados dos 20 indivíduos de cada uma das 15 amostras sobre a quantidade horas necessária para que o nível de corpos cetônicos fique aceitável Agora em vez de calcular a média das amostras a Tabela 6 apresenta o resultado do cálculo da variância do tempo para que o nível dos corpos cetônicos no sangue atinja um nível aceitável a cada uma das amostras Tabela 6 Variâncias amostrais do tempo para que os corpos cetônicos no sangue atinjam um nível aceitável 1 1027 2 1037 3 957 4 942 5 982 6 974 7 1067 8 978 9 1039 10 949 11 974 12 1050 13 1049 14 974 tem uma distribuição quiquadrado com n1 graus de liberdade Disso extraise que se s2 representa a variância amostral de uma amostra X1 X2 Xn aleatória que possui uma distribuição normal de média μ e variância σ2 então também tem uma distribuição quiquadrado com n1 graus de liberdade Para analisar esse resultado vamos revisitar a Tabela 4 que apresenta os dados dos 20 indivídu os de cada uma das 15 amostras sobre a quantidade horas necessária para que o nível de corpos cetônicos fique aceitável Agora em vez de calcular a média das amostras a Tabela 6 apresenta o resultado do cálculo da variância do tempo para que o nível dos corpos cetônicos no sangue atinja um nível aceitável a cada uma das amostras Fonte O autor 2020 Nesse gráfico podemos observar que a distribuição está cada vez mais próxima de 𝑁𝑁 𝜇𝜇 𝜎𝜎 𝑛𝑛 𝑁𝑁 10 2 20 𝑁𝑁10 04472 Tanto que ao se calcular sua média amostral e desviopadrão encontramos 𝜇𝜇 99993 e 𝑠𝑠2 04500 Vale reforçar que esse resultado se deve ao Teorema Central do Limite mostrando que as médias amostrais para uma quantidade de amostras 𝑛𝑛 tende à média populacional 52 Distribuição quiquadrado No caso da estatística 𝑠𝑠2 podemos encontrar a sua distribuição Essa é chamada de quiquadrado e representa um estimador não viciado da variância 𝜎𝜎2 Dada a função densidade de probabilidade 𝑓𝑓𝑋𝑋𝑥𝑥 1 Γ 𝑘𝑘 2 1 2 𝑘𝑘 2 𝑥𝑥 𝑘𝑘 21𝑒𝑒𝑥𝑥 2Π0 𝑥𝑥 para uma variável aleatória 𝑋𝑋 dizemos que 𝑋𝑋 tem uma distribuição quiquadrado com 𝑘𝑘 ℕ graus de liberdade Para as variáveis aleatórias 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 independentes e normalmente distribuídas com médias 𝜇𝜇𝑖𝑖 e variância 𝜎𝜎𝑖𝑖 2 verificamos que 𝑈𝑈 𝑋𝑋𝑖𝑖 𝜇𝜇𝑖𝑖 𝜎𝜎𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Fonte O autor 2020 Nesse gráfico podemos observar que a distribuição está cada vez mais próxima de 𝑁𝑁 𝜇𝜇 𝜎𝜎 𝑛𝑛 𝑁𝑁 10 2 20 𝑁𝑁10 04472 Tanto que ao se calcular sua média amostral e desviopadrão encontramos 𝜇𝜇 99993 e 𝑠𝑠2 04500 Vale reforçar que esse resultado se deve ao Teorema Central do Limite mostrando que as médias amostrais para uma quantidade de amostras 𝑛𝑛 tende à média populacional 52 Distribuição quiquadrado No caso da estatística 𝑠𝑠2 podemos encontrar a sua distribuição Essa é chamada de quiquadrado e representa um estimador não viciado da variância 𝜎𝜎2 Dada a função densidade de probabilidade 𝑓𝑓𝑋𝑋𝑥𝑥 1 Γ 𝑘𝑘 2 1 2 𝑘𝑘 2 𝑥𝑥 𝑘𝑘 21𝑒𝑒𝑥𝑥 2Π0 𝑥𝑥 para uma variável aleatória 𝑋𝑋 dizemos que 𝑋𝑋 tem uma distribuição quiquadrado com 𝑘𝑘 ℕ graus de liberdade Para as variáveis aleatórias 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 independentes e normalmente distribuídas com médias 𝜇𝜇𝑖𝑖 e variância 𝜎𝜎𝑖𝑖 2 verificamos que 𝑈𝑈 𝑋𝑋𝑖𝑖 𝜇𝜇𝑖𝑖 𝜎𝜎𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 possui uma distribuição quiquadrado com 𝑛𝑛 graus de liberdade Além disso sendo 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 uma amostra aleatória com distribuição normal padrão podemos afirmar que 𝑋𝑋 e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 são independentes e 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Disso extraise que se 𝑠𝑠2 representa a variância amostral de uma amostra 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 aleatória que possui uma distribuição normal de média 𝜇𝜇 e variância 𝜎𝜎2 então 𝑈𝑈 𝑛𝑛 1𝑠𝑠2 𝜎𝜎2 também tem uma distribuição quiquadrado com 𝑛𝑛 1 graus de liberdade Para analisar esse resultado vamos revisitar a Tabela 4 que apresenta os dados dos 20 indivíduos de cada uma das 15 amostras sobre a quantidade horas necessária para que o nível de corpos cetônicos fique aceitável Agora em vez de calcular a média das amostras a Tabela 6 apresenta o resultado do cálculo da variância do tempo para que o nível dos corpos cetônicos no sangue atinja um nível aceitável a cada uma das amostras Tabela 6 Variâncias amostrais do tempo para que os corpos cetônicos no sangue atinjam um nível aceitável 1 1027 2 1037 3 957 4 942 5 982 6 974 7 1067 8 978 9 1039 10 949 11 974 12 1050 13 1049 14 974 UNIDADE 01 28 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA TABELA 6 VARIÂNCIAS AMOSTRAIS DO TEMPO PARA QUE OS CORPOS CETÔNICOS NO SANGUE ATINJAM UM NÍVEL ACEITÁVEL 1 1027 2 1037 3 957 4 942 5 982 6 974 7 1067 8 978 9 1039 10 949 11 974 12 1050 13 1049 14 974 15 1055 Fonte O autor 2020 A Figura 8 apresenta essa mesma informação na forma de um histograma Ao calcular a média das variâncias nesse cenário encontramos 3864 e a variância das variâncias de 1817 À medida que aumentamos a quantidade de amostras essa distribuição vai se aproximando da distribuição quiquadrado FIGURA 8 HISTOGRAMA DAS VARIÂNCIAS DAS 15 AMOSTRAS ANALISADAS Fonte O autor 2020 UNIDADE 01 29 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA A Figura 9 apresenta esse mesmo modelo redesenhado para um tamanho de amostra de 1000 elementos n1000 Ao calcular a média das variâncias é 4006 e a variância é 1694 FIGURA 9 HISTOGRAMA DAS VARIÂNCIAS DAS 1000 AMOSTRAS ANALISADAS Fonte O autor 2020 Lembrese de que o Teorema Central do Limite afirma que a distribuição amostral tende a uma determinada distribuição à medida que n Isso pode ser verificado ao se analisar a Figura 10 que apresenta um histograma das variâncias para 10000 amostras n10000 Nesse caso a média das variâncias é de 4026 enquanto a variância é de 1673 Muito próximo da variância populacional Isso pode ser confirmado visto que nessa população de análise a distribuição é do tipo quiquadrado com média μ4 e variância FIGURA 10 HISTOGRAMA DAS VARIÂNCIAS DAS 10000 AMOSTRAS ANALISADAS Fonte O autor 2020 Lembrese de que o Teorema Central do Limite afirma que a distribuição amostral tende a uma determinada distribuição à medida que 𝑛𝑛 Isso pode ser verificado ao se analisar a Figura 10 que apresenta um histograma das variâncias para 10000 amostras 𝑛𝑛 10000 Nesse caso a média das variâncias é de 4026 enquanto a variância é de 1673 Muito próximo da variância populacional Isso pode ser confirmado visto que nessa população de análise a distribuição é do tipo qui quadrado com média 𝜇𝜇 4 e variância 2𝜎𝜎4 𝑛𝑛1 2𝑥𝑥16 19 1684 Figura 10 Histograma das variâncias das 10000 amostras analisadas Fonte O autor 2020 Leitura Como mentir com estatística de Darrell Huff é um dos principais livros de estatística lidos no mundo e leitura obrigatória para quem irá discutir as principais implicações dessa área A obra é famosa pela escrita simples do autor e pelas ilustrações ao tratar de um tema tão polêmico como esse HUFF D Como mentir com estatística Rio de Janeiro Intrínseca 2019 UNIDADE 01 30 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA CONSIDERAÇÕES FINAIS Nesta Unidade conseguimos abordar uma introdução à teoria da probabilidade e o que ocor re quando tentamos realizar um experimento aleatório com determinada amostra Discutimos o Teorema Central do Limite e como ele permite trazer características das distribuições amostrais Ao longo do curso iremos tratar de técnicas de regressão para determinar estimadores de um conjunto de dados e técnicas de análise de variância para discutir sobre a validade de algumas conclusões estatísticas Para ambas haverá hipóteses envolvidas e será necessário ter algum co nhecimento sobre como realizar testes de hipóteses Discutiremos sobre isso a partir da próxima Unidade Até lá Como mentir com estatística de Darrell Huff é um dos principais livros de estatística lidos no mun do e leitura obrigatória para quem irá discutir as principais implicações dessa área A obra é famo sa pela escrita simples do autor e pelas ilustrações ao tratar de um tema tão polêmico como esse HUFF D Como mentir com estatística Rio de Janeiro Intrínseca 2019 LEITURA ANOTAÇÕES UNIDADE OBJETIVOS DE APRENDIZAGEM VÍDEOS DA UNIDADE httpsbitly2Qmaiyu httpsbitly3ehtNR9 httpsbitly3g6Lwx2 02 TESTES DE HIPÓTESES Conhecer e compreender alguns dos principais testes de hipóteses a serem re alizados em distribuições normais e em distribuições binomiais UNIDADE 02 32 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA INTRODUÇÃO Caro alunoa Sem sombra de dúvida a principal aplicação da estatística é dar confiabilidade a uma deter minada hipótese ie a uma determinada afirmação Assim iremos trabalhar nesta Unidade dis cutindo alguns dos principais testes de hipóteses necessários para as análises das próximas duas Unidades Análise de Variância e Regressão Linear Note que será uma hipótese estatística quando se tratar de uma afirmação acerca dos parâmetros de uma ou várias populações Aqui os parâmetros analisados serão a média a variância o desviopa drão e a proporção os quais serão discutidos em detalhes em cada uma das seções da Unidade Você perceberá que os testes de hipóteses estarão amarrados aos conceitos de distribuição discutidos na Unidade anterior o que lhe permitirá compreender porque escolhemos essa divisão para este curso de Probabilidade e Estatística Bom estudo 1 HIPÓTESES ESTATÍSTICAS A quantidade de exemplos e usos das hipóteses estatísticas principalmente nas áreas de en genharia ie em exemplos reais é imensa Entre eles poderíamos nos imaginar como um enge nheiro mecânico interessado em investigar o funcionamento de determinado motor em relação à ingestão de gasolina Nesse cenário a taxa de ingestão é o parâmetro da distribuição que quere mos discutir Devido à aleatoriedade condição primordial dos experimentos estatísticos para cada amostra coletada o valor medido nem sempre é o mesmo Entretanto ao projetarmos o motor precisamos garantir que tal taxa seja estatisticamente igual ao valor esperado Note que esperamos um determinado resultado para a taxa de ingestão de combustível mas o resultado exato quase nunca acontece Então com que certeza podemos afirmar que a média por exemplo atende os protocolos do projeto Você já deve ter começado a perceber a dificuldade e a necessidade do problema Para contex tualizar um pouco mais suponha que o motor seja projetado para funcionar a uma taxa de inges tão de combustível de 60 mililitros por segundo Então estamos interessados em investigar se a UNIDADE 02 33 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA taxa real é de fato 60 mLs Em estatística representamos essa afirmação como uma hipótese geralmente conhecida como hipótese nula H0μ60 mLs Observe que caso essa afirmação não seja verdadeira a outra possibilidade seria que a taxa real não fosse de 60 mLs A essa hipótese damos o nome de hipótese alternativa e a denotamos da seguinte forma H1μ60 mLs Esse exemplo que acabamos de comentar configura um tipo de hipótese que chamamos de hipótese alternativa bilateral Caso o motor fosse projetado para funcionar com pelo menos 60 mLs veja que a hipótese nula e a hipótese alternativa seriam dadas por H0μ60 mLs H1μ60 mLs Nesse caso tratase de uma hipótese alternativa unilateral Ao longo da Unidade você compre enderá por que precisamos separar esses dois casos no momento de realizar a estatística de teste 11 TESTES DE HIPÓTESES ESTATÍSTICAS Os testes de hipóteses buscam levantar informações acerca dos parâmetros da população com base em uma determinada amostra Afinal sendo engenheiros mecânicos estaríamos preocupados que o motor funcionasse sempre ie não somente para as amostras testadas Até porque na maior parte dos experimentos não temos condições de investigar todas as possibilidades que poderiam ocorrer Então ao testarmos H0μ60 mLs contra H1μ60 mLs poderíamos coletar por exemplo uma amostra de n10 motores e a partir delas verificar o comportamento da média amostral X Nesta etapa do curso precisa ficar clara a diferença entre a média populacional μ ie a média real que geralmente não conseguimos medir da média amostral ie x A pergunta essencial aqui seria testando os 10 motores caso x 60 mLs poderíamos confirmar H0 E caso x fosse distante de 60 mLs poderíamos confirmar H1 A resposta aqui é nem sempre mas quase sempre Veja que ao extrair a amostra poderíamos escolher como critério que caso 55x 65 assu miríamos que μ60 Caso contrário decidiríamos que μ60 Nessa escolha a qual construímos arbitrariamente dizemos que x 65 e x 55 é considerada a região crítica na qual rejeitaremos a hipótese nula aceitando a hipótese alternativa Note que 55x 65 é considerada a região de aceitação em que aceitaríamos a hipótese nula Os valores x 55 e x 65 são conhecidos como valores críticos e representam os limites entre as regiões críticas e a região de aceitação Claro que a construção das regiões é realizada com base em alguns argumentos acerca da distribuição mas isso será feito um pouco mais adiante Antes disso precisamos ter segurança acerca do que estamos fazendo quando tomamos essa decisão Afinal como comentado nem sempre estaríamos acertando com essa estratégia Os es tatísticos separam dois erros que poderiam acontecer nesse cenário o Erro Tipo I e o Erro Tipo II UNIDADE 02 34 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Vamos supor que das 10 amostras coletadas a média encontrada foi x 54 mLs Suponhamos também que a média populacional caso medíssemos todos os motores existentes fosse de fato μ60 mLs Nesse cenário rejeitaríamos H0 visto que x está na região crítica quando na verdade ela é verdadeira Esse é o Erro Tipo I De forma similar suponhamos que x 58 mLs mas μ53 mLs Assim consideraríamos que x está na região de aceitação quando na verdade ela é falsa Esse é o Erro Tipo II Para compreender as possibilidades acerca dos testes de hipótese considere o Quadro 1 indicando as decisões tomadas QUADRO I TIPOS DE DECISÕES ACERCA DOS TESTES DE HIPÓTESES Decisão é verdadeira é falsa Aceitar Sem erro Erro Tipo II Rejeitar Erro Tipo I Sem erro Fonte O autor 2020 O interessante aqui é que podemos vincular uma probabilidade à ocorrência de cada tipo de erro A probabilidade do Erro Tipo I é denotada por α e denominada nível de significância en quanto a probabilidade do Erro Tipo II é denotada por β e denominada erro β Como discutimos na Unidade anterior o parâmetro de uma população muitas vezes segue uma determinada dis tribuição Sendo uma distribuição normal baseada em uma determinada média e desviopadrão observe que existe uma probabilidade associada a cada intervalo como indicado na Figura 1 Veja por exemplo que a chance de a observação ocorrer entre μσμσ é de 6826 FIGURA 1 PROBABILIDADES PARA A DISTRIBUIÇÃO NORMAL Fonte O autor 2020 Observe também pela Figura 2 o que poderia ocorrer nos testes de hipóteses Veja que a distribuição mais à direita indica a distribuição esperada ie aquela indicada pela hipótese nula enquanto a outra distribuição indica uma das distribuições da hipótese alternativa Assim as pro babilidades do Erro Tipo I e do Erro Tipo II estão associadas a uma determinada área UNIDADE 02 35 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 2 PROBABILIDADE DE CADA ERRO Fonte O autor 2020 Poderíamos discutir como calcular exatamente cada um desses erros mas essa discussão aca baria por dispersar um pouco o objetivo desta Unidade Entretanto caso você esteja interessado em saber um pouco mais sobre isso recomendamos a leitura das páginas 179 a 181 de Montgo mery 2016 A partir daqui continuaremos caminhando para aprender a aplicar de forma prática os testes de hipóteses Alguns autores inclusive Montgomery utilizam dois tipos de análise equivalentes sendo o se gundo referente ao valor p Escolhemos omitir essa análise visto que usaremos apenas a estatís tica de teste para a Análise de Variância e para a Regressão Linear 2 TESTES PARA A MÉDIA DE UMA DISTRIBUI ÇÃO NORMAL COM VARIÂNCIA CONHECIDA Vamos analisar os principais testes estatísticos separados por determinadas condições Neste primeiro cenário discutiremos como analisar a média de uma população conhecendo sua variân cia σ2 e portanto seu desviopadrão Para isso utilizaremos a média amostral X a partir de uma amostra aleatória de tamanho dados por Vejamos por meio de um exemplo Noções de probabilidade e estatística é um livro de estatística interessante escrito por Magalhães e Lima dois professores do IMEUSP Tem uma ótima apresentação conceitual e uma linguagem que torna a estatística mais compreensível Vale a leitura MAGALHÃES MN LIMA ACP Noções de probabilidade e estatística 7 ed São Paulo Edusp 2015 LEITURA UNIDADE 02 36 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 21 TESTE DE HIPÓTESES PARA A MÉDIA Observe que a hipótese nula e a alternativa são dadas por H0μμ0 H1μμ0 De forma que μ0 é uma determinada especificação Veja também que se trata de um teste de hipótese bilateral A título de exemplo considere o mesmo caso anterior do projeto de um motor Assim tínhamos μ060 mLs de forma que H0μ60 H1μ60 Suponha que extraímos desse experimento um total de n30 amostras apresentadas na Tabela 1 Suponha também que conhecemos o desviopadrão dado por σ2 mls Além disso considere que tenhamos um interesse em especificar uma probabilidade para o Erro Tipo I de no máximo 5 ie α005 Vejamos como realizar o teste de hipótese TABELA 1 TAXA DE INGESTÃO DE COMBUSTÍVEL PARA 30 AMOSTRAS COLETADAS 513 513 520 521 525 528 535 535 540 547 548 549 559 569 590 599 601 603 605 606 612 622 626 628 630 631 639 651 659 670 Fonte O autor 2020 Para isso devemos construir as regiões críticas e de aceitação Note que isso depende do Erro Tipo I desejado Observe na Figura 3 a região crítica indicada em azul Basicamente o que deve mos encontrar são os valores críticos para separar a região crítica da região de aceitação Entretan to isso envolve um cálculo de áreas exaustivo que varia a cada distribuição FIGURA 3 REGIÕES SEPARADAS A PARTIR DA PROBABILIDADE DO ERRO TIPO I DESEJADA Fonte O autor 2020 Veja que essa dificuldade é reforçada pela Figura 4 a qual já apresentamos na Unidade anterior UNIDADE 02 37 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 4 EXEMPLO DE GRÁFICOS DA DISTRIBUIÇÃO NORMAL ELABORADO NO SOFTWARE WOLFRAMALPHA Fonte O autor 2020 A fim de contornar esse empecilho é conveniente padronizar a média amostral e usar uma estatística de teste para comparar o resultado à distribuição normal padrão ie a distribuição de média 0 e desviopadrão 1 O aluno interessado se enriquecerá de uma pesquisa para entender a construção da estatística de teste já que a deixaremos como formulário Assim em vez de realizar o teste com X faremos o mesmo teste descrito na seção anterior mas usando como base Z0 Desse modo teremos resultados padronizados que geralmente estão descritos nas famosas Tabelas de Probabilidade Neste link disponibilizamos a tabela que usaremos no curso httpsbitly3b1px7J Claro que todas as tabelas irão retornar os mesmos valores mas algumas especificam outras regiões de cálculo de forma que um pouco de álgebra deve ser feito para encontrar os resultados desejados Iremos focar nessa discussão em breve Agora veja que em relação à distribuição normal padrão a região crítica no caso de um teste bilateral será apresentada pela Figura 5 FIGURA 5 REGIÃO CRÍTICA DE UM TESTE BILATERAL PARA A DISTRIBUIÇÃO Fonte Montgomery 2016 Para criar as regiões precisamos encontrar os limites críticos Esses na distribuição N01 são dados por A fim de contornar esse empecilho é conveniente padronizar a média amostral e usar uma estatística de teste para comparar o resultado à distribuição normal padrão ie a distribuição de média 0 e desviopadrão 1 O aluno interessado se enriquecerá de uma pesquisa para entender a construção da estatística de teste já que a deixaremos como formulário 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 Assim em vez de realizar o teste com 𝑋𝑋 faremos o mesmo teste descrito na seção anterior mas usando como base 𝑍𝑍0 Desse modo teremos resultados padronizados que geralmente estão descritos nas famosas Tabelas de Probabilidade Neste link disponibilizamos a tabela que usaremos no curso httpsbitly3b1px7J Claro que todas as tabelas irão retornar os mesmos valores mas algumas especificam outras regiões de cálculo de forma que um pouco de álgebra deve ser feito para encontrar os resultados desejados Iremos focar nessa discussão em breve Agora veja que em relação à distribuição normal padrão a região crítica no caso de um teste bilateral será apresentada pela Figura 5 Figura 5 Região crítica de um teste bilateral para a distribuição 𝑁𝑁01 Fonte Montgomery 2016 Para criar as regiões precisamos encontrar os limites críticos Esses na distribuição 𝑁𝑁01 são dados por 𝑧𝑧𝛼𝛼 2 e 𝑧𝑧𝛼𝛼 2 Para isso precisamos conferir a tabela da distribuição normal de 𝑍𝑍 link indicado acima Mas veja que essa tabela apresenta a probabilidade de uma determinada observação estar contida no intervalo 0 𝑧𝑧 Devido à simetria da distribuição normal sabemos que 𝑃𝑃 𝑧𝑧 0 𝑃𝑃0 𝑧𝑧 50 Comentado ID1 DIAGRAMAÇÃO Se possível favor refazer e A fim de contornar esse empecilho é conveniente padronizar a média amostral e usar uma estatística de teste para comparar o resultado à distribuição normal padrão ie a distribuição de média 0 e desviopadrão 1 O aluno interessado se enriquecerá de uma pesquisa para entender a construção da estatística de teste já que a deixaremos como formulário 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 Assim em vez de realizar o teste com 𝑋𝑋 faremos o mesmo teste descrito na seção anterior mas usando como base 𝑍𝑍0 Desse modo teremos resultados padronizados que geralmente estão descritos nas famosas Tabelas de Probabilidade Neste link disponibilizamos a tabela que usaremos no curso httpsbitly3b1px7J Claro que todas as tabelas irão retornar os mesmos valores mas algumas especificam outras regiões de cálculo de forma que um pouco de álgebra deve ser feito para encontrar os resultados desejados Iremos focar nessa discussão em breve Agora veja que em relação à distribuição normal padrão a região crítica no caso de um teste bilateral será apresentada pela Figura 5 Figura 5 Região crítica de um teste bilateral para a distribuição 𝑁𝑁01 Fonte Montgomery 2016 Para criar as regiões precisamos encontrar os limites críticos Esses na distribuição 𝑁𝑁01 são dados por 𝑧𝑧𝛼𝛼 2 e 𝑧𝑧𝛼𝛼 2 Para isso precisamos conferir a tabela da distribuição normal de 𝑍𝑍 link indicado acima Mas veja que essa tabela apresenta a probabilidade de uma determinada observação estar contida no intervalo 0 𝑧𝑧 Devido à simetria da distribuição normal sabemos que 𝑃𝑃 𝑧𝑧 0 𝑃𝑃0 𝑧𝑧 50 Comentado ID1 DIAGRAMAÇÃO Se possível favor refazer Para isso precisamos conferir a tabela da distribuição normal de Z link indi cado acima Mas veja que essa tabela apresenta a probabilidade de uma determinada observação estar contida no intervalo 0z Devido à simetria da distribuição normal sabemos que A fim de contornar esse empecilho é conveniente padronizar a média amostral e usar uma estatística de teste para comparar o resultado à distribuição normal padrão ie a distribuição de média 0 e desviopadrão 1 O aluno interessado se enriquecerá de uma pesquisa para entender a construção da estatística de teste já que a deixaremos como formulário 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 Assim em vez de realizar o teste com 𝑋𝑋 faremos o mesmo teste descrito na seção anterior mas usando como base 𝑍𝑍0 Desse modo teremos resultados padronizados que geralmente estão descritos nas famosas Tabelas de Probabilidade Neste link disponibilizamos a tabela que usaremos no curso httpsbitly3b1px7J Claro que todas as tabelas irão retornar os mesmos valores mas algumas especificam outras regiões de cálculo de forma que um pouco de álgebra deve ser feito para encontrar os resultados desejados Iremos focar nessa discussão em breve Agora veja que em relação à distribuição normal padrão a região crítica no caso de um teste bilateral será apresentada pela Figura 5 Figura 5 Região crítica de um teste bilateral para a distribuição 𝑁𝑁01 Fonte Montgomery 2016 Para criar as regiões precisamos encontrar os limites críticos Esses na distribuição 𝑁𝑁01 são dados por 𝑧𝑧𝛼𝛼 2 e 𝑧𝑧𝛼𝛼 2 Para isso precisamos conferir a tabela da distribuição normal de 𝑍𝑍 link indicado acima Mas veja que essa tabela apresenta a probabilidade de uma determinada observação estar contida no intervalo 0 𝑧𝑧 Devido à simetria da distribuição normal sabemos que 𝑃𝑃 𝑧𝑧 0 𝑃𝑃0 𝑧𝑧 50 Comentado ID1 DIAGRAMAÇÃO Se possível favor refazer UNIDADE 02 38 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Pz0 P0z 50 Veja que precisamos encontrar qual valor de z faz com que Pzzc 0025 O que é equivalente a procurar P0zzc 050025 0475 Na tabela encontramos o ponto crítico zc196 e zc196 este devido à simetria Assim veja que rejeitamos H0 sendo z0196 ou z0196 A partir daqui devemos encontrar z0 Como a partir dos dados da Tabela 1 encontramos X 5825 Então Assim verificamos que Z0 está na região crítica e rejeitamos H0 Em outras palavras com base nas amostras indicadas não podemos afirmar que a média populacional esteja dentro das especi ficações desejadas 22 TESTE DE HIPÓTESES UNILATERAL PARA A MÉDIA Considere os mesmos dados do problema anterior mas suponha que os testes de hipóteses sejam dados por H0 μ 60 H1 μ 60 Ou seja considere o problema de um motor que precise funcionar com pelo menos 60 mLs de ingestão de combustível Quando fazemos um teste unilateral utilizamos o sinal de igualdade para H0 mas a discussão desse motivo também foge do escopo desta Unidade Note que agora para verificar o teste de hipótese mudamse os valores críticos Isso porque de acordo com a Figura 6 teremos apenas uma única região de rejeição FIGURA 6 REGIÃO CRÍTICA PARA UM TESTE UNILATERAL Fonte Montgomery 2016 Veja que precisamos encontrar qual valor de 𝑧𝑧 faz com que 𝑃𝑃𝑧𝑧 𝑧𝑧𝑐𝑐 0025 O que é equivalente a procurar 𝑃𝑃0 𝑧𝑧 𝑧𝑧𝑐𝑐 05 0025 0475 Na tabela encontramos o ponto crítico 𝑧𝑧𝑐𝑐 196 e 𝑧𝑧𝑐𝑐 196 este devido à simetria Assim veja que rejeitamos 𝐻𝐻0 sendo 𝑧𝑧0 196 ou 𝑧𝑧0 196 A partir daqui devemos encontrar 𝑧𝑧0 Como 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 a partir dos dados da Tabela 1 encontramos 𝑋𝑋 5825 Então 𝑍𝑍0 5825 60 2 30 479 Assim verificamos que 𝑍𝑍0 está na região crítica e rejeitamos 𝐻𝐻0 Em outras palavras com base nas amostras indicadas não podemos afirmar que a média populacional esteja dentro das especificações desejadas 22 Teste de Hipóteses Unilateral para a Média Considere os mesmos dados do problema anterior mas suponha que os testes de hipóteses sejam dados por 𝐻𝐻0 𝜇𝜇 60 𝐻𝐻1 𝜇𝜇 60 Veja que precisamos encontrar qual valor de 𝑧𝑧 faz com que 𝑃𝑃𝑧𝑧 𝑧𝑧𝑐𝑐 0025 O que é equivalente a procurar 𝑃𝑃0 𝑧𝑧 𝑧𝑧𝑐𝑐 05 0025 0475 Na tabela encontramos o ponto crítico 𝑧𝑧𝑐𝑐 196 e 𝑧𝑧𝑐𝑐 196 este devido à simetria Assim veja que rejeitamos 𝐻𝐻0 sendo 𝑧𝑧0 196 ou 𝑧𝑧0 196 A partir daqui devemos encontrar 𝑧𝑧0 Como 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 a partir dos dados da Tabela 1 encontramos 𝑋𝑋 5825 Então 𝑍𝑍0 5825 60 2 30 479 Assim verificamos que 𝑍𝑍0 está na região crítica e rejeitamos 𝐻𝐻0 Em outras palavras com base nas amostras indicadas não podemos afirmar que a média populacional esteja dentro das especificações desejadas 22 Teste de Hipóteses Unilateral para a Média Considere os mesmos dados do problema anterior mas suponha que os testes de hipóteses sejam dados por 𝐻𝐻0 𝜇𝜇 60 𝐻𝐻1 𝜇𝜇 60 UNIDADE 02 39 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Assim para achar o valor crítico normalizado devemos encontrar na Tabela da Distribuição Normal qual valor de z faz com que Pz zc 005 O que é equivalente a procurar Pzc z 0 05005 045 Nesse caso verificamos que zc 1645 Assim aceitamos H0 quando Z0 zc e rejeitamos caso contrário Como Z0 continua sendo dado por também rejeitamos H0 nesse cenário 23 PONTO DE FUSÃO DE MATERIAL PARA SONDAGEM Suponha que o ponto de fusão de um material utilizado para soldagem foi testado a partir de 10 amostras e encontrouse x 1542C Suponha também que sabemos que o ponto de função é uma variável aleatória que segue uma distribuição normal em que σ15C Gostaríamos de saber se o verdadeiro ponto de fusão é de μ0155C com um nível de signifi cância de 1 Para isso devemos inicialmente escrever o teste de hipótese indicando a hipótese nula e a hipótese alternativa H0 μ 155 H1 μ 155 Nesse caso escrevemos o teste como bilateral Na sequência devemos encontrar os pontos críti cos a partir da Tabela de Distribuição Normal Note que um nível de significância de 1 indica que Pzzc 0005 visto que é um teste bilateral Como nossa tabela apresenta o resultado para P0zzc devemos fazer 0500050495 obtendo zc2575 e zc2575 Note que rejeitamos H0 no caso em que Z0 estiver abaixo de 2575 ou acima de 2575 e aceita mos H0 caso contrário Então Ou seja considere o problema de um motor que precise funcionar com pelo menos 60 𝑚𝑚𝑚𝑚𝑠𝑠 de ingestão de combustível Quando fazemos um teste unilateral utilizamos o sinal de igualdade para 𝐻𝐻0 mas a discussão desse motivo também foge do escopo desta Unidade Note que agora para verificar o teste de hipótese mudamse os valores críticos Isso porque de acordo com a Figura 6 teremos apenas uma única região de rejeição Figura 6 Região crítica para um teste unilateral Fonte Montgomery 2016 Assim para achar o valor crítico normalizado devemos encontrar na Tabela da Distribuição Normal qual valor de 𝑧𝑧 faz com que 𝑃𝑃𝑧𝑧 𝑧𝑧𝑐𝑐 005 O que é equivalente a procurar 𝑃𝑃𝑧𝑧𝑐𝑐 𝑧𝑧 0 05 005 045 Nesse caso verificamos que 𝑧𝑧𝑐𝑐 1645 Assim aceitamos 𝐻𝐻0 quando 𝑍𝑍0 𝑧𝑧𝑐𝑐 e rejeitamos caso contrário Como 𝑍𝑍0 continua sendo dado por 𝑍𝑍0 5825 60 2 30 479 também rejeitamos 𝐻𝐻0 nesse cenário 23 Ponto de Fusão de Material para Sondagem Comentado ID2 DIAGRAMAÇÃO Se possível favor refazer Suponha que o ponto de fusão de um material utilizado para soldagem foi testado a partir de 10 amostras e encontrouse 𝑥𝑥 1542𝐶𝐶 Suponha também que sabemos que o ponto de função é uma variável aleatória que segue uma distribuição normal em que 𝜎𝜎 15𝐶𝐶 Gostaríamos de saber se o verdadeiro ponto de fusão é de 𝜇𝜇0 155𝐶𝐶 com um nível de significância de 1 Para isso devemos inicialmente escrever o teste de hipótese indicando a hipótese nula e a hipótese alternativa 𝐻𝐻0 𝜇𝜇 155 𝐻𝐻1 𝜇𝜇 155 Nesse caso escrevemos o teste como bilateral Na sequência devemos encontrar os pontos críticos a partir da Tabela de Distribuição Normal Note que um nível de significância de 1 indica que 𝑃𝑃𝑧𝑧 𝑧𝑧𝑐𝑐 0005 visto que é um teste bilateral Como nossa tabela apresenta o resultado para 𝑃𝑃0 𝑧𝑧 𝑧𝑧𝑐𝑐 devemos fazer 05 0005 0495 obtendo 𝑧𝑧𝑐𝑐 2575 e 𝑧𝑧𝑐𝑐 2575 Note que rejeitamos 𝐻𝐻0 no caso em que 𝑍𝑍0 estiver abaixo de 2575 ou acima de 2575 e aceitamos 𝐻𝐻0 caso contrário Então 𝑍𝑍0 𝑋𝑋 𝜇𝜇0 𝜎𝜎𝑛𝑛 1542 155 15 10 168 Veja portanto que 𝑍𝑍0 está dentro da região de aceitação e podemos aceitar 𝐻𝐻0 com 99 de certeza LEITURA UNIDADE 02 40 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Veja portanto que Z0 está dentro da região de aceitação e podemos aceitar H0 com de certeza 3 TESTES PARA A MÉDIA DE UMA DISTRI BUIÇÃO NORMAL COM VARIÂNCIA DES CONHECIDA Agora vejamos o que temos de fazer quando desejamos tirar conclusões acerca da média popula cional mas não conhecemos sua variância O procedimento da construção do teste de hipótese é equi valente ao exemplo anterior mas devemos utilizar outra estatística de teste devido à nova distribuição 31 TESTE DE HIPÓTESES PARA A MÉDIA Neste cenário a variável aleatória padronizada coletada em uma amostra aleatória de n ele mentos dados por X1 X2 Xn segue uma distribuição t com n1 graus de liberdade Assim utili zaremos a estatística de teste dada por Em que X representa a média amostral e S o desviopadrão amostral Para compreender como funciona esse modelo consideraremos alguns exemplos 32 PROJETO DE RAQUETE DE TÊNIS Imagine que você seja o responsável por coordenar o controle estatístico de qualidade de uma determinada fábrica produtora de raquete de tênis A especificação desejada é de que a raquete tenha uma empunhadura de 20 cm e você precisa garantir que isso de fato ocorre Estatística aplicada a administração e economia de Anderson et al é um livro interessante voltado ao ensino de estatística para os profissionais da área de administração Há muitos exemplos aplicados e vale a leitura para aqueles que estão interessados em uma estatística mais próxima à realidade ANDERSON DR et al Estatística aplicada a administração e economia São Paulo Cengage Learning 2019 LEITURA Estatística aplicada a administração e economia de Anderson et al é um livro interessante voltado ao ensino de estatística para os profissionais da área de administração Há muitos exemplos aplicados e vale a leitura para aqueles que estão interessados em uma estatística mais próxima à realidade ANDERSON DR et al Estatística aplicada a administração e economia São Paulo Cengage Learning 2019 3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL COM VARIÂNCIA DESCONHECIDA Agora vejamos o que temos de fazer quando desejamos tirar conclusões acerca da média populacional mas não conhecemos sua variância O procedimento da construção do teste de hipótese é equivalente ao exemplo anterior mas devemos utilizar outra estatística de teste devido à nova distribuição 31 Teste de Hipóteses para a Média Neste cenário a variável aleatória padronizada coletada em uma amostra aleatória de 𝑛𝑛 elementos dados por 𝑋𝑋1 𝑋𝑋2 𝑋𝑋𝑛𝑛 segue uma distribuição 𝑡𝑡 com 𝑛𝑛 1 graus de liberdade Assim utilizaremos a estatística de teste dada por 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 Em que 𝑋𝑋 representa a média amostral e 𝑆𝑆 o desviopadrão amostral Para compreender como funciona esse modelo consideraremos alguns exemplos 32 Projeto de Raquete de Tênis Imagine que você seja o responsável por coordenar o controle estatístico de qualidade de uma determinada fábrica produtora de raquete de tênis A especificação desejada é de que a raquete tenha uma empunhadura de 20 𝑐𝑐𝑐𝑐 e você precisa garantir que isso de fato ocorre UNIDADE 02 41 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA A estratégia aqui é retirar uma amostra e analisar o que está ocorrendo Com base na amostra a hipótese nula será H0 μ 20cm contra a hipótese alternativa H0 μ 20cm Note que construímos o teste bilateral por acreditarmos que a empunhadura da raquete não pode ter nem mais nem menos que 20 cm Caso a raquete só fosse considerada defeituosa no caso em que μ20 cm poderíamos usar a hipótese alternativa unilateral Observe que o critério entre a hipótese alternativa unilateral e a bilateral depende do tipo de cenário analisado e remete ao nosso conhecimento como especialistas de determinadas áreas Como nesse cenário você não conhece o desviopadrão da população deverá fazer um teste para a média de distribuição normal com variância desconhecida Então precisa coletar dados para validar seu resultado ie constituir uma amostra Alguns autores irão discutir o tamanho da amostra necessário para se ter mais confiabilidade no resultado entretanto neste curso apenas notamos que quanto maior a amostra mais certeza você obterá Considere portanto que você resolva extrair oito dados obtendo as informações apresentadas na Tabela 2 TABELA 2 MEDIDAS OBTIDAS PARA OITO AMOSTRAS DA EMPUNHADURA DE RAQUETES Amostra 1 2 3 4 5 6 7 8 Medida 2015 1995 1965 2112 2100 1985 1975 2005 Fonte O autor 2020 Para resolver o problema você também deve determinar um nível de significância ie o quan to você precisa de confiabilidade em sua resposta Vamos concordar que você deseja um bom nível de qualidade para seu produto mas entende que o tamanho da empunhadura não seja tão relevante na habilidade de seus clientes Então aceita analisar essa informação com 95 de cer teza o que indica α5 Na sequência precisará construir os pontos críticos para conhecer as regiões de rejeição e acei tação do teste Como deseja α5 e o teste é bilateral deve procurar na Tabela de Distribuição t Student a área de 250025 Aqui indicamos o link dessa nova tabela httpsbitly3CriNOI Note que para cada caso você deve usar a tabela adequada ao tipo de variável que está anali sando Na tabela que estamos utilizando devemos encontrar o valor de t considerando p0025 e gln17 graus de liberdade o que nos fornece tc 2365 e tc 2365 Assim devemos aceitar a hipótese nula quando tc estiver entre 2365 e 2365 e rejeitar H0 quando tc 2365 ou tc 2365 Agora nos resta encontrar a estatística de teste Esta será dada por procurar na Tabela de Distribuição 𝑡𝑡 Student a área de 25 0025 Aqui indicamos o link dessa nova tabela httpsbitly3bLxs8q Note que para cada caso você deve usar a tabela adequada ao tipo de variável que está analisando Na tabela que estamos utilizando devemos encontrar o valor de 𝑡𝑡 considerando 𝑝𝑝 0025 e 𝑔𝑔𝑔𝑔 𝑛𝑛 1 7 graus de liberdade o que nos fornece 𝑡𝑡𝑐𝑐 2365 e 𝑡𝑡𝑐𝑐 2365 Assim devemos aceitar a hipótese nula quando 𝑡𝑡𝑐𝑐 estiver entre 2365 e 2365 e rejeitar 𝐻𝐻0 quando 𝑡𝑡𝑐𝑐 2365 ou 𝑡𝑡𝑐𝑐 2365 Agora nos resta encontrar a estatística de teste Esta será dada por 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 Aqui precisamos encontrar 𝑋𝑋 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 2015 1995 1965 2112 2100 1985 1975 2005 8 16152 8 2019 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 2015 20192 1995 20192 2005 20192 8 1 22006 7 0314 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 2019 2000 0314 8 171 UNIDADE 02 42 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Aqui precisamos encontrar e Sabemos que Então poderemos calcular T Desse modo pelo resultado encontrado verificamos que podemos aceitar a hipótese nula e garantir com 95 de certeza que a empunhadura das raquetes está dentro da medida adequada 33 DISTRIBUIÇÃO DE ÁGUA PELA REDE Para evitar a contaminação humana por bactérias malignas as centrais distribuidoras adicionam uma determinada quantidade de cloro na água Determinouse que um teor de cloro de 130g por litro é o mínimo necessário para uma correta distribuição de água Entretanto devido aos diversos locais de acesso do encanamento nem todos os pontos são abastecidos com essa quantidade Nesse cenário suponha que não exista perigo em um fornecimento maior de cloro do que a quantidade mínima Suponha também os dados medidos ao longo de 30 dias de um mês para uma mesma residência conforme apresentados na Tabela 3 TABELA 3 QUANTIDADE DE CLORO POR LITRO FORNECIDA EM UMA DETERMINADA RESIDÊNCIA 13115 13069 13091 12954 12964 12877 13072 12833 12824 12965 13014 12929 12871 12900 12939 13042 12953 13012 12978 13092 13115 13069 12954 12877 13072 12833 12824 12965 12964 13115 Fonte O autor 2020 Note que não temos informações acerca da variância populacional por mais que possamos cal cular a variância e a média amostral Além disso a diferença em relação ao exemplo anterior é que podemos considerar este teste como um teste unilateral visto que não estamos interessados em levar em conta os casos em que existe um fornecimento maior de cloro Dessa forma escrevemos o seguinte teste de hipótese procurar na Tabela de Distribuição 𝑡𝑡 Student a área de 25 0025 Aqui indicamos o link dessa nova tabela httpsbitly3bLxs8q Note que para cada caso você deve usar a tabela adequada ao tipo de variável que está analisando Na tabela que estamos utilizando devemos encontrar o valor de 𝑡𝑡 considerando 𝑝𝑝 0025 e 𝑔𝑔𝑔𝑔 𝑛𝑛 1 7 graus de liberdade o que nos fornece 𝑡𝑡𝑐𝑐 2365 e 𝑡𝑡𝑐𝑐 2365 Assim devemos aceitar a hipótese nula quando 𝑡𝑡𝑐𝑐 estiver entre 2365 e 2365 e rejeitar 𝐻𝐻0 quando 𝑡𝑡𝑐𝑐 2365 ou 𝑡𝑡𝑐𝑐 2365 Agora nos resta encontrar a estatística de teste Esta será dada por 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 Aqui precisamos encontrar 𝑋𝑋 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 2015 1995 1965 2112 2100 1985 1975 2005 8 16152 8 2019 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 2015 20192 1995 20192 2005 20192 8 1 22006 7 0314 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 2019 2000 0314 8 171 procurar na Tabela de Distribuição 𝑡𝑡 Student a área de 25 0025 Aqui indicamos o link dessa nova tabela httpsbitly3bLxs8q Note que para cada caso você deve usar a tabela adequada ao tipo de variável que está analisando Na tabela que estamos utilizando devemos encontrar o valor de 𝑡𝑡 considerando 𝑝𝑝 0025 e 𝑔𝑔𝑔𝑔 𝑛𝑛 1 7 graus de liberdade o que nos fornece 𝑡𝑡𝑐𝑐 2365 e 𝑡𝑡𝑐𝑐 2365 Assim devemos aceitar a hipótese nula quando 𝑡𝑡𝑐𝑐 estiver entre 2365 e 2365 e rejeitar 𝐻𝐻0 quando 𝑡𝑡𝑐𝑐 2365 ou 𝑡𝑡𝑐𝑐 2365 Agora nos resta encontrar a estatística de teste Esta será dada por 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 Aqui precisamos encontrar 𝑋𝑋 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 2015 1995 1965 2112 2100 1985 1975 2005 8 16152 8 2019 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 2015 20192 1995 20192 2005 20192 8 1 22006 7 0314 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 2019 2000 0314 8 171 procurar na Tabela de Distribuição 𝑡𝑡 Student a área de 25 0025 Aqui indicamos o link dessa nova tabela httpsbitly3bLxs8q Note que para cada caso você deve usar a tabela adequada ao tipo de variável que está analisando Na tabela que estamos utilizando devemos encontrar o valor de 𝑡𝑡 considerando 𝑝𝑝 0025 e 𝑔𝑔𝑔𝑔 𝑛𝑛 1 7 graus de liberdade o que nos fornece 𝑡𝑡𝑐𝑐 2365 e 𝑡𝑡𝑐𝑐 2365 Assim devemos aceitar a hipótese nula quando 𝑡𝑡𝑐𝑐 estiver entre 2365 e 2365 e rejeitar 𝐻𝐻0 quando 𝑡𝑡𝑐𝑐 2365 ou 𝑡𝑡𝑐𝑐 2365 Agora nos resta encontrar a estatística de teste Esta será dada por 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 Aqui precisamos encontrar 𝑋𝑋 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 2015 1995 1965 2112 2100 1985 1975 2005 8 16152 8 2019 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 2015 20192 1995 20192 2005 20192 8 1 22006 7 0314 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 2019 2000 0314 8 171 UNIDADE 02 43 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA H0 μ 130 gL H1 μ 130 gL Observe que se trata de um teste unilateral para a média de distribuição normal com variân cia desconhecida Novamente precisamos determinar um nível de significância Consideremos novamente α5 Por se tratar de um teste unilateral procuramos o único valor crítico na Tabela de Distribuição tStudent pela área de 5005 com n130129 graus de liberdade Encontra mos tc1699 Note que aceitamos a hipótese nula quando Ttc e a rejeitamos caso contrário Para o cálculo da estatística de teste precisamos encontrar x e S Sabemos que Então poderemos calcular Veja mais uma vez que garantimos com 95 de certeza que a água está de acordo com a es pecificação mesmo que a média da amostra tenha apresentado valor aquém ao desejado de significância Consideremos novamente 𝛼𝛼 5 Por se tratar de um teste unilateral procuramos o único valor crítico na Tabela de Distribuição 𝑡𝑡 Student pela área de 5 005 com 𝑛𝑛 1 30 1 29 graus de liberdade Encontramos 𝑡𝑡𝑐𝑐 1699 Note que aceitamos a hipótese nula quando 𝑇𝑇 𝑡𝑡𝑐𝑐 e a rejeitamos caso contrário Para o cálculo da estatística de teste precisamos encontrar 𝑥𝑥 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 13115 13069 12965 12964 13115 30 389280 30 12976 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 13115 129762 12954 129762 12965 129762 30 1 2562 29 08835 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 12976 13000 08835 30 1488 Veja mais uma vez que garantimos com 95 de certeza que a água está de acordo com a especificação mesmo que a média da amostra tenha apresentado valor aquém ao desejado LEITURA Estatística básica de Morettin e Bussab é um livro de estatística rigoroso dedicado àqueles que querem entender os conceitos principais de forma aprofundada o que significa demonstrações de teoremas e exercícios de alto nível Não é direcionada de significância Consideremos novamente 𝛼𝛼 5 Por se tratar de um teste unilateral procuramos o único valor crítico na Tabela de Distribuição 𝑡𝑡 Student pela área de 5 005 com 𝑛𝑛 1 30 1 29 graus de liberdade Encontramos 𝑡𝑡𝑐𝑐 1699 Note que aceitamos a hipótese nula quando 𝑇𝑇 𝑡𝑡𝑐𝑐 e a rejeitamos caso contrário Para o cálculo da estatística de teste precisamos encontrar 𝑥𝑥 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 13115 13069 12965 12964 13115 30 389280 30 12976 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 13115 129762 12954 129762 12965 129762 30 1 2562 29 08835 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 12976 13000 08835 30 1488 Veja mais uma vez que garantimos com 95 de certeza que a água está de acordo com a especificação mesmo que a média da amostra tenha apresentado valor aquém ao desejado LEITURA Estatística básica de Morettin e Bussab é um livro de estatística rigoroso dedicado àqueles que querem entender os conceitos principais de forma aprofundada o que significa demonstrações de teoremas e exercícios de alto nível Não é direcionada de significância Consideremos novamente 𝛼𝛼 5 Por se tratar de um teste unilateral procuramos o único valor crítico na Tabela de Distribuição 𝑡𝑡 Student pela área de 5 005 com 𝑛𝑛 1 30 1 29 graus de liberdade Encontramos 𝑡𝑡𝑐𝑐 1699 Note que aceitamos a hipótese nula quando 𝑇𝑇 𝑡𝑡𝑐𝑐 e a rejeitamos caso contrário Para o cálculo da estatística de teste precisamos encontrar 𝑥𝑥 e 𝑆𝑆 Sabemos que 𝑋𝑋 𝑋𝑋𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 13115 13069 12965 12964 13115 30 389280 30 12976 𝑆𝑆 𝑋𝑋𝑖𝑖 𝑋𝑋2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 1 13115 129762 12954 129762 12965 129762 30 1 2562 29 08835 Então poderemos calcular 𝑇𝑇 𝑇𝑇 𝑋𝑋 𝜇𝜇 𝑆𝑆 𝑛𝑛 12976 13000 08835 30 1488 Veja mais uma vez que garantimos com 95 de certeza que a água está de acordo com a especificação mesmo que a média da amostra tenha apresentado valor aquém ao desejado LEITURA Estatística básica de Morettin e Bussab é um livro de estatística rigoroso dedicado àqueles que querem entender os conceitos principais de forma aprofundada o que significa demonstrações de teoremas e exercícios de alto nível Não é direcionada Estatística básica de Morettin e Bussab é um livro de estatística rigoroso dedicado àqueles que querem entender os conceitos principais de forma aprofundada o que significa demonstrações de teoremas e exercícios de alto nível Não é direcionada para quem está começando mas é es sencial para quem realmente quer se especializar nessa área MORETTIN PA BUSSAB WO Estatística básica São Paulo Saraiva 2017 LEITURA UNIDADE 02 44 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 4 TESTES PARA A VARIÂNCIA E O DESVIO PADRÃO DE UMA DISTRIBUIÇÃO NORMAL Em alguns testes que realizamos estamos interessados em verificar se o valor para a variância esperado pode ser confirmado com a amostra que extraímos Vejamos por meio de um exemplo qual a estatística de teste que devemos utilizar e como construir o teste de hipótese 41 CONTROLE DE QUALIDADE EM UMA EMPRESA PRODUTO RA DE REFRIGERANTE Em uma determinada empresa produtora de refrigerante uma máquina é responsável por rea lizar o enchimento das latas de 365 mL Foi verificado que se a variância do volume de enchimen to exceder 1 mL a taxa de rejeição de latas será elevado visto que uma boa parte delas terá um excesso de líquido o que não permitirá o fechamento da latas enquanto outra parte terá falta de líquido o que não é aceito nem pelo cliente nem pelos órgãos reguladores Considere que para verificar se a empresa possui um problema com latas com excesso ou falta de refrigerante foi experimentado um total de n20 amostras aleatórias de latas e verificou se uma variância amostral s2153 mL Por mais que pareça intuitivo que o material está fora da especificação visto que 1531 precisamos validar esse resultado como uma forte evidência ou não Por desconhecer a variância devemos usar o Teste de Hipótese para a Variância De modo geral a hipótese do teste é dada por H0 σ2 σ0 2 H1 σ2 σ0 2 ou seus equivalentes para os testes unilaterais Note que para o caso da empresa produtora de refrigerante podemos escrever o seguinte teste H0 σ2 1 mL H1 σ2 1 mL Nesse caso devemos usar a estatística de teste com base na distribuição QuiQuadrado com n1 graus de liberdade Essa será calculada a partir de 𝐻𝐻0 𝜎𝜎2 1 𝑚𝑚𝑚𝑚 𝐻𝐻1 𝜎𝜎2 1 𝑚𝑚𝑚𝑚 Nesse caso devemos usar a estatística de teste com base na distribuição QuiQuadrado com 𝑛𝑛 1 graus de liberdade Essa será calculada a partir de 𝑋𝑋0 2 𝑛𝑛 1𝑆𝑆2 𝜎𝜎0 2 A análise dos pontos críticos e as respectivas regiões de aceitação e rejeição são feitas de forma equivalente com o cuidado de se consultar a tabela correta Neste caso utilizaremos a tabela do link a seguir tomando cuidado com a sua interpretação httpsbitly3bJ86rS Então se desejarmos um nível de significância de 1 por se tratar de um teste unilateral o problema da produtora de refrigerante terá 𝑋𝑋𝑐𝑐 2 362 considerando 𝑛𝑛 1 20 1 19 graus de liberdade Assim rejeitamos 𝐻𝐻0 se 𝑋𝑋0 2 𝑋𝑋𝑐𝑐 2 e aceitamos 𝐻𝐻0 caso contrário Na sequência calculamos a estatística de teste 𝑋𝑋0 2 𝑛𝑛 1𝑆𝑆2 𝜎𝜎0 2 20 1 153 1 2907 E verificamos que não há fortes evidências para concluir que o enchimento de latas esteja fora das especificações 42 Vida Útil de um Pneu Considere a análise da vida útil de um pneu a partir de seu desviopadrão Para isso suponha que você coletou uma amostra de 𝑛𝑛 16 pneus com desviopadrão amostral de 364594 quilômetros Vejamos se podemos confirmar com um nível de significância de 5 que o desviopadrão da vida de um pneu seja menor do que 4000 quilômetros UNIDADE 02 45 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA A análise dos pontos críticos e as respectivas regiões de aceitação e rejeição são feitas de forma equivalente com o cuidado de se consultar a tabela correta Neste caso utilizaremos a tabela do link a seguir tomando cuidado com a sua interpretação httpsbitly3dPwEnA Então se desejarmos um nível de significância de 1 por se tratar de um teste unilateral o problema da produtora de refrigerante terá Xc 2362 considerando n1 201 19 graus de liber dade Assim rejeitamos H0 se X0 2Xc 2 e aceitamos H0 caso contrário Na sequência calculamos a estatística de teste E verificamos que não há fortes evidências para concluir que o enchimento de latas esteja fora das especificações 42 VIDA ÚTIL DE UM PNEU Considere a análise da vida útil de um pneu a partir de seu desviopadrão Para isso suponha que você coletou uma amostra de n16 pneus com desviopadrão amostral de 364594 quilôme tros Vejamos se podemos confirmar com um nível de significância de 5 que o desviopadrão da vida de um pneu seja menor do que 4000 quilômetros Para isso também utilizamos o Teste de Hipótese para a Variância desde que reescrevamos esse problema em termos da variância Assim sendo σ364594 teremos σ213292878 en quanto sendo σ04000 teremos σ0 216000000 Como se trata de um teste unilateral podemos escrever as hipóteses do problema H0 σ2 16000000 H1 σ2 16000000 Na sequência encontramos os pontos críticos Consultando a Tabela QuiQuadrado fornecida acima verificamos que Xc 23014 Assim rejeitamos H0 se X0 23014 e a aceitamos caso contrário Então calculamos a estatística de teste obtendo Nesse caso não podemos confirmar que o desviopadrão de fato é menor do que quilômetros 𝐻𝐻0 𝜎𝜎2 1 𝑚𝑚𝑚𝑚 𝐻𝐻1 𝜎𝜎2 1 𝑚𝑚𝑚𝑚 Nesse caso devemos usar a estatística de teste com base na distribuição QuiQuadrado com 𝑛𝑛 1 graus de liberdade Essa será calculada a partir de 𝑋𝑋0 2 𝑛𝑛 1𝑆𝑆2 𝜎𝜎0 2 A análise dos pontos críticos e as respectivas regiões de aceitação e rejeição são feitas de forma equivalente com o cuidado de se consultar a tabela correta Neste caso utilizaremos a tabela do link a seguir tomando cuidado com a sua interpretação httpsbitly3bJ86rS Então se desejarmos um nível de significância de 1 por se tratar de um teste unilateral o problema da produtora de refrigerante terá 𝑋𝑋𝑐𝑐 2 362 considerando 𝑛𝑛 1 20 1 19 graus de liberdade Assim rejeitamos 𝐻𝐻0 se 𝑋𝑋0 2 𝑋𝑋𝑐𝑐 2 e aceitamos 𝐻𝐻0 caso contrário Na sequência calculamos a estatística de teste 𝑋𝑋0 2 𝑛𝑛 1𝑆𝑆2 𝜎𝜎0 2 20 1 153 1 2907 E verificamos que não há fortes evidências para concluir que o enchimento de latas esteja fora das especificações 42 Vida Útil de um Pneu Considere a análise da vida útil de um pneu a partir de seu desviopadrão Para isso suponha que você coletou uma amostra de 𝑛𝑛 16 pneus com desviopadrão amostral de 364594 quilômetros Vejamos se podemos confirmar com um nível de significância de 5 que o desviopadrão da vida de um pneu seja menor do que 4000 quilômetros Estatística para economistas de Hoffmann é um livro específico para a área de economia mas leitura interessante para todas as outras áreas que gostariam de aprender qual a metodologia por trás das medidas de concentração desigualdade e pobreza números e índices além de outros parâmetros HOFFMANN R Estatística para economistas 4 ed São Paulo Cengage Learning 2006 LEITURA Para isso também utilizamos o Teste de Hipótese para a Variância desde que reescrevamos esse problema em termos da variância Assim sendo 𝜎𝜎 364594 teremos 𝜎𝜎2 13292878 enquanto sendo 𝜎𝜎0 4000 teremos 𝜎𝜎0 2 16000000 Como se trata de um teste unilateral podemos escrever as hipóteses do problema 𝐻𝐻0 𝜎𝜎2 16000000 𝐻𝐻1 𝜎𝜎2 16000000 Na sequência encontramos os pontos críticos Consultando a Tabela Qui Quadrado fornecida acima verificamos que 𝑋𝑋𝑐𝑐 2 3014 Assim rejeitamos 𝐻𝐻0 se 𝑋𝑋0 2 3014 e a aceitamos caso contrário Então calculamos a estatística de teste obtendo 𝑋𝑋0 2 𝑛𝑛 1𝑆𝑆2 𝜎𝜎0 2 16 1 13292878 16000000 1246 Nesse caso não podemos confirmar que o desviopadrão de fato é menor do que 4000 quilômetros LEITURA Estatística para economistas de Hoffmann é um livro específico para a área de economia mas leitura interessante para todas as outras áreas que gostariam de aprender qual a metodologia por trás das medidas de concentração desigualdade e pobreza números e índices além de outros parâmetros HOFFMANN R Estatística para economistas 4 ed São Paulo Cengage Learning 2006 5 TESTES PARA A PROPORÇÃO DE UMA POPULAÇÃO Outro teste de hipótese relevante para o estudo de estatística é quando precisamos tirar conclusões acerca da proporção de determinada população Vejamos por meio de um exemplo como realizar esse procedimento 51 Nível de Falhas Aceitável em uma Indústria de Pregos UNIDADE 02 46 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 5 TESTES PARA A PROPORÇÃO DE UMA POPULAÇÃO Outro teste de hipótese relevante para o estudo de estatística é quando precisamos tirar con clusões acerca da proporção de determinada população Vejamos por meio de um exemplo como realizar esse procedimento 51 NÍVEL DE FALHAS ACEITÁVEL EM UMA INDÚSTRIA DE PREGOS Em uma determinada indústria de pregos o setor de qualidade possui como requisito que a fração de pregos defeituoso não exceda 5 ie que em qualquer lote escolhido exista uma pro porção máxima de 5 defeituosos a cada 100 peças Esse tipo de problema se refere a um teste para confirmar a proporção de uma determinada população Para realizar essa análise inicialmente como nos outros casos devemos retirar uma amostra aleatória de tamanho n Nesse caso geralmente realizamos essa análise para uma popu lação muito grande Dessa amostra observada supomos que X observações tenham a propriedade analisada No caso do problema da indústria de pregos a observação poderia ser a falha em cada uma das 100 peças analisadas Assim ao observarmos 3 peças defeituosas a proporção calculada é um estima dor pontual da proporção real que essa população apresenta Nesse caso denotamos Nossa análise como nos casos anteriores é investigar se esse resultado representa de fato a proporção real da população analisada Então vamos considerar p0 como a proporção desejada e então construímos ambos os testes de hipótese Representando a hipótese nula e a hipótese alternativa respectivamente Podese mostrar mas foge ao escopo deste material que a distribuição amostral da propor ção segue uma distribuição normal com média p e variância Em uma determinada indústria de pregos o setor de qualidade possui como requisito que a fração de pregos defeituoso não exceda 5 ie que em qualquer lote escolhido exista uma proporção máxima de 5 defeituosos a cada 100 peças Esse tipo de problema se refere a um teste para confirmar a proporção de uma determinada população Para realizar essa análise inicialmente como nos outros casos devemos retirar uma amostra aleatória de tamanho 𝑛𝑛 Nesse caso geralmente realizamos essa análise para uma população muito grande Dessa amostra observada supomos que 𝑋𝑋 observações tenham a propriedade analisada No caso do problema da indústria de pregos a observação poderia ser a falha em cada uma das 100 peças analisadas Assim ao observarmos 3 peças defeituosas a proporção calculada é um estimador pontual da proporção real que essa população apresenta Nesse caso denotamos 𝑃𝑃 𝑋𝑋 𝑛𝑛 3 100 3 Nossa análise como nos casos anteriores é investigar se esse resultado representa de fato a proporção real da população analisada Então vamos considerar 𝑝𝑝0 como a proporção desejada e então construímos ambos os testes de hipótese 𝐻𝐻0 𝑝𝑝 𝑝𝑝0 𝐻𝐻1 𝑝𝑝 𝑝𝑝0 Representando a hipótese nula e a hipótese alternativa respectivamente Podese mostrar mas foge ao escopo deste material que a distribuição amostral da proporção segue uma distribuição normal com média 𝑝𝑝 e variância 𝑝𝑝1𝑝𝑝 𝑛𝑛 no caso em que 𝑝𝑝 não esteja próxima de 0 e 𝑛𝑛 seja suficientemente grande Assim chegaríamos à conclusão de que a estatística de teste que deve ser realizada é a mesma aplicada no teste para a média de uma distribuição normal com variância conhecida ie é realizada a partir da Tabela da Distribuição Normal A estatística de teste então é dada por 𝑍𝑍0 𝑋𝑋 𝑛𝑛𝑝𝑝𝑜𝑜 𝑛𝑛𝑝𝑝01 𝑝𝑝0 no caso em que p não esteja próxima de 0 e n seja suficientemente grande Assim chegaríamos à conclusão de que a estatística de teste que deve ser realizada é a mesma aplicada no teste para a média de uma distribuição nor mal com variância conhecida ie é realizada a partir da Tabela da Distribuição Normal Em uma determinada indústria de pregos o setor de qualidade possui como requisito que a fração de pregos defeituoso não exceda 5 ie que em qualquer lote escolhido exista uma proporção máxima de 5 defeituosos a cada 100 peças Esse tipo de problema se refere a um teste para confirmar a proporção de uma determinada população Para realizar essa análise inicialmente como nos outros casos devemos retirar uma amostra aleatória de tamanho 𝑛𝑛 Nesse caso geralmente realizamos essa análise para uma população muito grande Dessa amostra observada supomos que 𝑋𝑋 observações tenham a propriedade analisada No caso do problema da indústria de pregos a observação poderia ser a falha em cada uma das 100 peças analisadas Assim ao observarmos 3 peças defeituosas a proporção calculada é um estimador pontual da proporção real que essa população apresenta Nesse caso denotamos 𝑃𝑃 𝑋𝑋 𝑛𝑛 3 100 3 Nossa análise como nos casos anteriores é investigar se esse resultado representa de fato a proporção real da população analisada Então vamos considerar 𝑝𝑝0 como a proporção desejada e então construímos ambos os testes de hipótese 𝐻𝐻0 𝑝𝑝 𝑝𝑝0 𝐻𝐻1 𝑝𝑝 𝑝𝑝0 Representando a hipótese nula e a hipótese alternativa respectivamente Podese mostrar mas foge ao escopo deste material que a distribuição amostral da proporção segue uma distribuição normal com média 𝑝𝑝 e variância 𝑝𝑝1𝑝𝑝 𝑛𝑛 no caso em que 𝑝𝑝 não esteja próxima de 0 e 𝑛𝑛 seja suficientemente grande Assim chegaríamos à conclusão de que a estatística de teste que deve ser realizada é a mesma aplicada no teste para a média de uma distribuição normal com variância conhecida ie é realizada a partir da Tabela da Distribuição Normal A estatística de teste então é dada por 𝑍𝑍0 𝑋𝑋 𝑛𝑛𝑝𝑝𝑜𝑜 𝑛𝑛𝑝𝑝01 𝑝𝑝0 Em uma determinada indústria de pregos o setor de qualidade possui como requisito que a fração de pregos defeituoso não exceda 5 ie que em qualquer lote escolhido exista uma proporção máxima de 5 defeituosos a cada 100 peças Esse tipo de problema se refere a um teste para confirmar a proporção de uma determinada população Para realizar essa análise inicialmente como nos outros casos devemos retirar uma amostra aleatória de tamanho 𝑛𝑛 Nesse caso geralmente realizamos essa análise para uma população muito grande Dessa amostra observada supomos que 𝑋𝑋 observações tenham a propriedade analisada No caso do problema da indústria de pregos a observação poderia ser a falha em cada uma das 100 peças analisadas Assim ao observarmos 3 peças defeituosas a proporção calculada é um estimador pontual da proporção real que essa população apresenta Nesse caso denotamos 𝑃𝑃 𝑋𝑋 𝑛𝑛 3 100 3 Nossa análise como nos casos anteriores é investigar se esse resultado representa de fato a proporção real da população analisada Então vamos considerar 𝑝𝑝0 como a proporção desejada e então construímos ambos os testes de hipótese 𝐻𝐻0 𝑝𝑝 𝑝𝑝0 𝐻𝐻1 𝑝𝑝 𝑝𝑝0 Representando a hipótese nula e a hipótese alternativa respectivamente Podese mostrar mas foge ao escopo deste material que a distribuição amostral da proporção segue uma distribuição normal com média 𝑝𝑝 e variância 𝑝𝑝1𝑝𝑝 𝑛𝑛 no caso em que 𝑝𝑝 não esteja próxima de 0 e 𝑛𝑛 seja suficientemente grande Assim chegaríamos à conclusão de que a estatística de teste que deve ser realizada é a mesma aplicada no teste para a média de uma distribuição normal com variância conhecida ie é realizada a partir da Tabela da Distribuição Normal A estatística de teste então é dada por 𝑍𝑍0 𝑋𝑋 𝑛𝑛𝑝𝑝𝑜𝑜 𝑛𝑛𝑝𝑝01 𝑝𝑝0 UNIDADE 02 47 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA A estatística de teste então é dada por Assim calculamos os pontos críticos e na sequência as regiões de aceitação e rejeição Desse modo aceitamos H0 e Zc Z0 Zc no caso do teste bilateral e rejeitamos H0 caso contrário Então no caso da indústria de pregos podemos escrever os seguintes testes de hipótese H0 p 005 H1 p 005 Note que escrevemos como um teste unilateral visto que precisamos garantir que a margem de pregos defeituosos seja menor que 5 Suponha que desejamos uma confiança de 95 de forma que α5 Na sequência podemos encontrar os valores críticos Assim consultamos a seguinte tabela já fornecida anteriormente httpsbitly3b1px7J E verificamos que zc 1645 Desse modo rejeitamos H0 se Z0Zc o que é o nosso objetivo neste problema Na sequência calculamos a estatística de teste Note que dessa forma não temos indicativos fortes para rejeitar a hipótese de que p seja mesmo 5 CONSIDERAÇÕES FINAIS Nesta segunda Unidade fomos capazes de determinar os principais testes de hipótese utiliza dos em estatística A seleção que fizemos foi pensando na análise de variância e nos métodos de regressão que serão discutidos nas próximas Unidades Bons estudos e até lá Em uma determinada indústria de pregos o setor de qualidade possui como requisito que a fração de pregos defeituoso não exceda 5 ie que em qualquer lote escolhido exista uma proporção máxima de 5 defeituosos a cada 100 peças Esse tipo de problema se refere a um teste para confirmar a proporção de uma determinada população Para realizar essa análise inicialmente como nos outros casos devemos retirar uma amostra aleatória de tamanho 𝑛𝑛 Nesse caso geralmente realizamos essa análise para uma população muito grande Dessa amostra observada supomos que 𝑋𝑋 observações tenham a propriedade analisada No caso do problema da indústria de pregos a observação poderia ser a falha em cada uma das 100 peças analisadas Assim ao observarmos 3 peças defeituosas a proporção calculada é um estimador pontual da proporção real que essa população apresenta Nesse caso denotamos 𝑃𝑃 𝑋𝑋 𝑛𝑛 3 100 3 Nossa análise como nos casos anteriores é investigar se esse resultado representa de fato a proporção real da população analisada Então vamos considerar 𝑝𝑝0 como a proporção desejada e então construímos ambos os testes de hipótese 𝐻𝐻0 𝑝𝑝 𝑝𝑝0 𝐻𝐻1 𝑝𝑝 𝑝𝑝0 Representando a hipótese nula e a hipótese alternativa respectivamente Podese mostrar mas foge ao escopo deste material que a distribuição amostral da proporção segue uma distribuição normal com média 𝑝𝑝 e variância 𝑝𝑝1𝑝𝑝 𝑛𝑛 no caso em que 𝑝𝑝 não esteja próxima de 0 e 𝑛𝑛 seja suficientemente grande Assim chegaríamos à conclusão de que a estatística de teste que deve ser realizada é a mesma aplicada no teste para a média de uma distribuição normal com variância conhecida ie é realizada a partir da Tabela da Distribuição Normal A estatística de teste então é dada por 𝑍𝑍0 𝑋𝑋 𝑛𝑛𝑝𝑝𝑜𝑜 𝑛𝑛𝑝𝑝01 𝑝𝑝0 Estatística fácil de Crespo é um roteiro de estatística descritiva que ajuda os alunos que realmen te têm dificuldade nessa área É um livro extremamente didático o qual dá destaque aos assuntos mais essenciais de estatística CRESPO AA Estatística fácil São Paulo Saraiva 2009 LEITURA Assim calculamos os pontos críticos e na sequência as regiões de aceitação e rejeição Desse modo aceitamos 𝐻𝐻0 se 𝑍𝑍𝑐𝑐 𝑍𝑍0 𝑍𝑍𝑐𝑐 no caso do teste bilateral e rejeitamos 𝐻𝐻0 caso contrário Então no caso da indústria de pregos podemos escrever os seguintes testes de hipótese 𝐻𝐻0 𝑝𝑝 005 𝐻𝐻1 𝑝𝑝 005 Note que escrevemos como um teste unilateral visto que precisamos garantir que a margem de pregos defeituosos seja menor que 5 Suponha que desejamos uma confiança de 95 de forma que 𝛼𝛼 5 Na sequência podemos encontrar os valores críticos Assim consultamos a seguinte tabela já fornecida anteriormente httpsbitly3b1px7J E verificamos que 𝑧𝑧𝑐𝑐 1645 Desse modo rejeitamos 𝐻𝐻0 se 𝑍𝑍0 𝑍𝑍𝑐𝑐 o que é o nosso objetivo neste problema Na sequência calculamos a estatística de teste 𝑍𝑍0 𝑋𝑋 𝑛𝑛𝑝𝑝𝑜𝑜 𝑛𝑛𝑝𝑝01 𝑝𝑝0 3 100 005 1000051 005 0917 Note que dessa forma não temos indicativos fortes para rejeitar a hipótese de que 𝑝𝑝 seja mesmo 5 LEITURA Estatística fácil de Crespo é um roteiro de estatística descritiva que ajuda os alunos que realmente têm dificuldade nessa área É um livro extremamente didático o qual dá destaque aos assuntos mais essenciais de estatística CRESPO AA Estatística fácil São Paulo Saraiva 2009 UNIDADE 02 48 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA ANOTAÇÕES UNIDADE OBJETIVOS DE APRENDIZAGEM VÍDEOS DA UNIDADE httpsbitly3e15Ayj httpsbitly2RB0Url httpsbitly3dgNYiE 03 REGRESSÃO LINEAR SIMPLES E REGRESSÃO LINEAR MÚLTIPLA Compreender a aplicação dos modelos de regressão linear simples e múltipla na estimação de uma lei geral para descrição de um conjunto de dados UNIDADE 03 50 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA INTRODUÇÃO Caro alunoa Seja bemvindoa à terceira Unidade do curso de Probabilidade e Estatística Nesta Unidade iremos abordar uma das principais análises estatísticas que são as regressões lineares Os métodos de regressão linear buscam determinar uma função que melhor descreva determi nado conjunto de dados que podem se comportar aproximadamente como uma reta ie linear Bom estudo 1 REGRESSÃO LINEAR SIMPLES No primeiro cenário de regressão que iremos considerar analisaremos o caso linear simples Nesse caso uma única variável de controle independente x altera o resultado de uma única variável de saída dependente y A Figura 1 apresenta o tipo de modelo a ser investigado Aqui gostaríamos de encontrar como a variável independente yi está associada aos possíveis valores que a variável dependente xi assume FIGURA 1 VISUALIZAÇÃO DE UMA REGRESSÃO LINEAR Fonte Recologia 2012 UNIDADE 03 51 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Para analisarmos esse cenário suponha que você seja um cientista preocupado em verificar ca racterísticas de uma determinada mola Como sabe que toda mola atende à Lei de Hook qual seja F k ΔX então pretende coletar dados para encontrar o coeficiente de elasticidade k Vejamos o tipo de análise a ser realizada 11 MODELO ESTATÍSTICO Para o tipo de análise que desejamos realizar é necessário coletar um conjunto de dados re lacionando às duas variáveis Nesse caso consideramos n pares de medidas e as denotamos por x1 y1 x2 y2 xn yn As quais podem ser descritas a partir de uma Tabela No exemplo que iremos discutir aqui con sideraremos os dados descritos na Tabela 1 TABELA 1 DADOS DE FORÇAS NECESSÁRIAS PARA CAUSAR UM DETERMINADO DESLOCAMENTO Observação Δx cm F N Observação Δx cm F N 1 220 122 11 230 133 2 220 119 12 230 133 3 220 122 13 230 132 4 220 122 14 230 133 5 220 122 15 230 135 6 225 126 16 235 135 7 225 129 17 235 136 8 225 126 18 235 137 9 225 124 19 235 137 10 225 128 20 235 137 Fonte O autor 2020 Nessa tabela realizamos um experimento com determinada mola esticandoa por 220 225 230 ou 235 cm e medindo a força necessária para realizar tal deslocamento Como as medidas foram realizadas em momentos diferentes obtemos valores que possuem uma determinada variabilidade devido ao comportamento de fatores que não controlamos no experimento A título de exemplo utilizamos o software Microsoft Excel para traçar o gráfico dos dados do problema na Figura 2 Note que a variável independente é o deslocamento enquanto a variável dependente é a força UNIDADE 03 52 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 2 GRÁFICO DESLOCAMENTO VERSUS FORÇA APRESENTANDO OS DADOS COLETADOS Fonte O autor 2020 Note também que o gráfico já nos permite observar que os dados se comportam aproximada mente como uma reta indicando o caso de análise da regressão linear simples Para os pares de dados xi yi o modelo estatístico de regressão linear simples é dado por y α βx ϵi i 1 n Veja que se trata de uma equação de reta em que β representa o coeficiente angular ie a inclinação da reta α o coeficiente linear e ϵi o erro obtido gerado pela aleatoriedade e por não considerar outros efeitos na explicação da variável de interesse No modelo considerado supomos que a relação entre as duas variáveis yi e xi são lineares Entretanto nem sempre essa é uma assertiva verdadeira de forma que ao final da análise verifi caremos a importância do coeficiente de determinação para adequar a confiabilidade do modelo Além disso supomos que as variáveis não são aleatórias visto que temos um controle ie um planejamento do experimento dos dados selecionados Também supomos que as médias dos erros são nulos de forma que y α βx 12 ESTIMAÇÃO DOS PARÂMETROS DO MODELO Devemos considerar uma estratégia para determinar a melhor reta que descreve o conjunto de pontos analisado Na regressão que vamos desenvolver consideramos utilizar a reta que minimiza o quadrado dos erros de forma que costumamos denominar a regressão linear como pertencente à classe de Métodos dos Mínimos Quadrados Para compreender a minimização do erro considere o cálculo do erro ao escolhermos um dos possíveis valores que α e β podem assumir Para o conjunto de dados xi yi temos que ϵi yi α βxi Figura 2 Gráfico Deslocamento versus Força apresentando os dados coletados Fonte O autor 2020 Note também que o gráfico já nos permite observar que os dados se comportam aproximadamente como uma reta indicando o caso de análise da regressão linear simples Para os pares de dados 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 o modelo estatístico de regressão linear simples é dado por 𝑦𝑦 𝛼𝛼 𝛽𝛽 𝑥𝑥 𝜖𝜖𝑖𝑖 𝑖𝑖 1 𝑛𝑛 Veja que se trata de uma equação de reta em que 𝛽𝛽 representa o coeficiente angular ie a inclinação da reta 𝛼𝛼 o coeficiente linear e 𝜖𝜖𝑖𝑖 o erro obtido gerado pela aleatoriedade e por não considerar outros efeitos na explicação da variável de interesse No modelo considerado supomos que a relação entre as duas variáveis 𝑦𝑦𝑖𝑖 e 𝑥𝑥𝑖𝑖 são lineares Entretanto nem sempre essa é uma assertiva verdadeira de forma que ao final da análise verificaremos a importância do coeficiente de determinação para adequar a confiabilidade do modelo Além disso supomos que as variáveis não são aleatórias visto que temos um controle ie um planejamento do experimento dos dados selecionados Também supomos que as médias dos erros são nulos de forma que 𝑦𝑦 𝛼𝛼 𝛽𝛽 𝑥𝑥 12 Estimação dos Parâmetros do Modelo 118 120 122 124 126 128 130 132 134 136 138 220 225 230 235 Deslocamento versus Força UNIDADE 03 53 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Como yi representa o valor observado e α βxi representa o valor estimado pela regressão verificamos que ϵi representa quão afastada a estimativa está do valor observado ie medido Considerando a soma do quadrado do erro ϵi dado por SQE e considerando que desejamos encontrar os valores de α e β que minimizam SQE então encon tramos os pontos críticos fazendo O que nos leva a pelo uso da regra de derivação regra da cadeia Essas equações podem ser simplificadas se considerarmos as médias das observações ie Assim reescrevemos Isolando α na primeira equação e substituindo na segunda obtemos Devemos considerar uma estratégia para determinar a melhor reta que descreve o conjunto de pontos analisado Na regressão que vamos desenvolver consideramos utilizar a reta que minimiza o quadrado dos erros de forma que costumamos denominar a regressão linear como pertencente à classe de Métodos dos Mínimos Quadrados Para compreender a minimização do erro considere o cálculo do erro ao escolhermos um dos possíveis valores que 𝛼𝛼 e 𝛽𝛽 podem assumir Para o conjunto de dados 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 temos que 𝜖𝜖𝑖𝑖 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 Como 𝑦𝑦𝑖𝑖 representa o valor observado e 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 representa o valor estimado pela regressão verificamos que 𝜖𝜖𝑖𝑖 representa quão afastada a estimativa está do valor observado ie medido Considerando a soma do quadrado do erro 𝜖𝜖𝑖𝑖 dado por 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝜖𝜖𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 e considerando que desejamos encontrar os valores de 𝛼𝛼 e 𝛽𝛽 que minimizam 𝑆𝑆𝑆𝑆𝑆𝑆 então encontramos os pontos críticos fazendo 𝛼𝛼 𝑆𝑆𝑆𝑆𝑆𝑆 0 𝛽𝛽 𝑆𝑆𝑆𝑆𝑆𝑆 0 O que nos leva a pelo uso da regra de derivação regra da cadeia 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 Devemos considerar uma estratégia para determinar a melhor reta que descreve o conjunto de pontos analisado Na regressão que vamos desenvolver consideramos utilizar a reta que minimiza o quadrado dos erros de forma que costumamos denominar a regressão linear como pertencente à classe de Métodos dos Mínimos Quadrados Para compreender a minimização do erro considere o cálculo do erro ao escolhermos um dos possíveis valores que 𝛼𝛼 e 𝛽𝛽 podem assumir Para o conjunto de dados 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 temos que 𝜖𝜖𝑖𝑖 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 Como 𝑦𝑦𝑖𝑖 representa o valor observado e 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 representa o valor estimado pela regressão verificamos que 𝜖𝜖𝑖𝑖 representa quão afastada a estimativa está do valor observado ie medido Considerando a soma do quadrado do erro 𝜖𝜖𝑖𝑖 dado por 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝜖𝜖𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 e considerando que desejamos encontrar os valores de 𝛼𝛼 e 𝛽𝛽 que minimizam 𝑆𝑆𝑆𝑆𝑆𝑆 então encontramos os pontos críticos fazendo 𝛼𝛼 𝑆𝑆𝑆𝑆𝑆𝑆 0 𝛽𝛽 𝑆𝑆𝑆𝑆𝑆𝑆 0 O que nos leva a pelo uso da regra de derivação regra da cadeia 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 Devemos considerar uma estratégia para determinar a melhor reta que descreve o conjunto de pontos analisado Na regressão que vamos desenvolver consideramos utilizar a reta que minimiza o quadrado dos erros de forma que costumamos denominar a regressão linear como pertencente à classe de Métodos dos Mínimos Quadrados Para compreender a minimização do erro considere o cálculo do erro ao escolhermos um dos possíveis valores que 𝛼𝛼 e 𝛽𝛽 podem assumir Para o conjunto de dados 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖 temos que 𝜖𝜖𝑖𝑖 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 Como 𝑦𝑦𝑖𝑖 representa o valor observado e 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 representa o valor estimado pela regressão verificamos que 𝜖𝜖𝑖𝑖 representa quão afastada a estimativa está do valor observado ie medido Considerando a soma do quadrado do erro 𝜖𝜖𝑖𝑖 dado por 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝜖𝜖𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 e considerando que desejamos encontrar os valores de 𝛼𝛼 e 𝛽𝛽 que minimizam 𝑆𝑆𝑆𝑆𝑆𝑆 então encontramos os pontos críticos fazendo 𝛼𝛼 𝑆𝑆𝑆𝑆𝑆𝑆 0 𝛽𝛽 𝑆𝑆𝑆𝑆𝑆𝑆 0 O que nos leva a pelo uso da regra de derivação regra da cadeia 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 0 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Essas equações podem ser simplificadas se considerarmos as médias das observações ie 𝑥𝑥 1 𝑛𝑛 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 Assim reescrevemos 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Isolando 𝛼𝛼 na primeira equação e substituindo na segunda obtemos 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Multiplicando por 𝑛𝑛 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Essas equações podem ser simplificadas se considerarmos as médias das observações ie 𝑥𝑥 1 𝑛𝑛 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 Assim reescrevemos 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Isolando 𝛼𝛼 na primeira equação e substituindo na segunda obtemos 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Multiplicando por 𝑛𝑛 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Essas equações podem ser simplificadas se considerarmos as médias das observações ie 𝑥𝑥 1 𝑛𝑛 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 Assim reescrevemos 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Isolando 𝛼𝛼 na primeira equação e substituindo na segunda obtemos 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Multiplicando por 𝑛𝑛 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Essas equações podem ser simplificadas se considerarmos as médias das observações ie 𝑥𝑥 1 𝑛𝑛 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 Assim reescrevemos 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Isolando 𝛼𝛼 na primeira equação e substituindo na segunda obtemos 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Multiplicando por 𝑛𝑛 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim UNIDADE 03 54 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Multiplicando por n Assim Substituindo esse termo podemos encontrar o parâmetro α Entretanto é mais recomendável utilizar o próprio modelo de regressão para encontrar o cál culo de α Como Para facilitar os cálculos necessários utilizamos uma tabela de auxílio para os cálculos manuais como generalizado na Tabela 2 TABELA 2 TABELA GENÉRICA DE AUXÍLIO PARA OS CÁLCULOS MANUAIS Fonte O autor 2020 13 EXEMPLO No exemplo que estamos analisando até aqui vamos determinar os coeficientes α e β para o modelo que relaciona força e deslocamento F α βΔx Como temos como suposição que tal experimento atende a Lei de Hooke ie F kΔx caso os dados do experimento se comportem como uma reta poderemos afirmar que o coeficiente de elasticidade k será determinado por β 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Essas equações podem ser simplificadas se considerarmos as médias das observações ie 𝑥𝑥 1 𝑛𝑛 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 Assim reescrevemos 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Isolando 𝛼𝛼 na primeira equação e substituindo na segunda obtemos 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Multiplicando por 𝑛𝑛 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 Substituindo esse termo podemos encontrar o parâmetro 𝛼𝛼 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Entretanto é mais recomendável utilizar o próprio modelo de regressão para encontrar o cálculo de 𝛼𝛼 Como 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝑦𝑦 𝛽𝛽𝑥𝑥 Para facilitar os cálculos necessários utilizamos uma tabela de auxílio para os cálculos manuais como generalizado na Tabela 2 Tabela 2 Tabela genérica de auxílio para os cálculos manuais 𝒏𝒏𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝟐𝟐 𝟏𝟏 𝑥𝑥1 𝑦𝑦1 𝑥𝑥1𝑦𝑦1 𝑥𝑥1 2 𝟐𝟐 𝑥𝑥2 𝑦𝑦2 𝑥𝑥2𝑦𝑦2 𝑥𝑥2 2 𝒏𝒏 𝑥𝑥𝑛𝑛 𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Fonte O autor 2020 13 Exemplo No exemplo que estamos analisando até aqui vamos determinar os coeficientes 𝜶𝜶 e 𝜷𝜷 para o modelo que relaciona força e deslocamento 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 Substituindo esse termo podemos encontrar o parâmetro 𝛼𝛼 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Entretanto é mais recomendável utilizar o próprio modelo de regressão para encontrar o cálculo de 𝛼𝛼 Como 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝑦𝑦 𝛽𝛽𝑥𝑥 Para facilitar os cálculos necessários utilizamos uma tabela de auxílio para os cálculos manuais como generalizado na Tabela 2 Tabela 2 Tabela genérica de auxílio para os cálculos manuais 𝒏𝒏𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝟐𝟐 𝟏𝟏 𝑥𝑥1 𝑦𝑦1 𝑥𝑥1𝑦𝑦1 𝑥𝑥1 2 𝟐𝟐 𝑥𝑥2 𝑦𝑦2 𝑥𝑥2𝑦𝑦2 𝑥𝑥2 2 𝒏𝒏 𝑥𝑥𝑛𝑛 𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Fonte O autor 2020 13 Exemplo No exemplo que estamos analisando até aqui vamos determinar os coeficientes 𝜶𝜶 e 𝜷𝜷 para o modelo que relaciona força e deslocamento 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 Substituindo esse termo podemos encontrar o parâmetro 𝛼𝛼 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Entretanto é mais recomendável utilizar o próprio modelo de regressão para encontrar o cálculo de 𝛼𝛼 Como 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝑦𝑦 𝛽𝛽𝑥𝑥 Para facilitar os cálculos necessários utilizamos uma tabela de auxílio para os cálculos manuais como generalizado na Tabela 2 Tabela 2 Tabela genérica de auxílio para os cálculos manuais 𝒏𝒏𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝟐𝟐 𝟏𝟏 𝑥𝑥1 𝑦𝑦1 𝑥𝑥1𝑦𝑦1 𝑥𝑥1 2 𝟐𝟐 𝑥𝑥2 𝑦𝑦2 𝑥𝑥2𝑦𝑦2 𝑥𝑥2 2 𝒏𝒏 𝑥𝑥𝑛𝑛 𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Fonte O autor 2020 13 Exemplo No exemplo que estamos analisando até aqui vamos determinar os coeficientes 𝜶𝜶 e 𝜷𝜷 para o modelo que relaciona força e deslocamento 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 Substituindo esse termo podemos encontrar o parâmetro 𝛼𝛼 𝛼𝛼 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 1 𝑛𝑛 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 Entretanto é mais recomendável utilizar o próprio modelo de regressão para encontrar o cálculo de 𝛼𝛼 Como 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝑦𝑦 𝛽𝛽𝑥𝑥 Para facilitar os cálculos necessários utilizamos uma tabela de auxílio para os cálculos manuais como generalizado na Tabela 2 Tabela 2 Tabela genérica de auxílio para os cálculos manuais 𝒏𝒏𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝟐𝟐 𝟏𝟏 𝑥𝑥1 𝑦𝑦1 𝑥𝑥1𝑦𝑦1 𝑥𝑥1 2 𝟐𝟐 𝑥𝑥2 𝑦𝑦2 𝑥𝑥2𝑦𝑦2 𝑥𝑥2 2 𝒏𝒏 𝑥𝑥𝑛𝑛 𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛𝑦𝑦𝑛𝑛 𝑥𝑥𝑛𝑛 2 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Fonte O autor 2020 13 Exemplo No exemplo que estamos analisando até aqui vamos determinar os coeficientes 𝜶𝜶 e 𝜷𝜷 para o modelo que relaciona força e deslocamento UNIDADE 03 55 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Como precisamos determinar alguns somatórios utilizaremos a Tabela 3 para auxiliar nos cál culos manuais Nela consideramos F como y e Δx como x para facilitar o reconhecimento dos termos calculados necessários TABELA 3 TABELA DE AUXÍLIO PARA CÁLCULOS MANUAIS PARA OS DADOS DO EXEMPLO Fonte O autor 2020 Substituindo os dados do problema obtemos Como 𝑭𝑭 𝜶𝜶 𝜷𝜷 𝚫𝚫𝒙𝒙 Como temos como suposição que tal experimento atende a Lei de Hooke ie 𝑭𝑭 𝒌𝒌 𝚫𝚫𝒙𝒙 caso os dados do experimento se comportem como uma reta poderemos afirmar que o coeficiente de elasticidade 𝒌𝒌 será determinado por 𝜷𝜷 Como precisamos determinar alguns somatórios utilizaremos a Tabela 3 para auxiliar nos cálculos manuais Nela consideramos 𝑭𝑭 como 𝒚𝒚 e 𝚫𝚫𝒙𝒙 como 𝒙𝒙 para facilitar o reconhecimento dos termos calculados necessários Tabela 3 Tabela de auxílio para cálculos manuais para os dados do exemplo 𝒏𝒏𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 𝒙𝒙𝒊𝒊 𝟐𝟐 𝟏𝟏 220 122 26840 48400 𝟐𝟐 220 119 26180 48400 𝟑𝟑 220 122 26840 48400 𝟒𝟒 220 122 26840 48400 𝟓𝟓 220 122 26840 48400 𝟔𝟔 225 126 28350 50625 𝟕𝟕 225 129 29025 50625 𝟖𝟖 225 126 28350 50625 𝟗𝟗 225 124 27900 50625 𝟏𝟏𝟏𝟏 225 128 28800 50625 𝟏𝟏𝟏𝟏 230 133 30590 52900 𝟏𝟏𝟐𝟐 230 133 30590 52900 𝟏𝟏𝟑𝟑 230 132 30360 52900 𝟏𝟏𝟒𝟒 230 133 30590 52900 𝟏𝟏𝟓𝟓 230 135 31050 52900 𝟏𝟏𝟔𝟔 235 135 31725 55225 𝟏𝟏𝟕𝟕 235 136 31960 55225 𝟏𝟏𝟖𝟖 235 137 32195 55225 𝟏𝟏𝟗𝟗 235 137 32195 55225 𝟐𝟐𝟏𝟏 235 137 32195 55225 4550 2588 589415 1035750 Fonte O autor 2020 Substituindo os dados do problema obtemos 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝛽𝛽 20 589415 4550 2588 20 1035750 45502 1032 Como 𝑥𝑥 𝑥𝑥𝑖𝑖 𝑛𝑛 4550 20 2275 𝑦𝑦 𝑦𝑦𝑖𝑖 𝑛𝑛 2588 20 1294 Então 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝛽𝛽𝑥𝑥 𝑦𝑦 10538 Dessa forma o modelo que descreve a relação da força com o deslocamento é dado por 𝐹𝐹 10538 1032 Δ𝑥𝑥 Comparando com a Lei de Hooke 𝑭𝑭 𝒌𝒌𝚫𝚫𝒙𝒙 notamos que o coeficiente de elasticidade é de 𝟏𝟏 𝟎𝟎𝟎𝟎𝟎𝟎 𝑵𝑵𝒎𝒎 e que a mola ficará no referencial zero de deslocamento no caso em que estará sujeita a uma força de 𝟏𝟏𝟎𝟎𝟏𝟏 𝟎𝟎𝟑𝟑𝑵𝑵 14 Intervalo de Confiança para os Parâmetros Desejamos garantir com um nível de confiança 𝛼𝛼 o seguinte teste de hipótese UNIDADE 03 56 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Então Dessa forma o modelo que descreve a relação da força com o deslocamento é dado por F 10538 1032Δx Comparando com a Lei de Hooke FkΔx notamos que o coeficiente de elasticidade é de 1032 Nm e que a mola ficará no referencial zero de deslocamento no caso em que estará sujeita a uma força de 10538N 14 INTERVALO DE CONFIANÇA PARA OS PARÂMETROS Desejamos garantir com um nível de confiança α o seguinte teste de hipótese Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição t de student e que a estatística de teste é dada por No caso dos dados do problema analisado note que Fonte O autor 2020 Substituindo os dados do problema obtemos 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝛽𝛽 20 589415 4550 2588 20 1035750 45502 1032 Como 𝑥𝑥 𝑥𝑥𝑖𝑖 𝑛𝑛 4550 20 2275 𝑦𝑦 𝑦𝑦𝑖𝑖 𝑛𝑛 2588 20 1294 Então 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝛽𝛽𝑥𝑥 𝑦𝑦 10538 Dessa forma o modelo que descreve a relação da força com o deslocamento é dado por 𝐹𝐹 10538 1032 Δ𝑥𝑥 Comparando com a Lei de Hooke 𝑭𝑭 𝒌𝒌𝚫𝚫𝒙𝒙 notamos que o coeficiente de elasticidade é de 𝟏𝟏 𝟎𝟎𝟎𝟎𝟎𝟎 𝑵𝑵𝒎𝒎 e que a mola ficará no referencial zero de deslocamento no caso em que estará sujeita a uma força de 𝟏𝟏𝟎𝟎𝟏𝟏 𝟎𝟎𝟑𝟑𝑵𝑵 14 Intervalo de Confiança para os Parâmetros Desejamos garantir com um nível de confiança 𝛼𝛼 o seguinte teste de hipótese Fonte O autor 2020 Substituindo os dados do problema obtemos 𝛽𝛽 𝑛𝑛 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝛽𝛽 20 589415 4550 2588 20 1035750 45502 1032 Como 𝑥𝑥 𝑥𝑥𝑖𝑖 𝑛𝑛 4550 20 2275 𝑦𝑦 𝑦𝑦𝑖𝑖 𝑛𝑛 2588 20 1294 Então 𝑦𝑦 𝛼𝛼 𝛽𝛽𝑥𝑥 𝛼𝛼 𝛽𝛽𝑥𝑥 𝑦𝑦 10538 Dessa forma o modelo que descreve a relação da força com o deslocamento é dado por 𝐹𝐹 10538 1032 Δ𝑥𝑥 Comparando com a Lei de Hooke 𝑭𝑭 𝒌𝒌𝚫𝚫𝒙𝒙 notamos que o coeficiente de elasticidade é de 𝟏𝟏 𝟎𝟎𝟎𝟎𝟎𝟎 𝑵𝑵𝒎𝒎 e que a mola ficará no referencial zero de deslocamento no caso em que estará sujeita a uma força de 𝟏𝟏𝟎𝟎𝟏𝟏 𝟎𝟎𝟑𝟑𝑵𝑵 14 Intervalo de Confiança para os Parâmetros Desejamos garantir com um nível de confiança 𝛼𝛼 o seguinte teste de hipótese 𝐻𝐻0 𝛽𝛽 0 𝐻𝐻1 𝛽𝛽 0 Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição 𝑡𝑡 de student e que a estatística de teste é dada por 𝑇𝑇0 𝛽𝛽 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝑄𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑄𝑄𝑄𝑄 𝑛𝑛 2 𝑆𝑆𝑄𝑄𝑄𝑄 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑦𝑦 No caso dos dados do problema analisado note que 𝑆𝑆𝑄𝑄𝑄𝑄 335594 20 12942 1032 589415 20 2275 1294 𝑆𝑆𝑄𝑄𝑄𝑄 4116 𝑄𝑄𝑄𝑄𝑄𝑄 4116 18 22867 𝑇𝑇0 1032 22867 625 17061 O teste que devemos realizar é aceitar 𝐻𝐻0 se 𝑇𝑇0 𝑡𝑡1𝛼𝛼2𝑛𝑛2 e rejeitar 𝐻𝐻0 caso contrário Como 𝑡𝑡095218 2101 podemos rejeitar a hipótese 𝐻𝐻0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro 𝛽𝛽 é dado por 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 Assim para os dados do problema 1032 2101 22867 625 𝛽𝛽 1032 2101 22867 625 0905 𝛽𝛽 1159 𝐻𝐻0 𝛽𝛽 0 𝐻𝐻1 𝛽𝛽 0 Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição 𝑡𝑡 de student e que a estatística de teste é dada por 𝑇𝑇0 𝛽𝛽 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝑄𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑄𝑄𝑄𝑄 𝑛𝑛 2 𝑆𝑆𝑄𝑄𝑄𝑄 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑦𝑦 No caso dos dados do problema analisado note que 𝑆𝑆𝑄𝑄𝑄𝑄 335594 20 12942 1032 589415 20 2275 1294 𝑆𝑆𝑄𝑄𝑄𝑄 4116 𝑄𝑄𝑄𝑄𝑄𝑄 4116 18 22867 𝑇𝑇0 1032 22867 625 17061 O teste que devemos realizar é aceitar 𝐻𝐻0 se 𝑇𝑇0 𝑡𝑡1𝛼𝛼2𝑛𝑛2 e rejeitar 𝐻𝐻0 caso contrário Como 𝑡𝑡095218 2101 podemos rejeitar a hipótese 𝐻𝐻0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro 𝛽𝛽 é dado por 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 Assim para os dados do problema 1032 2101 22867 625 𝛽𝛽 1032 2101 22867 625 0905 𝛽𝛽 1159 𝐻𝐻0 𝛽𝛽 0 𝐻𝐻1 𝛽𝛽 0 Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição 𝑡𝑡 de student e que a estatística de teste é dada por 𝑇𝑇0 𝛽𝛽 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝑄𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑄𝑄𝑄𝑄 𝑛𝑛 2 𝑆𝑆𝑄𝑄𝑄𝑄 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑦𝑦 No caso dos dados do problema analisado note que 𝑆𝑆𝑄𝑄𝑄𝑄 335594 20 12942 1032 589415 20 2275 1294 𝑆𝑆𝑄𝑄𝑄𝑄 4116 𝑄𝑄𝑄𝑄𝑄𝑄 4116 18 22867 𝑇𝑇0 1032 22867 625 17061 O teste que devemos realizar é aceitar 𝐻𝐻0 se 𝑇𝑇0 𝑡𝑡1𝛼𝛼2𝑛𝑛2 e rejeitar 𝐻𝐻0 caso contrário Como 𝑡𝑡095218 2101 podemos rejeitar a hipótese 𝐻𝐻0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro 𝛽𝛽 é dado por 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 Assim para os dados do problema 1032 2101 22867 625 𝛽𝛽 1032 2101 22867 625 0905 𝛽𝛽 1159 𝛼 𝑦 𝛽𝑥 10538 UNIDADE 03 57 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA O teste que devemos realizar é aceitar H0 se T0t1α 2 n2 e rejeitar H0 caso contrário Como t095 2 182101 podemos rejeitar a hipótese H0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro β é dado por Assim para os dados do problema 2 COEFICIENTE DE DETERMINAÇÃO Com o método de regressão linear simples você sempre será capaz de traçar uma reta que minimiza o quadrado dos erros Entretanto alguns dados não se comportam como uma reta de forma que o modelo desenvolvido não é adequado para a sua descrição Avaliamos a qualidade do modelo por meio da análise do coeficiente de determinação 21 OBTENÇÃO DO COEFICIENTE DE DETERMINAÇÃO Podemos obter o coeficiente de determinação R2 como 𝐻𝐻0 𝛽𝛽 0 𝐻𝐻1 𝛽𝛽 0 Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição 𝑡𝑡 de student e que a estatística de teste é dada por 𝑇𝑇0 𝛽𝛽 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝑄𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑄𝑄𝑄𝑄 𝑛𝑛 2 𝑆𝑆𝑄𝑄𝑄𝑄 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑦𝑦 No caso dos dados do problema analisado note que 𝑆𝑆𝑄𝑄𝑄𝑄 335594 20 12942 1032 589415 20 2275 1294 𝑆𝑆𝑄𝑄𝑄𝑄 4116 𝑄𝑄𝑄𝑄𝑄𝑄 4116 18 22867 𝑇𝑇0 1032 22867 625 17061 O teste que devemos realizar é aceitar 𝐻𝐻0 se 𝑇𝑇0 𝑡𝑡1𝛼𝛼2𝑛𝑛2 e rejeitar 𝐻𝐻0 caso contrário Como 𝑡𝑡095218 2101 podemos rejeitar a hipótese 𝐻𝐻0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro 𝛽𝛽 é dado por 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 Assim para os dados do problema 1032 2101 22867 625 𝛽𝛽 1032 2101 22867 625 0905 𝛽𝛽 1159 𝐻𝐻0 𝛽𝛽 0 𝐻𝐻1 𝛽𝛽 0 Podemos provar mas foge ao escopo desta Unidade que os dados seguem uma distribuição 𝑡𝑡 de student e que a estatística de teste é dada por 𝑇𝑇0 𝛽𝛽 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝑄𝑄𝑄𝑄𝑄𝑄 𝑆𝑆𝑄𝑄𝑄𝑄 𝑛𝑛 2 𝑆𝑆𝑄𝑄𝑄𝑄 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑥𝑥𝑦𝑦 No caso dos dados do problema analisado note que 𝑆𝑆𝑄𝑄𝑄𝑄 335594 20 12942 1032 589415 20 2275 1294 𝑆𝑆𝑄𝑄𝑄𝑄 4116 𝑄𝑄𝑄𝑄𝑄𝑄 4116 18 22867 𝑇𝑇0 1032 22867 625 17061 O teste que devemos realizar é aceitar 𝐻𝐻0 se 𝑇𝑇0 𝑡𝑡1𝛼𝛼2𝑛𝑛2 e rejeitar 𝐻𝐻0 caso contrário Como 𝑡𝑡095218 2101 podemos rejeitar a hipótese 𝐻𝐻0 Podemos provar mas também foge ao escopo deste conteúdo que o intervalo de confiança para o parâmetro 𝛽𝛽 é dado por 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝛽𝛽 𝑡𝑡1𝛼𝛼 2𝑛𝑛2 𝑄𝑄𝑄𝑄𝑄𝑄 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑛𝑛 𝑖𝑖1 Assim para os dados do problema 1032 2101 22867 625 𝛽𝛽 1032 2101 22867 625 0905 𝛽𝛽 1159 VÍDEO O homem que mudou o jogo Sony Pictures 2011 é um filme baseado na história de Billy Beane que construiu um time de beisebol competitivo para a temporada de 2002 O diferencial é que as escolhas do treinador visionário foram fundamentadas em estatística e análise de dados 2 COEFICIENTE DE DETERMINAÇÃO Com o método de regressão linear simples você sempre será capaz de traçar uma reta que minimiza o quadrado dos erros Entretanto alguns dados não se comportam como uma reta de forma que o modelo desenvolvido não é adequado para a sua descrição Avaliamos a qualidade do modelo por meio da análise do coeficiente de determinação 21 Obtenção do Coeficiente de Determinação Podemos obter o coeficiente de determinação 𝑅𝑅2 como 𝑅𝑅2 𝑆𝑆𝑆𝑆𝑅𝑅 𝑆𝑆𝑆𝑆𝑆𝑆 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛 𝑖𝑖1 Outra forma equivalente seria escrever 𝑅𝑅2 𝑥𝑥𝑖𝑖 𝑥𝑥𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 Podese provar que o valor de 𝑅𝑅2 está contido entre 0 e 1 Alguns livros utilizam como coeficiente de determinação o termo 𝑅𝑅 tal que 1 𝑅𝑅 1 entretanto utilizar 𝑅𝑅2 tal que 0 𝑅𝑅2 1 facilita a análise ao evitar operar com números negativos Dessa forma podemos afirmar que quanto mais 𝑅𝑅2 1 vide Figura 3 mais forte é o poder explicativo do modelo linear Quanto mais 𝑅𝑅2 0 vide Figura 4 menos podemos confiar no modelo visto que os dados não se aproximam de uma reta Figura 3 Dados dispersos de forma que 𝑅𝑅2 1 O homem que mudou o jogo Sony Pictures 2011 é um filme baseado na história de Billy Beane que construiu um time de beisebol competitivo para a temporada de 2002 O diferencial é que as escolhas do treinador visionário foram fundamentadas em estatística e análise de dados VÍDEO UNIDADE 03 58 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Outra forma equivalente seria escrever Podese provar que o valor de R2 está contido entre 0 e 1 Alguns livros utilizam como coeficien te de determinação o termo R tal que 1R1 entretanto utilizar R2 tal que 0R21 facilita a análise ao evitar operar com números negativos Dessa forma podemos afirmar que quanto mais R21 vide Figura 3 mais forte é o poder explicativo do modelo linear Quanto mais R20 vide Figura 4 menos podemos confiar no modelo visto que os dados não se aproximam de uma reta FIGURA 3 DADOS DISPERSOS DE FORMA QUE R21 FIGURA 4 DADOS DISPERSOS DE FORMA QUE R20 Fonte Recologia 2012 22 EXEMPLO Para os dados do exemplo podemos calcular o coeficiente de determinação VÍDEO O homem que mudou o jogo Sony Pictures 2011 é um filme baseado na história de Billy Beane que construiu um time de beisebol competitivo para a temporada de 2002 O diferencial é que as escolhas do treinador visionário foram fundamentadas em estatística e análise de dados 2 COEFICIENTE DE DETERMINAÇÃO Com o método de regressão linear simples você sempre será capaz de traçar uma reta que minimiza o quadrado dos erros Entretanto alguns dados não se comportam como uma reta de forma que o modelo desenvolvido não é adequado para a sua descrição Avaliamos a qualidade do modelo por meio da análise do coeficiente de determinação 21 Obtenção do Coeficiente de Determinação Podemos obter o coeficiente de determinação 𝑅𝑅2 como 𝑅𝑅2 𝑆𝑆𝑆𝑆𝑅𝑅 𝑆𝑆𝑆𝑆𝑆𝑆 𝛽𝛽 𝑥𝑥𝑖𝑖 𝑥𝑥𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛 𝑖𝑖1 Outra forma equivalente seria escrever 𝑅𝑅2 𝑥𝑥𝑖𝑖 𝑥𝑥𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 Podese provar que o valor de 𝑅𝑅2 está contido entre 0 e 1 Alguns livros utilizam como coeficiente de determinação o termo 𝑅𝑅 tal que 1 𝑅𝑅 1 entretanto utilizar 𝑅𝑅2 tal que 0 𝑅𝑅2 1 facilita a análise ao evitar operar com números negativos Dessa forma podemos afirmar que quanto mais 𝑅𝑅2 1 vide Figura 3 mais forte é o poder explicativo do modelo linear Quanto mais 𝑅𝑅2 0 vide Figura 4 menos podemos confiar no modelo visto que os dados não se aproximam de uma reta Figura 3 Dados dispersos de forma que 𝑅𝑅2 1 Figura 4 Dados dispersos de forma que 𝑅𝑅2 0 Fonte Recologia 2012 22 Exemplo Para os dados do exemplo podemos calcular o coeficiente de determinação 𝑅𝑅2 𝑥𝑥𝑖𝑖 𝑥𝑥𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 2 𝑥𝑥𝑖𝑖 𝑥𝑥2 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 6452 625 7068 09417 O que nos indica que os dados se comportam aproximadamente de forma linear Note que esse já era o resultado esperado quando nos confrontamos com a Figura 2 apresentada no início da Unidade VÍDEO O jogo da imitação Warner BrosBlack Bear Pictures 2014 conta a história do Alan Turing um dos precursores dos estudos na área de Inteligência Artificial É um filme UNIDADE 03 59 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA O que nos indica que os dados se comportam aproximadamente de forma linear Note que esse já era o resultado esperado quando nos confrontamos com a Figura 2 apresentada no início da Unidade 3 LINEARIZAÇÃO DOS DADOS Alguns dados que tratamos não provêm de um comportamento linear mas podem com um determinado ajuste se comportar de tal forma Para isso realizamos um ajuste chamado de line arização dos dados 31 LINEARIZAÇÃO DO TIPO yax2 No caso que discutimos ao longo da Unidade o modelo físico envolvido se expressa por uma equação linear ie pela Lei de Hooke Entretanto alguns modelos são do tipo yax2 Podemos citar por exemplo o modelo de um objeto partindo do repouso em queda livre no vácuo cuja equação é dada por Nesses casos coletar dados ti yi nos apresentará dados com comportamento parabólicos de forma que o coeficiente de determinação será próximo de 0 Podemos contornar essa dificuldade realizando uma mudança de variável Nesse caso poderíamos coletar dados do tipo ti 2yi e o modelo se comportaria como uma reta Assim a linearização nesse caso se comporta como uma mudança de variável em que tx2 e portanto y at O jogo da imitação Warner BrosBlack Bear Pictures 2014 conta a história do Alan Turing um dos precursores dos estudos na área de Inteligência Artificial É um filme que pode ser analisado com o olhar estatístico quando evidencia a quantidade de tentativas e erros que precisam ser feitas para chegar aos resultados esperados VÍDEO que pode ser analisado com o olhar estatístico quando evidencia a quantidade de tentativas e erros que precisam ser feitas para chegar aos resultados esperados 3 LINEARIZAÇÃO DOS DADOS Alguns dados que tratamos não provêm de um comportamento linear mas podem com um determinado ajuste se comportar de tal forma Para isso realizamos um ajuste chamado de linearização dos dados 31 Linearização do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙𝟐𝟐 No caso que discutimos ao longo da Unidade o modelo físico envolvido se expressa por uma equação linear ie pela Lei de Hooke Entretanto alguns modelos são do tipo 𝑦𝑦 𝑎𝑎𝑥𝑥2 Podemos citar por exemplo o modelo de um objeto partindo do repouso em queda livre no vácuo cuja equação é dada por 𝑦𝑦 𝑦𝑦0 𝑎𝑎𝑡𝑡2 2 Nesses casos coletar dados 𝑡𝑡𝑖𝑖 𝑦𝑦𝑖𝑖 nos apresentará dados com comportamento parabólicos de forma que o coeficiente de determinação será próximo de 0 Podemos contornar essa dificuldade realizando uma mudança de variável Nesse caso poderíamos coletar dados do tipo 𝑡𝑡𝑖𝑖 2 𝑦𝑦𝑖𝑖 e o modelo se comportaria como uma reta Assim a linearização nesse caso se comporta como uma mudança de variável em que 𝑡𝑡 𝑥𝑥2 e portanto 𝑦𝑦 𝑎𝑎𝑡𝑡 32 Linearização do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 No caso em que o modelo é do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 podemos coletar dados de modo que o experimento analisado se apresente de forma linear Para isso é necessário notar que sendo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 então 𝐥𝐥𝐥𝐥 𝒚𝒚 𝐥𝐥𝐥𝐥 𝒂𝒂 𝒙𝒙𝜶𝜶 𝐥𝐥𝐥𝐥 𝒚𝒚 𝐥𝐥𝐥𝐥 𝒂𝒂 𝜶𝜶 𝐥𝐥𝐥𝐥 𝒙𝒙 Desse modo devemos coletar dados do tipo 𝐥𝐥𝐥𝐥 𝒙𝒙𝒊𝒊 𝐥𝐥𝐥𝐥 𝒚𝒚 e o modelo se comportará como uma reta Observe que plotando os dados dessa forma UNIDADE 03 60 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 32 LINEARIZAÇÃO DO TIPO yaxa No caso em que o modelo é do tipo y axα podemos coletar dados de modo que o experimen to analisado se apresente de forma linear Para isso é necessário notar que sendo y axα então Desse modo devemos coletar dados do tipo ln xi ln y e o modelo se comportará como uma reta Observe que plotando os dados dessa forma ln a representa o coeficiente linear e α repre senta o coeficiente angular no modelo respectivamente 33 LINEARIZAÇÃO DO TIPO y No caso em que o modelo é do tipo 𝐥𝐥𝐥𝐥 𝒂𝒂 representa o coeficiente linear e 𝜶𝜶 representa o coeficiente angular no modelo respectivamente 33 Linearização do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 No caso em que o modelo é do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 basta realizar uma mudança de variáveis para que se comporte como uma reta Nesse caso chamamos 𝒕𝒕 𝟏𝟏 𝒙𝒙 e portanto 𝒚𝒚 𝒂𝒂𝒕𝒕 Note que os dados que precisam ser coletados nesse cenário são da forma 𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 34 Linearização do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 Quando o modelo é do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 também basta realizar uma mudança de variáveis de forma que 𝒕𝒕 𝒙𝒙 Nesse caso também temos 𝒚𝒚 𝒂𝒂𝒕𝒕 Entretanto os dados coletados precisam ser da forma 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 VÍDEO Uma mente brilhante Imagine EntertainmentUniversal Pictures é um filme essencial para aqueles que entram nas áreas de Exatas Conta a história do matemático John Nash o qual desenvolveu a área de Teoria dos Jogos que se tornou um dos principais braços da análise estatística 4 REGRESSÃO LINEAR MÚLTIPLA Considere um indivíduo interessado em aumentar sua massa muscular por meio de um incremento na quantidade de comida ingerida Ele decide participar de uma pesquisa científica de um novo remédio que objetiva aumentar seu apetite Após tomar uma determinada dose de remédio e ficar algumas horas em jejum o indivíduo se alimenta e tem a sua quantidade de comida ingerida registrada Vejamos se existe relação do tempo em jejum após ingerir o medicamento e a dose de remédio administrada com a quantidade de comida ingerida 41 Modelo Estatístico basta realizar uma mudança de variáveis para que se comporte como uma reta Nesse caso chamamos 𝐥𝐥𝐥𝐥 𝒂𝒂 representa o coeficiente linear e 𝜶𝜶 representa o coeficiente angular no modelo respectivamente 33 Linearização do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 No caso em que o modelo é do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 basta realizar uma mudança de variáveis para que se comporte como uma reta Nesse caso chamamos 𝒕𝒕 𝟏𝟏 𝒙𝒙 e portanto 𝒚𝒚 𝒂𝒂𝒕𝒕 Note que os dados que precisam ser coletados nesse cenário são da forma 𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 34 Linearização do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 Quando o modelo é do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 também basta realizar uma mudança de variáveis de forma que 𝒕𝒕 𝒙𝒙 Nesse caso também temos 𝒚𝒚 𝒂𝒂𝒕𝒕 Entretanto os dados coletados precisam ser da forma 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 VÍDEO Uma mente brilhante Imagine EntertainmentUniversal Pictures é um filme essencial para aqueles que entram nas áreas de Exatas Conta a história do matemático John Nash o qual desenvolveu a área de Teoria dos Jogos que se tornou um dos principais braços da análise estatística 4 REGRESSÃO LINEAR MÚLTIPLA Considere um indivíduo interessado em aumentar sua massa muscular por meio de um incremento na quantidade de comida ingerida Ele decide participar de uma pesquisa científica de um novo remédio que objetiva aumentar seu apetite Após tomar uma determinada dose de remédio e ficar algumas horas em jejum o indivíduo se alimenta e tem a sua quantidade de comida ingerida registrada Vejamos se existe relação do tempo em jejum após ingerir o medicamento e a dose de remédio administrada com a quantidade de comida ingerida 41 Modelo Estatístico e portanto yat Note que os dados que precisam ser coletados nesse cenário são da forma 𝐥𝐥𝐥𝐥 𝒂𝒂 representa o coeficiente linear e 𝜶𝜶 representa o coeficiente angular no modelo respectivamente 33 Linearização do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 No caso em que o modelo é do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙 basta realizar uma mudança de variáveis para que se comporte como uma reta Nesse caso chamamos 𝒕𝒕 𝟏𝟏 𝒙𝒙 e portanto 𝒚𝒚 𝒂𝒂𝒕𝒕 Note que os dados que precisam ser coletados nesse cenário são da forma 𝟏𝟏 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 34 Linearização do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 Quando o modelo é do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙 também basta realizar uma mudança de variáveis de forma que 𝒕𝒕 𝒙𝒙 Nesse caso também temos 𝒚𝒚 𝒂𝒂𝒕𝒕 Entretanto os dados coletados precisam ser da forma 𝒙𝒙𝒊𝒊 𝒚𝒚𝒊𝒊 VÍDEO Uma mente brilhante Imagine EntertainmentUniversal Pictures é um filme essencial para aqueles que entram nas áreas de Exatas Conta a história do matemático John Nash o qual desenvolveu a área de Teoria dos Jogos que se tornou um dos principais braços da análise estatística 4 REGRESSÃO LINEAR MÚLTIPLA Considere um indivíduo interessado em aumentar sua massa muscular por meio de um incremento na quantidade de comida ingerida Ele decide participar de uma pesquisa científica de um novo remédio que objetiva aumentar seu apetite Após tomar uma determinada dose de remédio e ficar algumas horas em jejum o indivíduo se alimenta e tem a sua quantidade de comida ingerida registrada Vejamos se existe relação do tempo em jejum após ingerir o medicamento e a dose de remédio administrada com a quantidade de comida ingerida 41 Modelo Estatístico 34 LINEARIZAÇÃO DO TIPO yax Quando o modelo é do tipo y ax também basta realizar uma mudança de variáveis de for ma que t x Nesse caso também temos y at Entretanto os dados coletados precisam ser da forma xi yi 4 REGRESSÃO LINEAR MÚLTIPLA Considere um indivíduo interessado em aumentar sua massa muscular por meio de um incremen to na quantidade de comida ingerida Ele decide participar de uma pesquisa científica de um novo remédio que objetiva aumentar seu apetite Após tomar uma determinada dose de remédio e ficar al gumas horas em jejum o indivíduo se alimenta e tem a sua quantidade de comida ingerida registrada que pode ser analisado com o olhar estatístico quando evidencia a quantidade de tentativas e erros que precisam ser feitas para chegar aos resultados esperados 3 LINEARIZAÇÃO DOS DADOS Alguns dados que tratamos não provêm de um comportamento linear mas podem com um determinado ajuste se comportar de tal forma Para isso realizamos um ajuste chamado de linearização dos dados 31 Linearização do tipo 𝒚𝒚 𝒂𝒂𝒙𝒙𝟐𝟐 No caso que discutimos ao longo da Unidade o modelo físico envolvido se expressa por uma equação linear ie pela Lei de Hooke Entretanto alguns modelos são do tipo 𝑦𝑦 𝑎𝑎𝑥𝑥2 Podemos citar por exemplo o modelo de um objeto partindo do repouso em queda livre no vácuo cuja equação é dada por 𝑦𝑦 𝑦𝑦0 𝑎𝑎𝑡𝑡2 2 Nesses casos coletar dados 𝑡𝑡𝑖𝑖 𝑦𝑦𝑖𝑖 nos apresentará dados com comportamento parabólicos de forma que o coeficiente de determinação será próximo de 0 Podemos contornar essa dificuldade realizando uma mudança de variável Nesse caso poderíamos coletar dados do tipo 𝑡𝑡𝑖𝑖 2 𝑦𝑦𝑖𝑖 e o modelo se comportaria como uma reta Assim a linearização nesse caso se comporta como uma mudança de variável em que 𝑡𝑡 𝑥𝑥2 e portanto 𝑦𝑦 𝑎𝑎𝑡𝑡 32 Linearização do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 No caso em que o modelo é do tipo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 podemos coletar dados de modo que o experimento analisado se apresente de forma linear Para isso é necessário notar que sendo 𝒚𝒚 𝒂𝒂 𝒙𝒙𝜶𝜶 então 𝐥𝐥𝐥𝐥 𝒚𝒚 𝐥𝐥𝐥𝐥 𝒂𝒂 𝒙𝒙𝜶𝜶 𝐥𝐥𝐥𝐥 𝒚𝒚 𝐥𝐥𝐥𝐥 𝒂𝒂 𝜶𝜶 𝐥𝐥𝐥𝐥 𝒙𝒙 Desse modo devemos coletar dados do tipo 𝐥𝐥𝐥𝐥 𝒙𝒙𝒊𝒊 𝐥𝐥𝐥𝐥 𝒚𝒚 e o modelo se comportará como uma reta Observe que plotando os dados dessa forma ax Uma mente brilhante Imagine EntertainmentUniversal Pictures é um filme essencial para aque les que entram nas áreas de Exatas Conta a história do matemático John Nash o qual desenvol veu a área de Teoria dos Jogos que se tornou um dos principais braços da análise estatística VÍDEO UNIDADE 03 61 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Vejamos se existe relação do tempo em jejum após ingerir o medicamento e a dose de remédio administrada com a quantidade de comida ingerida 41 MODELO ESTATÍSTICO O modelo que estamos tentando tratar neste momento referese a um modelo de regressão line ar múltipla com duas variáveis explicativas ie tempo em jejum após ingerir medicamento e dose de remédio administrada para analisar uma variável resposta ie a quantidade de comida ingerida Como desejamos determinar o comportamento da variável resposta em função das duas variá veis explicativas podemos definir o modelo de regressão linear múltipla como da forma y α βx1 γx2 ϵ Note que nesse modelo y representa a variável resposta x1 x2 representam as duas variá veis explicativas e ϵ representa a variabilidade do modelo resultado das variáveis que não foram consideradas na explicação do fenômeno Nosso objetivo é determinar os parâmetros αβγ que configuram a linearidade do modelo Considerando x1x20 percebemos que o parâmetro α representa a resposta média obtida sem a influência dos parâmetros de controle Se mantivermos a variável x2 fixa β representa o quanto cada incremento na variável x1 causa na variável y para aquele nível de x2 De forma similar se mantivermos a variável x1 fixa γ representa o quanto cada incremento na variável x2 causa na variável y para aquele nível de x1 Note que α βx1 γx2 representa um plano denominado de superfície de resposta Note tam bém que o modelo de regressão linear múltipla pode ser facilmente generalizado para mais de duas variáveis de forma que y α α1 x1 α2 x2 αn xn ϵ 42 SUPOSIÇÕES PARA O MODELO Para aplicar o modelo de regressão linear múltipla de forma adequada é necessário supor al gumas condições Em primeiro lugar é importante confirmar que o erro possui uma distribuição N0σ2 ou seja que a variável erro não possui viés Veja que essa suposição é importante pois tendo viés na variável não considerada podemos afirmar que não estamos controlando todas as variáveis que são de fato adequadas para a explicação da variável resposta Nesse caso temse a relevância de realizar um novo planejamento do experimento Em segundo lugar é importante que as variáveis x1 x2 assumam valores fixos UNIDADE 03 62 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 43 EXEMPLO Como abordado no início desejamos discutir o efeito de diferentes doses de medicamento ad ministrada e o tempo em jejum após ingerilo na quantidade de comida ingerida Dessa forma vamos considerar a variável x1 como o tempo em jejum após ingerir o medica mento e a medimos em minutos Consideremos a variável x2 como a dose de medicamento admi nistrada e a medimos em mililitros Por fim consideraremos a variável resposta y como a quanti dade de comida ingerida e a mediremos em gramas Para essa análise fizemos um acompanhamento por duas semanas realizando um total de 14 observações que estão descritas na Tabela 4 TABELA 4 QUANTIDADE DE COMIDA INGERIDA EM FUNÇÃO DO TEMPO EM JEJUM E DA DOSE DE MEDICAMEN TO ADMINISTRADA OBSERVAÇÃO TEMPO EM JEJUM APÓS IN GERIR MEDICAMENTO MIN DOSE DE MEDICAMENTO ADMINISTRADA ML QUANTIDADE DE COMIDA INGERIDA G 1 195 4 1004 2 255 4 1636 3 195 46 852 4 255 46 1506 5 225 42 1272 6 225 41 1270 7 225 46 1269 8 195 43 903 9 255 43 1555 10 225 4 1260 11 225 47 1146 12 225 43 1276 13 225 472 1225 14 230 43 1321 Fonte O autor 2020 Usaremos esses dados como exemplo para compreender o modelo de regressão linear múltipla 44 ESTIMAÇÃO DOS PARÂMETROS DO MODELO Assim como no modelo de regressão linear simples nosso objetivo é minimizar o quadrado do erro realizado pela estimativa Lembrese de que escolhemos utilizar o termo quadrático caso contrário o somatório resultaria em zero e não conseguiríamos analisálo adequadamente O método que analisamos aqui também é chamado de Método dos Mínimos Quadrados Entre tanto aqui consideramos uma generalização que se torna mais realizável ao se considerar a forma matricial de resolução UNIDADE 03 63 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Para uma determinada observação podemos utilizar o modelo desenvolvido a fim de encontrar uma estimativa para esse resultado Dessa forma yi α βx1i γx2i Por exemplo esperase que no caso em que i1 x11195 e x214 tenhamos que y11004 Entretanto o modelo estimado por se comportar de forma linear não consegue prever de modo adequado os próprios valores observados Caso isso fosse possível só precisaríamos determinar a reta que passa por todos os pontos pelos métodos simples de matemática básica Como isso não é possível desejamos minimizar a variação do quadrado dos valores observados com o valor previsto de forma a encontrar a melhor reta que descreve esses pontos Assim a variação é dada por ei yi yi ei yi α βx1i γx2i Note que o somatório dos ei ao quadrado é dado por Como gostaríamos de encontrar quais parâmetros α β e γ minimizam L devemos encontrar os pontos críticos dados por Assim derivando cada uma das expressões obtemos Ou seja 𝐿𝐿 𝑒𝑒𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖2 𝑛𝑛 𝑖𝑖1 Como gostaríamos de encontrar quais parâmetros 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 minimizam 𝐿𝐿 devemos encontrar os pontos críticos dados por 𝐿𝐿 𝛼𝛼 0 𝐿𝐿 𝛽𝛽 0 𝐿𝐿 𝛾𝛾 0 Assim derivando cada uma das expressões obtemos 𝐿𝐿 𝛼𝛼 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛽𝛽 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛾𝛾 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 Ou seja 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim como fizemos no conteúdo de regressão linear simples podemos resolver esse sistema de equações a fim de encontrar uma expressão para os valores de 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 Entretanto quando se deseja generalizar esse método para mais de duas 𝐿𝐿 𝑒𝑒𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖2 𝑛𝑛 𝑖𝑖1 Como gostaríamos de encontrar quais parâmetros 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 minimizam 𝐿𝐿 devemos encontrar os pontos críticos dados por 𝐿𝐿 𝛼𝛼 0 𝐿𝐿 𝛽𝛽 0 𝐿𝐿 𝛾𝛾 0 Assim derivando cada uma das expressões obtemos 𝐿𝐿 𝛼𝛼 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛽𝛽 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛾𝛾 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 Ou seja 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim como fizemos no conteúdo de regressão linear simples podemos resolver esse sistema de equações a fim de encontrar uma expressão para os valores de 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 Entretanto quando se deseja generalizar esse método para mais de duas 𝐿𝐿 𝑒𝑒𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖2 𝑛𝑛 𝑖𝑖1 Como gostaríamos de encontrar quais parâmetros 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 minimizam 𝐿𝐿 devemos encontrar os pontos críticos dados por 𝐿𝐿 𝛼𝛼 0 𝐿𝐿 𝛽𝛽 0 𝐿𝐿 𝛾𝛾 0 Assim derivando cada uma das expressões obtemos 𝐿𝐿 𝛼𝛼 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛽𝛽 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛾𝛾 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 Ou seja 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim como fizemos no conteúdo de regressão linear simples podemos resolver esse sistema de equações a fim de encontrar uma expressão para os valores de 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 Entretanto quando se deseja generalizar esse método para mais de duas 𝐿𝐿 𝑒𝑒𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖2 𝑛𝑛 𝑖𝑖1 Como gostaríamos de encontrar quais parâmetros 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 minimizam 𝐿𝐿 devemos encontrar os pontos críticos dados por 𝐿𝐿 𝛼𝛼 0 𝐿𝐿 𝛽𝛽 0 𝐿𝐿 𝛾𝛾 0 Assim derivando cada uma das expressões obtemos 𝐿𝐿 𝛼𝛼 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛽𝛽 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 𝐿𝐿 𝛾𝛾 2 𝑦𝑦𝑖𝑖 𝛼𝛼 𝛽𝛽𝑥𝑥1𝑖𝑖 𝛾𝛾𝑥𝑥2𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 0 Ou seja 𝑦𝑦𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑛𝑛𝛼𝛼 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥1𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛼𝛼 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛽𝛽 𝑥𝑥1𝑖𝑖 𝑥𝑥2𝑖𝑖 𝑛𝑛 𝑖𝑖1 𝛾𝛾 𝑥𝑥2𝑖𝑖 2 𝑛𝑛 𝑖𝑖1 Assim como fizemos no conteúdo de regressão linear simples podemos resolver esse sistema de equações a fim de encontrar uma expressão para os valores de 𝛼𝛼 𝛽𝛽 e 𝛾𝛾 Entretanto quando se deseja generalizar esse método para mais de duas 45 REPRESENTAÇÃO MATRICIAL DO MÉTODO DOS MÍNIMOS QUADRADOS Para realizar a representação matricial definimos as seguintes matrizes Y y1ynᵀ X 1 x11 x12 1 x21 x22 1 xn1 xn2 A α β E ϵ1 ϵ2 ϵn Note que a matriz Y representa a matriz contendo a resposta observada em cada situação A matriz X guarda os valores medidos das variáveis explicativas A representa a matriz com os parâmetros que precisam ser determinados no modelo enquanto E representa a matriz contendo os erros de cada observação Assim o mesmo modelo discutido na seção anterior pode ser reescrito como Y XA E Também desejamos aqui minimizar o erro quadrático de todas as observações Assim redefinimos L como sendo L Σ i1 n ei² ETE Y XATY XA Desenvolvendo as propriedades de matriz transposta obtemos L YTY YTXA ATXTY ATXTXA YTY 2AYTXA AXTXA Na sequência novamente derivamos em relação a cada um dos parâmetros Na forma matricial escrevemos esse resultado de modo resumido como LA 0 Ou seja LA 2XTY 2XTXA 0 Logo XTXA XTY Tendo a inversa podemos escrever a matriz dos parâmetros como A XTX¹XTY 46 ANÁLISE DO EXEMPLO NA FORMA ALGÉBRICA Para os dados da Tabela 4 vamos determinar os parâmetros α β e y do modelo a partir da resolução do sistema de equações Tanto na forma algébrica quanto na forma matricial é essencial escrever uma tabela de auxílio para cálculos manuais considerando as grandezas que precisam ser calculadas Colocamos esse resultado na Tabela 5 TABELA 5 TABELA DE AUXÍLIO PARA OS CÁLCULOS MANUAIS DO EXEMPLO DADO i x1 x2 y1 x1² x2² x1y1 x2y1 1 195 4 1004 38025 16 780 195780 4016 2 255 4 1636 65025 16 1020 417180 6544 3 195 46 852 38025 2116 897 166140 3919 4 255 46 1506 65025 2116 1173 384030 6927 5 225 42 1272 50625 1764 945 286200 5342 6 225 41 1270 50625 1681 9225 285750 5207 7 225 46 1269 50625 2116 1035 285525 5837 8 195 43 903 38025 1849 8385 176085 3882 9 255 43 1555 65025 1849 10965 369525 6686 10 225 4 1260 50625 16 900 283500 5040 11 225 47 1146 50625 2209 10575 257850 5386 12 225 43 1276 50625 1849 9675 287100 5486 13 225 472 1225 50625 22278 1062 275625 5782 14 230 43 1321 52900 1849 989 303830 6830 Σ 3155 6072 17495 716425 2642584 136835 4001120 757383 Fonte O autor 2020 Observe que encontramos os seguintes parâmetros n 14 Σ y1 17495 Σ x1 3155 Σ x2 6072 Σ x1² 716426 Σ x2² 2642584 Σ x1y1 1001120 Σ x2y2 757383 Podemos utilizar esses dados para escrever o seguinte sistema de equações Σ y1 nα β Σ x1 Σ x2i Σ y1x1 α Σ x1 β Σ x2i Σ y1x2i Σ y2x2i α Σ x2i β Σ x2i² 17495 14α 3155β 6072 4001120 3155α 716425β 136835 Σ 7573830 6072α 1368350 2642584y UNIDADE 03 66 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Na maior parte dos casos esse é um sistema possível e determinado Ao resolvêlo podemos encontrar α 52008 β 1078 γ 15215 47 ANÁLISE DO EXEMPLO NA FORMA MATRICIAL Na forma matricial devemos escrever as matrizes X e Y e determinar A a partir de AXT X1 XT Y Temos no exemplo que Podemos encontrar a matriz inversa Nesse caso temos que Além disso precisamos calcular a matriz XT Y que resulta em Dessa forma encontramos os parâmetros dados pela matriz A como XT X1 XT Y Assim Assim note que nosso modelo se torna y 52008 1078x1 15215x2 47 Análise do Exemplo na Forma Matricial Na forma matricial devemos escrever as matrizes 𝑿𝑿 e 𝒀𝒀 e determinar 𝑨𝑨 a partir de 𝑨𝑨 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Temos no exemplo que 𝑋𝑋𝑇𝑇 𝑋𝑋 14 3155 6072 3155 716425 136835 6072 136835 26426 Podemos encontrar a matriz inversa Nesse caso temos que 𝑋𝑋𝑇𝑇 𝑋𝑋1 3024760 004172 478994 004172 000018 000004 478994 000004 110244 Além disso precisamos calcular a matriz 𝑿𝑿𝑻𝑻𝒀𝒀 que resulta em 𝑋𝑋𝑇𝑇𝑌𝑌 17495 4001120 757383 Dessa forma encontramos os parâmetros dados pela matriz A como 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Assim 𝐴𝐴 52008 1078 15215 Assim note que nosso modelo se torna 𝑦𝑦 52008 1078𝑥𝑥1 15215𝑥𝑥2 VÍDEO Quebrando a banca Columbia Pictures 2008 é um filme interessante no qual um professor de Matemática e Estatística ensina como encontrar padrões nos jogos de 47 Análise do Exemplo na Forma Matricial Na forma matricial devemos escrever as matrizes 𝑿𝑿 e 𝒀𝒀 e determinar 𝑨𝑨 a partir de 𝑨𝑨 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Temos no exemplo que 𝑋𝑋𝑇𝑇 𝑋𝑋 14 3155 6072 3155 716425 136835 6072 136835 26426 Podemos encontrar a matriz inversa Nesse caso temos que 𝑋𝑋𝑇𝑇 𝑋𝑋1 3024760 004172 478994 004172 000018 000004 478994 000004 110244 Além disso precisamos calcular a matriz 𝑿𝑿𝑻𝑻𝒀𝒀 que resulta em 𝑋𝑋𝑇𝑇𝑌𝑌 17495 4001120 757383 Dessa forma encontramos os parâmetros dados pela matriz A como 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Assim 𝐴𝐴 52008 1078 15215 Assim note que nosso modelo se torna 𝑦𝑦 52008 1078𝑥𝑥1 15215𝑥𝑥2 VÍDEO Quebrando a banca Columbia Pictures 2008 é um filme interessante no qual um professor de Matemática e Estatística ensina como encontrar padrões nos jogos de 47 Análise do Exemplo na Forma Matricial Na forma matricial devemos escrever as matrizes 𝑿𝑿 e 𝒀𝒀 e determinar 𝑨𝑨 a partir de 𝑨𝑨 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Temos no exemplo que 𝑋𝑋𝑇𝑇 𝑋𝑋 14 3155 6072 3155 716425 136835 6072 136835 26426 Podemos encontrar a matriz inversa Nesse caso temos que 𝑋𝑋𝑇𝑇 𝑋𝑋1 3024760 004172 478994 004172 000018 000004 478994 000004 110244 Além disso precisamos calcular a matriz 𝑿𝑿𝑻𝑻𝒀𝒀 que resulta em 𝑋𝑋𝑇𝑇𝑌𝑌 17495 4001120 757383 Dessa forma encontramos os parâmetros dados pela matriz A como 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Assim 𝐴𝐴 52008 1078 15215 Assim note que nosso modelo se torna 𝑦𝑦 52008 1078𝑥𝑥1 15215𝑥𝑥2 VÍDEO Quebrando a banca Columbia Pictures 2008 é um filme interessante no qual um professor de Matemática e Estatística ensina como encontrar padrões nos jogos de 47 Análise do Exemplo na Forma Matricial Na forma matricial devemos escrever as matrizes 𝑿𝑿 e 𝒀𝒀 e determinar 𝑨𝑨 a partir de 𝑨𝑨 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Temos no exemplo que 𝑋𝑋𝑇𝑇 𝑋𝑋 14 3155 6072 3155 716425 136835 6072 136835 26426 Podemos encontrar a matriz inversa Nesse caso temos que 𝑋𝑋𝑇𝑇 𝑋𝑋1 3024760 004172 478994 004172 000018 000004 478994 000004 110244 Além disso precisamos calcular a matriz 𝑿𝑿𝑻𝑻𝒀𝒀 que resulta em 𝑋𝑋𝑇𝑇𝑌𝑌 17495 4001120 757383 Dessa forma encontramos os parâmetros dados pela matriz A como 𝑿𝑿𝑻𝑻𝑿𝑿𝟏𝟏𝑿𝑿𝑻𝑻𝒀𝒀 Assim 𝐴𝐴 52008 1078 15215 Assim note que nosso modelo se torna 𝑦𝑦 52008 1078𝑥𝑥1 15215𝑥𝑥2 VÍDEO Quebrando a banca Columbia Pictures 2008 é um filme interessante no qual um professor de Matemática e Estatística ensina como encontrar padrões nos jogos de Quebrando a banca Columbia Pictures 2008 é um filme interessante no qual um professor de Matemática e Estatística ensina como encontrar padrões nos jogos de cassinos de Las Vegas Nes se filme é possível observar como a estatística permite aumentar as probabilidades de sairmos vitoriosos em jogos de azar VÍDEO UNIDADE 03 67 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA Podemos determinar o intervalo de confiança para os parâmetros α β γ discutidos 51 INTERVALO DE CONFIANÇA PARA α Podemos mostrar que o intervalo de confiança para α é dado por Dessa forma sendo t005211 2201 temos Então 94291 α 9725 52 INTERVALO DE CONFIANÇA PARA β Podemos mostrar que o intervalo de confiança para β é dado por Dessa forma sendo t005211 2201 temos Então 975 β 1181 53 INTERVALO DE CONFIANÇA PARA γ Podemos mostrar que o intervalo de confiança para γ é dado por cassinos de Las Vegas Nesse filme é possível observar como a estatística permite aumentar as probabilidades de sairmos vitoriosos em jogos de azar 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA Podemos determinar o intervalo de confiança para os parâmetros 𝛼𝛼 𝛽𝛽 𝛾𝛾 discutidos 51 Intervalo de Confiança para 𝜶𝜶 Podemos mostrar que o intervalo de confiança para 𝜶𝜶 é dado por 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 𝛼𝛼 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 52008 2201 12201 3024760 𝛼𝛼 52008 2201 12201 3024760 Então 94291 𝛼𝛼 9725 52 Intervalo de Confiança para 𝜷𝜷 Podemos mostrar que o intervalo de confiança para 𝜷𝜷 é dado por 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 𝛽𝛽 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 1078 2201 12201 000018 𝛽𝛽 1078 2201 12201 000018 cassinos de Las Vegas Nesse filme é possível observar como a estatística permite aumentar as probabilidades de sairmos vitoriosos em jogos de azar 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA Podemos determinar o intervalo de confiança para os parâmetros 𝛼𝛼 𝛽𝛽 𝛾𝛾 discutidos 51 Intervalo de Confiança para 𝜶𝜶 Podemos mostrar que o intervalo de confiança para 𝜶𝜶 é dado por 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 𝛼𝛼 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 52008 2201 12201 3024760 𝛼𝛼 52008 2201 12201 3024760 Então 94291 𝛼𝛼 9725 52 Intervalo de Confiança para 𝜷𝜷 Podemos mostrar que o intervalo de confiança para 𝜷𝜷 é dado por 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 𝛽𝛽 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 1078 2201 12201 000018 𝛽𝛽 1078 2201 12201 000018 cassinos de Las Vegas Nesse filme é possível observar como a estatística permite aumentar as probabilidades de sairmos vitoriosos em jogos de azar 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA Podemos determinar o intervalo de confiança para os parâmetros 𝛼𝛼 𝛽𝛽 𝛾𝛾 discutidos 51 Intervalo de Confiança para 𝜶𝜶 Podemos mostrar que o intervalo de confiança para 𝜶𝜶 é dado por 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 𝛼𝛼 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 52008 2201 12201 3024760 𝛼𝛼 52008 2201 12201 3024760 Então 94291 𝛼𝛼 9725 52 Intervalo de Confiança para 𝜷𝜷 Podemos mostrar que o intervalo de confiança para 𝜷𝜷 é dado por 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 𝛽𝛽 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 1078 2201 12201 000018 𝛽𝛽 1078 2201 12201 000018 cassinos de Las Vegas Nesse filme é possível observar como a estatística permite aumentar as probabilidades de sairmos vitoriosos em jogos de azar 5 TESTES INDIVIDUAIS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS E PREVISÃO PARA A VARIÁVEL DE RESPOSTA Podemos determinar o intervalo de confiança para os parâmetros 𝛼𝛼 𝛽𝛽 𝛾𝛾 discutidos 51 Intervalo de Confiança para 𝜶𝜶 Podemos mostrar que o intervalo de confiança para 𝜶𝜶 é dado por 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 𝛼𝛼 𝛼𝛼 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋11 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 52008 2201 12201 3024760 𝛼𝛼 52008 2201 12201 3024760 Então 94291 𝛼𝛼 9725 52 Intervalo de Confiança para 𝜷𝜷 Podemos mostrar que o intervalo de confiança para 𝜷𝜷 é dado por 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 𝛽𝛽 𝛽𝛽 𝑡𝑡𝛼𝛼 2𝑛𝑛𝑝𝑝1 𝑀𝑀𝑀𝑀𝑀𝑀 𝑋𝑋𝑇𝑇 𝑋𝑋22 1 Dessa forma sendo 𝒕𝒕𝟎𝟎𝟎𝟎𝟎𝟎𝟐𝟐𝟏𝟏𝟏𝟏 𝟐𝟐 𝟐𝟐𝟎𝟎𝟏𝟏 temos 1078 2201 12201 000018 𝛽𝛽 1078 2201 12201 000018 54 PREVISÃO PARA A VARIÁVEL RESPOSTA Agora com o modelo de regressão linear múltipla determinado podemos utilizálo a fim de realizar a previsão para a variável de resposta dada uma determinada combinação das variáveis explicativas A Tabela 6 apresenta os valores previstos para os dados do problema TABELA 6 VALORES PREVISTOS PARA OS DADOS DO PROBLEMA i x₁ x₂ y₁ y eₑ 1 195 4 1004 97342 3058 2 255 4 1636 162022 1578 3 195 46 852 88213 3013 4 255 46 1506 152893 2293 5 225 42 1272 126639 561 6 225 41 1270 1281605 11605 7 225 46 1269 120553 6347 8 195 43 903 927775 24775 9 255 43 1555 1574575 19575 10 225 4 1260 129682 3682 11 225 47 1146 1190315 44315 12 225 43 1276 1251175 24825 13 225 472 1225 1187272 37728 14 230 43 1321 1305075 15925 O autor 2020 Considerase que o modelo pode ser utilizado para prever dados em regiões próximas às dos valores analisados VÍDEO Florence Nightingale Simply Home Entertainment 2008 conta a história real da enfermeira e estatística Florence uma das mulheres que mudaram o rumo da história da medicina utilizando estatística e técnicas de visualização É um filme muito interessante para quem deseja se tornar analista de dados UNIDADE 03 69 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA CONSIDERAÇÕES FINAIS Nesta Unidade conseguimos generalizar o método de regressão linear para o caso de duas variá veis Esse método pode ser facilmente generalizado para mais de duas variáveis desde que se consi dere o uso da forma matricial Essa forma é mais adequada para o uso de softwares computacionais Em nossa próxima Unidade de Probabilidade e Estatística iremos tratar de um importante mé todo para confirmar a média de uma população conhecido como análise de variância Até lá ANOTAÇÕES UNIDADE OBJETIVOS DE APRENDIZAGEM VÍDEOS DA UNIDADE httpsbitly3siEJTs httpsbitly2PV6Mva httpsbitly3tnGWOI 04 ANÁLISE DE VARIÂNCIA Compreender a análise estatística conhecida como Análise de Variância com base em um estudo de caso UNIDADE 04 71 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA INTRODUÇÃO Caro alunoa Seja bemvindoa à quarta e última Unidade de nosso curso de Probabilidade e Estatística Nesta Unidade vamos abordar um dos principais métodos estatísticos conhecido como Análise de Variância Aqui partiremos de um estudo de caso para discutir quando podemos afirmar que duas mé dias encontradas são ou não diferentes A ideia extraída aqui traz o que há de especial em estatís tica nem sempre aquilo que está visível pode ser confirmado como uma verdade Bom estudo 1 MODELO ESTATÍSTICO Suponha que você seja o gestor de uma instituição de ensino e está preocupado em saber se o trabalho desenvolvido pelos professores afeta de fato o desempenho obtido pelos discentes As sim resolve extrair as médias dos alunos de cada turma e obtém valores diferentes Nesse cenário fica a pergunta será que esses dados são o suficiente para determinar essa relação Note que nesse caso cada professor tem uma amostra diferente de alunos Se cada uma des sas amostras saiu da mesma população podemos afirmar que o trabalho do professor afeta o desempenho de cada um desses discentes Entretanto se cada professor possui uma amostra de alunos oriunda de populações diferentes nada podemos afirmar sobre o impacto investigado A Figura 1 apresenta as possíveis distribuições das notas de alunos supondo que há ou não diferença entre cada uma das turmas FIGURA 1 CASOS POSSÍVEIS NA ANÁLISE DE VARIÂNCIA Fonte O autor 2020 UNIDADE 04 72 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Para responder a esse tipo de problema utilizamos a ANOVA também conhecida como Análise de Variância Nesta Unidade veremos em detalhes esse método para a influência de um único fator 11 DEFINIÇÕES E PROPRIEDADES BÁSICAS No modelo estatístico de ANOVA para um fator nosso objetivo é determinar se as amostras foram obtidas de uma única população ou de populações distintas vide Figura 1 O modelo estatístico de ANOVA com um fator objetiva determinar a resposta yij de uma obser vação j para o nível i do fator A Assim esperamos concluir que yij μ αi ϵij j 1 2 ni i 1 2 k Ou seja estamos analisando um fator que possui k níveis e ni observações para cada nível Note que a resposta yij depende do efeito que o nível i do fator provoca o que é considerado pela variável αi mas também depende de um erro aleatório experimental definido por ϵij para cada observação ϵij é gerado devido à variabilidade de outros fatores que não são considerados no pla nejamento desse experimento No caso de que estamos tratando sobre o desempenho dos professores consideramos μ como a média das notas da população de alunos αi representa o efeito causado na nota dos alunos pelo professor i enquanto ϵij representa o efeito causado na nota dos alunos por outros fatores que não a influência do professor Para o desenvolvimento da ANOVA também determinamos algumas expressões Definimos o tamanho amostral total como a soma do tamanho de cada amostra nn1n2ni Definimos a soma das observações do nível i do fator A e a média das observações do nível i do fator A como respectivamente Definimos a soma de todas as observações e a média geral das observações como respectivamente 11 Definições e Propriedades Básicas No modelo estatístico de ANOVA para um fator nosso objetivo é determinar se as amostras foram obtidas de uma única população ou de populações distintas vide Figura 1 O modelo estatístico de ANOVA com um fator objetiva determinar a resposta 𝑦𝑦𝑖𝑖𝑖𝑖 de uma observação 𝑗𝑗 para o nível 𝑖𝑖 do fator 𝐴𝐴 Assim esperamos concluir que 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 𝑗𝑗 12 𝑛𝑛𝑖𝑖 𝑖𝑖 12 𝑘𝑘 Ou seja estamos analisando um fator que possui 𝑘𝑘 níveis e 𝑛𝑛𝑖𝑖 observações para cada nível Note que a resposta 𝑦𝑦𝑖𝑖𝑖𝑖 depende do efeito que o nível 𝑖𝑖 do fator provoca o que é considerado pela variável 𝛼𝛼𝑖𝑖 mas também depende de um erro aleatório experimental definido por 𝜖𝜖𝑖𝑖𝑖𝑖 para cada observação 𝜖𝜖𝑖𝑖𝑖𝑖 é gerado devido à variabilidade de outros fatores que não são considerados no planejamento desse experimento No caso de que estamos tratando sobre o desempenho dos professores consideramos 𝜇𝜇 como a média das notas da população de alunos 𝛼𝛼𝑖𝑖 representa o efeito causado na nota dos alunos pelo professor 𝑖𝑖 enquanto 𝜖𝜖𝑖𝑖𝑖𝑖 representa o efeito causado na nota dos alunos por outros fatores que não a influência do professor Para o desenvolvimento da ANOVA também determinamos algumas expressões Definimos o tamanho amostral total como a soma do tamanho de cada amostra 𝑛𝑛 𝑛𝑛1 𝑛𝑛2 𝑛𝑛𝑖𝑖 Definimos a soma das observações do nível 𝒊𝒊 do fator 𝑨𝑨 e a média das observações do nível 𝒊𝒊 do fator 𝑨𝑨 como respectivamente 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑛𝑛𝑖𝑖 Definimos a soma de todas as observações e a média geral das observações como respectivamente 𝑦𝑦 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑦𝑦 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 Note que considerando o exemplo discutido 𝑦𝑦𝑖𝑖 representa a soma das notas dos alunos do professor 𝑖𝑖 enquanto 𝑦𝑦 representa a soma das notas de todos os alunos investigados 12 Condições Necessárias para Utilização da ANOVA Alguns requisitos são necessários para utilizar a ANOVA consideramos o erro experimental como uma variável independente que possui distribuição 𝑵𝑵𝟎𝟎 𝝈𝝈𝟐𝟐 Assim verificamos que 𝒚𝒚𝒊𝒊𝒊𝒊 tem distribuição 𝑵𝑵𝝁𝝁 𝜶𝜶𝒊𝒊 𝝈𝝈𝟐𝟐 Veja que nosso objetivo é verificar que as médias de cada população são diferentes Nesse caso escrevemos o seguinte teste de hipótese 𝐻𝐻0 𝜇𝜇1 𝜇𝜇2 𝜇𝜇𝑖𝑖 𝐻𝐻1 𝜇𝜇𝑚𝑚 𝜇𝜇𝑛𝑛 𝑚𝑚 𝑛𝑛 Note que aceitar 𝑯𝑯𝟎𝟎 no exemplo dado significa que não podemos afirmar sobre a influência do trabalho desenvolvido por cada um dos professores visto que não garantimos uma diferença significativa na média encontrada Entretanto aceitar 𝑯𝑯𝟏𝟏 indica que as diferenças de pelo menos algumas dessas médias são estatisticamente significativas Em outras palavras a variabilidade dos dados é explicada pelo trabalho desenvolvido por cada um dos professores 2 DECOMPOSIÇÃO DA SOMA DOS QUADRADOS UNIDADE 04 73 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Note que considerando o exemplo discutido yi representa a soma das notas dos alunos do professor i enquanto y representa a soma das notas de todos os alunos investigados 12 CONDIÇÕES NECESSÁRIAS PARA UTILIZAÇÃO DA ANOVA Alguns requisitos são necessários para utilizar a ANOVA consideramos o erro experimental como uma variável independente que possui distribuição N0σ2 Assim verificamos que yij tem distribuição Nμαi σ2 Veja que nosso objetivo é verificar que as médias de cada população são diferentes Nesse caso escrevemos o seguinte teste de hipótese Note que aceitar H0 no exemplo dado significa que não podemos afirmar sobre a influência do trabalho desenvolvido por cada um dos professores visto que não garantimos uma diferença significativa na média encontrada Entretanto aceitar H1 indica que as diferenças de pelo menos algumas dessas médias são estatisticamente significativas Em outras palavras a variabilidade dos dados é explicada pelo trabalho desenvolvido por cada um dos professores 2 DECOMPOSIÇÃO DA SOMA DOS QUADRADOS Uma das principais vantagens da ANOVA para análise de dados é que o método decompõe a variabilidade total em dois componentes um referente ao impacto do fator A e outro referente ao que deixou de ser explicado pelo fator A 21 UMA MEDIDA DE VARIABILIDADE Ao considerar a variabilidade de todos os dados podemos construir a soma de quadrados total SQT Note que a construção dessa variável ao quadrado é realizada pois caso contrário tal so matório resultaria em zero Assim Note que ao somar e subtrair yi não alteramos o resultado final e podemos utilizar essa proprie dade algébrica para expandir esse termo obtendo Definimos a soma de todas as observações e a média geral das observações como respectivamente 𝑦𝑦 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑦𝑦 𝑦𝑦𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑛𝑛 𝑖𝑖1 𝑛𝑛 Note que considerando o exemplo discutido 𝑦𝑦𝑖𝑖 representa a soma das notas dos alunos do professor 𝑖𝑖 enquanto 𝑦𝑦 representa a soma das notas de todos os alunos investigados 12 Condições Necessárias para Utilização da ANOVA Alguns requisitos são necessários para utilizar a ANOVA consideramos o erro experimental como uma variável independente que possui distribuição 𝑵𝑵𝟎𝟎 𝝈𝝈𝟐𝟐 Assim verificamos que 𝒚𝒚𝒊𝒊𝒊𝒊 tem distribuição 𝑵𝑵𝝁𝝁 𝜶𝜶𝒊𝒊 𝝈𝝈𝟐𝟐 Veja que nosso objetivo é verificar que as médias de cada população são diferentes Nesse caso escrevemos o seguinte teste de hipótese 𝐻𝐻0 𝜇𝜇1 𝜇𝜇2 𝜇𝜇𝑖𝑖 𝐻𝐻1 𝜇𝜇𝑚𝑚 𝜇𝜇𝑛𝑛 𝑚𝑚 𝑛𝑛 Note que aceitar 𝑯𝑯𝟎𝟎 no exemplo dado significa que não podemos afirmar sobre a influência do trabalho desenvolvido por cada um dos professores visto que não garantimos uma diferença significativa na média encontrada Entretanto aceitar 𝑯𝑯𝟏𝟏 indica que as diferenças de pelo menos algumas dessas médias são estatisticamente significativas Em outras palavras a variabilidade dos dados é explicada pelo trabalho desenvolvido por cada um dos professores 2 DECOMPOSIÇÃO DA SOMA DOS QUADRADOS Uma das principais vantagens da ANOVA para análise de dados é que o método decompõe a variabilidade total em dois componentes um referente ao impacto do fator 𝐴𝐴 e outro referente ao que deixou de ser explicado pelo fator 𝐴𝐴 21 Uma Medida de Variabilidade Ao considerar a variabilidade de todos os dados podemos construir a soma de quadrados total 𝑆𝑆𝑆𝑆𝑆𝑆 Note que a construção dessa variável ao quadrado é realizada pois caso contrário tal somatório resultaria em zero Assim 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Note que ao somar e subtrair 𝑦𝑦𝑖𝑖 não alteramos o resultado final e podemos utilizar essa propriedade algébrica para expandir esse termo obtendo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Entre as parcelas de 𝑆𝑆𝑆𝑆𝑆𝑆 podemos verificar que 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 0 Para isso expandimos o produto entre os termos obtendo 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑦𝑦𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 UNIDADE 04 74 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Entre as parcelas de SQT podemos verificar que Para isso expandimos o produto entre os termos obtendo Desse modo podemos escrever a medida de variabilidade total como 22 DECOMPOSIÇÃO DA SOMA DOS QUADRADOS TOTAIS Note que a soma dos quadrados totais é decomposta em dois termos O termo é chamado de soma de quadrados do fator A Esse representa o desvio das médias estimadas em cada um dos níveis do fator A em torno da média geral dos dados Assim representa uma va riabilidade devido aos diferentes níveis que o fator A pode assumir No exemplo que permeia nosso estudo SQA representa a variabilidade que o trabalho de cada docente afeta no rendimento de seus discentes Como sabemos esse não é o único fator que afeta essa variável resposta Existem fatores não considerados no estudo que também são influentes na análise Esses são descritos pela variável SQE chamada de soma de quadrados do erro e que está representada no outro termo de SQT Uma das principais vantagens da ANOVA para análise de dados é que o método decompõe a variabilidade total em dois componentes um referente ao impacto do fator 𝐴𝐴 e outro referente ao que deixou de ser explicado pelo fator 𝐴𝐴 21 Uma Medida de Variabilidade Ao considerar a variabilidade de todos os dados podemos construir a soma de quadrados total 𝑆𝑆𝑆𝑆𝑆𝑆 Note que a construção dessa variável ao quadrado é realizada pois caso contrário tal somatório resultaria em zero Assim 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Note que ao somar e subtrair 𝑦𝑦𝑖𝑖 não alteramos o resultado final e podemos utilizar essa propriedade algébrica para expandir esse termo obtendo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Entre as parcelas de 𝑆𝑆𝑆𝑆𝑆𝑆 podemos verificar que 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 0 Para isso expandimos o produto entre os termos obtendo 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑦𝑦𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Uma das principais vantagens da ANOVA para análise de dados é que o método decompõe a variabilidade total em dois componentes um referente ao impacto do fator 𝐴𝐴 e outro referente ao que deixou de ser explicado pelo fator 𝐴𝐴 21 Uma Medida de Variabilidade Ao considerar a variabilidade de todos os dados podemos construir a soma de quadrados total 𝑆𝑆𝑆𝑆𝑆𝑆 Note que a construção dessa variável ao quadrado é realizada pois caso contrário tal somatório resultaria em zero Assim 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Note que ao somar e subtrair 𝑦𝑦𝑖𝑖 não alteramos o resultado final e podemos utilizar essa propriedade algébrica para expandir esse termo obtendo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Entre as parcelas de 𝑆𝑆𝑆𝑆𝑆𝑆 podemos verificar que 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 0 Para isso expandimos o produto entre os termos obtendo 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑦𝑦𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Uma das principais vantagens da ANOVA para análise de dados é que o método decompõe a variabilidade total em dois componentes um referente ao impacto do fator 𝐴𝐴 e outro referente ao que deixou de ser explicado pelo fator 𝐴𝐴 21 Uma Medida de Variabilidade Ao considerar a variabilidade de todos os dados podemos construir a soma de quadrados total 𝑆𝑆𝑆𝑆𝑆𝑆 Note que a construção dessa variável ao quadrado é realizada pois caso contrário tal somatório resultaria em zero Assim 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Note que ao somar e subtrair 𝑦𝑦𝑖𝑖 não alteramos o resultado final e podemos utilizar essa propriedade algébrica para expandir esse termo obtendo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Entre as parcelas de 𝑆𝑆𝑆𝑆𝑆𝑆 podemos verificar que 2 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 0 Para isso expandimos o produto entre os termos obtendo 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑦𝑦𝑖𝑖 2 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 0 Desse modo podemos escrever a medida de variabilidade total como 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 22 Decomposição da Soma dos Quadrados Totais Note que a soma dos quadrados totais é decomposta em dois termos O termo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 é chamado de soma de quadrados do fator 𝑨𝑨 Esse representa o desvio das médias estimadas em cada um dos níveis do fator 𝑨𝑨 em torno da média geral dos dados Assim representa uma variabilidade devido aos diferentes níveis que o fator 𝑨𝑨 pode assumir No exemplo que permeia nosso estudo 𝑺𝑺𝑺𝑺𝑨𝑨 representa a variabilidade que o trabalho de cada docente afeta no rendimento de seus discentes Como sabemos esse não é o único fator que afeta essa variável resposta Existem fatores não considerados no estudo que também são influentes na análise Esses são descritos pela variável 𝑺𝑺𝑺𝑺𝑺𝑺 chamada de soma de quadrados do erro e que está representada no outro termo de 𝑺𝑺𝑺𝑺𝑺𝑺 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 0 Desse modo podemos escrever a medida de variabilidade total como 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 22 Decomposição da Soma dos Quadrados Totais Note que a soma dos quadrados totais é decomposta em dois termos O termo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 é chamado de soma de quadrados do fator 𝑨𝑨 Esse representa o desvio das médias estimadas em cada um dos níveis do fator 𝑨𝑨 em torno da média geral dos dados Assim representa uma variabilidade devido aos diferentes níveis que o fator 𝑨𝑨 pode assumir No exemplo que permeia nosso estudo 𝑺𝑺𝑺𝑺𝑨𝑨 representa a variabilidade que o trabalho de cada docente afeta no rendimento de seus discentes Como sabemos esse não é o único fator que afeta essa variável resposta Existem fatores não considerados no estudo que também são influentes na análise Esses são descritos pela variável 𝑺𝑺𝑺𝑺𝑺𝑺 chamada de soma de quadrados do erro e que está representada no outro termo de 𝑺𝑺𝑺𝑺𝑺𝑺 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 0 Desse modo podemos escrever a medida de variabilidade total como 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 22 Decomposição da Soma dos Quadrados Totais Note que a soma dos quadrados totais é decomposta em dois termos O termo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 é chamado de soma de quadrados do fator 𝑨𝑨 Esse representa o desvio das médias estimadas em cada um dos níveis do fator 𝑨𝑨 em torno da média geral dos dados Assim representa uma variabilidade devido aos diferentes níveis que o fator 𝑨𝑨 pode assumir No exemplo que permeia nosso estudo 𝑺𝑺𝑺𝑺𝑨𝑨 representa a variabilidade que o trabalho de cada docente afeta no rendimento de seus discentes Como sabemos esse não é o único fator que afeta essa variável resposta Existem fatores não considerados no estudo que também são influentes na análise Esses são descritos pela variável 𝑺𝑺𝑺𝑺𝑺𝑺 chamada de soma de quadrados do erro e que está representada no outro termo de 𝑺𝑺𝑺𝑺𝑺𝑺 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 UNIDADE 04 75 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Vale reforçar que esse termo representa o que deixou de ser explicado pelo fator A Assim verificamos que SQTSQASQE O cálculo de SQA SQT e SQE pode ser realizado pelas equações dadas ou por suas versões alternativas em que As demonstrações dessas expressões fogem ao escopo desta disciplina 23 GRAUS DE LIBERDADE Para o teste de hipótese realizado na ANOVA é necessário conhecer o grau de liberdade de cada uma das parcelas SQT SQA e SQE Para SQT temos gln1 Para SQA temos glk1 Para SQE temos glnk 24 MÉDIAS QUADRÁTICAS Definimos as médias quadráticas como o quociente entre a soma dos quadrados pelo seu grau de liberdade Assim É possível mostrar mas foge ao escopo desta disciplina que 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦𝑖𝑖 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 2 𝑘𝑘 𝑖𝑖1 𝑦𝑦 𝑛𝑛𝑖𝑖𝑦𝑦𝑖𝑖 𝑘𝑘 𝑖𝑖1 0 Desse modo podemos escrever a medida de variabilidade total como 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 22 Decomposição da Soma dos Quadrados Totais Note que a soma dos quadrados totais é decomposta em dois termos O termo 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 𝑦𝑦2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 é chamado de soma de quadrados do fator 𝑨𝑨 Esse representa o desvio das médias estimadas em cada um dos níveis do fator 𝑨𝑨 em torno da média geral dos dados Assim representa uma variabilidade devido aos diferentes níveis que o fator 𝑨𝑨 pode assumir No exemplo que permeia nosso estudo 𝑺𝑺𝑺𝑺𝑨𝑨 representa a variabilidade que o trabalho de cada docente afeta no rendimento de seus discentes Como sabemos esse não é o único fator que afeta essa variável resposta Existem fatores não considerados no estudo que também são influentes na análise Esses são descritos pela variável 𝑺𝑺𝑺𝑺𝑺𝑺 chamada de soma de quadrados do erro e que está representada no outro termo de 𝑺𝑺𝑺𝑺𝑺𝑺 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 Vale reforçar que esse termo representa o que deixou de ser explicado pelo fator 𝑨𝑨 Assim verificamos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 O cálculo de 𝑺𝑺𝑺𝑺𝑨𝑨 𝑺𝑺𝑺𝑺𝑺𝑺 e 𝑺𝑺𝑺𝑺𝑺𝑺 pode ser realizado pelas equações dadas ou por suas versões alternativas em que 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 As demonstrações dessas expressões fogem ao escopo desta disciplina 23 Graus de Liberdade Para o teste de hipótese realizado na ANOVA é necessário conhecer o grau de liberdade de cada uma das parcelas 𝑺𝑺𝑺𝑺𝑺𝑺 𝑺𝑺𝑺𝑺𝑨𝑨 e 𝑺𝑺𝑺𝑺𝑺𝑺 Para 𝑺𝑺𝑺𝑺𝑺𝑺 temos 𝒈𝒈𝒈𝒈 𝒏𝒏 𝟏𝟏 Para 𝑺𝑺𝑺𝑺𝑨𝑨 temos 𝒈𝒈𝒈𝒈 𝒌𝒌 𝟏𝟏 Para 𝑺𝑺𝑺𝑺𝑺𝑺 temos 𝒈𝒈𝒈𝒈 𝒏𝒏 𝒌𝒌 24 Médias Quadráticas Definimos as médias quadráticas como o quociente entre a soma dos quadrados pelo seu grau de liberdade Assim 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑘𝑘 1 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 Vale reforçar que esse termo representa o que deixou de ser explicado pelo fator 𝑨𝑨 Assim verificamos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 O cálculo de 𝑺𝑺𝑺𝑺𝑨𝑨 𝑺𝑺𝑺𝑺𝑺𝑺 e 𝑺𝑺𝑺𝑺𝑺𝑺 pode ser realizado pelas equações dadas ou por suas versões alternativas em que 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑖𝑖1 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 As demonstrações dessas expressões fogem ao escopo desta disciplina 23 Graus de Liberdade Para o teste de hipótese realizado na ANOVA é necessário conhecer o grau de liberdade de cada uma das parcelas 𝑺𝑺𝑺𝑺𝑺𝑺 𝑺𝑺𝑺𝑺𝑨𝑨 e 𝑺𝑺𝑺𝑺𝑺𝑺 Para 𝑺𝑺𝑺𝑺𝑺𝑺 temos 𝒈𝒈𝒈𝒈 𝒏𝒏 𝟏𝟏 Para 𝑺𝑺𝑺𝑺𝑨𝑨 temos 𝒈𝒈𝒈𝒈 𝒌𝒌 𝟏𝟏 Para 𝑺𝑺𝑺𝑺𝑺𝑺 temos 𝒈𝒈𝒈𝒈 𝒏𝒏 𝒌𝒌 24 Médias Quadráticas Definimos as médias quadráticas como o quociente entre a soma dos quadrados pelo seu grau de liberdade Assim 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑘𝑘 1 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑆𝑆𝑀𝑀𝑀𝑀 𝑛𝑛 1 𝑆𝑆𝑦𝑦 2 É possível mostrar mas foge ao escopo desta disciplina que 𝐸𝐸𝑀𝑀𝑀𝑀𝐸𝐸 𝜎𝜎2 𝐸𝐸𝑀𝑀𝑀𝑀𝑀𝑀 𝜎𝜎2 1 𝑘𝑘 1 𝑛𝑛𝑖𝑖𝛼𝛼1 2 𝑘𝑘 𝑖𝑖1 Entretanto note que aí está uma das principais análises observadas pela ANOVA Isso porque não existindo diferença nos níveis do fator 𝑨𝑨 temos que 𝜶𝜶𝒊𝒊 𝟎𝟎 e 𝑸𝑸𝑸𝑸𝑨𝑨 também estima a variância 𝝈𝝈𝟐𝟐 No caso em que essa diferença é significativa o valor esperado de 𝑸𝑸𝑸𝑸𝑨𝑨 é maior do que 𝝈𝝈𝟐𝟐 25 Tabela da ANOVA Para organizar os dados necessários à análise da ANOVA costumamos utilizar a Tabela da ANOVA como a indicada na Tabela 1 Tabela 1 Tabela da ANOVA com um fator Variação 𝑺𝑺𝑸𝑸 𝒈𝒈𝒈𝒈 𝑸𝑸𝑸𝑸 Fator 𝑆𝑆𝑀𝑀𝑀𝑀 𝑘𝑘 1 𝑀𝑀𝑀𝑀𝑀𝑀 Erro 𝑆𝑆𝑀𝑀𝐸𝐸 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝐸𝐸 Total 𝑆𝑆𝑀𝑀𝑀𝑀 𝑛𝑛 1 26 Exemplo Considere três professores que apresentaram as notas de suas turmas na mesma avaliação simulada conforme apresentado na Tabela 2 Tabela 2 Notas de cada aluno para cada professor em avaliação simulada Prof 1 82 64 64 79 64 76 52 61 85 UNIDADE 04 76 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Entretanto note que aí está uma das principais análises observadas pela ANOVA Isso porque não existindo diferença nos níveis do fator A temos que αi0 e QMA também estima a variância σ2 No caso em que essa diferença é significativa o valor esperado de QMA é maior do que σ2 25 TABELA DA ANOVA Para organizar os dados necessários à análise da ANOVA costumamos utilizar a Tabela da ANO VA como a indicada na Tabela 1 TABELA 1 TABELA DA ANOVA COM UM FATOR Variação SQ gl MQ Fator SQA k1 MQA Erro SQE nk MQE Total SQT n1 26 EXEMPLO Considere três professores que apresentaram as notas de suas turmas na mesma avaliação simulada conforme apresentado na Tabela 2 TABELA 2 NOTAS DE CADA ALUNO PARA CADA PROFESSOR EM AVALIAÇÃO SIMULADA Prof 1 82 64 64 79 64 76 52 61 85 Prof 2 64 88 79 67 85 100 82 Prof 3 73 91 82 85 82 67 Fonte O autor 2020 Vamos construir a Tabela da ANOVA para esse caso Como auxílio recomendase a construção de uma tabela como a indicada na Tabela 3 Nela separamos as observações e encontramos o somatório de alguns termos quadráticos que serão utilizados para encontrar as informações des critas na Tabela 1 TABELA 3 TABELA DE AUXÍLIO PARA OS CÁLCULOS MANUAIS OBS PROF 1 PROF 2 PROF 3 TOTAL y1j y1j 2 y2j y2j 2 y3j y3j 2 1 82 6724 64 4096 73 5329 2 64 4096 88 7744 91 8281 3 64 4096 79 6241 82 6724 4 79 6241 67 4489 85 7225 𝑀𝑀𝑀𝑀𝑀𝑀 𝑆𝑆𝑀𝑀𝑀𝑀 𝑛𝑛 1 𝑆𝑆𝑦𝑦 2 É possível mostrar mas foge ao escopo desta disciplina que 𝐸𝐸𝑀𝑀𝑀𝑀𝐸𝐸 𝜎𝜎2 𝐸𝐸𝑀𝑀𝑀𝑀𝑀𝑀 𝜎𝜎2 1 𝑘𝑘 1 𝑛𝑛𝑖𝑖𝛼𝛼1 2 𝑘𝑘 𝑖𝑖1 Entretanto note que aí está uma das principais análises observadas pela ANOVA Isso porque não existindo diferença nos níveis do fator 𝑨𝑨 temos que 𝜶𝜶𝒊𝒊 𝟎𝟎 e 𝑸𝑸𝑸𝑸𝑨𝑨 também estima a variância 𝝈𝝈𝟐𝟐 No caso em que essa diferença é significativa o valor esperado de 𝑸𝑸𝑸𝑸𝑨𝑨 é maior do que 𝝈𝝈𝟐𝟐 25 Tabela da ANOVA Para organizar os dados necessários à análise da ANOVA costumamos utilizar a Tabela da ANOVA como a indicada na Tabela 1 Tabela 1 Tabela da ANOVA com um fator Variação 𝑺𝑺𝑸𝑸 𝒈𝒈𝒈𝒈 𝑸𝑸𝑸𝑸 Fator 𝑆𝑆𝑀𝑀𝑀𝑀 𝑘𝑘 1 𝑀𝑀𝑀𝑀𝑀𝑀 Erro 𝑆𝑆𝑀𝑀𝐸𝐸 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝐸𝐸 Total 𝑆𝑆𝑀𝑀𝑀𝑀 𝑛𝑛 1 26 Exemplo Considere três professores que apresentaram as notas de suas turmas na mesma avaliação simulada conforme apresentado na Tabela 2 Tabela 2 Notas de cada aluno para cada professor em avaliação simulada Prof 1 82 64 64 79 64 76 52 61 85 UNIDADE 04 77 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 5 64 4096 85 7225 82 6724 6 76 5776 100 10000 67 4489 7 52 2704 82 6724 8 61 3721 9 85 7225 Soma 627 44679 565 46519 480 38772 1672 129970 Fonte O autor 2020 Nesse exemplo temos n19n27n36 e portanto n22 Com o uso da Tabela 3 podemos verificar que Assim podemos encontrar Para esse exemplo temos os seguintes graus de liberdade para SQT temos gln121 para SQA temos glk12 e para SQE temos glnk19 Por fim calculamos as médias quadráticas Prof 2 64 88 79 67 85 100 82 Prof 3 73 91 82 85 82 67 Fonte O autor 2020 Vamos construir a Tabela da ANOVA para esse caso Como auxílio recomendase a construção de uma tabela como a indicada na Tabela 3 Nela separamos as observações e encontramos o somatório de alguns termos quadráticos que serão utilizados para encontrar as informações descritas na Tabela 1 Tabela 3 Tabela de auxílio para os cálculos manuais Obs Prof 1 Prof 2 Prof 3 Total 𝑦𝑦1𝑗𝑗 𝑦𝑦1𝑗𝑗 2 𝑦𝑦2𝑗𝑗 𝑦𝑦2𝑗𝑗 2 𝑦𝑦3𝑗𝑗 𝑦𝑦3𝑗𝑗 2 1 82 6724 64 4096 73 5329 2 64 4096 88 7744 91 8281 3 64 4096 79 6241 82 6724 4 79 6241 67 4489 85 7225 5 64 4096 85 7225 82 6724 6 76 5776 100 10000 67 4489 7 52 2704 82 6724 8 61 3721 9 85 7225 Soma 627 44679 565 46519 480 38772 1672 129970 Fonte O autor 2020 Nesse exemplo temos 𝑛𝑛1 9 𝑛𝑛2 7 𝑛𝑛3 6 e portanto 𝑛𝑛 22 Com o uso da Tabela 3 podemos verificar que 𝑦𝑦1 627 e 𝑦𝑦1 2 393129 𝑦𝑦2 565 e 𝑥𝑥2 2 319225 𝑦𝑦3 480 e 𝑦𝑦3 2 230400 𝑦𝑦 1672 e 𝑦𝑦 2 2795584 𝑦𝑦1𝑗𝑗 2 𝑛𝑛1 𝑗𝑗1 44679 𝑦𝑦2𝑗𝑗 2 𝑛𝑛2 𝑗𝑗1 46519 𝑦𝑦3𝑗𝑗 2 𝑛𝑛3 𝑗𝑗1 38772 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 3 𝑖𝑖1 129970 Assim podemos encontrar 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 393129 9 319225 7 230400 6 2795584 22 613 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 129970 2795584 22 2898 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 2898 613 2285 Para esse exemplo temos os seguintes graus de liberdade para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 1 21 para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑘𝑘 1 2 e para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 𝑘𝑘 19 Por fim calculamos as médias quadráticas 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑘𝑘 1 613 2 3065 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 2285 19 1203 Finalmente a Tabela 4 apresenta a Tabela da ANOVA para o exemplo dado Tabela 4 Tabela da ANOVA para o exemplo dado Variação 𝑆𝑆𝑆𝑆 𝑔𝑔𝑔𝑔 𝑀𝑀𝑆𝑆 Fator 613 2 3065 Erro 2285 19 1203 Total 2898 21 Fonte O autor 2020 𝑦𝑦2𝑗𝑗 2 𝑛𝑛2 𝑗𝑗1 46519 𝑦𝑦3𝑗𝑗 2 𝑛𝑛3 𝑗𝑗1 38772 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 3 𝑖𝑖1 129970 Assim podemos encontrar 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 393129 9 319225 7 230400 6 2795584 22 613 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 129970 2795584 22 2898 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 2898 613 2285 Para esse exemplo temos os seguintes graus de liberdade para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 1 21 para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑘𝑘 1 2 e para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 𝑘𝑘 19 Por fim calculamos as médias quadráticas 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑘𝑘 1 613 2 3065 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 2285 19 1203 Finalmente a Tabela 4 apresenta a Tabela da ANOVA para o exemplo dado Tabela 4 Tabela da ANOVA para o exemplo dado Variação 𝑆𝑆𝑆𝑆 𝑔𝑔𝑔𝑔 𝑀𝑀𝑆𝑆 Fator 613 2 3065 Erro 2285 19 1203 Total 2898 21 Fonte O autor 2020 𝑦𝑦2𝑗𝑗 2 𝑛𝑛2 𝑗𝑗1 46519 𝑦𝑦3𝑗𝑗 2 𝑛𝑛3 𝑗𝑗1 38772 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 3 𝑖𝑖1 129970 Assim podemos encontrar 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖 2 𝑛𝑛𝑖𝑖 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 393129 9 319225 7 230400 6 2795584 22 613 𝑆𝑆𝑆𝑆𝑆𝑆 𝑦𝑦𝑖𝑖𝑗𝑗 2 𝑛𝑛𝑖𝑖 𝑗𝑗1 𝑘𝑘 𝑖𝑖1 𝑦𝑦 2 𝑛𝑛 129970 2795584 22 2898 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 2898 613 2285 Para esse exemplo temos os seguintes graus de liberdade para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 1 21 para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑘𝑘 1 2 e para 𝑆𝑆𝑆𝑆𝑆𝑆 temos 𝑔𝑔𝑔𝑔 𝑛𝑛 𝑘𝑘 19 Por fim calculamos as médias quadráticas 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑘𝑘 1 613 2 3065 𝑀𝑀𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 2285 19 1203 Finalmente a Tabela 4 apresenta a Tabela da ANOVA para o exemplo dado Tabela 4 Tabela da ANOVA para o exemplo dado Variação 𝑆𝑆𝑆𝑆 𝑔𝑔𝑔𝑔 𝑀𝑀𝑆𝑆 Fator 613 2 3065 Erro 2285 19 1203 Total 2898 21 Fonte O autor 2020 UNIDADE 04 78 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Finalmente a Tabela 4 apresenta a Tabela da ANOVA para o exemplo dado TABELA 4 TABELA DA ANOVA PARA O EXEMPLO DADO Variação SQ gl MQ Fator 613 2 3065 Erro 2285 19 1203 Total 2898 21 Fonte O autor 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significa tiva a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator A 31 O TESTE DA ANOVA Podemos mostrar qual a distribuição de SQT SQA e SQE Discutimos que os erros ϵij no modelo yijμαiϵij possuem por suposição distribuição N0σ2 Sendo assim podemos mostrar que yij tem distribuição Nμαi σ2 Sendo independentes também mostramos que VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor tem distribui ção VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor quiquadrado com n1 graus de liberdade E de modo equivalente VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor têm distribuição VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor e VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor Assim podemos verificar qual a variável de teste que devemos calcular que segue uma distribuição Fk1nk F de Snedecor O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm difi culdade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 VÍDEO VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor VÍDEO O canal do YouTube Stoodi apresenta conceitos de estatística básica em aulas interessantes indicando conceitos como População Amostra Rol e Amplitude Vale a pena para os alunos que ainda têm dificuldade em matemática básica Disponível em youtubecomuserstoodibr Acesso em dez 2020 3 ANÁLISE ESTATÍSTICA O uso da ANOVA permite comparar se um determinado fator altera ou não de forma significativa a média da população analisada Assim o teste de hipótese que devemos verificar é sobre o efeito do fator 𝐴𝐴 𝐻𝐻0 𝛼𝛼1 𝛼𝛼2 𝛼𝛼𝑘𝑘 0 𝐻𝐻1 𝛼𝛼𝑖𝑖 0 para algum 𝑖𝑖 12 𝑘𝑘 31 O Teste da ANOVA Podemos mostrar qual a distribuição de 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝐴𝐴 e 𝑆𝑆𝑆𝑆𝑆𝑆 Discutimos que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 no modelo 𝑦𝑦𝑖𝑖𝑖𝑖 𝜇𝜇 𝛼𝛼𝑖𝑖 𝜖𝜖𝑖𝑖𝑖𝑖 possuem por suposição distribuição 𝑁𝑁0 𝜎𝜎2 Sendo assim podemos mostrar que 𝑦𝑦𝑖𝑖𝑖𝑖 tem distribuição 𝑁𝑁𝜇𝜇 𝛼𝛼𝑖𝑖 𝜎𝜎2 Sendo independentes também mostramos que 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 tem distribuição 𝜒𝜒𝑛𝑛1 2 quiquadrado com 𝑛𝑛 1 graus de liberdade E de modo equivalente 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 e 𝑆𝑆𝑆𝑆𝑆𝑆 𝜎𝜎2 têm distribuição 𝜒𝜒𝑛𝑛𝑘𝑘 2 e 𝜒𝜒𝑘𝑘1 2 Assim podemos verificar qual a variável de teste que devemos calcular 𝐹𝐹0 𝑆𝑆𝑆𝑆𝐴𝐴 𝑘𝑘 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑆𝑆𝐴𝐴 𝑀𝑀𝑆𝑆𝑆𝑆 que segue uma distribuição 𝐹𝐹𝑘𝑘1𝑛𝑛𝑘𝑘 𝐹𝐹 de Snedecor Note que o teste estatístico da ANOVA é realizado comparandose 𝐹𝐹0 com 𝐹𝐹1 𝛼𝛼 𝑘𝑘 1 𝑛𝑛 𝑘𝑘 Este último corresponde ao valor obtido na Tabela de Snedecor UNIDADE 04 79 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA Note que o teste estatístico da ANOVA é realizado comparandose F0 com F1αk1nk Este últi mo corresponde ao valor obtido na Tabela de Snedecor para um nível de confiança de 1α Note que a região crítica aquela que rejeita H0 e conclui que as médias analisadas são diferentes é obtida quando F0 F1α k1 nk Com a necessidade de calcularmos F0 podemos ampliar a Tabela da ANOVA como apresen tado na Tabela 5 TABELA 5 TABELA DA ANOVA AMPLIADA COM O CÁLCULO DE F0 Variação SQ gl MQ F0 Fator SQA k1 MQA MQA MQE Erro SQE nk MQE Total SQT n1 32 EXEMPLO No caso do exemplo que estamos discutindo ao longo desta Unidade podemos completar a tabela da ANOVA calculando F0 Esse resultado é apresentado na Tabela 6 TABELA 6 TABELA DA ANOVA AMPLIADA PARA O RESULTADO DO GRUPO DE DISCENTES DE CADA PROFESSOR Variação SQ gl MQ F0 Fator 613 2 3065 2547 Erro 2285 19 1203 Total 2898 21 Fonte O autor 2020 Em consulta à Tabela F de Snedocor podemos encontrar F95 2 19 352 Note que como F95 2 19 F0 ie 352 2547 não podemos rejeitar a hipótese de que as médias das turmas desses professores são iguais 4 ESTIMAÇÃO DOS PARÂMETROS DO MODELO O método da ANOVA permite estimar os parâmetros analisados ie as médias para cada grupo de observações O canal do YouTube Equaciona com Paulo Pereira apresenta aulas de matemática de nível supe rior e inclusive conta com aulas de estatística Com uma quantidade grande de inscritos é um canal essencial para quem precisa de aulas adicionais sobre as temáticas Disponível em youtu becomcequacionamatemática01 Acesso em dez 2020 VÍDEO UNIDADE 04 80 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 41 ESTIMAÇÃO DAS MÉDIAS Podese mostrar mas foge ao escopo desta disciplina como se obtém o intervalo de confiança para cada uma das médias analisadas Seu resultado é obtido a partir de Nesse caso t1α2nk se refere à distribuição t de student que pode ser obtida por meio da consulta em sua tabela 42 INTERVALO DE CONFIANÇA PARA AS MÉDIAS No exemplo que estamos discutindo podemos encontrar o intervalo de confiança para a média de cada um dos professores utilizando a equação anterior Nesse caso ao consultar a tabela t de student obtemos para os dados do problema t002519 209302 em que esperamos uma confiança de 95 ie α005 Note que Assim o intervalo de confiança para a média do primeiro professor μ1 é dado por Para o segundo professor μ2 Note que como 𝐹𝐹95219 𝐹𝐹0 ie 352 2547 não podemos rejeitar a hipótese de que as médias das turmas desses professores são iguais VÍDEO O canal do YouTube Equaciona com Paulo Pereira apresenta aulas de matemática de nível superior e inclusive conta com aulas de estatística Com uma quantidade grande de inscritos é um canal essencial para quem precisa de aulas adicionais sobre as temáticas Disponível em youtubecomcequacionamatemática01 Acesso em dez 2020 4 ESTIMAÇÃO DOS PARÂMETROS DO MODELO O método da ANOVA permite estimar os parâmetros analisados ie as médias para cada grupo de observações 41 Estimação das Médias Podese mostrar mas foge ao escopo desta disciplina como se obtém o intervalo de confiança para cada uma das médias analisadas Seu resultado é obtido a partir de 𝑦𝑦𝑖𝑖 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛𝑖𝑖 𝜇𝜇𝑖𝑖 𝑦𝑦𝑖𝑖 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛𝑖𝑖 Nesse caso 𝑡𝑡1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 se refere à distribuição 𝑡𝑡 de student que pode ser obtida por meio da consulta em sua tabela 42 Intervalo de Confiança para as Médias No exemplo que estamos discutindo podemos encontrar o intervalo de confiança para a média de cada um dos professores utilizando a equação anterior Nesse caso ao consultar a tabela 𝑡𝑡 de student obtemos para os dados do problema 𝑡𝑡0025 19 209302 em que esperamos uma confiança de 𝟗𝟗𝟗𝟗 ie 𝜶𝜶 𝟎𝟎 𝟎𝟎𝟗𝟗 Note que 𝒚𝒚𝟏𝟏 𝒚𝒚𝟏𝟏 𝒏𝒏𝟏𝟏 𝟔𝟔𝟔𝟔𝟔𝟔 𝟗𝟗 𝟔𝟔𝟗𝟗 𝟔𝟔𝟔𝟔𝟔𝟔 𝒚𝒚𝟔𝟔 𝒚𝒚𝟔𝟔 𝒏𝒏𝟔𝟔 𝟗𝟗𝟔𝟔𝟗𝟗 𝟔𝟔 𝟖𝟖𝟎𝟎 𝟔𝟔𝟏𝟏𝟕𝟕 𝒚𝒚𝟑𝟑 𝒚𝒚𝟑𝟑 𝒏𝒏𝟑𝟑 𝟕𝟕𝟖𝟖𝟎𝟎 𝟔𝟔 𝟖𝟖𝟎𝟎 Assim o intervalo de confiança para a média do primeiro professor 𝝁𝝁𝟏𝟏 é dado por 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 𝜇𝜇1 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 69667 209302 1203 9 𝜇𝜇1 69667 209302 1203 9 62015 𝜇𝜇1 77320 Para o segundo professor 𝝁𝝁𝟔𝟔 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 𝜇𝜇2 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 80714 209302 1203 7 𝜇𝜇2 80714 209302 1203 7 72037 𝜇𝜇2 89391 E para o terceiro professor 𝝁𝝁𝟑𝟑 𝑡𝑡0025 19 209302 em que esperamos uma confiança de 𝟗𝟗𝟗𝟗 ie 𝜶𝜶 𝟎𝟎 𝟎𝟎𝟗𝟗 Note que 𝒚𝒚𝟏𝟏 𝒚𝒚𝟏𝟏 𝒏𝒏𝟏𝟏 𝟔𝟔𝟔𝟔𝟔𝟔 𝟗𝟗 𝟔𝟔𝟗𝟗 𝟔𝟔𝟔𝟔𝟔𝟔 𝒚𝒚𝟔𝟔 𝒚𝒚𝟔𝟔 𝒏𝒏𝟔𝟔 𝟗𝟗𝟔𝟔𝟗𝟗 𝟔𝟔 𝟖𝟖𝟎𝟎 𝟔𝟔𝟏𝟏𝟕𝟕 𝒚𝒚𝟑𝟑 𝒚𝒚𝟑𝟑 𝒏𝒏𝟑𝟑 𝟕𝟕𝟖𝟖𝟎𝟎 𝟔𝟔 𝟖𝟖𝟎𝟎 Assim o intervalo de confiança para a média do primeiro professor 𝝁𝝁𝟏𝟏 é dado por 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 𝜇𝜇1 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 69667 209302 1203 9 𝜇𝜇1 69667 209302 1203 9 62015 𝜇𝜇1 77320 Para o segundo professor 𝝁𝝁𝟔𝟔 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 𝜇𝜇2 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 80714 209302 1203 7 𝜇𝜇2 80714 209302 1203 7 72037 𝜇𝜇2 89391 E para o terceiro professor 𝝁𝝁𝟑𝟑 𝑡𝑡0025 19 209302 em que esperamos uma confiança de 𝟗𝟗𝟗𝟗 ie 𝜶𝜶 𝟎𝟎 𝟎𝟎𝟗𝟗 Note que 𝒚𝒚𝟏𝟏 𝒚𝒚𝟏𝟏 𝒏𝒏𝟏𝟏 𝟔𝟔𝟔𝟔𝟔𝟔 𝟗𝟗 𝟔𝟔𝟗𝟗 𝟔𝟔𝟔𝟔𝟔𝟔 𝒚𝒚𝟔𝟔 𝒚𝒚𝟔𝟔 𝒏𝒏𝟔𝟔 𝟗𝟗𝟔𝟔𝟗𝟗 𝟔𝟔 𝟖𝟖𝟎𝟎 𝟔𝟔𝟏𝟏𝟕𝟕 𝒚𝒚𝟑𝟑 𝒚𝒚𝟑𝟑 𝒏𝒏𝟑𝟑 𝟕𝟕𝟖𝟖𝟎𝟎 𝟔𝟔 𝟖𝟖𝟎𝟎 Assim o intervalo de confiança para a média do primeiro professor 𝝁𝝁𝟏𝟏 é dado por 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 𝜇𝜇1 𝑦𝑦1 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛1 69667 209302 1203 9 𝜇𝜇1 69667 209302 1203 9 62015 𝜇𝜇1 77320 Para o segundo professor 𝝁𝝁𝟔𝟔 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 𝜇𝜇2 𝑦𝑦2 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛2 80714 209302 1203 7 𝜇𝜇2 80714 209302 1203 7 72037 𝜇𝜇2 89391 E para o terceiro professor 𝝁𝝁𝟑𝟑 UNIDADE 04 81 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA E para o terceiro professor μ3 A Figura 2 elaborada no Microsoft Excel apresenta os intervalos de confiança para as médias de cada um dos três professores FIGURA 2 INTERVALOS DE CONFIANÇA PARA AS MÉDIAS DOS TRÊS PROFESSORES Fonte O autor 2020 5 ANÁLISE DE RESÍDUOS O uso da ANOVA requer algumas suposições Entre elas discutimos ao longo da Unidade que os erros ϵij devem possuir distribuição N0σ2 e serem independentes e que as observações podem ser descritas por um modelo da forma yij μ αi ϵij A análise de resíduos permite verificar se essas suposições são de fato válidas 𝑦𝑦3 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛3 𝜇𝜇3 𝑦𝑦3 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛3 80 209302 1203 6 𝜇𝜇3 80 209302 1203 6 70628 𝜇𝜇3 89372 A Figura 2 elaborada no Microsoft Excel apresenta os intervalos de confiança para as médias de cada um dos três professores Figura 1 Intervalos de Confiança para as médias dos três professores Fonte O autor 2020 VÍDEO O canal do YouTube Descomplica cumpre o que promete descomplica assuntos enrolados de Matemática e Estatística Com mais de 3 milhões de inscritos é um canal bastante conhecido por aqueles que querem aprender matemática Disponível em youtubecomusersitedescomplica Acesso em dez 2020 5 ANÁLISE DE RESÍDUOS O uso da ANOVA requer algumas suposições Entre elas discutimos ao longo da Unidade que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 devem possuir distribuição 𝑁𝑁0 𝜎𝜎2 e serem independentes e que as observações podem ser descritas por um modelo da forma 60 65 70 75 80 85 90 95 1 2 3 Intervalos de Confiança para as médias 𝑦𝑦3 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛3 𝜇𝜇3 𝑦𝑦3 𝑡𝑡 1 𝛼𝛼 2 𝑛𝑛 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 𝑛𝑛3 80 209302 1203 6 𝜇𝜇3 80 209302 1203 6 70628 𝜇𝜇3 89372 A Figura 2 elaborada no Microsoft Excel apresenta os intervalos de confiança para as médias de cada um dos três professores Figura 1 Intervalos de Confiança para as médias dos três professores Fonte O autor 2020 VÍDEO O canal do YouTube Descomplica cumpre o que promete descomplica assuntos enrolados de Matemática e Estatística Com mais de 3 milhões de inscritos é um canal bastante conhecido por aqueles que querem aprender matemática Disponível em youtubecomusersitedescomplica Acesso em dez 2020 5 ANÁLISE DE RESÍDUOS O uso da ANOVA requer algumas suposições Entre elas discutimos ao longo da Unidade que os erros 𝜖𝜖𝑖𝑖𝑖𝑖 devem possuir distribuição 𝑁𝑁0 𝜎𝜎2 e serem independentes e que as observações podem ser descritas por um modelo da forma 60 65 70 75 80 85 90 95 1 2 3 Intervalos de Confiança para as médias O canal do YouTube Descomplica cumpre o que promete descomplica assuntos enrolados de Matemática e Estatística Com mais de 3 milhões de inscritos é um canal bastante conhecido por aqueles que querem aprender matemática Disponível em youtubecomusersitedescomplica Acesso em dez 2020 VÍDEO UNIDADE 04 82 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA 51 INDEPENDÊNCIA NORMALIDADE E HOMOGENEIDADE DE VARIÂNCIAS O modelo de ANOVA pressupõe uma série de requisitos os quais denominamos a Indepen dência e b Normalidade Para garantirmos a independência dos dados é importante ao planejar o experimento aten tarmos a obtêlos de forma aleatória A aleatoriedade é o principal requisito para assumir a inde pendência dos dados No caso da normalidade para cada conjunto de dados analisado é necessário realizar um teste de normalidade a fim de verificar se os dados seguem a distribuição descrita 52 ANÁLISE DE RESÍDUOS Definimos o resíduo eij obtido para a observação j do nível i como eij yij yij Note que yij representa o valor estimado pelo modelo para a observação yij Dessa forma a diferença entre esses resultados caracteriza o resíduo ou erro da estimativa Veja que yij yi No caso das notas dos alunos obtidas por cada professor podemos realizar o cálculo dos resí duos Esse resultado está apresentado na Tabela 7 TABELA 7 CÁLCULO DOS RESÍDUOS PARA CADA UM DOS ALUNOS PESQUISADOS Prof Resíduos yij yi 1 12333 9333 6333 17667 15333 69667 5667 5667 5667 8667 2 16714 7286 9333 13714 4286 19286 1286 80714 3 7 11 2 5 2 13 80 Fonte O autor 2020 A Figura 3 apresenta os valores de resíduos normalizados pela média dispersos para as diferen tes observações Podemos realizar uma análise para verificar se os pontos observados se compor tam como uma distribuição normal No caso quando o gráfico se comporta como um funil ou um laço duplo não podemos afirmar que os requisitos para a aplicação do teste da ANOVA foram atendidos Mas não é o que acontece no gráfico encontrado UNIDADE 04 83 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA FIGURA 3 GRÁFICO DE RESÍDUOS NORMALIZADOS PELA MÉDIA OBTIDO PARA AS NOTAS DOS DISCENTES Fonte O autor 2020 53 ANÁLISE DO COEFICIENTE DE DETERMINAÇÃO R2 Outra análise possível mas não determinante é verificar o coeficiente de determinação R2 Esse modelo descreve se uma variável resposta está sendo satisfatoriamente explicada pelo mo delo Para o modelo da ANOVA calculamos R2 a partir de Note que para o exemplo discutido temos Fonte O autor 2020 A Figura 3 apresenta os valores de resíduos normalizados pela média dispersos para as diferentes observações Podemos realizar uma análise para verificar se os pontos observados se comportam como uma distribuição normal No caso quando o gráfico se comporta como um funil ou um laço duplo não podemos afirmar que os requisitos para a aplicação do teste da ANOVA foram atendidos Mas não é o que acontece no gráfico encontrado Figura 2 Gráfico de resíduos normalizados pela média obtido para as notas dos discentes Fonte O autor 2020 53 Análise do Coeficiente de Determinação 𝑹𝑹𝟐𝟐 Outra análise possível mas não determinante é verificar o coeficiente de determinação 𝑹𝑹𝟐𝟐 Esse modelo descreve se uma variável resposta está sendo satisfatoriamente explicada pelo modelo Para o modelo da ANOVA calculamos 𝑹𝑹𝟐𝟐 a partir de 𝑅𝑅2 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 Note que para o exemplo discutido temos 04 03 02 01 0 01 02 03 0 5 10 15 20 25 Resíduos Fonte O autor 2020 A Figura 3 apresenta os valores de resíduos normalizados pela média dispersos para as diferentes observações Podemos realizar uma análise para verificar se os pontos observados se comportam como uma distribuição normal No caso quando o gráfico se comporta como um funil ou um laço duplo não podemos afirmar que os requisitos para a aplicação do teste da ANOVA foram atendidos Mas não é o que acontece no gráfico encontrado Figura 2 Gráfico de resíduos normalizados pela média obtido para as notas dos discentes Fonte O autor 2020 53 Análise do Coeficiente de Determinação 𝑹𝑹𝟐𝟐 Outra análise possível mas não determinante é verificar o coeficiente de determinação 𝑹𝑹𝟐𝟐 Esse modelo descreve se uma variável resposta está sendo satisfatoriamente explicada pelo modelo Para o modelo da ANOVA calculamos 𝑹𝑹𝟐𝟐 a partir de 𝑅𝑅2 1 𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆 Note que para o exemplo discutido temos 04 03 02 01 0 01 02 03 0 5 10 15 20 25 Resíduos 𝑅𝑅2 1 2285 2898 02115 VÍDEO Universo Programado é um canal do YouTube muito interessante que trata de assuntos sobre programação Entre os principais temas apresentados estão a Inteligência Artificial e a análise de grandes dados É um dos melhores canais da área e visitação obrigatória para quem quer aprender mais sobre essas temáticas Disponível em youtubecomcUniversoProgramado Acesso em dez 2020 Universo Programado é um canal do YouTube muito interessante que trata de assuntos sobre programação Entre os principais temas apresentados estão a Inteligência Artificial e a análise de grandes dados É um dos melhores canais da área e visitação obrigatória para quem quer aprender mais sobre essas temáticas Disponível em youtubecomcUniversoProgramado Acesso em dez 2020 VÍDEO UNIDADE 04 84 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA CONSIDERAÇÕES FINAIS Nesta última Unidade finalmente fomos capazes de compreender por meio de exemplificação os fundamentos da análise estatística conhecida como Análise de Variância Com isso chegamos ao fim de nosso curso de Probabilidade e Estatística Esperamos que você tenha aproveitado essa jornada ANOTAÇÕES 85 UNIBRASIL EAD PROBABILIDADE E ESTATÍSTICA REFERÊNCIAS DEVORE J L Probabilidade e estatística para engenharia e ciências Tradução da 9 ed nortea mericana Cengage Learning 2019 Minha Biblioteca Disponível em httpsintegradaminhabi bliotecacombrbooks9788522128044 GUPTA Bhisham C GUTTMAN Irwin Estatística e probabilidade com aplicações para engenhei ros e cientistas LTC 2016 Minha Biblioteca Disponível emhttpsintegradaminhabiblioteca combrbooks9788521632931 HINES W W et al Probabilidade e estatística na engenharia 4 ed LTC 2006 Minha Biblioteca Disponível em httpsintegradaminhabibliotecacombrbooks9788521619536 LOESCH Claudio Probabilidade e estatística LTC 2012 Minha Biblioteca Disponível em ht tpsintegradaminhabibliotecacombrbooks9788521621720 MONTGOMERY D C RUNGER G C Estatística aplicada e probabilidade para engenheiros 6 ed LTC 2016 Minha Biblioteca Disponível em httpsintegradaminhabibliotecacombr books9788521632542 NAVIDI William Probabilidade e estatística para ciências exatas AMGH 2012 Minha Bibliote ca Disponível em httpsintegradaminhabibliotecacombrbooks9788580550740 OLIVEIRA F E M Estatística e probabilidade com ênfase em exercícios resolvidos e propostos 3 ed LTC 2017 Minha Biblioteca Disponível em httpsintegradaminhabibliotecacombr books9788521633846 RECOLOGIA Uma primeira olhada em estatística bayesiana e linguagem BUGS 2 dez 2012 Disponível em httprecologiacombr201212umaprimeiraolhadaemestatisticabayesiana elinguagembugs Acesso em dez 2020 6 μ 1 2πσ