·

Engenharia de Computação ·

Probabilidade e Estatística

· 2010/1

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

PREFÁCIO À SEXTA EDIÇÃO Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns tópicos considerados difíceis. Por exemplo, o tópico sobre quantis empíricos agora traz o cálculo utilizando o histograma, deixando a definição mais geral para a seção de Problemas e Complementos. Inúmeras correções foram feitas na edição anterior, à medida que as sucessivas tiragens foram editadas. Nesta sexta edição outros erros foram corrigidos, mas sabemos que diversos persistirão! Agradecemos aos diversos leitores que nos enviaram correções e sugestões. Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre o Brasil (CD-Brasil) com informações atualizadas da Contagem da População 2007 feita pelo IBGE. Os dados também estão disponíveis na página http://www.ime.usp.br/~pam. Os leitores que desejarem contatar os autores poderão usar os endereços eletrônicos: morettin@editorasaraiva.com.br e bussab@editorasaraiva.com.br. Os Autores Pedro A. Morettin Wilton de O. Bussab 6a edição Revista e atualizada ESTATÍSTICA BÁSICA Rua Henrique Schaumann, 270 – CEP: 05413-010 Pinheiros – TEL.: PABX (0XX11) 3613-3000 Fax: (0XX11) 3611-3308 – Televendas: (0XX11) 3613-3344 Fax Vendas: (0XX11) 3268-3268 – São Paulo – SP Endereço Internet: http://www.saraivauni.com.br Filiais AMAZONAS/RONDÔNIA/RORAIMA/ACRE Rua Costa Azevedo, 56 – Centro Fone/Fax: (0XX92) 3633-4227 / 3633-4782 – Manaus BAHIA/SERGIPE Rua Agripino Dórea, 23 – Brotas Fone: (0XX71) 3381-5854 / 3381-5895 / 3381-0959 – Salvador BAURU/SÃO PAULO (sala dos professores) Rua Monsenhor Claro, 2-55/2-57 – Centro Fone: (0XX14) 3234-5643 / 3234-7401 – Bauru CAMPINAS/SÃO PAULO (sala dos professores) Rua Camargo Pimentel, 660 – Jd. Guanabara Fone: (0XX19) 3243-8004 / 3243-8259 – Campinas CEARÁ/PIAUÍ/MARANHÃO Av. Filomeno Gomes, 670 – Jacarecanga Fone: (0XX85) 3238-2323 / 3238-1331 – Fortaleza DISTRITO FEDERAL SIA/SUL Trecho 2, Lote 850 – Setor de Indústria e Abastecimento Fone: (0XX61) 3344-2920 / 3344-2951 / 3344-1709 – Brasília GOIÁS/TOCANTINS Av. Independência, 5330 – Setor Aeroporto Fone: (0XX62) 3225-2882 / 3212-2806 / 3224-3016 – Goiânia MATO GROSSO DO SUL/MATO GROSSO Rua 14 de Julho, 3148 – Centro Fone: (0XX67) 3382-3682 / 3382-0112 – Campo Grande MINAS GERAIS Rua Além Paraíba, 449 – Lagoinha Fone: (0XX31) 3429-8300 – Belo Horizonte PARÁ/AMAPÁ Travessa Apinagés, 186 – Batista Campos Fone: (0XX91) 3222-9034 / 3224-9038 / 3241-0499 – Belém PARANÁ/SANTA CATARINA Rua Conselheiro Laurindo, 2895 – Prado Velho Fone: (0XX41) 3332-4894 – Curitiba PERNAMBUCO/ALAGOAS/PARAÍBA/R. G. DO NORTE Rua Corredor do Bispo, 185 – Boa Vista Fone: (0XX81) 3421-4246 / 3421-4510 – Recife RIBEIRÃO PRETO/SÃO PAULO Av. Francisco Junqueira, 1255 – Centro Fone: (0XX16) 3610-5843 / 3610-8284 – Ribeirão Preto RIO DE JANEIRO/ESPÍRITO SANTO Rua Visconde de Santa Isabel, 113 a 119 – Vila Isabel Fone: (0XX21) 2577-9494 / 2577-8867 / 2577-9565 – Rio de Janeiro RIO GRANDE DO SUL Av. A. J. Renner, 231 – Farrapos Fone: (0XX51) 3371- 4001 / 3371-1467 / 3371-1567 – Porto Alegre SÃO JOSÉ DO RIO PRETO/SÃO PAULO (sala dos professores) Av. Brig. Faria Lima, 6363 – Rio Preto Shopping Center – V. São José Fone: (0XX17) 227-3819 / 227-0982 / 227-5249 – São José do Rio Preto SÃO JOSÉ DOS CAMPOS/SÃO PAULO (sala dos professores) Rua Santa Luzia, 106 – Jd. Santa Madalena Fone: (0XX12) 3921-0732 – São José dos Campos SÃO PAULO Av. Antártica, 92 – Barra Funda Fone: PABX (0XX11) 3613-3666 – São Paulo Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Editora Saraiva. A violação dos direitos autorais é crime estabelecido na lei nº 9.610/98 e punido pelo artigo 184 do Código Penal. M843e 6. ed. Morettin, Pedro Alberto, Estatística Básica/Pedro A. Morettin, Wilton O. Bussab. – 6. ed. – São Paulo : Saraiva, 2010. Inclui Bibliografia. ISBN 978-85-02-08177-2 1. Econometria. 2. Estatística. 3. Estatística Matemática – Problemas, Questões, Exercícios. I. Bussab, Wilton de Oliveira, 1940-. II. Título. 09-0719 CDD: 330.028 CDU: 330.43 CIP-BRASIL. CATALOGAÇÃO NA FONTE SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ. ISBN 978-85-02-08177-2 Direção editorial Coordenação editorial Produção editorial Marketing editorial Arte e produção Capa Atualização da 2a tiragem Flávia Alves Bravin Ana Paula Matos Gisele Folha Mós Juliana Rodrigues de Queiroz Rita de Cássia da Silva Daniela Nogueira Secondo Rosana Peroni Fazolari Nathalia Setrini ERJ Composição Editorial Weber Amendola ERJ Composição Editorial 6ª Edição 1ª tiragem: 2009 2ª tiragem: 2010 Copyright © Wilton de O. Bussab e Pedro A. Morettin 2010 Editora Saraiva Todos os direitos reservados. Contato com o editorial editorialuniversitario@editorasaraiva.com.br “A vida é complicada, mas não desinteressante.” Jersy Neyman Para Célia e Ligia P R E F Á C I O À Q U I N T A E D I Ç Ã O Esta edição é uma revisão substancial da edição anterior deste livro. Cinco novos capítulos foram adicionados, e os demais foram revisados e atualizados. Cremos que este texto, com a escolha adequada dos tópicos, possa ser utilizado por alunos de diversas áreas do conhecimento. O Site do Professor, disponível na Internet (http://www.saraivauni.com.br), fornece uma discussão mais longa sobre roteiros apropriados para cursos de diferentes níveis. Com essa filosofia em mente, procuramos incluir no texto uma quantidade de informação substancial em cada capítulo. Obviamente caberá ao professor escolher o material apropriado para cada curso desenvolvido. O livro é dividido em três partes. A primeira trata da análise de dados unidimensionais e bidimensionais, com atenção especial a métodos gráficos. Pensamos que a leitura dessa parte é essencial para o bom entendimento das demais. Recomendamos que o aluno trabalhe com dados reais, embora isso não seja uma necessidade essencial, pois normalmente um primeiro curso de estatística é dado no início do programa do aluno, que não possui ainda um conhecimento sólido dos problemas de sua área. A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias. Finalmente, na terceira parte, estudamos os tópicos principais da inferência estatística, além de alguns temas especiais, como regressão linear simples. Um capítulo sobre noções de simulação foi adicionado, pois tais noções são hoje fundamentais em muitas áreas. O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos desenvolvidos. Apresentamos exemplos de aplicações utilizando alguns desses pacotes: Minitab, Excel e SPlus. Mas, evidentemente, outros pacotes poderão ser usados. No final do livro, apresentamos vários conjuntos de dados que poderão ser utilizados pelos alunos. Esses dados também estão disponíveis nas seguintes páginas da Internet: http://www.ime.usp.br/~pam http://www.saraivauni.com.br Finalmente, agradecemos a todos aqueles que enviarem sugestões e comentários com a finalidade de melhorar a presente edição. Para tanto, além do correio normal, os leitores poderão usar os endereços eletrônicos dos autores: morettin@editorasaraiva.com.br e bussab@editorasaraiva.com.br. Os Autores X E S T A T Í S T I C A B Á S I C A _Pref_sumario a.p65 21/9/2009, 11:27 10 XI S U M Á R I O Capítulo 1 — Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3 Técnicas Computacionais . . . . . . . . . . . . . . . . . . . . . . 2 1.4 Métodos Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.6 Plano do Livro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Parte I — Análise Exploratória de Dados Capítulo 2 — Resumo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1 Tipos de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Distribuições de Freqüências . . . . . . . . . . . . . . . . . . . . 11 2.3 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1 Gráficos para Variáveis Qualitativas . . . . . . . . . . . 15 2.3.2 Gráficos para Variáveis Quantitativas . . . . . . . . . . 16 2.4 Ramo-e-Folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . . 23 2.6 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 26 Capítulo 3 — Medidas-Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3 Quantis Empíricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.5 Gráficos de Simetria . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.6 Transformações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.7 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . . 54 3.8 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 56 Capítulo 4 — Análise Bidimensional . . . . . . . . . . . . . . . . . . . . . . 68 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2 Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . 70 S U M Á R I O _Pref_sumario a.p65 21/9/2009, 11:27 11 XII E S T A T Í S T I C A B Á S I C A 4.3 Associação entre Variáveis Qualitativas . . . . . . . . . . . . 73 4.4 Medidas de Associação entre Variáveis Qualitativas . . . . 76 4.5 Associação entre Variáveis Quantitativas . . . . . . . . . . . . 80 4.6 Associação entre Variáveis Qualitativas e Quantitativas . . . 86 4.7 Gráficos q x q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.8 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . . 92 4.9 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 94 Parte II — Probabilidades Capítulo 5 — Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.2 Algumas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . 106 5.3 Probabilidade Condicional e Independência . . . . . . . . . 111 5.4 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.5 Probabilidades Subjetivas . . . . . . . . . . . . . . . . . . . . . . 121 5.6 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 122 Capítulo 6 — Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . 128 6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.2 O Conceito de Variável Aleatória Discreta . . . . . . . . . . 129 6.3 Valor Médio de uma Variável Aleatória . . . . . . . . . . . . 135 6.4 Algumas Propriedades do Valor Médio . . . . . . . . . . . . 137 6.5 Função de Distribuição Acumulada . . . . . . . . . . . . . . 138 6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . 140 6.6.1 Distribuição Uniforme Discreta . . . . . . . . . . . . 140 6.6.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . 142 6.6.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . 143 6.6.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . 147 6.6.5 Distribuição de Poisson . . . . . . . . . . . . . . . . . . 148 6.7 O Processo de Poisson . . . . . . . . . . . . . . . . . . . . . . . 153 6.8 Quantis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.9 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . 156 6.10 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 157 Capítulo 7 — Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . 163 7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.2 Valor Médio de uma Variável Aleatória Contínua . . . . . . 167 7.3 Função de Distribuição Acumulada . . . . . . . . . . . . . . . 170 _Pref_sumario a.p65 21/9/2009, 11:27 12 XIII S U M Á R I O 7.4 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . . . . . . . . . 173 7.4.1 O Modelo Uniforme . . . . . . . . . . . . . . . . . . . . 174 7.4.2 O Modelo Normal . . . . . . . . . . . . . . . . . . . . . 176 7.4.3 O Modelo Exponencial . . . . . . . . . . . . . . . . . . 181 7.5 Aproximação Normal à Binomial . . . . . . . . . . . . . . . . 182 7.6 Funções de Variáveis Contínuas . . . . . . . . . . . . . . . . 185 7.7 Outros Modelos Importantes . . . . . . . . . . . . . . . . . . . 188 7.7.1 A Distribuição Gama . . . . . . . . . . . . . . . . . . . 188 7.7.2 A Distribuição Qui-Quadrado . . . . . . . . . . . . . 189 7.7.3 A Distribuição t de Student . . . . . . . . . . . . . . . . 191 7.7.4 A Distribuição F de Snedecor . . . . . . . . . . . . . . 192 7.8 Quantis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 7.9 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . 195 7.10 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 196 Capítulo 8 — Variáveis Aleatórias Multidimensionais . . . . . . . . . . . 203 8.1 Distribuição Conjunta . . . . . . . . . . . . . . . . . . . . . . . . 203 8.2 Distribuições Marginais e Condicionais . . . . . . . . . . . . 206 8.3 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . 209 8.4 Covariância entre Duas Variáveis Aleatórias . . . . . . . . . 214 8.5 Variáveis Contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . 220 8.6 Distribuições Condicionais Contínuas . . . . . . . . . . . . . 224 8.7 Funções de Variáveis Contínuas . . . . . . . . . . . . . . . . . 228 8.8 Distribuição Normal Bidimensional . . . . . . . . . . . . . . . 229 8.9 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 231 Capítulo 9 — Noções de Simulação . . . . . . . . . . . . . . . . . . . . . . 235 9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 9.2 Simulação de Variáveis Aleatórias . . . . . . . . . . . . . . . . 240 9.3 Simulação de Alguns Modelos . . . . . . . . . . . . . . . . . . 244 9.4 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . . 247 9.5 Problemas e Complementos . . . . . . . . . . . . . . . . . . . . 252 Parte III — Inferência Estatística Capítulo 10 — Introdução à Inferência Estatística . . . . . . . . . . . . . 261 10.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 10.2 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . 261 10.3 Problemas de Inferência . . . . . . . . . . . . . . . . . . . . . 264 _Pref_sumario a.p65 21/9/2009, 11:27 13 XIV E S T A T Í S T I C A B Á S I C A 10.4 Como Selecionar uma Amostra . . . . . . . . . . . . . . . . 267 10.5 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . 268 10.6 Estatísticas e Parâmetros . . . . . . . . . . . . . . . . . . . . . 271 10.7 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . 272 10.8 Distribuição Amostral da Média . . . . . . . . . . . . . . . . 277 10.9 Distribuição Amostral de uma Proporção . . . . . . . . . 281 10.10 Outras Distribuições Amostrais . . . . . . . . . . . . . . . . 283 10.11 Determinação do Tamanho de uma Amostra . . . . . . . 287 10.12 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . 289 10.13 Problemas e Complementos . . . . . . . . . . . . . . . . . . 290 Capítulo 11 — Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 11.1 Primeiras Idéias . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 11.2 Propriedades de Estimadores . . . . . . . . . . . . . . . . . . 298 11.3 Estimadores de Momentos . . . . . . . . . . . . . . . . . . . 304 11.4 Estimadores de Mínimos Quadrados . . . . . . . . . . . . 305 11.5 Estimadores de Máxima Verossimilhança . . . . . . . . . 308 11.6 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . 310 11.7 Erro Padrão de um Estimador . . . . . . . . . . . . . . . . . 316 11.8 Inferência Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 317 11.9 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . 320 11.10 Problemas e Complementos . . . . . . . . . . . . . . . . . . 324 Capítulo 12 — Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . 330 12.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.2 Um Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.3 Procedimento Geral do Teste de Hipóteses . . . . . . . . 337 12.4 Passos para a Construção de um Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 12.5 Testes sobre a Média de uma População com Variância Conhecida . . . . . . . . . . . . . . . . . . . . . . . 339 12.6 Teste para Proporção . . . . . . . . . . . . . . . . . . . . . . . 341 12.7 Poder de um Teste . . . . . . . . . . . . . . . . . . . . . . . . . 344 12.8 Valor-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 12.9 Teste para a Variância de uma Normal . . . . . . . . . . . 351 12.10 Teste sobre a Média de uma Normal com Variância Desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 12.11 Problemas e Complementos . . . . . . . . . . . . . . . . . . 358 _Pref_sumario a.p65 21/9/2009, 11:27 14 XV S U M Á R I O Capítulo 13 — Inferência para Duas Populações . . . . . . . . . . . . . 361 13.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 13.2 Comparação das Variâncias de Duas Populações Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 13.3 Comparação de Duas Populações: Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 13.3.1 Populações Normais . . . . . . . . . . . . . . . . . . . 368 13.3.2 Populações Não-Normais . . . . . . . . . . . . . . . 372 13.4 Comparação de Duas Populações: Amostras Dependentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382 13.4.1 População Normal . . . . . . . . . . . . . . . . . . . . 382 13.4.2 População Não-Normal . . . . . . . . . . . . . . . . 384 13.5 Comparação de Proporções em Duas Populações . . . . 387 13.6 Exemplo Computacional . . . . . . . . . . . . . . . . . . . . . 390 13.7 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 394 Capítulo 14 — Análise de Aderência e Associação . . . . . . . . . . . . 399 14.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 14.2 Testes de Aderência . . . . . . . . . . . . . . . . . . . . . . . . . 402 14.3 Testes de Homogeneidade . . . . . . . . . . . . . . . . . . . . . 406 14.4 Testes de Independência . . . . . . . . . . . . . . . . . . . . . . 409 14.5 Teste para o Coeficiente de Correlação . . . . . . . . . . . . 411 14.6 Outro Teste de Aderência . . . . . . . . . . . . . . . . . . . . . 414 14.7 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 417 Capítulo 15 — Inferência para Várias Populações . . . . . . . . . . . . 420 15.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 15.2 Modelo para Duas Subpopulações . . . . . . . . . . . . . . 425 15.2.1 Suposições . . . . . . . . . . . . . . . . . . . . . . . . . 425 15.2.2 Estimação do Modelo . . . . . . . . . . . . . . . . . . 426 15.2.3 Intervalos de Confiança . . . . . . . . . . . . . . . . 430 15.2.4 Tabela de Análise de Variância . . . . . . . . . . . . 432 15.3 Modelo para Mais de Duas Subpopulações . . . . . . . . 435 15.4 Comparações entre as Médias . . . . . . . . . . . . . . . . . 439 15.5 Teste de Homocedasticidade . . . . . . . . . . . . . . . . . . . 441 15.6 Exemplo Computacional . . . . . . . . . . . . . . . . . . . . . 443 15.7 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 444 _Pref_sumario a.p65 21/9/2009, 11:27 15 XVI E S T A T Í S T I C A B Á S I C A Capítulo 16 — Regressão Linear Simples . . . . . . . . . . . . . . . . . . . 449 16.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 16.2 Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . 452 16.3 Avaliação do Modelo . . . . . . . . . . . . . . . . . . . . . . . 454 16.3.1 Estimador de σ 2 e . . . . . . . . . . . . . . . . . . . . . . 454 16.3.2 Decomposição da Soma de Quadrados . . . . . 456 16.3.3 Tabela de Análise de Variância . . . . . . . . . . . . 458 16.4 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . 460 16.4.1 Média e Variância dos Estimadores . . . . . . . . . 461 16.4.2 Distribuições Amostrais dos Estimadores dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 462 16.4.3 Intervalos de Confiança para α e β . . . . . . . . . . 463 16.4.4 Intervalo de Confiança para μ (z) e Intervalo de Predição . . . . . . . . . . . . . . . . . . . . . . . . . 465 16.5 Análise de Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . 467 16.6 Alguns Modelos Especiais . . . . . . . . . . . . . . . . . . . . 473 16.6.1 Reta Passando pela Origem . . . . . . . . . . . . . . 473 16.6.2 Modelos Não-Lineares . . . . . . . . . . . . . . . . . 475 16.7 Regressão Resistente . . . . . . . . . . . . . . . . . . . . . . . . 479 16.8 Exemplos Computacionais . . . . . . . . . . . . . . . . . . . . 481 16.9 Problemas e Complementos . . . . . . . . . . . . . . . . . . . 484 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 Conjuntos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507 Respostas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522 _Pref_sumario a.p65 21/9/2009, 11:27 16 1.1 Introdução Em alguma fase de seu trabalho, o pesquisador depara-se com o problema de anali- sar e entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele necessitará trabalhar os dados para transformá-los em informações, para compará-los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. De modo bem geral, podemos dizer que a essência da Ciência é a observação e que seu objetivo básico é a inferência, que pode ser dedutiva (na qual se argumenta das premissas às conclusões) ou indutiva (por meio da qual se vai do específico ao geral). A inferência estatística é uma das partes da Estatística. Esta é a parte da metodologia da Ciência que tem por objetivo a coleta, redução, análise e modelagem dos dados, a partir do que, finalmente, faz-se a inferência para uma população da qual os dados (a amostra) foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsões, a partir das quais se podem tomar decisões. Na primeira parte deste livro estaremos interessados na redução, análise e interpretação dos dados sob consideração, adotando um enfoque que chamaremos de análise exploratória de dados (AED). Nessa abordagem tentaremos obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise confirmatória de dados (ou inferência estatística). Tradicionalmente, uma análise descritiva de dados limita-se a calcular algumas medidas de posição e variabilidade, como a média e variância, por exemplo. Contrária a essa tendência, uma corrente mais moderna, liderada por Tukey (1977), utiliza prin- cipalmente técnicas gráficas, em oposição a resumos numéricos. Isso não significa que sumários não devam ser obtidos, mas uma análise exploratória de dados não deve se limitar a calcular tais medidas. 1.2 Modelos Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma forma de regularidade ou padrão ou, ainda, modelo, presente nas observações. Capítulo 1 Preliminares cap01b.P65 21/9/2009, 11:29 1 C A P Í T U L O 1 — P R E L I M I N A R E S 2 Exemplo 1.1. Imagine que estejamos estudando a relação entre rendimentos e gastos de consumo de um conjunto de indivíduos. Podemos obter um gráfico como o da Figura 1.1. O que se espera, intuitivamente, é que os gastos de um indivíduo estejam diretamente relacionados com os seus rendimentos, de modo que é razoável supor uma “relação linear” entre essas duas quantidades. Os pontos da Figura 1.1 não estão todos, evidentemente, sobre uma reta; essa seria o nosso padrão ou modelo. A diferen- ça entre os dados e o modelo constitui os resíduos. Figura 1.1: Relação entre consumo e rendimento. Podemos, então, escrever de modo esquemático: Dados = Modelo + Resíduos ou, ainda, D = M + R. (1.1) A parte M é também chamada parte suave (ou regular ou, ainda, previsível) dos dados, enquanto R é a parte aleatória. A parte R é tão importante quanto M, e a análise dos resíduos constitui uma parte fundamental de todo trabalho estatístico. Basicamen- te, são os resíduos que nos dizem se o modelo é adequado ou não para representar os dados. De modo coloquial, o que se deseja é que a parte R não contenha nenhuma “suavidade”, caso contrário mais “suavização” é necessária. Uma análise exploratória de dados busca, essencialmente, fornecer informações para estabelecer (1.1). 1.3 Técnicas Computacionais O desenvolvimento rápido e constante na área de computação foi acompanhado pela introdução de novas técnicas de análise de dados, notadamente de métodos gráficos e de métodos chamados de computação intensiva (como o método bootstrap, que será tratado brevemente neste livro). cap01b.P65 21/9/2009, 11:29 2 1 . 4 M É T O D O S G R Á F I C O S 3 Para a implementação dessas técnicas, foram desenvolvidos pacotes estatísticos, atual- mente usados em larga escala tanto no meio acadêmico como em indústrias, bancos, órgãos de governo etc. Esses pacotes podem ser genéricos ou específicos. Os pacotes genéricos (como o Minitab, Splus, SPSS, SAS etc.) são adequados para realizar uma gama variada de análises estatísticas. Os pacotes específicos são planejados para realizar análises particu- lares de uma determinada área. Por outro lado, os pacotes podem exigir maior ou menor experiência computacional dos usuários. Alguns operam com menus, e seu uso é mais simples. Outros requerem maior familiaridade com o computador e são baseados em linguagens próprias. Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows. Todavia, um número razoável de pacotes já tem versões para o sistema Linux. Em alguns exemplos deste livro usaremos alguns pacotes e, em cada caso, explicitaremos qual está sendo usado. Não queremos fazer recomendações sobre nenhum pacote em parti- cular, porque cremos que o leitor utilizará aquele com o qual estiver mais acostumado, ou aquele(s) que estiver(em) à sua disposição. Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na área de Estatística. Salientamos, também, que existem planilhas à venda no mercado que possuem op- ções para certas técnicas estatísticas. Dentre estas, mencionamos o Excel e o Lotus. Tabela 1.1: Alguns pacotes estatísticos genéricos. Pacote Ambiente Fabricante MINITAB WIN Minitab, Inc., USA SAS WIN SAS Institute, Inc., USA SPLUS WIN, LINUX Insightfull Inc. SPSS WIN SPSS, Inc., USA STATGRAPHICS WIN Stat. Graphics, Inc., USA Além dos pacotes estatísticos, há outros pacotes de grande utilidade para realizar tarefas matemáticas. Dentre estes, mencionamos o Mathematica, o Maple, o Gauss e o Mat Lab. 1.4 Métodos Gráficos Como dissemos na introdução, os métodos gráficos têm encontrado um uso cada vez maior devido ao seu forte apelo visual. Normalmente, é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos. Os gráficos são utilizados para diversos fins (Chambers et al., 1983): (a) buscar padrões e relações; (b) confirmar (ou não) certas expectativas que se tinha sobre os dados; cap01b.P65 21/9/2009, 11:29 3 4 C A P Í T U L O 1 — P R E L I M I N A R E S (c) descobrir novos fenômenos; (d) confirmar (ou não) suposições feitas sobre os procedimentos estatísticos usados; e (e) apresentar resultados de modo mais rápido e fácil. Podemos usar métodos gráficos para plotar os dados originais ou outros dados deriva- dos deles. Por exemplo, a investigação da relação entre as variáveis da Figura 1.1 pode ser feita por meio daquele diagrama de dispersão. Mas podemos também “ajustar” uma reta aos dados, calcular o desvio (resíduo) para cada observação e fazer um novo gráfico, de consu- mo contra resíduos, para avaliar a qualidade do ajuste. Com o progresso recente da computação gráfica e a existência de hardware e software adequados, a utilização de métodos gráficos torna-se rotineira na análise de dados. Contudo, muitos gráficos podem ser feitos sem o recurso de programas de computador. Neste texto introduziremos gráficos para a visualização e resumo de dados, no caso de uma ou duas variáveis, principalmente. Noções para o caso de três ou mais variáveis serão rapidamente abordadas. Gráficos com o propósito de comparar duas distribuições também serão tratados. 1.5 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou nos exercícios propostos. Aconselhamos os leitores a reproduzir os exemplos, usan- do esses dados, bem como resolver os problemas, pois somente a efetiva manipulação de dados pode levar a um bom entendimento das técnicas apresentadas. Os conjuntos de dados apresentados provêm de diferentes fontes, que são mencio- nadas em cada conjunto e depois explicitadas nas referências. Os leitores, é claro, poderão usar as técnicas apresentadas em seus próprios con- juntos de dados. Como salientamos na seção 1.3, usaremos alguns programas computacionais dis- poníveis para análises estatísticas. Decidimos pela utilização de dois pacotes, o SPlus e o Minitab, e de uma planilha, o Excel. Embora o último não possa ser considerado um aplicativo estatístico, sua grande difusão entre os usuários de computadores pessoais motivou nossa escolha. Alguns conjuntos de dados são parte de conjuntos maiores. Todos esses dados podem ser obtidos no endereço: http://www.editorasaraiva.com.br/uni Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, o Conjunto de Dados 1 será designado simplesmente por CD-Brasil, o Conjunto de Da- dos 4, por CD-Poluição etc. cap01b.P65 21/9/2009, 11:29 4 1 . 6 P L A N O D O L I V R O 5 1.6 Plano do Livro Na primeira parte do livro trataremos, nos Capítulos 2 a 4, de técnicas gráficas e numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis. No Capítulo 2 estudaremos como resumir os dados por meio de distribuições de freqüên- cias e como representá-los graficamente por meio de gráficos em barras, histogramas e ramo-e-folhas. No Capítulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados: medidas de posição (ou localização) e medidas de dispersão (ou de variabilidade). A partir dessas medidas poderemos construir gráficos importantes, como o gráfico de quantis e o desenho esquemático (ou box plot). No Capítulo 4 trataremos do caso em que temos duas variáveis. Estaremos interessados em verificar se existe alguma associação entre duas variáveis e como medi-la. O caso de três variá- veis será considerado brevemente. Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis aleatórias. A idéia é que a primeira parte sirva de motivação para construir os modelos probabilísticos da segunda parte. No Capítulo 5 tratamos da noção de probabilidade, suas propriedades, probabilidade condicional e independência. Também consideramos o teorema de Bayes e destacamos sua importância em problemas de inferência. As variáveis aleatórias discretas são estudadas no Capítulo 6 e as contínuas, no Capítulo 7. Em particular, são intro- duzidos os principais modelos para variáveis aleatórias. O caso de duas variáveis aleatórias é considerado no Capítulo 8. No Capítulo 9 introduzimos noções básicas de simulação. Esse assunto é muito impor- tante, notadamente quando se quer avaliar algum modelo construído para uma situação real. A terceira parte trata da inferência estatística. Nesta parte todos os conceitos apreen- didos nas duas partes anteriores são imprescindíveis. Os dois grandes problemas de inferência, estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectiva- mente, após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distri- buições amostrais. O caso de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15. Basicamente, são desenvolvidos testes para médias, propor- ções e variâncias. O Capítulo 14 trata dos chamados testes do qui-quadrado para dados que aparecem sob a forma de tabelas de contingência. Finalmente, no Capítulo 16 estuda- mos com algum detalhe o modelo de regressão linear simples. Em cada capítulo há, sempre que possível, uma seção com exemplos computacionais. Isso significa que algum conjunto de dados é analisado utilizando-se um ou alguns dos programas mencionados acima. Em geral, são problemas um pouco mais difíceis do que aqueles exemplificados nas demais seções ou, então, têm o caráter de ilustrar o uso de tais pacotes para simulações, por exemplo. Recomendamos que o leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e procura de eventuais mode- los que possam representá-los. cap01b.P65 21/9/2009, 11:29 5 Parte 1 Parte 1 Capítulo 2 9 Resumo de Dados Capítulo 3 35 Medidas-Resumo Capítulo 4 68 Análise Bidimensional A N Á L I S E E X P L O R A T Ó R I A D E D A D O S cap02b.p65 21/9/2009, 11:37 7 2.2 DISTRIBUIÇÕES DE FREQUÊNCIAS 13 Não podemos comparar diretamente as colunas das frequências das Tabelas 2.2 e 2.3, pois os totais de empregados são diferentes nos dois casos. Mas as colunas das percentagens são comparáveis, pois reduzimos as frequências a um mesmo total (no caso 100). A construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado. Por exemplo, a construção da tabela de frequências para a variável salário, usando o mesmo procedimento acima, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. A solução empregada é agrupar os dados por faixas de salário. Exemplo 2.3. A Tabela 2.4 dá a distribuição de frequências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários. Tabela 2.4: Frequências e percentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salário. Classe de salários Frequência Porcentagem n i 100ƒ i 4,00 – 8,00 10 27,78 8,00 – 12,00 12 33,33 12,00 – 16,00 8 22,22 16,00 – 20,00 5 13,89 20,00 – 24,00 1 2,78 Total 36 100,00 Fonte: Tabela 2.1. Procedendo-se desse modo, ao resumir os dados referentes a uma variável contínua, perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original (Tabela 2.1). Sem perda de muita precisão, poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14 (o leitor pode verificar qual o erro cometido, comparando-os com os dados originais da Tabela 2.1). Voltaremos a este assunto no Capítulo 3. Note que estamos usando a notação a ⊢ b para o intervalo de números contendo o extremo a mas não contendo o extremo b. Podemos também usar a notação [a, b) para designar o mesmo intervalo a ⊢ b. A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um pequeno número de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Estes dois extremos têm a ver, também, com o grau de suavidade da representação gráfica dos dados, será tratada a seguir, baseada nestas tabelas. Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. O caso de classes com amplitudes diferentes é tratado no Problema 10. 2.1 Tipos de Variáveis Para ilustrar o que segue, consideremos o seguinte exemplo. Exemplo 2.1. Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). No exemplo em questão, considerando-se a característica (variável) estado civil, para cada empregado pode-se associar uma das realizações, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo). Podemos atribuir uma letra, digamos X, para representar tal variável. Observamos que o pesquisador colheu informações sobre seis variáveis: Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V Algumas variáveis, como sexo, educação, estado civil, apresentam como possíveis rea- lizações uma qualidade (ou atributo) do indivíduo pesquisado, ao passo que outras, como número de filhos, salário, idade, apresentam como possíveis realizações números resultan- tes de uma contagem ou mensuração. As variáveis do primeiro tipo são chamadas qualitati- vas, e as do segundo tipo, quantitativas. Capítulo 2 Resumo de Dados cap02b.p65 21/9/2009, 11:37 9 10 C A P Í T U L O 2 — R E S U M O D E D A D O S Dentre as variáveis qualitativas, ainda podemos fazer uma distinção entre dois tipos: variável qualitativa nominal, para a qual não existe nenhuma ordenação nas possíveis realizações, e variável qualitativa ordinal, para a qual existe uma ordem nos seus resultados. A região de procedência, do Exemplo 2.1, é um caso de variável nominal, enquanto grau de instrução é um Exemplo de variável ordinal, pois ensinos fundamental, médio e superior correspondem a uma ordenação baseada no número de anos de escolaridade completos. A variável qualitativa classe social, com as possíveis realizações alta, média e baixa, é outro exemplo de variável ordinal. De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômi- ca: (a) variáveis quantitativas discretas, cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem, como por exemplo número de filhos (0, 1, 2, ...); (b) variáveis quantitativas contínuas, cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração, como por exemplo estatura e peso (melhor seria dizer massa) de um indivíduo. A Figura 2.1 esquematiza as classificações feitas acima. Figura 2.1: Classificação de uma variável. Para cada tipo de variável existem técnicas apropriadas para resumir as informações, donde a vantagem de usar uma tipologia de identificação como a da Figura 2.1. Entre- tanto, verificaremos que técnicas usadas num caso podem ser adaptadas para outros. Para finalizar, cabe uma observação sobre variáveis qualitativas. Em algumas situa- ções podem-se atribuir valores numéricos às várias qualidades ou atributos (ou, ain- da, classes) de uma variável qualitativa e depois proceder-se à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas realizações, usualmente chamadas sucesso e fracasso. A variável estado civil no exemplo acima estaria nessa situação. Esse tipo de variável aparecerá mais vezes nos próximos capítulos. cap02b.p65 21/9/2009, 11:37 10 2 . 2 D I S T R I B U I Ç Õ E S D E F R E Q Ü Ê N C I A S 11 Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos da Companhia MB. No Estado Grau de No de Salário Idade Região de civil instrução filhos (× sal. mín.) anos meses procedência 1 solteiro ensino fundamental — 4,00 26 03 interior 2 casado ensino fundamental 1 4,56 32 10 capital 3 casado ensino fundamental 2 5,25 36 05 capital 4 solteiro ensino médio — 5,73 20 10 outra 5 solteiro ensino fundamental — 6,26 40 07 outra 6 casado ensino fundamental 0 6,66 28 00 interior 7 solteiro ensino fundamental — 6,86 41 00 interior 8 solteiro ensino fundamental — 7,39 43 04 capital 9 casado ensino médio 1 7,59 34 10 capital 10 solteiro ensino médio — 7,44 23 06 outra 11 casado ensino médio 2 8,12 33 06 interior 12 solteiro ensino fundamental — 8,46 27 11 capital 13 solteiro ensino médio — 8,74 37 05 outra 14 casado ensino fundamental 3 8,95 44 02 outra 15 casado ensino médio 0 9,13 30 05 interior 16 solteiro ensino médio — 9,35 38 08 outra 17 casado ensino médio 1 9,77 31 07 capital 18 casado ensino fundamental 2 9,80 39 07 outra 19 solteiro superior — 10,53 25 08 interior 20 solteiro ensino médio — 10,76 37 04 interior 21 casado ensino médio 1 11,06 30 09 outra 22 solteiro ensino médio — 11,59 34 02 capital 23 solteiro ensino fundamental — 12,00 41 00 outra 24 casado superior 0 12,79 26 01 outra 25 casado ensino médio 2 13,23 32 05 interior 26 casado ensino médio 2 13,60 35 00 outra 27 solteiro ensino fundamental — 13,85 46 07 outra 28 casado ensino médio 0 14,69 29 08 interior 29 casado ensino médio 5 14,71 40 06 interior 30 casado ensino médio 2 15,99 35 10 capital 31 solteiro superior — 16,22 31 05 outra 32 casado ensino médio 1 16,61 36 04 interior 33 casado superior 3 17,26 43 07 capital 34 solteiro superior — 18,75 33 07 capital 35 casado ensino médio 2 19,40 48 11 capital 36 casado superior 3 23,30 42 02 interior Fonte: Dados hipotéticos. 2.2 Distribuições de Freqüências Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o compor- tamento dessa variável, analisando a ocorrência de suas possíveis realizações. Nesta seção cap02b.p65 21/9/2009, 11:37 11 12 C A P Í T U L O 2 — R E S U M O D E D A D O S veremos uma maneira de se dispor um conjunto de realizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição. Exemplo 2.2. A Tabela 2.2 apresenta a distribuição de freqüências da variável grau de instrução, usando os dados da Tabela 2.1. Tabela 2.2: Freqüências e porcentagens dos 36 emprega- dos da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Freqüência Proporção Porcentagem instrução ni fi 100 fi Fundamental 12 0,3333 33,33 Médio 18 0,5000 50,00 Superior 6 0,1667 16,67 Total 36 1,0000 100,00 Fonte: Tabela 2.1. Observando os resultados da segunda coluna, vê-se que dos 36 empregados da com- panhia, 12 têm o ensino fundamental, 18 o ensino médio e 6 possuem curso superior. Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de cada realização em relação ao total. Assim, 6/36 = 0,1667 dos empregados da companhia MB (seção de orçamentos) têm instrução superior. Na última coluna da Tabela 2.2 são apresentadas as porcentagens para cada realização da variável grau de instrução. Usaremos a notação ni para indicar a freqüência (absoluta) de cada classe, ou categoria, da variável, e a notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada classe, sendo n o número total de observações. As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empre- gados e que a distribuição de freqüências seja a da Tabela 2.3. Tabela 2.3: Freqüências e porcentagens dos 2.000 empregados da Companhia MB, segundo o grau de instrução. Grau de instrução Freqüência Porcentagem ni 100 fi Fundamental 1.650 32,50 Médio 1.020 51,00 Superior 1.330 16,50 Total 2.000 100,00 Fonte: Dados hipotéticos. cap02b.p65 21/9/2009, 11:37 12 CAPÍTULO 2 — RESUMO DE DADOS 18 Com a tabela assim construída podemos representar os pares (s i, n i) ou (s i, f i), por um gráfico em barras, setores ou de dispersão unidimensional. Veja a Figura 2.6. Figura 2.6: Gráfico em barras para a variável S: salários. Frequência 12 - 10 - 8 - 6 - 4 - 2 - 6 10 14 18 22 Salário O artifício usado acima para representar uma variável contínua faz com que se perca muito das informações nela contidas. Uma alternativa a ser usada nestes casos é o gráfico conhecido como histograma. Tabela 2.6: Distribuição de frequências da variável S, salário dos empregados da seção de orçamentos da Companhia MB. Classes de Ponto médio Frequência Porcentagem salários s i n i 100ƒ i 4,00 – 8,00 6,00 10 27,78 8,00 – 12,00 10,00 12 33,33 12,00 – 16,00 14,00 8 22,22 16,00 – 20,00 18,00 5 13,89 20,00 – 24,00 22,00 1 2,78 Total — 36 100,00 Fonte: Tabela 2.4. Exemplo 2.7. Usando ainda a variável S do Exemplo 2.4, apresentamos na Figura 2.7 o histograma de sua distribuição. O histograma é um gráfico de barras contíguas, com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência. Pode-se usar tanto a frequência absoluta, n i, como a relativa, f i. Indiquemos a amplitude do i-ésimo intervalo por Δ i. Para que a área do retângulo respectivo seja proporcional a f i, a sua altura deve ser proporcional a f i/Δ i (ou a n i/Δ i), que é chamada densidade de frequência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será igual a um. 14 C A P Í T U L O 2 — R E S U M O D E D A D O S 1. Escalas de medidas. A seguir descrevemos outros possíveis critérios para classificar variá- veis, em função da escala adotada. Observe a similaridade com a classificação apresen- tada anteriormente. Nossas observações são resultados de medidas feitas sobre os elementos de uma população. Existem quatro escalas de medidas que podem ser consideradas: Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou não de outra, e ela é usada para categorizar indivíduos de uma população. Um exemplo é o sexo de um indivíduo. Para cada categoria associamos um numeral diferente (letra ou número). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1 (masculino) e 2 (feminino). Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a moda. (As medidas citadas nesse problema, como a média, mediana e moda, são definidas no Capítulo 3.) Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. Temos a situação anterior, mas as categorias são ordenadas, e a ordem dos numerais associados ordena as categorias. Por exemplo, a classe socioeconômica de um indivíduo pode ser baixa (1 ou X), média (2 ou Y) e alta (3 ou Z). Transformações que preservam a ordem não alteram a estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 e 100 ou A, L e Z. Medidas de posição apropriadas são a mediana e a moda. Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, maior e quanto maior do que outra. Podemos quantificar a diferença entre as categorias da escala ordinal. Necessitamos de uma origem arbitrária e de uma unidade de medida. Por exemplo, considere a temperatura de um indivíduo, na escala Fahrenheit. A origem é 0o F e a unidade é 1o F. Transformações que preservam a estrutura dessa escala são do tipo y = ax + b, a > 0. Por exemplo, a transformação y = 5/9 (x – 32) transforma graus Fahrenheit em centígrados. Para essa escala, podemos fazer operações aritméticas, e mé- dia, mediana e moda são medidas de posição apropriadas. Escala razão. Dadas duas medidas nessa escala, podemos dizer se são iguais, ou se uma é diferente, maior, quanto maior e quantas vezes a outra. A diferença com a escala intervalar é que agora existe um zero absoluto. A altura de um indivíduo é um exemplo de medida nessa escala. Se ela for medida em centímetros (cm), 0 cm é a origem e 1 cm é a unidade de medida. Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm, e esta relação continua a valer se usarmos 1 m como unidade. Ou seja, a estrutura da escala razão não é alterada por transformações da forma y = cx, c > 0. Por exemplo, y = x/100 transforma cm em m. As estatísticas apropriadas para a escala intervalar são também apropriadas para a escala razão. Para cada uma das variáveis abaixo, indique a escala usualmente adotada para resu- mir os dados em tabelas de freqüências: (a) Salários dos empregados de uma indústria. (b) Opinião de consumidores sobre determinado produto. (c) Número de respostas certas de alunos num teste com dez itens. (d) Temperatura diária da cidade de Manaus. (e) Porcentagem da receita de municípios aplicada em educação. (f) Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento. (g) QI de um indivíduo. Problemas cap02b.p65 21/9/2009, 11:37 14 2 . 3 G R Á F I C O S 15 2. Usando os dados da Tabela 2.1, construa a distribuição de freqüências das variáveis: (a) Estado civil. (b) Região de procedência. (c) Número de filhos dos empregados casados. (d) Idade. 3. Para o Conjunto de Dados 1 (CD-Brasil), construa a distribuição de freqüências para as variáveis população urbana e densidade populacional. 2.3 Gráficos Como já salientamos no Capítulo 1, a representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Exis- tem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples para variáveis quantitativas. No Capítulo 3, voltaremos a tratar deste assunto, em conexão com medidas associadas à distribuição de uma variável. 2.3.1 Gráficos para Variáveis Qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas. Vários são versões diferentes do mesmo princípio, logo nos limitaremos a apresentar dois deles: gráficos em barras e de composição em setores (“pizza” ou retângulos). Exemplo 2.4. Tomemos como ilustração a variável Y: grau de instrução, exemplificada nas Tabelas 2.2 e 2.3. O gráfico em barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni ou fi), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente umas às outras, horizontal ou verticalmente. Na Figura 2.2 temos o gráfico em barras (verticais) para a variável Y. Figura 2.2: Gráfico em barras para a variável Y: grau de instrução. cap02b.p65 21/9/2009, 11:37 15 16 C A P Í T U L O 2 — R E S U M O D E D A D O S Já o gráfico de composição em setores, sendo em forma de “pizza” o mais conhecido, destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. A Figura 2.3 mostra esse tipo de gráfico para a variável Y. Muitas vezes é usado um retângulo no lugar do círculo, para indicar o todo. Figura 2.3: Gráfico em setores para a variável Y: grau de instrução. 2.3.2 Gráficos para Variáveis Quantitativas Para variáveis quantitativas podemos considerar uma variedade maior de representa- ções gráficas. Exemplo 2.5. Considere a distribuição da variável Z, número de filhos dos empregados casados da seção de orçamentos da Companhia MB (Tabela 2.1). Na Tabela 2.5 temos as freqüências e porcentagens. Além dos gráficos usados para as variáveis qualitativas, como ilustrado na Figura 2.4, podemos considerar um gráfico chamado gráfico de dispersão unidimensional, como o da Figura 2.5 (a), em que os valores são representados por pontos ao longo da reta (provida de uma escala). Valores repetidos são acompanhados por um número que indica as repetições. Outra possibilidade é considerar um gráfico em que os valores repetidos são “empilhados”, um em cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto da pilha, como aparece na Figura 2.5 (c). Figura 2.4: Gráfico em barras para a variável Z: número de filhos. cap02b.p65 21/9/2009, 11:37 16 2 . 3 G R Á F I C O S 17 Figura 2.5: Gráficos de dispersão unidimensionais para a variável Z: número de filhos. Para variáveis quantitativas contínuas, necessita-se de alguma adaptação, como no exemplo a seguir. Tabela 2.5: Freqüências e porcentagens dos empregados da seção de orça- mentos da Companhia MB, se- gundo o número de filhos. No de filhos Freqüência Porcentagem zi ni 100 fi 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Total 20 100 Fonte: Tabela 2.1. Exemplo 2.6. Queremos representar graficamente a distribuição da variável S, salário dos empregados da seção de orçamentos da Companhia MB. A Tabela 2.4 fornece a distribuição de freqüências de S. Para fazer uma representação similar às apresentadas anteriormente, devemos usar o artifício de aproximar a variável contínua por uma variável discreta, sem perder muita informação. Isto pode ser feito supondo-se que todos os salários em determinada classe são iguais ao ponto médio desta classe. Assim, os dez salários pertencentes à primeira classe (de quatro a oito salários) serão admitidos iguais a 6,00, os 12 salários da segunda classe (oito a doze salários) serão admitidos iguais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 2.4 introduzindo os pon- tos médios das classes. Estes pontos estão na segunda coluna da Tabela 2.6. cap02b.p65 21/9/2009, 11:37 17 2 . 3 G R Á F I C O S 19 Quando os intervalos das classes forem todos iguais a Δ, a densidade de freqüência da i-ésima classe passa a ser fi/Δ (ou ni/Δ). É claro que marcar no eixo das ordenadas os valores ni, fi, ni/Δ ou fi/Δ leva a obter histogramas com a mesma forma; somente as áreas é que serão diferentes. O Problema 10 traz mais informações sobre a construção de histogramas. Figura 2.7: Histograma da variável S: salários. Para facilitar o entendimento, foi colocada acima de cada setor (retângulo) a res- pectiva porcentagem das observações (arredondada). Assim, por meio da figura, po- demos dizer que 61% dos empregados têm salário inferior a 12 salários mínimos, ou 17% possuem salário superior a 16 salários mínimos. Do mesmo modo que usamos um artifício para representar uma variável contínua como uma variável discreta, podemos usar um artifício para construir um histograma para variáveis discretas. A Figura 2.8 é um exemplo de como ficaria o histograma da variável Z, número de filhos dos empregados casados da seção de orçamentos da Com- panhia MB, segundo os dados da Tabela 2.5. O gráfico é suficientemente auto-explicativo, de modo que omitimos detalhes sobre sua construção. Figura 2.8: Histograma da variável Z: número de filhos. cap02b.p65 21/9/2009, 11:37 19 20 C A P Í T U L O 2 — R E S U M O D E D A D O S 2.4 Ramo-e-Folhas Tanto o histograma como os gráficos em barras dão uma idéia da forma da distribuição da variável sob consideração. Veremos, no Capítulo 3, outras características da distribuição de uma variável, como medidas de posição e dispersão. Mas a forma da distribuição é tão importante quanto estas medidas. Por exemplo, saber que a renda per capita de um país é de tantos dóla-res pode ser um dado interessante, mas saber como esta renda se distribui é mais importante. Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma idéia da forma de sua distribuição, é o ramo-e-folhas. Uma vantagem deste diagrama sobre o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si. Exemplo 2.8. Na Figura 2.9 construímos o ramo-e-folhas dos salários de 36 empregados da Companhia MB (Tabela 2.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas a idéia básica é dividir cada observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os salários 4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas. Um ramo com muitas folhas significa maior incidência daquele ramo (realização). Figura 2.9: Ramo-e-folhas para a variável S: salários. 4 00 56 5 25 73 6 26 66 86 7 39 44 59 8 12 46 74 95 9 13 35 77 80 10 53 76 11 06 59 12 00 79 13 23 60 85 14 69 71 15 99 16 22 61 17 26 18 75 19 40 20 21 22 23 30 Algumas informações que se obtêm deste ramo-e-folhas são: (a) Há um destaque grande para o valor 23,30. (b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40. (c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00. (d) Há uma leve assimetria em direção aos valores grandes; a suposição de que estes dados possam ser considerados como amostra de uma população com distribuição simétrica, em forma de sino (a chamada distribuição normal), pode ser questionada. cap02b.p65 21/9/2009, 11:37 20 2 . 4 R A M O - E - F O L H A S 21 A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de classes de um histograma. Um número pequeno de linhas (ou de classes) enfatiza a parte M da relação (1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R. Exemplo 2.9. Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin, Mosteller e Tukey, 1983, pág. 13). 53,0 70,2 84,3 69,5 77,8 87,5 53,4 82,5 67,3 54,1 70,5 71,4 95,4 51,1 74,4 55,7 63,5 85,8 53,5 64,3 82,7 78,5 55,7 69,1 72,3 59,5 55,3 73,0 52,4 50,7 Na Figura 2.10 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor, omitindo os décimos, de modo que 69,1 e 69,5, por exemplo, tornam-se 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6. Figura 2.10: Ramo-e-folhas para os dados de du- reza de peças de alumínio. 5 0 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 0 0 1 2 3 4 7 8 8 2 2 4 5 7 9 5 Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alternativa é duplicar os ramos. Criamos os ramos 5* e 5•, 6* e 6• etc., onde coloca- mos folhas de 0 a 4 na linha * e folhas de 5 a 9 na linha •. Obtemos o ramo-e-folhas da Figura 2.11. Um ramo-e-folhas pode ser “adornado” com outras informações, como o núme- ro de observações em cada ramo. Para outros exemplos, veja o Problema 19. Figura 2.11: Ramo-e-folhas para os dados de dureza, com ramos divididos. 5* 0 1 2 3 3 3 4 5• 5 5 5 9 6* 3 4 6• 7 9 9 7* 0 0 1 2 3 4 7• 7 8 8* 2 2 4 8• 5 7 9* 9• 5 cap02b.p65 21/9/2009, 11:37 21 22 C A P Í T U L O 2 — R E S U M O D E D A D O S 4. Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias, obtendo-se os resultados abaixo: 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7. 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 (a) Represente os dados graficamente. (b) Faça um histograma e um ramo-e-folhas. 5. Usando os resultados do Problema 2 e da Tabela 2.3: (a) construa um histograma para a variável idade; e (b) proponha uma representação gráfica para a variável grau de instrução. 6. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil estão dadas abaixo. 3,67 1,82 3,73 4,10 4,30 1,28 8,14 2,43 4,17 5,36 3,96 6,54 5,84 7,35 3,63 2,93 2,82 8,45 5,28 5,41 7,77 4,65 1,88 2,12 4,26 2,78 5,54 0,90 5,09 4,07 (a) Construa um histograma. (b) Construa um gráfico de dispersão unidimensional. 7. Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Compa- nhia MB. Após analisar o tipo de serviço que cada seção executa, você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções. O departa- mento pessoal forneceu as dados da Tabela 2.1 para os funcionários da seção de orçamentos, ao passo que para a seção técnica os dados vieram agrupados segundo as tabelas abaixo, que apresentam as freqüências dos 50 empregados dessa seção, segundo as variáveis grau de instrução e salário. Baseado nesses dados, qual seria a sua deci- são? Justifique. Instrução Freqüência Fundamental 15 Médio 30 Superior 5 Total 50 Problemas cap02b.p65 21/9/2009, 11:37 22 2.5 Exemplos Computacionais Classe de Salários | Frequência 7,50 |- 10,50 | 14 10,50 |- 13,50 | 17 13,50 |- 16,50 | 11 16,50 |- 19,50 | 8 Total | 50 8. Construa um histograma, um ramo-e-folhas e um gráfico de dispersão unidimensional para o conjunto de dados 2 (CD-Municípios). 2.5 Exemplos Computacionais Nesta seção vamos analisar dois dos conjuntos de dados apresentados no final do livro, utilizando técnicas vistas neste capítulo e programas computacionais. Exemplo 2.10. Considere o conjunto de notas em Estatística de 100 alunos de um curso de Economia (conjunto de dados 3, CD-Notas). O histograma dos dados está na Figura 2.12, que mostra que a distribuição dos dados é razoavelmente simétrica. O gráfico de dispersão unidimensional e o ramo-e-folhas correspondentes estão nas Figuras 2.13 e 2.14, respectivamente, e ambos contêm informação semelhante à dada pelo histograma. 24 C A P Í T U L O 2 — R E S U M O D E D A D O S Figura 2.13: Gráfico de dispersão unidimensional para o CD-Notas. Minitab. Figura 2.14: Ramo-e-folhas para o CD-Notas. Minitab. 1 5 2 555 3 000055555 4 000000555555 5 00000000055555555555 6 000000000000055555555555 7 0000005555555555 8 000000555 9 005 10 000 Exemplo 2.11. O conjunto de dados 4 (CD-Poluição) traz dados sobre a poluição na cidade de São Paulo. Tomemos os dados de temperatura, de 1o de janeiro a 30 de abril de 1991 (120 dados). Essas observações constituem o que se chama série temporal, ou seja, os da- dos são observados em instantes ordenados do tempo. Espera-se que exista relação entre as observações em instantes de tempo diferentes, o que não acontece com os dados do exemplo anterior: a nota de um aluno, em princípio, é independente da nota de outro aluno qualquer. O gráfico dessa série temporal está na Figura 2.15. Observa-se uma variação da temperatura no decorrer do tempo, entre 12 e 22 °C. Figura 2.15: Dados de temperatura de São Paulo. SPlus. cap02b.p65 21/9/2009, 11:37 24 2 . 5 E X E M P L O S C O M P U T A C I O N A I S 25 O histograma e o gráfico de dispersão unidimensional estão nas Figuras 2.16 e 2.17, respectivamente, mostrando que a distribuição dos dados não é simétrica. O ramo-e-folhas da Figura 2.18 ilustra o mesmo comportamento. Figura 2.16: Histograma dos dados de temperatura de São Paulo. SPlus. Figura 2.17: Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo. Minitab. Figura 2.18: Ramo-e-folhas para os dados de temperatura de São Paulo. Minitab. 12 3 13 128 14 0012588899 15 112222225558899 16 000000013344678999 17 000000001236688888999 18 00000000001111233345566889999999 19 00000000012289 20 00011 21 0 Em cada figura está indicado o pacote computacional que foi utilizado, com as devidas adaptações. cap02b.p65 21/9/2009, 11:37 25 C A P Í T U L O 2 — R E S U M O D E D A D O S 26 2.6 Problemas e Complementos 9. A MB Indústria e Comércio, desejando melhorar o nível de seus funcionários em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada instrutor adotou seu próprio sistema de aferição. Usando dados daquela tabela, responda às questões: (a) Após observar atentamente cada variável, e com o intuito de resumi-las, como você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas? (b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatística. (c) Construa o histograma para as notas da variável Redação. (d) Construa a distribuição de freqüências da variável Metodologia e faça um gráfico para indicar essa distribuição. (e) Sorteado ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenha obtido grau A em Metodologia? (f) Se, em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em (e)? (g) Como é o aproveitamento dos funcionários na disciplina Estatística, segundo a seção a que eles pertencem? Func. Seção Administr. Direito Redação Estatíst. Inglês Metodologia Política Economia (*) 1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 2 P 8,0 9,0 7,0 9,0 B C 6,5 8 0 3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5 (*) (P = departamento pessoal, T = seção técnica e V = seção de vendas) cap02b.p65 21/9/2009, 11:37 26 2.6 Problemas e Complementos 10. Intervalos de classes desiguais. É muito comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas de frequências. Nestes casos deve-se tomar alguns cuidados especiais quanto à análise e construção do histograma. A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o número de empregados. Uma análise superficial pode levar à conclusão de que a concentração vem aumentando até atingir um máximo na classe 40 |- 60, voltando a diminuir depois, mas não tão acentuadamente. Porém, um estudo mais detalhado revela que a amplitude da classe 40 |- 60 é o dobro da amplitude das classes anteriores. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concentração seja levemente inferior. Então, um primeiro cuidado é construir a coluna que indica as amplitudes Δi de cada classe. Estes valores estão representados na terceira coluna da tabela. Número de empregados | Frequência ni | Amplitude Δi | Densidade ni/Δi | Proporção fi | Densidade fi/Δi 0 |- 10 | 5 | 10 | 0,50 | 0,02 | 0,0020 10 |- 20 | 20 | 10 | 2,00 | 0,08 | 0,0080 20 |- 30 | 35 | 10 | 3,50 | 0,14 | 0,0140 30 |- 40 | 40 | 10 | 4,00 | 0,16 | 0,0160 40 |- 60 | 50 | 20 | 2,50 | 0,20 | 0,0100 60 |- 80 | 30 | 20 | 1,50 | 0,12 | 0,0060 80 |- 100 | 20 | 20 | 1,00 | 0,08 | 0,0040 100 |- 140 | 20 | 40 | 0,50 | 0,08 | 0,0020 140 |- 180 | 15 | 40 | 0,38 | 0,06 | 0,0015 180 |- 260 | 5 | 80 | 0,19 | 0,06 | 0,0008 Total | 250 | — | — | 1,00 | — Um segundo passo é a construção da coluna das densidades de frequências em cada classe, que é obtida dividindo as frequências ni pelas amplitudes Δi, ou seja, a medida que indica qual a concentração por unidade da variável. Assim, observando-se os números da quarta coluna, vê-se que a classe de maior concentração passa a ser 30 |- 40, enquanto a última é a de menor concentração. Para compreender a distribuição, estes dados são muito mais informativos do que as frequências absolutas simplesmente. De modo análogo, pode-se construir a densidade da proporção (ou porcentagem) por unidade da variável (verifique a construção através da 5ª e da 6ª colunas). A interpretação para fi/Δi é muito semelhante àquela dada para ni/Δi. Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%), o que sugere usar no eixo das ordenadas os valores de fi/Δi. O histograma para estes dados está na Figura 2.19. Capítulo 2 — Resumo de Dados Figura 2.19: Histograma dos dados do Problema 10. 11. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais. (a) Construa os histogramas das duas distribuições. (b) Com base nos histogramas, discuta e compare as duas distribuições. | Classes de aluguéis (codificados) | Zona urbana | Zona rural | |-----------------------------------|-------------|-----------| | 2 |- 3 | 10 | 30 | | 3 |- 5 | 40 | 50 | | 5 |- 7 | 80 | 15 | | 7 |- 10 | 50 | 5 | | 10 |- 15 | 20 | 0 | | Total | 200 | 100 | 12. Histograma alisado. Na Tabela 2.4 tem-se a distribuição de frequências dos salários de 36 funcionários, agrupados em classes de amplitude 4. Na Figura 2.7 tem-se o respectivo histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a seguinte tabela de frequências e o correspondente histograma (Fig. 2.20 (a)). | Classe de salários | Frequências ni | |--------------------|--------------| | 4,00 |- 6,00 | 4 | | 6,00 |- 8,00 | 6 | | 8,00 |- 10,00 | 8 | | 10,00 |- 12,00 | 4 | | 12,00 |- 14,00 | 5 | | 14,00 |- 16,00 | 3 | | 16,00 |- 18,00 | 3 | | 18,00 |- 20,00 | 2 | | 20,00 |- 22,00 | 0 | | 22,00 |- 24,00 | 1 | | Total | 36 | 2 . 6 P R O B L E M A S E C O M P L E M E N T O S 29 Figura 2.20 (a): Histograma para a variável S: salário, Δ = 2. Se houvesse um número suficientemente grande de observações, poder-se-ia ir diminuindo os intervalos de classe, e o histograma iria ficando cada vez menos irregu- lar, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o compor- tamento da distribuição dos salários poderia ter a representação da Figura 2.20 (b). Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de compor- tamento que se espera para a distribuição de uma dada variável. No capítulo referente a variáveis aleatórias contínuas, voltaremos a estudar este histograma sob um ponto de vista mais matemático. A interpretação desse gráfico é a mesma do histograma. Assim, nas regiões onde a curva é mais alta, significa uma maior densidade de observações. No exemplo aci- ma, conforme se aumenta o salário, observa-se que a densidade de freqüência vai diminuindo. Figura 2.20 (b): Histograma alisado para a variável S: salário. cap02b.p65 21/9/2009, 11:37 29 13. Esboce o histograma alisado para cada uma das situações descritas abaixo: (a) Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo. (b) Distribuição das idades de alunos de uma Faculdade de Economia e Administração. (c) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior. Compare as duas distribuições. (d) Distribuição do número de óbitos segundo a faixa etária. (e) Distribuição do número de divórcios segundo o número de anos de casado. (f) Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal, durante os dez últimos anos. 14. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo: (a) Distribuição das alturas dos brasileiros adultos. (b) Distribuição das alturas dos suecos adultos. (c) Distribuição das alturas dos japoneses adultos. 15. Frequências acumuladas. Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada, que indica quantos elementos, ou que porcentagem deles, estão abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta colunas indicam respectivamente a frequência absoluta acumulada e a proporção (porcentagem) acumulada. Assim, observando a tabela podemos afirmar que 27,78% dos indivíduos ganham até oito salários mínimos; 61,11% ganham até 12 salários mínimos; 83,33% ganham até 16 salários mínimos; 97,22% ganham até 20 salários mínimos e 100% dos funcionários ganham até 24,00 salários. | Classe de salários | Frequência ni | Frequência acumulada Ni | Porcentagem 100fi | Porcentagem acumulada 100Fi | |--------------------|---------------|---------------------------|-------------------|-------------------------------| | 4,00 8,00 | 10 | 10 | 27,78 | 27,78 | | 8,00 12,00 | 12 | 22 | 33,33 | 61,11 | | 12,00 16,00 | 8 | 30 | 22,22 | 83,33 | | 16,00 20,00 | 5 | 35 | 13,89 | 97,22 | | 20,00 24,00 | 1 | 36 | 2,78 | 100,00 | | Total | 36 | | 100,00 | | A Figura 2.21 é a ilustração gráfica da porcentagem acumulada. 2.6 PROBLEMAS E COMPLEMENTOS Figura 2.21: Porcentagens acumuladas para o Problema 15. Este gráfico pode ser usado para fornecer informações adicionais. Por exemplo, para saber qual o salário s tal que 50% dos funcionários ganhem menos do que s, basta procurar o ponto (s, 50) na curva. Observando as linhas pontilhadas no gráfico, verificamos que a solução é um pouco mais do que 10 salários mínimos. 16. Usando os dados da Tabela 2.1: (a) Construa a distribuição de frequências para a variável idade. (b) Faça o gráfico da porcentagem acumulada. (c) Usando o gráfico anterior, ache os valores de i correspondentes aos pontos (i, 25%), (i, 50%) e (i, 75%). 17. Frequências acumuladas (continuação). Para um tratamento estatístico mais rigoroso das variáveis quantitativas, costuma-se usar uma definição mais precisa para a distribuição das frequências acumuladas. Em capítulos posteriores será vista a sua utilização. Definição. Dadas n observações de uma variável quantitativa e um número x real qualquer, indicar-se-á por N(x) o número de observações menores ou iguais a x, e chamar-se-á de função de distribuição empírica (f.d.e.) a função Fn(x) ou F(x) F(x) = Fn(x) = \(\frac{N(x)}{n}\) Exemplo 2.12. Para a variável S = salário dos 36 funcionários listados na Tabela 2.1, é fácil verificar que: F_{36}(s) = \begin{cases} 0, & \text{se } s < 4,00 \\ 1/36, & \text{se } 4,00 \leq s < 4,56 \\ 2/36, & \text{se } 4,56 \leq s < 5,25\\ \vdots \\ 1, & \text{se } s \geq 23,30 \end{cases} O gráfico está na Figura 2.22. Àqueles não familiarizados com a representação gráfica de funções, recomenda-se a leitura de Morettin, Hazzan & Bussab (2005). CAPÍTULO 2 — RESUMO DE DADOS Figura 2.22: Função de distribuição empírica para o Exemplo 2.12. Exemplo 2.13. Esta definição também vale para variáveis quantitativas discretas. Assim, para a variável número de filhos resumida na Tabela 2.5, tem-se a seguinte f.d.e.: F_{20}(x) = \begin{cases} 0,00, & \text{se } x < 0 \\ 0,20, & \text{se } 0 \leq x < 1 \\ 0,45, & \text{se } 1 \leq x < 2 \\ 0,80, & \text{se } 2 \leq x < 3 \\ 0,95, & \text{se } 3 \leq x < 5 \\ 1,00, & \text{se } x \geq 5 \end{cases} cujo gráfico é o da Figura 2.23. Figura 2.23: Função de distribuição empírica para o Exemplo 2.13. 2 . 6 P R O B L E M A S E C O M P L E M E N T O S 33 18. Construir a f.d.e. para a variável idade referente aos dados da Tabela 2.1. 19. Ramo-e-folhas (continuação). Os dados abaixo referem-se à produção, em toneladas, de dado produto, para 20 companhias químicas (numeradas de 1 a 20). (1, 50), (2, 280), (3, 560), (4, 170), (5, 180), (6, 500), (7, 250), (8, 200), (9, 1.050), (10, 240), (11, 180), (12, 1.000), (13, 1.100), (14, 120), (15, 4.200), (16, 5.100), (17, 480), (18, 90), (19, 870), (20, 360). Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representação semelhante à da Figura 2.9, teríamos um grande número de linhas. A Figura 2.24 (a) mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre no ramo, cada vez que se muda por um fator de 10. Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 da Figura 2.24 (a) num ramo denominado 0. Obtemos a Figura 2.24 (b). Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo- e-folhas. Por exemplo, podemos ter a contagem do número de folhas em cada ramo, como mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos salários dos empregados da Tabela 2.1. Na Figura 2.25 (b) acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana. Esse tipo de opção é chamado profundidade (depth) nos pacotes. Figura 2.24: Ramo-e-folhas das produções de companhias químicas. 5 0 6 0 50,90 7 1 70, 80, 80, 20 8 2 80, 50, 00, 40 9 0 3 60 4 80 1 70, 80, 80, 20 5 60, 00 2 80, 50, 00, 40 6 3 60 7 4 80 8 70 5 60, 00 9 6 7 1 050, 000, 100 8 70 2 9 3 4 200 1 050, 000, 100 5 100 2 3 4 200 5 100 (a) (b) cap02b.p65 21/9/2009, 11:37 33 C A P Í T U L O 2 — R E S U M O D E D A D O S 34 Figura 2.25: Ramo-e-folhas com: (a) freqüências em cada ramo, (b) profundidade. 2 4 00 56 2 4 00 56 2 5 25 73 4 5 25 73 3 6 26 66 86 7 6 26 66 86 3 7 39 44 59 10 7 39 44 59 4 8 12 46 74 95 14 8 12 46 74 95 4 9 13 35 77 80 18 9 13 35 77 80 2 10 53 76 (2) 10 53 76 2 11 06 59 16 11 06 59 2 12 00 79 14 12 00 79 3 13 23 60 85 12 13 23 60 85 2 14 69 71 9 14 69 71 1 15 99 7 15 99 2 16 22 61 6 16 22 61 1 17 26 4 17 26 1 18 75 3 18 75 1 19 40 2 19 40 0 20 1 20 0 21 1 21 0 22 1 22 1 23 30 1 23 30 (a) (b) 20. Construa um ramo-e-folhas para a variável CO (monóxido de carbono) do conjunto de dados 4 (CD-Poluição). cap02b.p65 21/9/2009, 11:37 34 3.1 Medidas de Posição Vimos que o resumo de dados por meio de tabelas de freqüências e ramo-e-folhas forne- ce muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Quando usamos um só valor, obtemos uma redução drástica dos dados. Usualmente, emprega-se uma das seguintes me- didas de posição (ou localização) central: média, mediana ou moda. A moda é definida como a realização mais freqüente do conjunto de valores observados. Por exemplo, considere a variável Z, número de filhos de cada funcionário casado, resumida na Tabela 2.5 do Capítulo 2. Vemos que a moda é 2, correspondente à realização com maior freqüência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos valores pode ser bimodal, trimodal etc. A mediana é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. Assim, se as cinco observações de uma variável forem 3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo à terceira observação. Quando o número de observações for par, usa-se como mediana a média aritmética das duas observa- ções centrais. Acrescentando-se o valor 9 à série acima, a mediana será (7 + 8)/2 = 7,5. Finalmente, a média aritmética, conceito familiar ao leitor, é a soma das observações divi- dida pelo número delas. Assim, a média aritmética de 3, 4, 7, 8 e 8 é (3 + 4 + 7 + 8 + 8)/5 = 6. Exemplo 3.1. Usando os dados da Tabela 2.5, já encontramos que a moda da variável Z é 2. Para a mediana, constatamos que esta também é 2, média aritmética entre a décima e a décima primeira observações. Finalmente, a média aritmética será 4 × 0 + 5 × 1 + 7 × 2 + 3 × 3 + 5 × 1 = 33 = 1,65. 20 20 Capítulo 3 Medidas-Resumo cap03e.p65 21/9/2009, 11:49 35 CAPÍTULO 3 — MEDIDAS-RESUMO Neste exemplo, as três medidas têm valores próximos e qualquer uma delas pode ser usada como representativa da série toda. A média aritmética é, talvez, a medida mais usada. Contudo, ela pode conduzir a erros de interpretação. Em muitas situações, a mediana é uma medida mais adequada. Voltaremos a este assunto mais adiante. Vamos formalizar os conceitos introduzidos acima. Se x_1, ..., x_n são os n valores (distintos ou não) da variável X, a média aritmética, ou simplesmente média, de X pode ser escrita x ̄ = x_1 + ... + x_n / n = 1/n ∑ _{i = 1}^{n} x_i. (3.1) Agora, se tivermos n observações da variável X, das quais n_1 são iguais a x_1, n_2 são iguais a x_2 etc., n_k iguais a x_k, então a média de X pode ser escrita x ̄ = n_1 x_1 + n_2 x_2 + ... + n_k x_k / n = 1/n k ∑ _{i = 1} n_i x_i. (3.2) Se f_i = n_i /n representar a frequência relativa da observação x_i, então (3.2) também pode ser escrita x ̄ = ∑ _{i = 1}^{k} f_i x_i. (3.3) Consideremos, agora, as observações ordenadas em ordem crescente. Vamos denotar a menor observação por x_{(1)} e a segunda por x_{(2)}, e assim por diante, obtendo-se x_{(1)} ≤ x_{(2)} ≤ ... ≤ x_{(n-1)} ≤ x_{(n)}. (3.4) Por exemplo, se x_1 = 3, x_2 = −2, x_3 = 6, x_4 = 1, x_5 = 3, então −2 ≤ 1 ≤ 3 ≤ 3 ≤ 6, de modo que x_{(1)} = −2, x_{(2)} = 1, x_{(3)} = 3, x_{(4)} = 3 e x_{(5)} = 6. As observações ordenadas como em (3.4) são chamadas estatísticas de ordem. Com esta notação, a mediana da variável X pode ser definida como md(X) = { x_{(n+1)/2} se n ímpar; [x_{(n/2)} + x_{(n/2)+1}]/2 se n par. (3.5) Exemplo 3.2. A determinação das medidas de posição para uma variável quantitativa contínua, através de sua distribuição de frequências, exige aproximações, pois perdemos a informação dos valores das observações. Consideremos a variável S: salário dos 36 funcionários da Companhia MB, agrupados em classes de salários, conforme a Tabela 2.6. Uma aproximação razoável é supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta classe. Este procedimento nos deixa na mesma situação do caso discreto, onde as medidas são calculadas usando-se os pares (x_i, n_i) ou (x_i, f_i), como em (3.2) e (3.3). 3.2 MEDIDAS DE DISPERSÃO A moda, mediana e média para os dados da Tabela 2.6 são, respectivamente, mo(S) ≃ 10,00, md(S) ≃ 10,00, = 10 × 6,00 + 12 × 10,00 + 8 × 14,00 + 5 × 18,00 + 1 × 22,00 / 36 = 11,22. Observe que colocamos o sinal de ≃ e não de igualdade, pois os valores verdadeiros não são os calculados. Por exemplo, a mediana de S é a média entre as duas observações centrais, quando os dados são ordenados, isto é, 9,80 e 10,53, portanto md(S) = 10,16. Quais são, neste exemplo, a média e moda verdadeiras? Observe que, para calcular a moda de uma variável, precisamos apenas da distribuição de frequências (contagem). Já para a mediana necessitamos minimamente ordenar as realizações da variável. Finalmente, a média só pode ser calculada para variáveis quantitativas. Estas condições limitam bastante o cálculo de medidas-resumos para as variáveis qualitativas. Para as variáveis nominais somente podemos trabalhar com a moda. Para as variáveis ordinais, além da moda, podemos usar também a mediana. Devido a esse fato, iremos apresentar daqui em diante medidas-resumo para variáveis quantitativas, que permitem o uso de operações aritméticas com seus valores. Exemplo 3.2. (continuação) Retomemos os dados da Companhia MB. A moda para a variável V: região de procedência é mo(V) = outra. Para a variável Y: grau de instrução, temos que mo(Y) = ensino médio e md(Y) = ensino médio. Veremos, na seção 3.3, que a mediana é uma medida resistente, ao passo que a média não é, em particular para distribuições muito assimétricas ou contendo valores atípicos. Por outro lado, a média é ótima (num sentido que será discutido no Capítulo 10) se a distribuição dos dados for aproximadamente normal. Uma outra medida de posição também resistente é a média aparada, definida no Problema 39. Esta medida envolve calcular a média das observações centrais, desprezando-se uma porcentagem das iniciais e finais. 3.2 Medidas de Dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas: grupo A (variável X): 3, 4, 5, 6, 7 grupo B (variável Y): 1, 3, 5, 7, 9 grupo C (variável Z): 5, 5, 5, 5, 5 grupo D (variável W): 3, 5, 5, 7 grupo E (variável V): 3, 5, 5, 6, 6 CAPÍTULO 3 — MEDIDAS-RESUMO Vemos que x ̄ = y ̄ = z ̄ = w ̄ = v ̄ = 5,0. A identificação de cada uma destas séries por sua média (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, então, a conveniência de serem criadas mediadas que sumarizem a variabilidade de um conjunto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média dessas observações. Para o grupo A acima os desvios x_i − x ̄ são: −2, −1, 0, 1, 2. É fácil ver (Problema 14 (a)) que, para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condições, a soma dos desvios ∑ _{i = 1}(x_i − x) não é uma boa medida de dispersão para o conjunto A. Duas opções são: (a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A teríamos, respectivamente, ∑ _{i = 1}^{5} l x_i − x ̄ l = 2 + 1 + 0 + 1 + 2 = 6, ∑ _{i = 1}^{5} (x_i − x ̄)^2 = 4 + 1 + 0 + 1 + 4 = 10. O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações, como os conjuntos A e D acima. Desse modo, é mais conveniente exprimir as medidas como médias, isto é, o desvio médio e a variância são definidos por dm(X) = ∑ _{i = 1}^{n} l x_i − x ̄ l / n, (3.6) var(X) = ∑ _{i = 1}^{n} (x_i − x ̄ )^2 / n, (3.7) respectivamente. Para o grupo A temos dm(X) = 6/5 = 1,2, var(X) = 10/5 = 2,0, enquanto para o grupo D temos dm(W) = 4/4 = 1,0, var(W) = 8/4 = 2,0. Podemos dizer, então, que, segundo o desvio médio, o grupo D é mais homogêneo que A, enquanto ambos são igualmente homogêneos, segundo a variância. Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos em cm, a variância será expressa em cm^2), pode 3.2 MEDIDAS DE DISPERSÃO 39 causar problemas de interpretação. Costuma-se usar, então, o desvio padrão, que é definido como a raiz quadrada positiva da variância. Para o grupo A o desvio padrão é dp(X) = \sqrt{\text{var}(X)} = \sqrt{2} = 1,41. Ambas as medidas de dispersão (dm e dp) indicam em média qual será o “erro” (desvio) cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados (no caso, a média). Exemplo 3.3. Vamos calcular as medidas de dispersão acima para a variável Z = número de filhos, resumida na Tabela 2.5. Como vimos no Exemplo 3.1, \overline{z} = 1,65. Os desvios são z_i - \overline{z}: -1,65; -0,65; 0,35; 1,35; 3,35. Segue-se que dm(Z) = \frac{4 \times (1,65) + 5 \times (0,65) + 7 \times (0,35) + 3 \times (1,35) + 1 \times (3,35)}{20} = 0,98. Também, var(Z) = \frac{4(-1,65)^2 + 5(-0,65)^2 + 7(0,35)^2 + 3(1,35)^2 + 1(3,35)^2}{20} = 1,528. Consequentemente, o desvio padrão de Z é dp(Z) = \sqrt{1,528} = 1,24. Suponha que observemos n_1 vezes os valores x_1 etc., n_k vezes o valor x_k da variável X. Então, dm(X) = \frac{\sum_{i=1}^{k} n_i|x_i - \overline{x}|}{n} = \frac{\sum_{i=1}^{k} f_i|x_i - \overline{x}|}{ \sum_{i=1}^{k} f_i}, \quad (3.8) var(X) = \frac{\sum_{i=1}^{k} n_i(x_i - \overline{x})^2}{n} = \frac{\sum_{i=1}^{k} f_i(x_i - \overline{x})^2}{ \sum_{i=1}^{k} f_i}, \quad (3.9) dp(X) = \sqrt{\text{var}(X)}. \quad (3.10) O cálculo (aproximado) das medidas de dispersão no caso de variáveis contínuas, agru- padas em classes, pode ser feito de modo análogo àquele usado para encontrar a média no Exemplo 2.2. Exemplo 3.4. Consideremos a variável S = salário. A média encontrada no Exemplo 3.2 foi s = 11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos var(S) \simeq [10(6,00 - 11,22)^2 + 12(10,00 - 11,22)^2 + 8(14 - 11,22)^2 + 5(18,00 - 11,22)^2 + 1(22,00 - 11,22)^2]/36 = 19,40 e, portanto, dp(S) = \sqrt{19,40} = 4,40. É fácil ver que dm(S) \simeq 3,72. 40 CAPÍTULO 3 — MEDIDAS-RESUMO Veremos, mais tarde, que a variância de uma amostra será calculada usando-se o deno- minador n - 1, em vez de n. A justificativa será dada naquele capítulo, mas para grandes amostras pouca diferença fará o uso de um ou outro denominador. Tanto a variância como o desvio médio são medidas de dispersão calculadas em rela- ção à média das observações. Assim como a média, a variância (ou o desvio padrão) é uma boa medida se a distribuição dos dados for aproximadamente normal. O desvio médio é mais resistente que o desvio padrão, no sentido a ser estudado na seção seguinte. Poderíamos considerar uma medida que seja calculada em relação à mediana. O desvio absoluto mediano é um exemplo e é mais resistente que o desvio padrão. Veja o Problema 41. Usando o Problema 14 (b), uma maneira computacionalmente mais eficiente de calcu- lar a variância é \text{var}(X) = \frac{\sum_{i=1}^{n} x_i^2}{n} - \overline{x}^2, \quad (3.11) e, no caso de observações repetidas, \text{var}(X) = \frac{\sum_{i=1}^{k} f_i x_i^2}{ \sum_{i=1}^{k} f_i} - \overline{x}^2. \quad (3.12) Problemas 1. Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas, encontrando-se o número de erros por página da tabela abaixo. (a) Qual o número médio de erros por página? (b) E o número mediano? (c) Qual é o desvio padrão? (d) Faça uma representação gráfica para a distribuição. (e) Se o livro tem 500 páginas, qual o número total de erros esperado no livro? Erros Frequência 0 25 1 20 2 3 3 1 4 1 2. As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padrão. 3. Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõem a região, e foram encontrados os seguintes números de casas por quarteirão: 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 50 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 3 . 3 Q U A N T I S E M P Í R I C O S 41 (a) Use cinco intervalos e construa um histograma. (b) Determine uma medida de posição central e uma medida de dispersão. 4. (a) Dê uma situação prática onde você acha que a mediana é uma medida mais apro- priada do que a média. (b) Esboce um histograma onde a média e a mediana coincidem. Existe alguma classe de histogramas onde isso sempre acontece? (c) Esboce os histogramas de três variáveis (X, Y e Z) com a mesma média aritmética, mas com as variâncias ordenadas em ordem crescente. 5. Suponha que a variável de interesse tenha a distribuição como na figura abaixo. Você acha que a média é uma boa medida de posição? E a mediana? Justifique. 6. Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações: Número de filhos 10 11 12 13 4 5 mais que 5 Freqüência de famílias 17 20 28 19 7 4 5 (a) Qual a mediana do número de filhos? (b) E a moda? (c) Que problemas você enfrentaria para calcular a média? Faça alguma suposição e encontre-a. 3.3 Quantis Empíricos Tanto a média como o desvio padrão podem não ser medidas adequadas para represen- tar um conjunto de dados, pois: (a) são afetados, de forma exagerada, por valores extremos; (b) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados. Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima (ver fórmula (3.5)). De modo geral, podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal que 100p% das observações sejam menores do que q(p). cap03e.p65 21/9/2009, 11:49 41 42 C A P Í T U L O 3 — M E D I D A S - R E S U M O Indicamos, abaixo, alguns quantis e seus nomes particulares. q(0,25) = q1: 1o Quartil = 25o Percentil q(0,50) = q2: Mediana = 2o Quartil = 50o Percentil q(0,75) = q3: 3o Quartil = 75o Percentil q(0,40): 4o Decil q(0,95): 95o Percentil Dependendo do valor de p, há dificuldades ao se calcular os quantis. Isso é ilustrado no exemplo a seguir. Exemplo 3.5. Suponha que tenhamos os seguintes valores de uma variável X: 15, 5, 3, 8, 10, 2, 7, 11, 12. Ordenando os valores, obtemos as estatísticas de ordem x(1) = 2, x(2) = 3,..., x(9) = 15, ou seja, teremos 2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15. Usando a definição de mediana dada, teremos que md = q(0,5) = q2 = x(5) = 8. Suponha que queiramos calcular os dois outros quartis, q1 e q3. A idéia é dividir os dados em quatro partes: 2 3 5 7 8 10 11 12 15 Uma possibilidade razoável é, então, considerar a mediana dos primeiros quatro valores para obter q1, ou seja, q1 = 3 + 5 = 4, 2 e a mediana dos últimos quatro valores para obter q3, ou seja, q3 = 11 + 12 = 11,5. 2 Obtemos, então, a sequência 2 3 (4) 5 7 (8) 10 11 (11,5) 12 15 Observe que a média dos n = 9 valores é –x = 8,1, próximo à mediana. Exemplo 3.5. (continuação). Acrescentemos, agora, o valor 67 à lista de nove valores do Exemplo 3.5, obtendo-se agora os n = 10 valores ordenados: 2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15 < 67 cap03e.p65 21/9/2009, 11:49 42 3 . 3 Q U A N T I S E M P Í R I C O S 43 Agora, –x = 14, enquanto que a mediana fica q2 = x(5) + x(6) = 9, 2 que está próxima da mediana dos nove valores originais, mas ambas (8 e 9) relativa- mente longes de –x. Dizemos que a mediana é resistente (ou robusta), no sentido que que ela não é muito afetada pelo valor discrepante (ou atípico) 67. Para calcular q1 e q3 para este novo conjunto de valores, considere-os assim dispostos: 2 3 5 7 8 9 10 11 12 15 67 de modo que q1 = 5 e q3 = 12. Obtemos, então os dados separados em 4 partes por q1, q2 e q3: 2 3 (5) 7 8 (9) 10 11 (12) 15 67 Suponha, agora, que queiramos calcular q(0,20), ou seja, aquele valor que deixa 20% dos dados à sua esquerda, para o conjunto original de n = 9 valores de X. Como 20% das observações correspondem a 1,8 observações, qual valor devemos tomar como q(0, 20)? O valor 3, que é a segunda observação ordenada, ou 5, ou a média de 3 e 5? Se adotarmos esta última solução, então q(0, 20) = q(0, 25) = q1, o que pode parecer não razoável. Para responder a esta questão, temos que definir quantil de uma sequência de valores de uma variável de modo apropriado. Isto está feito no Problema 17. Se os dados estiverem agrupados em classes, podemos obter os quantis usando o histograma. Por exemplo, para obter a mediana, sabemos que ela deve corresponder ao valor da abscissa que divide a área do histograma em duas partes iguais (50% para cada lado). Então, usando argumentos geométricos, podemos encontrar um ponto, satisfazendo essa propriedade. Vejamos como proceder através de um exemplo. Exemplo 3.6. Vamos repetir abaixo a Figura 2.7, que é o histograma da variável S = salário dos empregados da Companhia MB. cap03e.p65 21/9/2009, 11:49 43 44 CAPÍTULO 3 — MEDIDAS-RESUMO Devemos localizar o ponto das abscissas que divide o histograma ao meio. A área do primeiro retângulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana md é algum número situado entre 8,00 e 12,00. Ou melhor, a mediana irá corresponder ao valor md no segundo retângulo, cuja área do retângulo de base 8,00 ⊣ 12,00 seja 22% (28% do primeiro retângulo mais 22% do segundo, perfazendo os 50%). Consulte a figura para melhor compre- ensão. Pela proporcionalidade entre a área e a base do retângulo, temos: \frac{12,00 - 8,00}{33\%} = \frac{md - 8,00}{22\%} ou md - 8,00 = \frac{22\%}{33\%} \cdot 4,00, logo md = 8,00 + 2,67 = 10,67, que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente. O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana, usando argumentos geométricos no histograma. Vejamos a determinação de alguns quantis, usando os dados do último exemplo. (a) q(0,25): Verificamos que q(0,25) deve estar na primeira classe, pois a propor- ção no primeiro retângulo é 0,28. Logo, \frac{q(0,25) - 4,00}{25\%} = \frac{8,00 - 4,00}{28\%}, e então q(0,25) = 4,00 + \frac{25}{28} 4,00 = 7,57. (b) q(0,95): Analisando a soma acumulada das proporções, verificamos que este quantil deve pertencer à quarta classe, e que nesse retângulo devemos achar a parte correspondente a 12%, pois a soma acumulada até a classe anterior é 83%, faltando 12% para atingirmos os 95%. Portanto, \frac{q(0,95) - 16,00}{12\%} = \frac{20,00 - 16,00}{14\%}, 3.3 QUANTIS EMPÍRICOS 45 logo q(0,95) = 16,00 + \frac{12}{14} \times 4 = 19,43. (c) q(0,75): De modo análogo, concluímos que o terceiro quantil deve pertencer ao intervalo 12,00 \mapsto 16,00, portanto \frac{q(0,75) - 12,00}{14\%} = \frac{16,00 - 12,00}{22\%} e q(0,75) = 14,55. Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil, definida como a diferença entre o terceiro e primeiro quartis, ou seja, d_q = q_3 - q_1. (3.13) Para o Exemplo 3.5, temos q_1 = 4, q_3 = 11,5, de modo que d_q = 7,5. Para um cálculo mais preciso, veja o Problema 17. Lá obtemos q_1 = 4,5, q_3 = 11,25, logo d_q = 6,75. Os quartis q(0,25) = q_1, q(0,5) = 92 e q(0,75) = 93 são medidas de localização resistentes de uma distribuição. Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena porção dos dados. A mediana é uma medida resistente, ao passo que a média não o é. Para ilustrar este fato, considere as populações dos 30 municípios do Brasil, considerados acima. Se descartarmos Rio de Janeiro e São Paulo, a média das populações dos 28 municípios restantes é 100,6 e a mediana é 82,1. Para todos os dados, a média passa a ser 145,4, ao passo que a mediana será 84,3. Note que a média aumentou bastante, influenciada que foi pelos dois valo- res maiores, que são muito discrepantes da maioria dos dados. Mas a mediana variou pouco. O desvio padrão também não é uma medida resistente. Verifique como este varia para este exemplo dos municípios. Os cinco valores, x_{(1)}, q_1, q_2, q_3 e x_{(n)} são importantes para se ter uma boa ideia da assimetria da distribuição dos dados. Para uma distribuição simétrica ou aproximação mente simétrica, deveríamos ter: (a) q_2 - x_{(1)} \simeq x_{(n)} - q_2; (b) q_2 \simeq q_3 - q_2; (c) q_1 - x_{(1)} \simeq x_{(n)} - q_3; (d) distâncias entre mediana e q_1, q_3 menores do que distâncias entre os extre- mos e q_1, q_3. A diferença q_2 - x_{(1)} é chamada dispersão inferior e x_{(n)} - q_2 é a dispersão supe- rior. A condição (a) nos diz que estas duas dispersões devem ser aproximadamente iguais, para uma distribuição aproximadamente simétrica. 46 C A P Í T U L O 3 — M E D I D A S - R E S U M O A Figura 3.1 ilustra estes fatos para a chamada distribuição normal ou gaussiana. Figura 3.1: Uma distribuição simétrica: normal ou gaussiana. Na Figura 3.2 temos ilustradas estas cinco medidas para os n = 9 valores do Exemplo 3.5. Figura 3.2: Quantis e distâncias para o Exemplo 3.5. 2 4 3,5 3,5 6 (di) 7 (ds) As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente como na Figura 3.3, onde também incorporamos o número de ob- servações, n. Representamos a mediana por md, os quartis por q e os extremos por E. Podemos ir além, considerando os chamados oitavos, ou seja, o primeiro oitavo, que corresponde a q(0,125), o sétimo oitavo, que corresponde a q(0,875) etc. Teríamos, então, sete números para representar a distribuição dos dados. Em geral, podemos considerar as chamadas letras-resumos, descendo aos dezesseis-avos, trinta e dois- avos etc. Para detalhes, ver Hoaglin, Mosteller and Tukey(1983). Figura 3.3: Esquema dos cinco números. cap03e.p65 28/9/2009, 09:38 46 3 . 4 B O X P L O T S 47 Exemplo 3.7. Os aplicativos SPlus e Minitab, assim como a planilha Excel, possuem ferramentas que geram as principais medidas descritas nesse capítulo e outras. Por exemplo, o comando describe do Minitab, usado para as populações dos municípios brasileiros produz a saída do Quadro 3.1. Quadro 3.1. Medidas-resumo para o CD-Municípios. Minitab. MTB > Describe C1. Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 30 145.4 84.3 104.7 186.6 34.1 Variable Min Max Q1 Q3 C1 46.3 988.8 63.5 139.7 Aqui, temos N = 30 dados, a média é 145,4, a mediana 84,3, o desvio padrão 186,6, o menor valor 46,3, o maior valor 988,8, o primeiro quartil 63,5 e o terceiro quartil 139,7. Além desses valores, o resumo traz a média aparada (trimmed mean) e o erro padrão da média, a ser tratado no Capítulo 11. Esse é dado por S/√⎯ n = 186,6/√⎯ 3⎯0 = 34,1. O comando summary do SPlus produz a saída do Quadro 3.2 para os mesmos dados. Note a diferença no cálculo dos quantis q(0,25) e q(0,75). Conclui-se que é necessário saber como cada programa efetua o cálculo de determinada estatística, para poder reportá-lo. Quadro 3.2. Medidas-resumo para o CD-Municípios. SPlus. > summary (munic) Min. 1st Qu. Median Mean 3rd Qu. Max. 46.3 64.48 84.3 145.4 134.3 988.8 17. Obtenha o esquema dos cinco números para os dados do Problema 3. Calcule o intervalo interquartil e as dispersões inferior e superior. Baseado nessas medidas, verifi- que se a forma da distribuição dos dados é normal. 18. Refaça o problema anterior, utilizando desta vez os dados do Problema 5 do Capítulo 2. 19. Obter os três quartis, q(0,1) e q(0,90) para os dados do Problema 3. 10. Para a variável população urbana do CD-Brasil, obtenha q(0,10), q(0,25), q(0,50), q(0,75), q(0,80) e q(0,95). 3.4 Box Plots A informação contida no esquema dos cinco números da Figura 3.3 pode ser traduzida graficamente num diagrama, ilustrado na Figura 3.4, que chamaremos de box plot. Murteira (1993) usa o termo “caixa-de-bigodes”. Problemas cap03e.p65 21/9/2009, 11:49 47 48 C A P Í T U L O 3 — M E D I D A S - R E S U M O Figura 3.4: Box Plot. Para construir este diagrama, consideremos um retângulo onde estão representados a mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS = q3 + (1,5)dq, chamado limite superior. De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI = q1 – (1,5)dq, chamado limite inferior. Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos. O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão por dq. As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos. Exemplo 3.8. Retomemos o exemplo dos 15 maiores municípios do Brasil, ordenados pelas populações. Usando o procedimento do Problema 17 (veja também o Problema 18), obtemos q1 = 105,7, q2 = 135,8, q3 = 208,6. O diagrama para os cinco números x(1), q1, q2 = md, q3, x(15) está na Figura 3.5 abaixo. Figura 3.5: Esquema dos cinco núme- ros para o Exemplo 3.8. cap03e.p65 21/9/2009, 11:49 48 3 . 4 B O X P L O T S 49 Temos que LI = q1 – (1,5)dq = 105,7 – (1,5) (102,9) = –48,7, LS = q3 + (1,5)dq = 208,6 + (1,5) (102,9) = 362,9. Então, as cidades com populações acima de 3.629.000 habitantes são pontos exteriores, ou seja, Rio de Janeiro e São Paulo. O box plot correspondente está na Figura 3.6. Vemos que os dados têm uma distribuição assimétrica à direita, com 13 valores concentrados entre 80 e 230 e duas observações discrepantes, bastante afas- tadas do corpo principal dos dados. Figura 3.6: Box plot para os quinze maiores municípios do Brasil. Do ponto de vista estatístico, um outlier pode ser produto de um erro de observa- ção ou de arredondamento. No exemplo acima, as populações de São Paulo e Rio de Janeiro não são outliers neste sentido, pois elas representam dois valores realmente muito diferentes dos demais. Daí, usarmos o nome pontos (ou valores) exteriores. Contudo, na prática, estas duas denominações são freqüentemente usadas com o mes- mo significado: observações fora de lugar, discrepantes ou atípicas. A Figura 3.7 mostra o box plot para as populações dos trinta municípios brasilei- ros, feito com o Minitab. cap03e.p65 21/9/2009, 11:49 49 50 C A P Í T U L O 3 — M E D I D A S - R E S U M O Figura 3.7: Box plot com Minitab. A justificativa para usarmos os limites acima, LI = q1 – (1,5)dq e LS = q3 + (1,5)dq, para definir as observações atípicas é a seguinte: considere uma curva normal com média zero e, portanto, com mediana zero. É fácil verificar (veja o Capítulo 7 e Tabela III) que q1 = –0,6745, q2 = 0, q3 = 0,6745 e portanto dq = 1,349. Segue-se que os limites são LI = –2,698 e LS = 2,698. A área entre estes dois valores, embaixo da curva normal, é 0,993, ou seja, 99,3% da distribuição está entre estes dois valores. Isto é, para dados com uma distribuição normal, os pontos exteriores constituirão cerca de 0,7% da distri- buição. Veja a Figura 3.8. Figura 3.8: Área sob a curva normal entre LI e LS. 11. Construa o box plot para os dados do Exemplo 2.3, Capítulo 2. O que você pode con- cluir a respeito da distribuição? 12. Refaça a questão anterior com os dados do Problema 3 deste capítulo. 13. Faça um box plot para o Problema 10. Comente sobre a simetria, caudas e presença de valores atípicos. Problemas cap03e.p65 21/9/2009, 11:49 50 3 . 5 G R Á F I C O S D E S I M E T R I A 51 3.5 Gráficos de Simetria Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica (ou aproximadamente simétrica). Se um conjunto de observações for perfeitamente simétrico devemos ter q(0,5) – x(i) = x(n + 1 – i) – q(0,5), (3.14) onde i = 1, 2, ..., n/2, se n for par e i = 1, 2, ..., (n + 1)/2, se n for ímpar. Pela relação (3.14), vemos que, se os quantis da direita estão mais afastados da mediana, do que os da esquerda, os dados serão assimétricos à direita. Se ocorrer o contrário, os dados serão assimétricos à esquerda. A Figura 3.9 ilustra essas duas situações. Figura 3.9: Distribuições assimétricas. Para os dados do Exemplo 3.8, vemos que as observações são assimétricas à direita. Em geral, esse tipo de situação ocorre com dados positivos. Podemos fazer um gráfico de simetria, usando a identidade (3.14). Chamando de ui o primeiro membro e de vi o segundo membro, fazendo-se um gráfico cartesiano, com os ui’s como abscissas e os vi’s como ordenadas, se os dados forem aproximada- mente simétricos, os pares (ui, vi) estarão dispersos ao redor da reta v = u. Exemplo 3.9. Considere os dados que, dispostos em ordem crescente, ficam represen- tados no eixo real como na Figura 3.10. Figura 3.10: Dados aproximadamente simétricos. Esses dados são aproximadamente simétricos, pois como q2 = 8, ui = q2 – x(i), vi = x(n + 1– i) – q2, teremos: u1 = 8,0 – 0,5 = 7,5, v1 = 15,3 – 8,0 = 7,3, u2 = 8,0 – 2,3 = 5,7, v2 = 13,5 – 8,0 = 5,5, u3 = 8,0 – 4,0 = 4,0, v3 = 12,0 – 8,0 = 4,0, u4 = 8,0 – 6,4 = 1,6, v4 = 9,8 – 8,0 = 1,8. cap03e.p65 21/9/2009, 11:49 51 CAPÍTULO 3 — MEDIDAS-RESUMO 52 A Figura 3.11 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil. Vemos que a maioria dos pontos estão acima da reta v = u, mostrando a assimetria à direita da distribuição dos valores. Nessa figura, vemos destacados os pontos correspondentes a Rio de Janeiro e São Paulo. Figura 3.11: Gráfico de simetria para o CD-Municípios. 3.6 Transformações Vários procedimentos estatísticos são baseados na suposição de que os dados pro- vêm de uma distribuição normal (em forma de sino) ou então mais ou menos simétri- ca. Mas, em muitas situações de interesse prático, a distribuição dos dados da amostra é assimétrica e pode conter valores atípicos, como vimos em exemplos anteriores. Se quisermos utilizar tais procedimentos, o que se propõe é efetuar uma transfor- mação das observações, de modo a se obter uma distribuição mais simétrica e próxima da normal. Uma família de transformações frequentemente utilizada é x^{(p)} = \begin{cases} x^p, & \text{se } p > 0 \\ \ln(x), & \text{se } p = 0 \\ -x^p, & \text{se } p < 0. \\[3pt]\"" (3.15) Normalmente, o que se faz é experimentar valores de p na sequência ... , -3, -2, -1, -1/2, -1/3, -1/4, 0, 1/4, 1/3, 1/2, 1, 2, 3, ... e para cada valor de p obtemos gráficos apropriados (histogramas, desenhos esquemáticos etc.) para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p. Vimos que, para dados positivos, a distribuição dos dados é usualmente assimétrica à direita. Para essas distribuições, a transformação acima com 0 < p < 1 é apropriada, pois valores grandes de x decrescem mais, relativamente a valores pequenos. Para distribuições assimétricas à esquerda, tome p > 1. 3 . 6 T R A N S F O R M A Ç Õ E S 53 Exemplo 3.10. Consideremos os dados das populações do CD-Municípios e tomemos alguns valores de p: 0, 1/4, 1/3, 1/2. Na Figura 3.12 temos os histogramas para os dados transformados e, na Figura 3.13, os respectivos box plots. Vemos que p = 0 (transformação logarítmica) e p = 1/3 (transformação raiz cúbica) fornecem distribui- ções mais próximas de uma distribuição simétrica. Figura 3.12: Histogramas para os dados transformados. CD-Municípios. Figura 3.13: Box plots para os dados transfor- mados. CD-Municípios. SPlus. cap03e.p65 21/9/2009, 11:49 53 54 C A P Í T U L O 3 — M E D I D A S - R E S U M O 3.7 Exemplos Computacionais Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as técnicas aprendidas neste capítulo. Exemplo 2.10. (continuação) Aqui temos as notas em Estatística de 100 alunos de Eco- nomia. Temos no Quadro 3.3 as principais medidas-resumo desse conjunto de dados, fornecidas pelo comando describe do Minitab. Quadro 3.3: Medidas descritivas para o CD-Notas. Minitab. Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 100 5.925 6.000 5.911 1.812 0.181 Variable Min Max Q1 Q3 C1 1.500 10.000 4.625 7.375 Vemos, por exemplo, que q1 = 4,625, q2 = 6,000 e q3 = 7,375 e, portanto, dq = q3 – q1 = 2,75. O desvio padrão é dp = 1,812. Vimos que a distribuição das notas é razoavel- mente simétrica, não havendo valores atípicos, o que é confirmado pelo box plot da Figura 3.14. Figura 3.14: Box plot para o CD-Notas. SPlus. O gráfico de simetria está na Figura 3.15, mostrando também a reta u = ν. Note que os pontos dispõem-se ao redor da reta, estando vários deles sobre ela, indicando a quase-simetria dos dados. Deveríamos ter 50 pontos no gráfico, mas há vários pares (ui, νi) repetidos. cap03e.p65 21/9/2009, 11:49 54 3 . 7 E X E M P L O S C O M P U T A C I O N A I S 55 Figura 3.15: Gráfico de simetria para o CD-Notas. Exemplo 2.11. (continuação) Os dados de temperatura (diários) na cidade de São Paulo, no período considerado, são ligeiramente assimétricos à esquerda. O comando summary do SPlus fornece as medidas descritivas do Quadro 3.4. Note que o Minitab fornece mais informações que o SPlus por meio desses comandos. Quadro 3.4. Medidas descritivas para temperaturas. SPlus. > summary (temp) Min. 1st Qu. Median Mean 3rd Qu. Max. 12.3 16 17.7 17.22 18.6 21 Temos, por exemplo, q1 = 16, q2 = 17,7 e q3 = 18,6. A amplitude amostral é x(n) – x(1) = 8,7 e a distância interquartil é dq = 2,6. O box plot está na Figura 3.16, que mostra a assimetria. Não há valores atípicos. Figura 3.16: Box plot para as temperaturas de São Paulo. CD-Poluição. SPlus. cap03e.p65 21/9/2009, 11:49 55 CAPÍTULO 3 — MEDIDAS-RESUMO 56 No gráfico de simetria na Figura 3.17, todos os pontos estão abaixo da reta u = v, mostrando que u_i > v_p, para todo i = 1, 2, ..., 60, ou seja, as distâncias da mediana aos quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana, indicando que a distribuição das observações é assimétrica à esquerda. Figura 3.17: Gráfico de simetria para as temperaturas de São Paulo. CD-Poluição. 3.8 Problemas e Complementos 14. Mostre que: (a) \sum_{i=1}^{n} (x_i - \overline{x}) = 0 (b) \sum_{i=1}^{n} (x_i - \overline{x})^2 = \sum_{i=1}^{n} x_i^2 - n\overline{x}^2 = \frac{\sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}{n} (c) \sum_{i=1}^{k} n_i (x_i - \overline{x})^2 = \sum_{i=1}^{k} n_i x_i^2 - n\overline{x}^2 (d) \sum_{i=1}^{k} f_i (x_i - \overline{x})^2 = \sum_{i=1}^{k} f_i x_i^2 - \overline{x}^2 15. Usando os resultados da questão anterior, calcule as variâncias dos Problemas 1 e 2 deste capítulo. 16. Os dados abaixo representam as vendas semanais, em classes de salários mínimos, de vendedores de gêneros alimentícios: 3.8 PROBLEMAS E COMPLEMENTOS 57 Vendas semanais | Nº de vendedores 30┝╴35 | 2 35┝╴40 | 10 40┝╴45 | 18 45┝╴50 | 50 50┝╴55 | 70 55┝╴60 | 30 60┝╴65 | 18 65┝╴70 | 2 (a) Faça o histograma das observações. (b) Calcule a média da amostra, x̄. (c) Calcule o desvio padrão da amostra, s. (d) Qual a porcentagem das observações compreendidas entre x̄−2s e x̄+2s? (e) Calcule a mediana. 17. Quantis. Para calcular os quantis de uma sequência de valores de uma variável X poderíamos usar a função de distribuição acumulada ou empírica, definida no Problema 17 do Capítulo 2. Essa função fornece, para cada número real x, a proporção das observações menores ou iguais a x. No Exemplo 3.5, temos F_{e}(x) = \left\{\begin{array}{ll} 0, & \text{se } x < 2 \\ 1/9, & \text{se } 2 \leq x < 3 \\ 2/9, & \text{se } 3 \leq x < 5 \\ 3/9, & \text{se } 5 \leq x < 7 \\ 4/9, & \text{se } 7 \leq x < 8 \\ 5/9, & \text{se } 8 \leq x < 10 \\ 6/9, & \text{se } 10 \leq x < 11 \\ 7/9, & \text{se } 11 \leq x < 12 \\ 8/9, & \text{se } 12 \leq x < 15 \\ 1, & \text{se } x \geq 15. \end{array}\right. (3.16) O gráfico de F_e(x) está na Figura 3.18. Note que não há nenhum valor de x tal que F_e(x)=0,5 e F_e(2)=1/9, F_e(3)=2/9, ..., F_e(15)=1, ou seja, podemos escrever de modo geral F_e(x_{(i)}) = \frac{i}{9}, \quad i = 1,\, 2,\, ...,\, 9. (3.17) Em particular, F_e(md)=F_e(x_{(5)})=F_e(8)=5/9=0,556. Portanto, ou mudamos nossa definição de mediana, ou F_e(.) não pode ser usada para definir precisamente mediana ou, em geral, um quantil q(p). 58 C A P Í T U L O 3 — M E D I D A S - R E S U M O Figura 3.18: Funções de distribuição empírica (Fe) e f.d.e. alisada (~Fe) para o Exemplo 3.5. Mas vejamos que Fe(·) pode ser a base para tal definição. Considere “alisar” ou “suavizar” Fe(·), como feito na Figura 3.18, de modo a obter uma curva contínua ~Fe(x), que passa pelos pontos (x(i), pi), onde pi = i – 0,5 , i = 1, 2, ..., 9. (3.18) 9 Observe que 0 < p1 < 1/9, 1/9 < p2 < 2/9 etc. Com esse procedimento, notamos que ~Fe(x(1)) = 1/18, ..., ~Fe(x(5)) = 9/18 = 0,5, ..., ~Fe(x(9)) = 17/18, ou seja, podemos escrever ~Fe(x(i)) = i – 0,5 , i = 1, 2, ..., n, (3.19) n cap03e.p65 21/9/2009, 11:49 58 3 . 8 P R O B L E M A S E C O M P L E M E N T O S 59 sendo que no nosso caso n = 9. Com essa modificação, obtemos que ~Fe(md) = ~Fe(8) = 0,5, e para cada p, 0 < p < 1, podemos obter de modo unívoco o quantil q(p), tomando- se a função inversa ~Fe –1(p). Ou seja, considere uma reta horizontal passando por p no eixo das ordenadas, até encontrar a curva contínua e depois baixe uma reta vertical até encontrar q(p) no eixo das abscissas. Uma maneira equivalente de proceder nos leva à seguinte definição para calcu- lar q(p), para qualquer p, 0 < p < 1. Definição. O p-quantil é definido por ⎧ x(i), se p = pi = i – 0,5 , i = 1, 2, ..., n ⎪ n q(p) = ⎨ (1 – fi)x(i) + fi x(i + 1), se pi < p < pi + 1 ⎪ x(1), se p < p1 ⎩ x(n), se p > pn, onde fi = (p – pi) . (pi + 1 – pi) Notamos, então, que se p coincidir com a proporção pi, o quantil será a i-ésima observação, x(i). Se pi < p < pi + 1, o quantil estará no segmento de reta que une (pi, x(i)) e (pi + 1, x(i + 1)). De fato, a reta passando por (pi, x(i)) e (p, q(p)) é q(p) – x(i) = x(i + 1) – x(i) (p – pi). pi + 1 – pi Exemplo 3.5. (continuação) Usando a definição obtemos: q(0,1) = (0,6)x(1) + (0,4)x(2) = (0,6)(2) + (0,4)(3) = 2,4; q(0,2) = (0,7)x(2) + (0,3)x(3) = (0,7)(3) + (0,3)(5) = 3,6; q(0,25) = (0,25)x(2) + 0,75x(3) = 4,5; q(0,5) = x(5) = 8; q(0,75) = (0,75)x(7) + (0,25)x(8) = (0,75)(11) + (0,25)(12) = 11,25. 18. Considere o CD-Municípios e tome somente os 15 maiores, relativamente à sua popula- ção. Calcule q(0, 1), q(0, 2), q1, q2, q3. cap03e.p65 21/9/2009, 11:49 59 60 CAPÍTULO 3 — MEDIDAS-RESUMO 19. O número de divórcios na cidade, de acordo com a duração do casamento, está representado na tabela abaixo. (a) Qual a duração média dos casamentos? E a mediana? (b) Encontre a variância e o desvio padrão da duração dos casamentos. (c) Construa o histograma da distribuição. (d) Encontre o 1º e o 9º decis. (e) Qual o intervalo interquartil? Anos de casamento | Nº de divórcios 0┝╴6 | 2.800 6┝╴12 | 1.400 12┝╴18 | 600 18┝╴24 | 150 24┝╴30 | 50 20. O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo, obtendo os resultados (em salários mínimos) da tabela abaixo. (a) Esboce o histograma correspondente. (b) Calcule a média, a variância e o desvio padrão. (c) Calcule o 1º quartil e a mediana. Faixa salarial | Frequência relativa 0┝╴2 | 0,25 2┝╴4 | 0,40 4┝╴6 | 0,20 6┝╴10 | 0,15 (d) Se for concedido um aumento de 100% para todos os 120 funcionários, haverá alteração na média? E na variância? Justifique sua resposta. (e) Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, haverá alteração na média? E na variância? E na mediana? Justifique sua resposta. 21. O que acontece com a mediana, a média e o desvio padrão de uma série de dados quando: (a) cada observação é multiplicada por 2? (b) soma-se 10 a cada observação? (c) subtrai-se a média geral x̄ de cada observação? (d) de cada observação subtrai-se x̄ e divide-se pelo desvio padrão dp(x)? 61 3.8 PROBLEMAS E COMPLEMENTOS 22. Na companhia A, a média dos salários é 10.000 unidades e o 3º quartil é 5.000. (a) Se você se apresentasse como candidato a funcionário nessa firma e se o seu salário fosse escolhido ao acaso entre todos os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 unidades? (b) Suponha que na companhia B a média dos salários seja 7.000 unidades, a variância praticamente zero e o salário também seja escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego? 23. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será feito por meio de uma amostra. Para determinar que tamanho deverá ter essa amostra, foi colhida uma amostra-piloto. As idades observadas foram: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. (a) Determine as medidas descritivas dos dados que você conhece. (b) Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra? Por quê? 24. Estudando-se o consumo diário de leite, verificou-se que, em certa região, 20% das famílias consomem até um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e três litros e o restante consome entre três e cinco litros. Para a variável em estudo: (a) Escreva as informações acima na forma de uma tabela de frequências. (b) Construa o histograma. (c) Calcule a média e a mediana. (d) Calcule a variância e o desvio padrão. (e) Qual o valor do 1º quartil? 25. A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo: Faixa salarial (x 10 salários mínimos) | Frequência 0┝╴2 | 10.000 2┝╴4 | 3.900 4┝╴6 | 2.000 6┝╴8 | 1.100 8┝╴10 | 800 10┝╴12 | 700 12┝╴14 | 2.000 Total | 20.500 (a) Construa um histograma da distribuição. (b) Qual a média e o desvio padrão da variável salário? (c) O bairro B apresenta, para a mesma variável, uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a população é mais homogênea quanto à renda? (d) Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10% mais ricos da população do bairro. (e) Qual a “riqueza total” dos moradores do bairro? 62 CAPÍTULO 3 — MEDIDAS-RESUMO 26. Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o 1º quartil. 27. Em uma granja foi observada a distribuição dos frangos em relação ao peso, que era a seguinte: Peso (gramas) ni 960⊣ 980 60 980⊣ 1.000 160 1.000⊣ 1.020 280 1.020⊣ 1.040 260 1.040⊣ 1.060 160 1.060⊣ 1.080 80 (a) Qual a média da distribuição? (b) Qual a variância da distribuição? (c) Construa o histograma. (d) Queremos dividir os frangos em quatro categorias, em relação ao peso, de modo que: — os 20% mais leves sejam da categoria D; — os 30% seguintes sejam da categoria C; — os 30% seguintes sejam da categoria B; — os 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. Quais os limites de peso entre as categorias A, B, C e D? (e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada, e também separar os animais com peso superior a um e meio desvio padrão acima da média para usá-los como reprodutores. Qual a porcentagem de animais que serão separados em cada caso? 28. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha foi ou não eficiente, fez-se um levantamento da idade dos candidatos à última promoção, e os resultados estão na tabela a seguir. 63 3.8 PROBLEMAS E COMPLEMENTOS Idade Frequência Porcentagem 18⊣ 20 18 36 20⊣ 22 12 24 22⊣ 26 10 20 26⊣ 30 8 16 30⊣ 36 2 4 Total 50 100 (a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a idade média)? (b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença x̄−22 fosse maior que o valor 2dp(X)√n, então a campanha teria surtido efeito. Qual a conclusão dele, baseada nos dados? (c) Faça o histograma da distribuição. 29. Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada, computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. Os dados estão a seguir. Corretora A Corretora B 45 60 54 57 55 58 62 55 70 50 52 59 38 48 64 59 55 56 55 56 55 61 52 53 54 59 48 57 50 65 55 60 55 58 54 59 51 56 Que tipo de informação revelam esses dados? (Sugestão: use a análise proposta nas Seções 3.3 e 3.4.) 30. Para verificar a homogeneidade das duas populações do problema anterior, um esta- tístico sugeriu que se usasse o quociente F= var(X/A) var(X/B) , mas não disse qual decisão tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são homogêneas ou não (var(X/A) = variância de X, para a corretora A; X = % de lucro)? 31. Faça um desenho esquemático (box plot) para os dados da corretora A e um para os dados da corretora B. Compare os dois conjuntos de dados por meio desses desenhos. 32. Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou não, adotou-se o seguinte teste: sejam X̄A−X̄B S2v1/ nA +1/nB , S2= (nA−1)var(X/A)+(nB−1)var(X/B) nA+nB−2 64 C A P Í T U L O 3 — M E D I D A S - R E S U M O Caso |t|< 2, os desempenhos são semelhantes, caso contrário, são diferentes. Qual seria a sua conclusão? Aqui, nA é o número de ações selecionadas da corretora A e nomencla- tura análoga para nB. 33. Um órgão do governo do estado está interessado em determinar padrões sobre o investi- mento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Nesse caso, será considerado como investimento básico a média final das observações, cal- culada da seguinte maneira: 1. Obtém-se uma média inicial. 2. Eliminam-se do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão, ou inferiores à média inicial menos duas vezes o desvio padrão. 3. Calcula-se a média final com o novo conjunto de observações. Qual o investimento básico que você daria como resposta? Observação: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito diferente dos demais. 34. Estudando-se a distribuição das idades dos funcionários de duas repartições públicas, obtiveram-se algumas medidas que estão no quadro abaixo. Esboce o histograma alisa- do das duas distribuições, indicando nele as medidas descritas no quadro. Comente as principais diferenças entre os dois histogramas. Repartição Mínimo 1o Quartil Mediana Média 3o Quartil Máximo dp A 18 27 33 33 39 48 15 B 18 23 32 33 42 48 10 35. Decidiu-se investigar a distribuição dos profissionais com nível universitário em duas regiões, A e B. As informações pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos. Esboce a distribuição (histograma alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas no quadro. Faça também uma descrição rápida das principais diferenças observadas nos gráficos. Região Média dp Mediana Moda q1 q3 x(1) x(n) A 20,00 4,00 20,32 20,15 17,32 22,68 8,00 32,00 B 20,00 6,00 18,00 17,00 16,00 24,00 14,00 42,00 cap03e.p65 21/9/2009, 11:49 64 65 3.8 PROBLEMAS E COMPLEMENTOS 36. Construa o desenho esquemático para os dados do Problema 6, do Capítulo 2. Obtenha conclusões a respeito da distribuição, a partir desse desenho. 37. Usando os dados da variável qualitativa região de procedência, da Tabela 2.1, transforme-a na variável quantitativa X, definida do seguinte modo: X= {1,se a região de procedência for capital; 0,se a região de procedência for interior ou outra. (a) Calcule x̄ e var(X). (b) Qual a interpretação de x̄? (c) Construa um histograma para X. 38. No Problema 9, do Capítulo 2, temos os resultados de 25 funcionários em vários exames a que se submeteram. Sabe-se agora que os critérios adotados em cada exame não são comparáveis, por isso decidiu-se usar o desempenho relativo em cada exame. Essa medida será obtida do seguinte modo: (I) Para cada exame serão calculados a média x̄ e o desvio padrão dp(X). (II) A nota X de cada aluno será padronizada do seguinte modo: Z= X−x̄ dp(X) . (a) Interprete o significado de Z. (b) Calcule as notas padronizadas dos funcionários para o exame de Estatística. (c) Com os resultados obtidos em (b), calcule x̄ e dp(Z). (d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de −2dp(Z), esse funcionário deve ser considerado um caso atípico. Existe algum nessa situação? (e) O funcionário 1 obteve 9,0 em Direito, em Estatística e em Política. Em que disciplina o seu desempenho relativo foi melhor? 39. Média aparada. Se 0<α<1, uma média aparada a 100α% é obtida eliminando 100α% das menores observações e 100α% das maiores observações e calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10 observações ordenadas x (1) <x (2) <. . . <x (10), a média aparada a 10% é x̄(0,10)= x(2)+x(3)+...+x(9)8 Se α = 0,25, x̄(0,25) é chamada meia-média. Calcule a média aparada a 10% e 25% para os dados de salários da Tabela 2.1. 40. Coeficiente de variação. Como vimos na seção 3.3, o desvio padrão é bastante afetado pela magnitude dos dados, ou seja, ele não é uma medida resistente. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como o razão entre o desvio padrão, S, e a média amostral e usualmente expresso em porcentagem: cv= S x̄⋅100%. 66 CAPÍTULO 3 — MEDIDAS-RESUMO Calcule o coeficiente de variação para as regiões A e B do Problema 35 e comente o resultado. 41. Desvio absoluto mediano. Esta é uma medida de dispersão dos dados x1, ..., xn, definida por: dam = med1 ≤ i ≤ n |xi - med1 ≤ i ≤ n (xi)|. Ou seja, calculamos a mediana dos dados, depois os desvios absolutos dos dados em relação à mediana e, finalmente, a mediana desses desvios absolutos. Vamos considerar os dados abaixo, extraídos de Graedel e Kleiner (1985) e que representam velocidades do vento no aeroporto de Philadelphia (EUA) para os primeiros 15 dias de dezembro de 1974. Vemos que há uma observação muito diferente das demais (61,1), mas que representa um dado real: no dia 2 de dezembro houve uma tempestade forte com chuva e vento. 22,2 61,1 13,0 27,8 22,2 7,4 7,4 7,4 20,4 20,4 20,4 11,1 13,0 7,4 14,8 Calculando-se as medidas de posição e dispersão estudadas, obtemos: x̄ = 18,4, x̄(0,20) = 15,8; md = 14,8, q1 = 8,3, q3 = 21,8; dq = 14,8, dam = 7,4, dp(x) = 13,5. Observemos que, retirando-se o valor atípico 61,1, a média passa a ser 15,3 e o desvio padrão 6,8, valor este mais próximo do dam. 42. Calcule o desvio absoluto mediano para as populações do CD-Brasil. 43. Calcule as principais medidas de posição e dispersão (incluindo a média aparada e o dam) para: (a) variável CO no CD-Poluição; (b) salários de mecânicos, CD-Salários; e (c) variável preço, CD-Veículos. 44. Construa os histogramas, ramo-e-folhas e desenhos esquemáticos para as variáveis do problema anterior. 45. Faça um gráfico de quantis e um de simetria para os dados do Problema 3. Os dados são simétricos? Comente. 46. Para o CD-Temperaturas e para a variável temperatura de Ubatuba, obtenha um gráfico de quantis e um gráfico de simetria. Os dados são simétricos? Comente. 47. O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram selecionados. Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional desconhecida. 67 3.8 PROBLEMAS E COMPLEMENTOS Considere as distâncias entre o histograma e a densidade. Suponha que queiramos determinar a amplitude de classe Δ do histograma de modo a minimizar a maior distância (em valor absoluto). Freedman e Diaconis (1981) mostraram que o valor de Δ é dado aproximadamente por Δ = 1,349S̃ \left(\frac{\log n}{n}\right)^{1/3}, em que S̃ é um estimador robusto do desvio padrão populacional. Por exemplo, podemos tomar S̃ = \frac{d_q}{1,349}, em que dq = q3 - q1 é a distância interquartil, devido ao fato de, numa distribuição normal, dq = 1,349σ, sendo σ o desvio padrão. Segue-se que Δ é dado por Δ = d_q \left(\frac{\log n}{n}\right)^{1/3}. Usando esse resultado, o número de classes a considerar num histograma é obtido por meio de \frac{(x_{(n)} - x_{(1)})}{Δ}. 48. Use o problema anterior para construir histogramas para: (a) variável umid (umidade) do CD-Poluição; (b) variável salário dos professores do CD-Salários; e (c) a temperatura de Cananéia, do CD-Temperaturas. Capítulo 4 Análise Bidimensional 4.1 Introdução Até agora vimos como organizar e resumir informações pertinentes a uma única variável (ou a um conjunto de dados), mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias. Os dados aparecem na forma de uma matriz, usualmente com as colunas indicando as variáveis e as linhas os indivíduos (ou elementos). A Tabela 4.1 mostra a notação de uma matriz com p variáveis X1, X2, ..., Xp e n indivíduos, totalizando np dados. A Tabela 2.1, com os dados hipotéticos da Companhia MB, é uma ilustração numérica de uma matriz 36 × 7. O principal objetivo das análises nessa situação é explorar relações (similaridades) entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma variável que estudamos, a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados. Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de dados. Na seção 4.8 daremos dois exemplos do caso de três variáveis. Tabela 4.1: Tabela de dados. Indivíduo Variável 1 X1 X2 ... Xi ... Xp 2 x11 x12 ... x1j ... x1p ... ... ... ... ... ... i x21 x22 ... x2j ... x2p ... ... ... ... ... ... n x31 x32 ... x3j ... x3p Em algumas situações, podemos ter dois (ou mais) conjuntos de dados provenientes da observação da mesma variável. Por exemplo, podemos ter um conjunto de dados {x1, ..., xn}, que são as temperaturas na cidade A, durante n meses, e outro conjunto de dados {y1, ..., yn}, 4 . 1 I N T R O D U Ç Ã O 69 que são as temperaturas da cidade B, nos mesmos meses. Para efeito de análise, podemos considerar que o primeiro conjunto são observações da variável X: temperatura na cidade A, enquanto o segundo conjunto são observações da variável Y: temperatura na cidade B. Este é o caso do CD-Temperaturas. Também poderíamos usar uma variável X para indicar a temperatura e outra variável, L, para indicar se a observação pertence à região A ou B. Na Tabela 2.1 podemos estar interessados em comparar os salários dos casados e solteiros. Uma reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas últimas, e nosso objetivo passaria a ser comparar, na coluna de salários (variável S), o compor- tamento de S na parte superior com a inferior. A escolha da apresentação de um ou outro modo será ditada principalmente pelo interesse e técnicas de análise à disposição do pesquisador. No CD-Brasil temos cinco variáveis: superfície, população urbana, rural e total e densi- dade populacional. No CD-Poluição temos quatro variáveis: quantidade de monóxido de carbono, ozônio, temperatura do ar e umidade relativa do ar. Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações: (a) as duas variáveis são qualitativas; (b) as duas variáveis são quantitativas; e (c) uma variável é qualitativa e outra é quantitativa. As técnicas de análise de dados nas três situações são diferentes. Quando as variá- veis são qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de contingência), onde aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações são provenientes de mensurações, e técni- cas como gráficos de dispersão ou de quantis são apropriadas. Quando temos uma variável qualitativa e outra quantitativa, em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa. Mas podemos ter também o caso de duas variáveis quantitati- vas agrupadas em classes. Por exemplo, podemos querer analisar a associação entre renda e consumo de certo número de famílias e, para isso, agrupamos as famílias em classes de rendas e classes de consumo. Desse modo, recaímos novamente numa tabe- la de dupla entrada. Contudo, em todas as situações, o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis. Essas relações podem ser detectadas por meio de métodos gráficos e medidas numéricas. Para efeitos práticos (e a razão ficará mais clara após o estudo de probabilidades), iremos entender a existência de associação como a mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável. Ilustrando: existe relação entre a altura de pessoas e o sexo (homem ou mulher) em dada comunidade? Pode-se fazer uma primeira pergunta: qual a freqüência esperada de uma pessoa dessa população ter, digamos, mais de 170 cm CAP04c.P65 21/9/2009, 12:02 69 70 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L de altura? E também uma segunda: qual a freqüência esperada de uma mulher (ou ho- mem) ter mais de 170 cm de altura? Se a resposta para as duas perguntas for a mesma, diríamos que não há associação entre as variáveis altura e sexo. Porém, se as respostas forem diferentes, isso significa uma provável associação, e devemos incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das variáveis. No exemplo em questão, você acha que existe associação entre as variáveis? 4.2 Variáveis Qualitativas Para ilustrar o tipo de análise, consideremos o exemplo a seguir. Exemplo 4.1. Suponha que queiramos analisar o comportamento conjunto das variá- veis Y: grau de instrução e V: região de procedência, cujas observações estão contidas na Tabela 2.1. A distribuição de freqüências é representada por uma tabela de dupla entrada e está na Tabela 4.2. Cada elemento do corpo da tabela dá a freqüência observada das realizações si- multâneas de Y e V. Assim, observamos quatro indivíduos da capital com ensino funda- mental, sete do interior com ensino médio etc. A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais fornece a distribuição da variável V. As distribuições assim obtidas são chamadas tecnicamente de distribuições marginais, enquanto a Tabela 4.2 constitui a distribui- ção conjunta de Y e V. Tabela 4.2: Distribuição conjunta das freqüências das variáveis grau de instrução (Y) e região de procedência (V). Y Ensino Ensino Médio Superior Total V Fundamental Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Fonte: Tabela 2.1. Em vez de trabalharmos com as freqüências absolutas, podemos construir tabelas com as freqüências relativas (proporções), como foi feito no caso unidimensional. Mas aqui existem três possibilidades de expressarmos a proporção de cada casela: (a) em relação ao total geral; (b) em relação ao total de cada linha; (c) ou em relação ao total de cada coluna. De acordo com o objetivo do problema em estudo, uma delas será a mais conveniente. CAP04c.P65 21/9/2009, 12:02 70 4 . 2 V A R I Á V E I S Q U A L I T A T I V A S 71 A Tabela 4.3 apresenta a distribuição conjunta das freqüências relativas, expressas como proporções do total geral. Podemos, então, afirmar que 11% dos empregados vêm da capital e têm o ensino fundamental. Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis. Por exemplo, 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões. Observe que, devido ao problema de aproximação das divisões, a distribuição das proporções introduz algumas diferenças não existentes. Compare, por exemplo, as colunas de instrução superior nas Tabelas 4.2 e 4.3. A Tabela 4.4 apresenta a distribuição das proporções em relação ao total das colunas. Podemos dizer que, entre os empregados com instrução até o ensino fundamental, 33% vêm da capital, ao passo que entre os empregados com ensino médio, 28% vêm da capital. Esse tipo de tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de instrução. Tabela 4.3: Distribuição conjunta das proporções (em porcentagem) em relação ao total geral das variáveis Y e V definidas no texto. Y Fundamental Médio Superior Total V Capital 11% 14% 16% 131% Interior 18% 19% 16% 133% Outra 14% 17% 15% 136% Total 33% 50% 17% 100% Fonte: Tabela 4.2. Tabela 4.4: Distribuição conjunta das proporções (em porcentagem) em relação aos totais de cada coluna das variáveis Y e V definidas no texto. Y Fundamental Médio Superior Total V Capital 033% 028% 033% 031% Interior 025% 039% 033% 033% Outra 042% 033% 034% 036% Total 100% 100% 100% 100% Fonte: Tabela 4.2. De modo análogo, podemos construir a distribuição das proporções em relação ao total das linhas. Aconselhamos o leitor a construir essa tabela. A comparação entre as duas variáveis também pode ser feita utilizando-se repre- sentações gráficas. Na Figura 4.1 apresentamos uma possível representação para os dados da Tabela 4.4. CAP04c.P65 21/9/2009, 12:02 71 72 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L Figura 4.1: Distribuição da região de procedência por grau de instrução. 1. Usando os dados da Tabela 2.1, Capítulo 2: (a) Construa a distribuição de freqüência conjunta para as variáveis grau de instrução e região de procedência. (b) Qual a porcentagem de funcionários que têm o ensino médio? (c) Qual a porcentagem daqueles que têm o ensino médio e são do interior? (d) Dentre os funcionários do interior, quantos por cento têm o ensino médio? 2. No problema anterior, sorteando um funcionário ao acaso entre os 36: (a) Qual será provavelmente o seu grau de instrução? (b) E sua região de procedência? (c) Qual a probabilidade do sorteado ter nível superior? (d) Sabendo que o sorteado é do interior, qual a probabilidade de ele possuir nível superior? (e) Sabendo que o escolhido é da capital, qual a probabilidade de ele possuir nível superior? 3. Numa pesquisa sobre rotatividade de mão-de-obra, para uma amostra de 40 pessoas foram observadas duas variáveis: número de empregos nos últimos dois anos (X) e salário mais recente, em número de salários mínimos (Y). Os resultados foram: Problemas CAP04c.P65 21/9/2009, 12:02 72 4 . 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 73 Indivíduo X Y Indivíduo X Y 1 1 6 21 2 4 2 3 2 22 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 30 3 3 11 2 5 31 2 2 12 3 2 32 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 38 3 2 19 2 1 39 2 3 20 2 1 40 2 5 (a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a distribuição de freqüências conjunta das duas classificações. (b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? (c) Qual a porcentagem das pessoas que ganham pouco? (d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco? (e) A informação adicional dada em (d) mudou muito a porcentagem observada em (c)? O que isso significa? 4.3 Associação entre Variáveis Qualitativas Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de dependência entre elas, de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra. Por exemplo, se quisermos estimar qual a renda média de uma família moradora da cidade de São Paulo, a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda, pois sabemos que existe uma dependência entre as duas variáveis: renda familiar e classe social. Ou, ainda, supo- nhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa. Como a proporção de pessoas de cada sexo CAP04c.P65 21/9/2009, 12:02 73 74 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L é aproximadamente a mesma, o resultado desse exercício de adivinhação poderia ser qualquer um dos sexos: masculino ou feminino. Mas se a mesma pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica, então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino. Ou seja, há um grau de dependência grande entre as variáveis sexo e ramo de atividade. Vejamos como podemos identificar a associação entre duas variáveis da distribui- ção conjunta. Exemplo 4.2. Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Esses dados estão na Tabela 4.5. Tabela 4.5: Distribuição conjunta de alunos segundo o sexo (X) e o curso escolhido (Y). X Masculino Feminino Total Y Economia 185 35 120 Administração 155 25 180 Total 140 60 200 Fonte: Dados hipotéticos. Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à dife- rença entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas ou as colunas para podermos fazer comparações. Fixemos os totais das colunas; a distribui- ção está na Tabela 4.6. Tabela 4.6: Distribuição conjunta das proporções (em porcentagem) de alunos segundo o sexo (X) e o curso escolhido (Y). X Masculino Feminino Total Y Economia 061% 058% 060% Administração 039% 042% 040% Total 100% 100% 100% Fonte: Tabela 4.5. A partir dessa tabela podemos observar que, independentemente do sexo, 60% das pessoas preferem Economia e 40% preferem Administração (observe na coluna de total). Não havendo dependência entre as variáveis, esperaríamos essas mesmas proporções para cada sexo. Observando a tabela, vemos que as proporções do sexo masculino (61% e 39%) e do sexo feminino (58% e 42%) são próximas das marginais (60% e 40%). Esses resultados parecem indicar não haver dependência entre as duas variáveis, para o conjunto de alunos considerado. Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem ser não associadas. CAP04c.P65 21/9/2009, 12:02 74 4 . 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 75 Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 4.7. Tabela 4.7: Distribuição conjunta das freqüências e proporções (em porcentagem), segundo o sexo (X) e o curso escolhido (Y). Y X Masculino Feminino Total Física 100 (71%) 20 (33%) 120 (60%)0 Ciências Sociais 040 (29%) 40 (67%) 080 (40%)0 Total 140 (100%) 60 (100%) 200 (100%) Fonte: Dados hipotéticos. Inicialmente, convém observar que, para economizar espaço, resumimos duas tabelas numa única, indicando as proporções em relação aos totais das colunas entre parênteses. Comparando agora a distribuição das proporções pelos cursos, independentemente do sexo (coluna de totais), com as distribuições diferenciadas por sexo (colunas de masculino e feminino), observamos uma disparidade bem acentuada nas proporções. Parece, pois, haver maior concentração de homens no curso de Física e de mulheres no de Ciências Sociais. Portanto, nesse caso, as variáveis sexo e curso escolhido parecem ser associadas. Quando existe associação entre variáveis, sempre é interessante quantificar essa associação, e isso será objeto da próxima seção. Antes de passarmos a discutir esse aspecto, convém observar que teríamos obtido as mesmas conclusões do Exemplo 4.2 se tivésse- mos calculado as proporções, mantendo constantes os totais das linhas. Problemas 4. Usando os dados do Problema 1, responda: (a) Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência? (b) Baseado no resultado anterior e no Problema 2, você diria que existe dependência entre a região de procedência e o nível de educação do funcionário? 5. Usando o Problema 3, verifique se há relações entre as variáveis rotatividade e salário. 6. Uma companhia de seguros analisou a freqüência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o hospital. Os resultados foram: Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 (a) Calcule a proporção de homens entre os indivíduos que usaram o hospital. (b) Calcule a proporção de homens entre os indivíduos que não usaram o hospital. (c) O uso do hospital independe do sexo do segurado? CAP04c.P65 21/9/2009, 12:02 75 76 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L 4.4 Medidas de Associação entre Variáveis Qualitativas De modo geral, a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação. Essas são medidas que descrevem, por meio de um único número, a associação (ou dependência) entre duas variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam entre 0 e 1, ou entre –1 e +1, e a proximidade de zero indica falta de associação. Existem muitas medidas que quantificam a associação entre variáveis qualitativas, apresentaremos apenas duas delas: o chamado coeficiente de contingência, devido a K. Pearson e uma modificação desse. Exemplo 4.3. Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8. Tabela 4.8: Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974. Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 214 (33%) 237 (37%) 178 (12%) 119 (18%) 1.648 (100%) Paraná 151 (17%) 102 (34%) 126 (42%) 122 (7%)1 1.301 (100%) Rio G. do Sul 111 (18%) 304 (51%) 139 (23%) 148 (8%)1 1.602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1.551 (100%) Fonte: Sinopse Estatística da Brasil — IBGE, 1977. A análise da tabela mostra a existência de certa dependência entre as variáveis. Caso não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de coope- rativas de consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% de outros tipos. Então, por exemplo, o número esperado de cooperativas de consumido- res no Estado de São Paulo seria 648 × 0,24 = 157 e no Paraná seria 301 × 0,24 = 73 (ver Tabela 4.9). Tabela 4.9: Valores esperados na Tabela 4.8 assumindo a independência entre as duas variáveis. Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 157 (24%) 269 (42%) 143 (22%) 179 (12%) 1.648 (100%) Paraná 173 (24%) 124 (42%) 67 (22%) 137 (12%) 1.301 (100%) Rio G. do Sul 146 (24%) 250 (42%) 133 (22%) 173 (12%) 1.602 (100%) Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1.551 (100%) Fonte: Tabela 4.8. CAP04c.P65 21/9/2009, 12:02 76 4 . 4 M E D I D A S D E A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 77 Tabela 4.10: Desvios entre observados e esperados. Estado Tipo de Cooperativa Consumidor Produtor Escola Outras São Paulo –57 (20,69) –32 (3,81) –65 (29,55) 40 (20,25) Paraná –22 (6,63) –22 (3,90) –59 (51,96) –15 (6,08) Rio G. do Sul 0–35 (8,39) –54 (11,66) –006 (0,27) –25 (8,56) Fonte: Tabelas 4.8 e 4.9. Comparando as duas tabelas, podemos verificar as discrepâncias existentes entre os valores observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as variáveis não fossem associadas. Na Tabela 4.10 resumimos os desvios: valores observados me- nos valores esperados. Observando essa tabela podemos tirar algumas conclusões: (i) A soma total dos resíduos é nula. Isso pode ser verificado facilmente soman- do-se cada linha. (ii) A casela Escola-São Paulo é aquela que apresenta o maior desvio da suposição de não-associação (–65). Nessa casela esperávamos 143 casos. A casela Escola- Paraná também tem um desvio alto (59), mas o valor esperado é bem menor (67). Portanto, se fôssemos considerar os desvios relativos, aquele correspon- dente ao segundo caso seria bem maior. Uma maneira de observar esse fato é construir, para cada casela, a medida (oi – ei)2 , (4.1) ei no qual oi é o valor observado e ei é o valor esperado. Usando (4.1) para a casela Escola-São Paulo obtemos (–65)2/143 = 29,55 e para a casela Escola-Paraná obtemos (59)2/67= 51,96, o que é uma indicação de que o desvio devido a essa última casela é “maior” do que aquele da primeira. Na Tabela 4.10 indicamos entre parênteses esses valores para todas as caselas. Uma medida do afastamento global pode ser dada pela soma de todas as medi- das (4.1). Essa medida é denominada χ 2 (qui-quadrado) de Pearson, e no nosso exemplo teríamos χ2 = 20,69 + 6,63 + ... + 8,56 = 171,76. Um valor grande de χ2 indica associação entre as variáveis, o que parece ser o caso. Antes de dar uma fórmula geral para essa medida de associação, vamos introduzir, na Tabela 4.11, uma notação geral para tabelas de dupla entrada. CAP04d.P65 9/10/2009, 10:27 77 80 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L 4.5 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo, pode-se usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas. De modo análogo, a distribuição conjunta pode ser resumi- da em tabelas de dupla entrada e, por meio das distribuições marginais, é possível estudar a associação das variáveis. Algumas vezes, para evitar um grande número de entradas, agrupamos os dados marginais em intervalos de classes, de modo semelhante ao resumo feito no caso unidimensional. Mas, além desse tipo de aná- lise, as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados. Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão, que vamos introduzir por meio de exemplos. Exemplo 4.4. Na Figura 4.2 temos o gráfico de dispersão das variáveis X e Y da Tabela 4.12. Nesse tipo de gráfico temos os possíveis pares de valores (x, y), na ordem que aparecem. Para o exemplo, vemos que parece haver uma associação entre as variáveis, porque no conjunto, à medida que aumenta o tempo de serviço, aumenta o número de clientes. Tabela 4.12: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros. Agente Anos de serviço Número de clientes (X) (Y) A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 100 72 Fonte: Dados hipotéticos. CAP04c.P65 21/9/2009, 12:02 80 4 . 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 81 Figura 4.2: Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes. Exemplo 4.5. Consideremos os dados das variáveis X: população urbana e Y: população rural, do CD-Brasil. O gráfico de dispersão está na Figura 4.3. Vemos que parece não haver associação entre as variáveis, pois os pontos não apresentam nenhuma tendência particular. Figura 4.3: Gráfico de dispersão para as variáveis X: população urbana e Y: população rural. Exemplo 4.6. Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão. Tabela 4.13: Renda bruta mensal (X) e porcentagem da renda gasta em saúde (Y) para um conjunto de famílias. Família X Y A 12 7,2 B 16 7,4 C 18 7,0 D 20 6,5 E 28 6,6 F 30 6,7 G 40 6,0 H 48 5,6 I 50 6,0 J 54 5,5 Fonte: Dados hipotéticos. CAP04c.P65 21/9/2009, 12:02 81 82 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L (a) Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salá- rios mínimos, mediram-se: X: renda bruta mensal (expressa em número de salários mínimos). Y: a porcentagem da renda bruta anual gasta com assistência médica; os dados estão na Tabela 4.13. Observando o gráfico de dispersão (Figura 4.4), vemos que existe uma associação “inversa”, isto é, aumentando a renda bruta, diminui a porcentagem sobre ela gasta em assistência médica. Figura 4.4: Gráfico de dispersão para as variáveis X: renda bruta e Y: % renda gasta com saúde. Antes de passarmos ao exemplo seguinte, convém observar que a disposição dos dados da Tabela 4.13 numa tabela de dupla entrada não iria melhorar a compreen- são dos dados, visto que, devido ao pequeno número de observações, teríamos caselas cheias apenas na diagonal. (b) Oito indivíduos foram submetidos a um teste sobre conhecimento de língua es- trangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a operar uma determinada máquina. As variáveis medidas foram: X:resultado obtido no teste (máximo = 100 pontos); Y: tempo, em minutos, necessário para operar a máquina satisfatoriamente. Figura 4.5: Gráfico de dispersão para as variáveis X: resultado no teste e Y: tempo de operação. CAP04c.P65 21/9/2009, 12:02 82 4 . 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 83 Tabela 4.14: Resultado de um teste (X) e tempo de ope- ração de máquina (Y) para oito indivíduos. Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Fonte: Dados hipotéticos. Os dados estão na Tabela 4.14. Do gráfico de dispersão (Figura 4.5) concluímos que parece não haver associação entre as duas variáveis, pois conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina. A partir dos gráficos apresentados, verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas. Contudo, é muito útil quantificar esta associação. Existem muitos tipos de associações possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear. Isto é, iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproxima-se de uma reta. Esta medida será definida de modo a variar num intervalo finito, especificamente, de –1 a +1. Consideremos um gráfico de dispersão como o da Figura 4.6 (a) no qual, por meio de uma transformação conveniente, a origem foi colocada no centro da nuvem de dispersão. Aqueles dados possuem uma associação linear direta (ou positiva) e notamos que a grande maioria dos pontos está situada no primeiro e terceiro quadrantes. Nesses quadrantes as coordenadas dos pontos têm o mesmo sinal, e, portanto, o produto delas será sempre positivo. Somando-se o produto das coordenadas dos pontos, o resultado será um número posi- tivo, pois existem mais produtos positivos do que negativos. Figura 4.6: Tipos de associações entre duas variáveis. Para a dispersão da Figura 4.6 (b), observamos uma dependência linear inversa (ou negativa) e, procedendo-se como anteriormente, a soma dos produtos das coorde- nadas será negativa. CAP04c.P65 21/9/2009, 12:02 83 84 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas será zero, pois cada resultado positivo tem um resultado negativo simétrico, anulando-se na soma. Nesse caso não há associação linear entre as duas variáveis. Em casos semelhantes, quando a distribuição dos pontos for mais ou menos circular, a soma dos produtos será aproximadamente zero. Baseando-se nesses fatos é que iremos definir o coeficiente de correlação (linear) entre duas variáveis, que é uma medida do grau de associação entre elas e também da proximidade dos dados a uma reta. Antes, cabe uma observação. A soma dos produtos das coordenadas depende, e muito, do número de pontos. Considere o caso de associação positiva: a soma acima tende a aumentar com o número de pares (x, y) e ficaria difícil comparar essa medida para dois conjuntos com números diferentes de pontos. Por isso, costuma-se usar a média da soma dos produtos das coordenadas. Exemplo 4.7. Voltemos aos dados da Tabela 4.12. O primeiro problema que devemos resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão. Um ponto conveniente é (⎯x,⎯y), ou seja, as coordenadas da origem serão as médias dos valores de X e Y. As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 4.15. Observando esses valores centrados, verificamos que ainda existe um problema quanto à escala usada. A variável Y tem variabilidade muito maior do que X, e o produto ficaria muito mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir as duas variáveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios padrões. Esses novos valores estão nas colunas 6 e 7. Observe as mudanças (escalas dos eixos) de variáveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indica- mos os produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperávamos, é positiva. Para completar a definição dessa medida de associação, basta calcular a média dos produtos das coordenadas reduzidas, isto é, correlação (X,Y) = 8,769/10 = 0,877. Tabela 4.15: Cálculo do coeficiente de correlação. Agente Anos Clientes x –⎯x y –⎯y x –⎯x = zx y –⎯ y = zy zx · zy x y dp(x) dp(y) A 2 48 –3,7 –8,5 –1,54 –1,05 1,617 B 3 50 –2,7 –6,5 –1,12 –0,80 0,846 C 4 56 –1,7 –0,5 –0,71 –0,06 0,043 D 5 52 –0,7 –4,5 –0,29 –0,55 0,160 E 4 43 –1,7 –13,5 –0,71 –1,66 1,179 F 6 60 0,3 3,5 0,12 0,43 0,052 G 7 62 1,3 5,5 0,54 0,68 0,367 H 8 58 2,3 1,5 0,95 0,19 0,181 I 8 64 2,3 7,5 0,95 0,92 0,874 J 10 72 4,3 15,5 1,78 1,91 3,400 Total 57 565 0 0 8,769 ⎯x = 5,7, dp(X) = 2,41, ⎯y = 56,5, dp(Y) = 8,11 CAP04c.P65 21/9/2009, 12:02 84 86 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos utilizados anteriormente para analisar um conjunto de dados, exibindo as análises feitas separadamente, para efeito de comparação. Por exemplo, podemos exibir os desenhos esquemáticos, ou os ramos-e-folhas para os dois conjuntos de observações. 4.6 Associação entre Variáveis Qualitativas e Quantitativas Como mencionado na introdução deste capítulo, é comum nessas situações anali- sar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa. Essa análise pode ser conduzida por meio de medidas-resumo, histogramas, box plots ou ramo-e-folhas. Vamos ilustrar com um exemplo. Exemplo 4.8. Retomemos os dados da Tabela 2.1, para os quais desejamos analisar agora o comportamento dos salários dentro de cada categoria de grau de instrução, ou seja, investigar o comportamento conjunto das variáveis S e Y. Tabela 4.16: Medidas-resumo para a variável salário, segundo o grau de instrução, na Companhia MB. Grau de n ⎯s dp(S) var(S) s(1) q1 q2 q3 s(n) instrução Fundamental 12 17,84 2,79 17,77 14,00 16,01 17,13 19,16 13,65 Médio 18 11,54 3,62 13,10 15,73 18,84 10,91 14,48 19,40 Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30 Todos 36 11,12 4,52 20,46 14,00 17,55 10,17 14,06 23,30 Comecemos a análise construindo a Tabela 4.16, que contém medidas-resumo da variável S para cada categoria de Y. A seguir, na Figura 4.8, apresentamos uma visualização gráfica por meio de box plots. Figura 4.8: Box plots de salário segundo grau de instrução. CAP04c.P65 21/9/2009, 12:02 86 4 . 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 87 A leitura desses resultados sugere uma dependência dos salários em relação ao grau de instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso superior o salário médio passa a ser 16,48, enquanto funcionários com o ensino fundamental completo recebem, em média, 7,84. Na Tabela 4.17 e Figura 4.9 temos os resultados da análise dos salários em função da região de procedência (V), que mostram a inexistência de uma relação melhor definida entre essas duas variáveis. Ou, ainda, os salários estão mais relacionados com o grau de instrução do que com a região de procedência. Tabela 4.17: Medidas-resumo para a variável salário segundo a região de procedência, na Com- panhia MB. Região de n ⎯s dp(S) var(S) s(1) q1 q2 q3 s(n) procedência Capital 11 11,46 5,22 27,27 4,56 7,49 19,77 16,63 19,40 Interior 12 11,55 5,07 25,71 4,00 7,81 10,64 14,70 23,30 Outra 13 10,45 3,02 19,13 5,73 8,74 19,80 12,79 16,22 Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30 Figura 4.9: Box plots de salário segundo região de procedência. Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias podem ser usadas como insumos para construir essa medida. Sem usar a informação da variável categorizada, a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for peque- na e menor do que a global, significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e portanto existe uma relação entre as duas variáveis. Observe que, para as variáveis S e Y, as variâncias de S dentro das três categorias são menores do que a global. Já para as variáveis S e V, temos duas variâncias de S maiores e uma menor do que a global, o que corrobora a afirmação acima. CAP04c.P65 21/9/2009, 12:02 87 4 . 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 89 Problemas 10. Para cada par de variáveis abaixo, esboce o diagrama de dispersão. Diga se você espera uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação. (a) Peso e altura dos alunos do primeiro ano de um curso de Administração. (b) Peso e altura dos funcionários de um escritório. (c) Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental. (d) Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas. (e) Acuidade visual e idade de um grupo de pessoas. (f) Renda familiar e porcentagem dela gasta em alimentação. (g) Número de peças montadas e resultado de um teste de inglês por operário. 11. Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras. Regiões metropolitanas Setor primário Índice de analfabetismo São Paulo 2,0 17,5 Rio de Janeiro 2,5 18,5 Belém 2,9 19,5 Belo Horizonte 3,3 22,2 Salvador 4,1 26,5 Porto Alegre 4,3 16,6 Recife 7,0 36,6 Fortaleza 13,00 38,4 Fonte: Indicadores Sociais para Áreas Urbanas — IBGE — 1977. (a) Faça o diagrama de dispersão. (b) Você acha que existe uma dependência linear entre as duas variáveis? (c) Calcule o coeficiente de correlação. (d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o valor correspondente e recalcule o coeficiente de correlação. 12. Usando os dados do Problema 3: (a) Construa a tabela de freqüências conjuntas para as variáveis X (número de empregos nos dois últimos anos) e Y (salário mais recente). (b) Como poderia ser feito o gráfico de dispersão desses dados? (c) Calcule o coeficiente de correlação. Baseado nesse número você diria que existe dependência entre as duas variáveis? CAP04c.P65 21/9/2009, 12:02 89 90 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L 13. Quer se verificar a relação entre o tempo de reação e o número de alternativas apresen- tadas a indivíduos acostumados a tomadas de decisão. Planejou-se um experimento em que se pedia ao participante para classificar objetos segundo um critério previamente discutido. Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco. Pediu-se, então, a cada grupo para classificar dois, três e quatro objetos, respectivamente. Os dados estão abaixo. No de objetos 2 3 4 Tempo de reação 1, 2, 3, 3, 4 2, 3, 4, 4, 5 4, 5, 5, 6, 7 (a) Faça o gráfico de dispersão das duas variáveis. (b) Qual o coeficiente de correlação entre elas? 14. Calcule o grau de associação entre as variáveis estado civil e idade, na Tabela 2.1. 15. Usando os dados do Problema 9 do Capítulo 2, calcule o grau de associação entre seção e notas em Estatística. 4.7 Gráficos q × q Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico quantis × quantis, que passamos a discutir. Suponha que temos valores x1, ..., xn da variável X e valores y1, ..., ym da variável Y, todos medidos pela mesma unidade. Por exemplo, temos temperaturas de duas cida- des ou alturas de dois grupos de indivíduos etc. O gráfico q × q é um gráfico dos quantis de X contra os quantis de Y. Pelo que vimos no Capítulo 3, se m = n o gráfico q × q é um gráfico dos dados ordenados de X contra os dados ordenados de Y. Se as distribuições dos dois conjuntos de dados fossem idênticas, os pontos estariam sobre a reta y = x. Enquanto um gráfico de dispersão fornece uma possível relação global entre as variá- veis, o gráfico q × q mostra se valores pequenos de X estão relacionados com valores pequenos de Y, se valores intermediários de X estão relacionados com valores intermediá- rios de Y e se valores grandes de X estão relacionados com valores grandes de Y. Num gráfico de dispersão podemos ter x1 < x2 e y1 > y2, o que não pode acontecer num gráfico q × q, pois os valores em ambos os eixos estão ordenados, do menor para o maior. Exemplo 4.10. Na Tabela 4.18 temos as notas de 20 alunos em duas provas de Estatística e, na Figura 4.10, temos o correspondente gráfico q × q. Os pontos estão razoavelmente dispersos ao redor da reta x = y, mostrando que as notas dos alunos nas duas provas não são muito diferentes. Mas podemos notar que, para notas abaixo de cinco, os alunos tiveram notas maiores na segunda prova, ao passo que, para notas de cinco a oito, os alunos tiveram notas melhores na primeira prova. A maioria das notas estão concentradas entre cinco e oito. CAP04c.P65 21/9/2009, 12:02 90 4 . 7 G R Á F I C O S q × q 91 Figura 4.10: Gráfico q × q para as notas em duas provas de Estatística. Tabela 4.18: Notas de 20 alunos em duas provas de Estatística. Aluno Prova 1 Prova 2 Aluno Prova 1 Prova 2 1 8,5 8,0 11 7,4 6,5 2 3,5 2,8 12 5,6 5,0 3 7,2 6,5 13 6,3 6,5 4 5,5 6,2 14 3,0 3,0 5 9,5 9,0 15 8,1 9,0 6 7,0 7,5 16 3,8 4,0 7 4,8 5,2 17 6,8 5,5 8 6,6 7,2 18 10,0 10,0 9 2,5 4,0 19 4,5 5,5 10 7,0 6,8 20 5,9 5,0 Exemplo 4.11. Consideremos, agora, as variáveis temperatura de Ubatuba e temperatura de Cananéia, do CD-Temperaturas. O gráfico q × q está na Figura 4.11. Observamos que a maioria dos pontos está acima da reta y = x, mostrando que as temperaturas de Ubatuba são, em geral, maiores do que as de Cananéia, para valores maiores do que 17 graus. Quando m ≠ n, é necessário modificar os valores de p para os quantis da variável com maior número de pontos. Ver o Problema 33 para a solução desse caso. Figura 4.11: Gráfico q × q para os lados de tem- peratura de Cananéia e Ubatuba. CAP04c.P65 21/9/2009, 12:02 91 92 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L 16. Faça o gráfico q × q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio (Problema 9 do Capítulo 2). 17. Faça o gráfico q × q para as variáveis salário de professor secundário e salário de administrador do CD-Salários. Comente. 4.8 Exemplos Computacionais Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados. Exemplos são os dados sobre o Brasil, de poluição e estatísticas sobre veículos, en- contrados nos Conjuntos de Dados. Veremos, também, um exemplo de cálculo do coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo. Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa. Exemplo 4.12. Considere as variáveis salário, idade e grau de instrução da Tabela 2.1. Separamos, agora, os salários e idades por classe de grau de instrução. Depois, podemos fazer gráficos de dispersão, como na Figura 4.12. Figura 4.12: Gráficos de dispersão das variáveis salário e idade, segundo a variável grau de instrução. Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a idade, ao passo que para o ensino médio essa relação não se verifica, haven- do salários baixos e altos numa faixa entre 350 e 450 meses. Exemplo 4.13. Considere o CD-Mercado, no qual temos os preços de fechamento diários de ações da Telebrás (X) e os índices IBOVESPA (Y), de 2 de janeiro a 24 de fevereiro de 1995, num total de n = 39 observações. O gráfico de dispersão está na Figura 4.13, que mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação positiva. Ou seja, esse gráfico mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de Valores de São Paulo. No gráfico está represen- tada a “reta de mínimos quadrados”. No Capítulo 16 veremos como determiná-la. Problemas CAP04c.P65 21/9/2009, 12:02 92 4 . 8 E X E M P L O S C O M P U T A C I O N A I S 93 Figura 4.13: Gráfico de dispersão para ações da Telebrás e BOVESPA. Utilizando (4.9) obtemos que corr(X,Y ) = 40213,78 – (39)(27,99)(36,28) = 0,98, √(31135,93 – (39)(27,99)2)(51999,68 – (39)(36,28)2) o que mostra a forte associação linear entre X e Y. Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis quantitativas e uma qualitativa. Exemplo 4.14. Considere o CD-Veículos, no qual temos o preço, o comprimento e a capacidade do motor de veículos vendidos no Brasil, classificados em duas categorias: N (nacionais) e I (importados). Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos, indicando por um x se o carro for N e por um °, se for I. Veja a Figura 4.14. Observamos, pela figura, que os preços dos veículos importados são, em geral, maiores do que os nacionais e que o preço aumenta com o comprimento. Figura 4.14: Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos, categorizadas pela variável procedência: nacional (x) e importado (o). CAP04c.P65 21/9/2009, 12:02 93 94 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L 4.9 Problemas e Complementos 18. No estudo de uma certa comunidade, verificou-se que: (I) A proporção de indivíduos solteiros é de 0,4. (II) A proporção de indivíduos que recebem até 10 salários mínimos é de 0,2. (III) A proporção de indivíduos que recebem até 20 salários mínimos é de 0,7. (IV) A proporção de indivíduos casados entre os que recebem mais de 20 salários míni- mos é de 0,7. (V) A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 0,3. (a) Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respec- tivas distribuições marginais. (b) Você diria que existe relação entre as duas variáveis consideradas? 19. Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental. O resultado foi o seguinte: Opinião Local de residência Total Urbano Suburbano Rural A favor 30 35 35 100 Contra 60 25 15 100 Total 90 60 50 200 (a) Calcule as proporções em relação ao total das colunas. (b) Você diria que a opinião independe do local de residência? (c) Encontre uma medida de dependência entre as variações. 20. Com base na tabela abaixo, você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular? Encontre uma medi- da de dependência entre as variáveis. Propriedade Atividade Total Costeira Fluvial Internacional Estatal 05 141 51 197 Particular 92 231 48 371 Total 97 372 99 568 Fonte: Sinopse Estatística do Brasil — IBGE — 1975. 21. Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo. Baseado nesses resultados você diria que a participação em atividades esportivas depende da cidade? Participam Cidade São Paulo Campinas Rib. Preto Santos Sim 050 065 105 120 Não 150 185 195 180 CAP04c.P65 21/9/2009, 12:02 94 98 C A P Í T U L O 4 — A N Á L I S E B I D I M E N S I O N A L (d) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas de venda privilegiadas. A quem você daria razão? (e) Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego? (f) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vende- dor foi designado? Você tem explicação para esse resultado? (g) Qual o grau de associação entre o conceito do gerente e o resultado do teste? E entre zona e vendas? 31. A seção de assistência técnica da Companhia MB tem cinco funcionários: A, B, C, D e E, cujos tempos de serviço na companhia são, respectivamente, um, três, cinco, cinco e sete anos. (a) Faça um gráfico representando a distribuição de freqüência dos tempos de serviço X. (b) Calcule a média me(X), a variância var(X) e a mediana md(X). Duas novas firmas, a Verde e a Azul, solicitaram o serviço de assistência técnica da Milsa. Um mesmo funcionário pode ser designado para atender a ambos os pedidos, ou dois funcionários podem fazê-lo. Assim, o par (A, B) significa que o funcionário A atenderá à firma Verde e o funcionário B, à firma Azul. (c) Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos. (d) Para cada par, calcule o tempo médio de serviço⎯X, faça a distribuição de freqüência e uma representação gráfica. Compare com o resultado de (a). (e) Calcule para os 25 valores de⎯X os parâmetros me(⎯X), var(⎯X) e md(⎯X). Compare com os resultados obtidos em (b). Que tipo de conclusão você poderia tirar? (f) Para cada par obtido em (c), calcule a variância do par e indique-a por S2. Faça a representação gráfica da distribuição dos valores de S2. (g) Calcule me(S2) e var(S2). (h) Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá atender à firma Azul, faça a distribuição conjunta da variável bidimensional (X1, X2). (i) As duas variáveis X1 e X2 são independentes? (j) O que você pode falar sobre as distribuições “marginais” de X1 e X2? (l) Suponha agora que três firmas solicitem o serviço de assistência técnica. Quantas triplas podem ser formadas? (m) Sem calcular todas as possibilidades, como você acha que ficaria o histograma de⎯X? E me(⎯X)? e var(⎯X)? (n) E sobre a variável S2? (o) A variável tridimensional (X1, X2, X3) teria alguma propriedade especial para as suas distribuições “marginais”? 32. Refaça o problema anterior, admitindo agora que um mesmo funcionário não pode atender a duas firmas. CAP04c.P65 21/9/2009, 12:02 98 Parte 2 Parte 2 Capítulo 5 103 Probabilidades Capítulo 6 128 Variáveis Aleatórias Discretas Capítulo 7 163 Variáveis Aleatórias Contínuas Capítulo 8 203 Variáveis Aleatórias Multidimensionais Capítulo 9 235 Noções de Simulação P R O B A B I L I D A D E S cap05e.p65 21/9/2009, 13:17 101 104 C A P Í T U L O 5 — P R O B A B I L I D A D E S Tabela 5.1: Modelo para lançamento de um dado. Face 1 2 3 4 5 6 Total Freqüência teórica 1/6 1/6 1/6 1/6 1/6 1/6 1 Exemplo 5.2. De um grupo de duas mulheres (M) e três homens (H), uma pessoa será sorteada para presidir uma reunião. Queremos saber as probabilidades de o presidente ser do sexo masculino ou feminino. Observamos que: (i) só existem duas possibilida- des: ou a pessoa sorteada é do sexo masculino (H) ou é do sexo feminino (M); (ii) supondo que o sorteio seja honesto e que cada pessoa tenha igual chance de ser sorteada, teremos o modelo probabilístico da Tabela 5.2 para o experimento. Tabela 5.2: Modelo teórico para o Exemplo 5.2. Sexo M H Total Freqüência teórica 2/5 3/5 1 Dos exemplos acima, verificamos que todo experimento ou fenômeno que envolva um elemento casual terá seu modelo probabilístico especificado quando estabelecermos: (a) um espaço amostral, Ω, que consiste, no caso discreto, da enumeração (finita ou infinita) de todos os resultados possíveis do experimento em questão: Ω = {ω1, ω2, ..., ωn, ...} (os elementos de Ω são os pontos amostrais ou eventos elementares); (b) uma probabilidade, P(ω), para cada ponto amostral, de tal sorte que seja possível encontrar a probabilidade P(A) de qualquer subconjunto A de Ω, isto é, a proba- bilidade do que chamaremos de um evento aleatório ou simplesmente evento. Para ilustrar graficamente eventos, é costume utilizar-se os mesmos diagramas comumente usados na teoria dos conjuntos. Veja Morettin et al. (2005). Na Figura 5.1 ilustramos por um quadrado o espaço amostral, por círculos os eventos A e B e por pontos os pontos amostrais. Figura 5.1: Espaço amostral e eventos aleatórios. cap05e.p65 21/9/2009, 13:17 104 106 C A P Í T U L O 5 — P R O B A B I L I D A D E S 4. Duas moedas são lançadas. Dê dois possíveis espaços amostrais para esse experimento. Represente um deles como o produto cartesiano de dois outros espaços amostrais (ver Morettin et al., 1999, para o conceito de produto cartesiano). 5. Uma moeda e um dado são lançados. Dê um espaço amostral do experimento e depois represente-o como produto cartesiano dos dois espaços amostrais, correspondente aos experimentos considerados individualmente. 6. Defina um espaço amostral para cada um dos seguintes experimentos aleatórios: (a) Lançamento de dois dados; anota-se a configuração obtida. (b) Numa linha de produção conta-se o número de peças defeituosas num intervalo de uma hora. (c) Investigam-se famílias com três crianças, anotando-se a configuração segundo o sexo. (d) Numa entrevista telefônica com 250 assinantes, anota-se se o proprietário tem ou não máquina de secar roupa. (e) Mede-se a duração de lâmpadas, deixando-as acesas até que se queimem. (f) Um fichário com dez nomes contém três nomes de mulheres. Seleciona-se ficha após ficha, até o último nome de mulher ser selecionado, e anota-se o número de fichas selecionadas. (g) Lança-se uma moeda até aparecer cara e anota-se o número de lançamentos. (h) Um relógio mecânico pode parar a qualquer momento por falha técnica. Mede-se o ângulo (em graus) que o ponteiro dos segundos forma com o eixo imaginário orien- tado do centro ao número 12. (i) Mesmo enunciado anterior, mas supondo que o relógio seja elétrico e, portanto, seu ponteiro dos segundos mova-se continuamente. (j) De um grupo de cinco pessoas {A, B, C, D, E}, sorteiam-se duas, uma após outra, com reposição, e anota-se a configuração formada. (l) Mesmo enunciado que (j), sem reposição. (m) Mesmo enunciado que (j), mas as duas selecionadas simultaneamente. (n) De cada família entrevistada numa pesquisa, anotam-se a classe social a que perten- ce (A, B, C, D) e o estado civil do chefe da família. 5.2 Algumas Propriedades Sendo o modelo probabilístico um modelo teórico para as freqüências relativas, de suas propriedades podemos obter algumas das propriedades das probabilidades, que estudaremos a seguir. Como a freqüência relativa é um número entre 0 e 1, temos que 0 < P(A) < 1, (5.2) para qualquer evento A. Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos. O primeiro é denominado evento certo e o segundo, evento impossível, e temos P(Ω) = 1, P(ø) = 0. (5.3) cap05e.p65 21/9/2009, 13:17 106 112 C A P Í T U L O 5 — P R O B A B I L I D A D E S Se A indicar o evento “bola branca na segunda extração”, então P(A) = P(BB) + P(VB) = 2 + 6 = 2 . 20 20 5 Tabela 5.4: Resultados e probabilidades para o experimento do Exemplo 5.10. Resultados Probabilidades BB 2/5 × 1/4 = 2/20 BV 2/5 × 3/4 = 6/20 VB 3/5 × 2/4 = 6/20 VV 3/5 × 2/4 = 6/20 Total 1 Exemplo 5.11. Imagine, agora, que as duas extrações são feitas da mesma urna do exemplo anterior, mas a primeira bola é reposta na urna antes da extração da segun- da. Nessas condições, as extrações são independentes, pois o resultado de uma ex- tração não tem influência no resultado da outra. Obtemos a situação da Figura 5.3 e da Tabela 5.5. Figura 5.3: Diagrama em árvore para a extração de duas bolas de uma urna, com reposição. Tabela 5.5: Resultados e probabilidades para o experimento do Exemplo 5.11. Resultados Probabilidades BB 2/5 × 2/5 = 4/25 BV 2/5 × 3/5 = 6/25 VB 3/5 × 2/5 = 6/25 VV 3/5 × 3/5 = 9/25 Total 1 Observe que, aqui, P(branca na 2a | branca na 1a) = 2/5 = P(branca na 2a), cap05e.p65 21/9/2009, 13:17 112 5 . 4 O T E O R E M A D E B AY E S 119 Então, apenas 10% dos aprovados é que seriam classificados como fracos durante o curso. De modo análogo podemos encontrar P(B|A) = 0,40 e P(M|A) = 0,50, que pode- riam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste. Um gráfico em árvore pode ajudar bastante na solução de um problema envolven- do o Teorema de Bayes. Desse modo, para o Exemplo 5.15, teremos a Figura 5.8 e a Tabela 5.7. Assim, o numerador de P(F|A) está assinalado com um pequeno círculo, ao passo que o denominador é a soma das três parcelas assinaladas com asterisco. Figura 5.8: Diagrama em árvore para o Exemplo 5.15. Tabela 5.7: Resultados e probabilidades para o Exemplo 5.15. Resultados Probabilidades BA (0,25) (0,80) = 0,20 * BR (0,25) (0,20) = 0,05 MA (0,50) (0,50) = 0,25 * MR (0,50) (0,50) = 0,25 FA (0,25) (0,20) = 0,05 * ° FR (0,25) (0,80) = 0,20 O Teorema de Bayes, que aparentemente poderia ser encarado como mais um resulta- do na teoria de probabilidades, tem importância fundamental, pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana. Esse pon- to será abordado brevemente no Capítulo 11. O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades, como já vimos acima. Vejamos mais um exemplo para ilustrar esse ponto. Exemplo 5.16. A administração de um fundo de investimentos em ações pretende divulgar, após o encerramento do pregão, a probabilidade de queda de um índice da bolsa no dia seguinte, baseando-se nas informações disponíveis até aquele momento. Suponha que a previsão inicial seja de 0,10. Após encerrado o pregão, nova infor- mação sugere uma alta do dólar frente ao real. A experiência passada indica que, cap05e.p65 21/9/2009, 13:17 119 5 . 5 P R O B A B I L I D A D E S S U B J E T I V A S 121 23. Uma companhia produz circuitos em três fábricas, I, II e III. A fábrica I produz 40% dos circuitos, enquanto a II e a III produzem 30% cada uma. As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 0,01, 0,04 e 0,03, res- pectivamente. Escolhido um circuito da produção conjunta das três fábricas, qual a pro- babilidade de o mesmo não funcionar? 24. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido ao acaso seja defeituoso. Determine qual a probabilidade de ele ter sido fabricado por I. 25. A urna I contém duas bolas pretas e três brancas, ao passo que a urna II contém três bolas pretas e três brancas. Escolhemos uma urna ao acaso e dela extraímos uma bola que tem cor branca. Se a bola é recolocada na urna, qual é a probabilidade de se retirar novamente uma bola branca da mesma urna? 5.5 Probabilidades Subjetivas Na seção 5.1 vimos como associar probabilidades a eventos. Utilizamos um enfoque chamado freqüentista, pois se baseia na estabilidade das freqüências relativas e no fato de podermos, hipoteticamente, repetir um experimento várias vezes. Mas é óbvio que nem sempre podemos considerar replicações. Suponha que queiramos calcular a proba- bilidade de chover no dia 12 de janeiro do próximo ano, na cidade de São Paulo. Evi- dentemente, se considerarmos o evento A = chover em São Paulo no dia 12 de janeiro do próximo ano, ele não pode ser replicado. O que poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma freqüência relativa. Se tivermos essa informação, ela evidentemente poderá ser usada. Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade. Se ela não tiver informação sobre o tempo em São Paulo, poderá simplesmente dizer que essa pro- babilidade é de 1/2. Por outro lado, uma pessoa vivendo em São Paulo terá informações adicionais. Por exemplo, saberá que normalmente janeiro, fevereiro e março são meses com muita chuva. Esse morador de São Paulo poderá arriscar uma probabilidade, diga- mos de 2/3 para o evento A. Vemos, portanto, que a associação de probabilidades a um evento depende de cada indivíduo, de sua informação a respeito desse evento. Esse tipo de apreciação é particularmente recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis com a próxima. Por exemplo, o fenômeno El Niño pode ter ocorrido com grande intensidade em janeiro de 1999, provocando muita chuva no sudeste do Brasil, e sua intensidade nos anos seguintes talvez seja menor. Respostas a questões como essa envolvem o que chamamos de probabilidade sub- jetiva. Ou seja, cada indivíduo, baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão, pode ter uma resposta para a probabilidade desse evento. A Inferência Bayesiana, de que trataremos brevemente neste livro (veja o Capítulo 11), toma como uma de suas bases o fato de que todas as probabilidades são subjetivas. O Teorema de Bayes tem papel importante nesse tipo de inferência, pois passa a ser visto como um mecanismo de atualização de opiniões. Ou seja, o indivíduo aprende B e passa a ter opinião P(A|B) sobre A. Problemas cap05e.p65 21/9/2009, 13:17 121 5 . 6 P R O B L E M A S E C O M P L E M E N T O S 123 31. Uma companhia de seguros vendeu apólices a cinco pessoas, todas da mesma idade e com boa saúde. De acordo com as tábuas atuariais, a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 2/3. Calcular a probabilidade de que daqui a 30 anos: (a) exatamente duas pessoas estejam vivas; (b) todas as pessoas estejam vivas; e (c) pelo menos três pessoas estejam vivas. (Indique as suposições necessárias para a resolução do problema.) 32. Num teste com duas marcas que lhe são apresentadas em ordem aleatória, um experimentador de vinhos faz três identificações corretas em três tentativas. (a) Qual a probabilidade de isso ocorrer, se na realidade ele não possuir habilidade alguma para distingui-los? (b) E se a probabilidade de distinguir corretamente é de 90% em cada tentativa? 33. Um grupo de 12 homens e 8 mulheres concorre a três prêmios através de um sorteio, sem reposição de seus nomes. Qual a probabilidade de: (a) nenhum homem ser sorteado? (b) um prêmio ser ganho por homem? (c) dois homens serem premiados? 34. Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício. Ele acha que a probabilidade de ganhar a concor- rência da parte elétrica é de 1/2. Caso ele ganhe a parte elétrica, a chance de ganhar a parte de encanamento é de 3/4; caso contrário, essa probabilidade é de 1/3. Qual a proba- bilidade de ele: (a) ganhar os dois contratos? (b) ganhar apenas um? (c) não ganhar nada? 35. Em média, 5% dos produtos vendidos por uma loja são devolvidos. Qual a probabilidade de que, das quatro próximas unidades vendidas desse produto, duas sejam devolvidas? 36. Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independente- mente quando qualquer coisa indesejável ocorrer. Se cada alarme tem probabilidade 0,9 de trabalhar eficientemente, qual é a probabilidade de se ouvir o alarme quando necessário? 37. Em uma fábrica de parafusos, as máquinas A, B e C produzem 25%, 35% e 40% do total, respectivamente. Da produção de cada máquina 5%, 4% e 2%, respectivamente, são parafusos defeituosos. Escolhe-se ao acaso um parafuso e verifica-se que é defeituoso. Qual a probabilidade de que o parafuso venha da máquina A; da B; e da C? 38. Um fabricante afirma que apenas 5% de todas as válvulas que produz têm duração inferior a 20 horas. Uma indústria compra semanalmente um grande lote de válvulas desse fabri- cante, mas sob a seguinte condição: ela aceita o lote se, em dez válvulas escolhidas ao acaso, no máximo uma tiver duração inferior a 20 horas; caso contrário, o lote todo é rejeitado. cap05e.p65 21/9/2009, 13:17 123 124 C A P Í T U L O 5 — P R O B A B I L I D A D E S (a) Se o fabricante de fato tem razão, qual a probabilidade de um lote ser rejeitado? (b) Suponha agora que o fabricante esteja mentindo, isto é, na verdade a proporção de válvulas com duração inferior a 20 horas é de 10%. Qual a probabilidade de um lote ser aceito, segundo o critério acima? 39. Para estudar o comportamento do mercado automobilístico, as marcas foram divididas em três categorias: marca F, marca W, e as demais reunidas como marca X. Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de probabilidade: Proprietário de Probabilidade de mudança para carro da marca W F X W 0,50 0,25 0,25 F 0,15 0,70 0,15 X 0,30 0,30 0,40 A compra do primeiro carro é feita segundo as seguintes probabilidades: marca W com 50%, marca F com 30% e marca X com 20%. (a) Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W? (b) Se o terceiro carro é da marca W, qual a probabilidade de o primeiro também ter sido W? 40. A empresa M & B tem 15.800 empregados, classificados de acordo com a tabela abaixo. Sexo Homens (M) Mulheres (F) Total Idade < 25 anos (A) 2.000 800 2.800 25 – 40 anos (B) 4.500 2.500 7.000 > 40 anos (C) 1.800 4.200 6.000 Total 8.300 7.500 15.800 Se um empregado é selecionado ao acaso, calcular a probabilidade de ser ele: (a) um empregado com 40 anos de idade ou menos; (b) um empregado com 40 anos de idade ou menos, e mulher; (c) um empregado com mais de 40 anos de idade e que seja homem; (d) uma mulher, dado que é um empregado com menos de 25 anos. 41. Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso, com reposição. Qual a probabilidade de que: (a) ambos sejam do sexo masculino; (b) o primeiro tenha menos de 25 anos, e o segundo seja do sexo masculino e tenha menos de 25 anos; (c) nenhum tenha menos de 25 anos. 42. Resolva as questões (a) e (c) do Problema 41, supondo que a amostragem é feita sem reposição. cap05e.p65 21/9/2009, 13:17 124 6.1 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples. Isso facilitou bastante a compreensão do conceito de probabilidade e a obtenção de algumas propriedades. Mas, para atender a situa- ções práticas mais gerais, necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no Capítulo 2. Muito do que foi apresentado naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo teórico. Para as variáveis qualitativas, a descrição de probabilidades associadas a eventos construída no capítulo precedente adapta-se muito bem. Dada a sua simplicidade, trataremos aqui de variáveis quantitativas discretas. Já os modelos para variáveis contínuas necessitarão de um artifício matemático, baseado em uma generalização do conceito de histograma, definido na seção 2.3, e esse será o objetivo do próximo capítulo. A extensão dos modelos para várias variáveis será tratada no Capítulo 8. Por outro lado, quando estudamos a descrição de dados, vimos que os recursos disponíveis para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis qualitativas. Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do primeiro tipo. Por exemplo, considere o caso de um questionário em que uma pessoa é indagada a respeito de uma proposição, e as respostas possíveis são sim ou não. Podemos associar ao problema uma variável que toma dois valores, 1 ou 0, por exemplo, correspondentes às respostas sim ou não, respectivamente. Esse tipo de variável será estudado neste capítulo. O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante, e grande parte do restante deste livro será dedicada à construção desses modelos e inferências sobre seus parâmetros. Essas variáveis, para as quais iremos construir modelos probabilísticos, serão chamadas de variáveis aleatórias (v.a.). Capítulo 6 Variáveis Aleatórias Discretas CAP06d.P65 21/9/2009, 13:22 128 6 . 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 129 6.2 O Conceito de Variável Aleatória Discreta O conceito de v.a. discreta será introduzido por meio de um exemplo. Exemplo 6.1. Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes (A e B), e a montagem consistirá em juntar as duas partes e pintá-las. O produto acabado deve ter o comprimento (definido pelo cilindro) e a espessura (defi- nida pela esfera) dentro de certos limites, e isso só poderá ser verificado após a mon- tagem. Para estudar a viabilidade de seu empreendimento, o empresário quer ter uma idéia da distribuição do lucro por peça montada. Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme sua medida esteja dentro da especificação, maior ou menor que a especificada, respectivamente. Além disso, foram obtidos dos fabricantes o preço de cada compo- nente ($5,00) e as probabilidades de produção de cada componente com as caracterís- ticas bom, longo e curto. Esses valores estão na Tabela 6.1. Se o produto final apresentar algum componente com a característica C (curto), ele será irrecuperável, e o conjunto será vendido como sucata ao preço de $5,00. Cada componente longo poderá ser recuperado a um custo adicional de $5,00. Se o preço de venda de cada unidade for de $25,00, como seria a distribuição de freqüências da variável X: lucro por conjunto montado? Tabela 6.1: Distribuição da produção das fábricas A e B, de acordo com as medidas das peças produzidas. Produto Fábrica A Fábrica B Cilindro Esfera Dentro das especificações ............ bom (B) 0,80 0,70 Maior que as especificações ......... longo (L) 0,10 0,20 Menor que as especificações ........ curto (C) 0,10 0,10 Fonte: Retirada das especificações técnicas das fábricas A e B. A construção dessa distribuição de freqüências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado. Com base nessas suposi- ções, estaremos trabalhando com um modelo da realidade, e a distribuição que obtivermos será uma distribuição teórica, tanto mais próxima da distribuição de freqüências real quanto mais fiéis à realidade forem as suposições. Primeiramente, vejamos a construção do espaço amostral para a montagem dos conjuntos segundo as características de cada componente e suas respectivas probabi- lidades. Como os componentes vêm de fábricas diferentes, vamos supor que a classi- ficação dos cilindros e a da esfera, segundo suas características, sejam eventos inde- pendentes. Obteremos a configuração da Figura 6.1. Uma representação do espaço amostral em questão está apresentada na Tabela 6.2 e foi obtida da Figura 6.1. CAP06d.P65 21/9/2009, 13:22 129 130 C A P Í T U L O 6 — V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Figura 6.1: Diagrama em árvore para o Exemplo 6.1. Tabela 6.2: Distribuição de probabilidade das possíveis composi- ções das montagens. Produto Probabilidade Lucro por montagem (X) BB 0,56 15 BL 0,16 10 BC 0,08 –5 LB 0,07 10 LL 0,02 5 LC 0,01 –5 CB 0,07 –5 CL 0,02 –5 CC 0,01 –5 Fonte: Figura 5.1 e informações no texto. A última coluna da Tabela 6.2 foi construída com base nas informações sobre pre- ços. Por exemplo, obtendo uma montagem LB (cilindro longo e esfera boa), do preço de venda $25,00 devemos descontar: $10,00 dos custos dos componentes e $5,00 para recuperar o cilindro longo. Portanto, o lucro X desse conjunto será $10,00. Verifique os lucros das demais montagens. Com os dados da Tabela 6.2, vemos que X pode assumir um dos seguintes valores: 15, se ocorrer o evento A1 = {BB}; 10, se ocorrer o evento A2 = {BL, LB}; 5, se ocorrer o evento A3 = {LL}; –5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}. Cada um desses eventos tem uma probabilidade associada, ou seja, P(A1) = 0,56, P(A2) = 0,23, P(A3) = 0,02, P(A4) = 0,19, o que nos permite escrever a função (x, p (x)) da Tabela 6.3, que é um modelo teórico para a distribuição da variável X, que o empresário poderá usar para julgar a viabilida- de econômica do projeto que ele pretende realizar. Aqui, x é o valor da v.a. X e p(x) é a probabilidade de X tomar o valor x. Voltaremos a esse problema mais adiante. CAP06d.P65 21/9/2009, 13:22 130 6 . 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 131 Tabela 6.3: Distribuição da v.a. X. x p(x) 15 0,56 10 0,23 05 0,02 –5 0,19 Total 1,00 A função (x, p (x)) é chamada função de probabilidade da v.a. X. Esquematicamente teremos a situação da Figura 6.2. Figura 6.2: Função de probabilidade da v.a. X = lucro por montagem. É evidente que, ao mesmo espaço amostral da Tabela 6.2, podemos associar outras variáveis aleatórias, como veremos a seguir. Exemplo 6.2. Se considerarmos Y como sendo a variável “custo de recuperação de cada conjunto produzido”, verificaremos que Y irá assumir os valores 0, se ocorrer o evento B1 = {BB, BC, LC, CB, CL, CC}; 5, se ocorrer o evento B2 = {BL, LB}; 10, se ocorrer o evento B3 = {LL}. A função de probabilidade da v.a. Y está representada na Tabela 6.4 e a Figura 6.3 representa a situação esquematicamente. Figura 6.3: Função de probabilidade da v.a. Y = custo de recuperação. CAP06d.P65 21/9/2009, 13:22 131 132 C A P Í T U L O 6 — V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Tabela 6.4: Distribuição da v.a. Y. y p(y) 0 0,75 5 0,23 10 0,02 Total 1,00 Deduz-se do exposto que uma v.a. X, do tipo discreto, estará bem caracterizada se indicarmos os possíveis valores x1, x2, ..., xn, ... que ela pode assumir e as respec- tivas probabilidades p(x1), p(x2), ..., p(xn), ..., ou seja, se conhecermos a sua função de probabilidade (x, p(x)). Também usaremos a notação p(x) = P(X = x). Em algumas situações, a determinação da função de probabilidade (f.p.) é bem mais simples. Isso pode ser verificado pelos dois exemplos seguintes. Exemplo 6.3. Voltemos à situação do Exemplo 5.10, em que consideramos duas extra- ções, sem reposição, de uma urna contendo duas bolas brancas e três bolas vermelhas. Definamos a v.a. X: número de bolas vermelhas obtidas nas duas extrações. Obtemos a Tabela 6.5 e a Figura 6.4. Tabela 6.5: Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas. Resultados Probabilidades X BB 1/10 0 BV 3/10 1 VB 3/10 1 VV 3/10 2 Fonte: Figura 6.4. Figura 6.4: Diagrama em árvore para o Exemplo 6.3. Vemos, pois, que a cada resultado do experimento está associado um valor da v.a. X, a saber, 0, 1 ou 2. CAP06d.P65 21/9/2009, 13:22 132 6 . 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 133 Temos que X = 0, com probabilidade 1/10, pois X = 0 se, e somente se, ocorre o resultado BB; X = 1 com probabilidade 3/10 + 3/10 = 6/10, pois X = 1 se, e somente se, ocorrem os resultados BV ou VB, que são mutuamente exclusivos; finalmente, X = 2 com probabilidade 3/10, pois X = 2 se, e somente se, ocorre o resultado VV. Resumidamente, p(0) = P(X = 0) = P(BB) = 1/10, p(1) = P(X = 1) = P(BV ou VB) = 6/10, p(2) = P(X = 2) = P(VV) = 3/10. Na Tabela 6.6 apresentamos a distribuição de probabilidades da v.a. X. Tabela 6.6: Distribuição de probabilidades da v.a. X = número de bolas vermelhas. x p(x) 0 1/10 1 6/10 2 3/10 Fonte: Tabela 6.5. Exemplo 6.4. Retomemos o Exemplo 5.3, em que consideramos o lançamento de uma moeda duas vezes. Definamos a v.a. Y: número de caras obtidas nos dois lançamentos. Temos, então: p(0) = P(Y = 0) = P(RR) = 1/4, p(1) = P(Y = 1) = P(CR ou RC) = 1/4 + 1/4 = 1/2, p(2) = P(Y = 2) = P(CC) = 1/4. Na Tabela 6.7 e Figura 6.5 temos esquematizado o que ocorre e na Tabela 6.8 apresentamos a distribuição de probabilidades de Y. Tabela 6.7: Lançamento de duas moedas. Resultados Probabilidades Y CC 1/4 2 CR 1/4 1 RC 1/4 1 RR 1/4 0 Fonte: Figura 6.5. Figura 6.5: Diagrama em árvore para o Exemplo 6.4. CAP06d.P65 21/9/2009, 13:22 133 140 C A P Í T U L O 6 — V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S 13. Um vendedor de equipamento pesado pode visitar, num dia, um ou dois clientes, com probabilidade de 1/3 ou 2/3, respectivamente. De cada contato, pode resultar a venda de um equipamento por $50.000,00 (com probabilidade 1/10) ou nenhuma venda (com pro- babilidade 9/10). Indicando por Y o valor total de vendas diárias desse vendedor, escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias. 14. Calcule a variância da v.a. Y definida no Problema 13. 15. Obter a f.d.a. para a v.a. V do Problema 11. Faça seu gráfico. 16. Calcule a f.d.a. da v.a. Y do Problema 10 e faça seu gráfico. 17. O tempo T, em minutos, necessário para um operário processar certa peça é uma v.a. com a seguinte distribuição de probabilidade. t 2 3 4 5 6 7 p(t) 0,1 0,1 0,3 0,2 0,2 0,1 (a) Calcule o tempo médio de processamento. Para cada peça processada, o operário ganha um fixo de $2,00, mas, se ele processa a peça em menos de seis minutos, ganha $0,50 em cada minuto poupado. Por exem- plo, se ele processa a peça em quatro minutos, recebe a quantia adicional de $1,00. (b) Encontre a distribuição, a média e a variância da v.a. G: quantia em $ ganha por peça. 18. Sabe-se que a v.a. X assume os valores 1, 2 e 3 e que sua f.d.a. F(x) é tal que F(1) – F(1 –) = 1/3, F(2) – F(2 –) = 1/6, F(3) – F(3 –) = 1/2. Obtenha a distribuição de X, a f.d.a. F(x) e os gráficos respectivos. 19. Obtenha a f.d.a. F(t) da v.a. T do Problema 17. 6.6 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos. Portanto, um estudo pormenorizado dessas variáveis é de grande importân- cia para a construção de modelos probabilísticos para situações reais e a conseqüente estimação de seus parâmetros. Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades, em função de seus parâmetros. Nesta seção iremos estudar alguns desses modelos, procurando enfatizar as condições em que eles aparecem, suas funções de probabilidade, parâmetros e como calcular probabilidades. 6.6.1 Distribuição Uniforme Discreta Este é o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma probabilidade. CAP06d.P65 21/9/2009, 13:22 140 144 C A P Í T U L O 6 — V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S (3’) dez peças são extraídas, ao acaso, com reposição, de um lote contendo 500 peças; qual é a probabilidade de que todas sejam defeituosas, sabendo-se que 10% das peças do lote são defeituosas? (4’) cinco pessoas são escolhidas ao acaso entre 1.000; qual é a probabilidade de que duas sejam do sexo masculino? (5’) sabe-se que 90% das pessoas de uma cidade são favoráveis a um projeto mu- nicipal. Escolhendo-se 100 pessoas ao acaso entre os moradores, qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto? Observe que, nos casos (4’) e (5’), o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamen- te independentes. Exemplo 6.12. Consideremos a situação (1’), supondo que a moeda seja “honesta”, isto é, P(sucesso) = P(cara) = 1/2. Indiquemos o sucesso (cara) por S e fracasso (co- roa), por F. Então, estamos interessados na probabilidade do evento A = {SSF, SFS, FSS}, ou, em termos da notação anterior, na probabilidade de A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}. É claro que P(A) = P(SSF) + P(SFS) + P(FSS) e, devido à independência dos ensaios, P(SSF) = 1 × 1 × 1 = P(SFS) = P(FSS), 2 2 2 e, portanto, P(A) = 3 . 8 Se a probabilidade de sucesso for p, 0 < p < 1, e P(F) = 1 – p = q, então P(SSF ) = p × p × q = p2 × q = P(SFS) = P(FSS), de modo que P(A) = 3p2q. Uma característica interessante dos experimentos considerados é que estamos in- teressados apenas no número total de sucessos e não na ordem em que eles ocorrem. Podemos construir a Tabela 6.12 para n = 3 lançamentos da moeda, com P(S) = p, P(F) = 1 – p = q, a partir da Figura 6.11. CAP06d.P65 21/9/2009, 13:22 144 6.6 ALGUNS MODELOS PROBABILÍSTICOS PARA VARIÁVEIS ALEATÓRIAS DISCRETAS 145 Figura 6.11: Probabilidades binomiais para n = 3 e P(S) = p. Tabela 6.12: Probabilidades binomiais para n = 3 e P(S) = p. Número de sucessos Probabilidades p = 1/2 0 q3 1/8 1 3pq2 3/8 2 3p2q 3/8 3 p3 1/8 Fonte: Figura 6.11. Vamos designar por X o número total de sucessos em n ensaios de Bernoulli, com probabilidade de sucesso p, 0 < p < 1. Os possíveis valores de X são 0, 1, 2, ..., n e os pares (x, p(x)), onde p(x) = P(X = x), constituem a chamada distribuição binomial. Para o exemplo (1’) acima, n = 3 e p = 1/2, obtemos a distribuição dada pela primeira e terceira colunas da Tabela 6.12 e o gráfico da Figura 6.12. Figura 6.12: Gráfico da f.p. p(x) para n = 3 e p = 1/2. CAP06d.P65 21/9/2009, 13:22 145 6 . 1 0 P R O B L E M A S E C O M P L E M E N T O S 157 Quadro 6.2 Probabilidades de Poisson geradas pelo Minitab. MTB > PDF; MTB > CDF; SUBC> Poisson 5.2. SUBC> Poisson 5.2. Probability Density Function Cumulative Distribution Function Poisson with mu = 5.20000 Poisson with mu = 5.20000 x P(X = x) x P(X = x) x P(X <= x) x P(X <= x) 0 0.0055 9 0.0423 0 0.0055 9 0.9603 1 0.0287 10 0.0220 1 0.0342 10 0.9823 2 0.0746 11 0.0104 2 0.1088 11 0.9927 3 0.1293 12 0.0045 3 0.2381 12 0.9972 4 0.1681 13 0.0018 4 0.4061 13 0.9990 5 0.1748 14 0.0007 5 0.5809 14 0.9997 6 0.1515 15 0.0002 6 0.7324 15 0.9999 7 0.1125 16 0.0001 7 0.8449 16 1.0000 8 0.0731 17 0.0000 8 0.9181 Na planilha Excel podem ser usadas funções específicas dentro da categoria Estatís- tica. Por exemplo, para cálculos com a distribuição binomial, usar a função DISTRBINOM; para a distribuição de Poisson, usar a função POISSON. 6.10 Problemas e Complementos 29. Um florista faz estoque de uma flor de curta duração que lhe custa $0,50 e que ele vende a $1,50 no primeiro dia em que a flor está na loja. Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora. Seja X a variável aleatória que denota o número de flores que os fregueses compram em um dia casualmente escolhido. O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo. x 0 1 2 3 p(x) 0,1 0,4 0,3 0,2 Quantas flores deveria o florista ter em estoque a fim de maximizar a média (valor esperado) do seu lucro? 30. As cinco primeiras repetições de um experimento custam $10,00 cada. Todas as repetições subseqüentes custam $5,00 cada. Suponha que o experimento seja repetido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso de uma repetição é igual a 0,9, e se as repetições são independentes, qual é o custo esperado da operação? 31. Na manufatura de certo artigo, é sabido que um entre dez dos artigos é defeituoso. Qual a probabilidade de que uma amostra casual de tamanho quatro contenha: (a) nenhum defeituoso? (b) exatamente um defeituoso? (c) exatamente dois defeituosos? (d) não mais do que dois defeituosos? CAP06d.P65 21/9/2009, 13:22 157 6 . 1 0 P R O B L E M A S E C O M P L E M E N T O S 159 No de acidentes por hora No de horas 0 200 1 152 2 60 3 30 4 13 5 9 6 7 7 5 8 4 (a) Calcule o número médio de acidentes por hora nessa amostra. (b) Se o número de acidentes por hora seguisse uma distribuição de Poisson, com média igual à que você calculou, qual seria o número esperado de dias com 0, 1, 2,... etc. acidentes? (c) Os dados revelam que a suspeita dos operários é verdadeira? 37. Determinado tipo de parafuso é vendido em caixas com 1.000 peças. É uma característica da fabricação produzir 10% com defeito. Normalmente, cada caixa é vendida por $13,50. Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20 peças; se a caixa não tiver parafusos defeituosos, ele paga $20,00; um ou dois defeituo- sos, ele paga $10,00; três ou mais defeituosos, ele paga $8,00. Qual alternativa é a mais vantajosa para o fabricante? Justifique. 38. Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição de Primula Simenses Selvagem. A priori, supomos que esse tipo distribua-se aleatoriamente na região. O quadro abaixo indica o número de quadrados com X Primula Simenses; o número médio de plantas por quadrado foi de 2,2. X plantas No de quadrados por quadrado com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 acima de 8 0 (a) Se as plantas realmente se distribuem aleatoriamente na região, qual a probabilidade de encontrarmos pelo menos duas Primulas? (b) Dê as freqüências esperadas para os valores de X = 0, X = 1 e X = 2. (c) Apenas comparando os resultados de (b) com as freqüências observadas, qual a conclusão a que você chegaria? (d) Quais as causas que você daria para a conclusão? CAP06d.P65 21/9/2009, 13:22 159 7.1 Introdução Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias con- tínuas, ou seja, variáveis para as quais os possíveis valores pertencem a um intervalo de números reais. A definição dada no capítulo anterior, para v.a. discreta, deve ser modificada como segue. Definição. Uma função X, definida sobre o espaço amostral Ω e assumindo valores num intervalo de números reais, é dita uma variável aleatória contínua. No Capítulo 2 vimos alguns exemplos de variáveis contínuas, como o salário de indivíduos, alturas etc. A característica principal de uma v.a. contínua é que, sendo resultado de uma mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado. Por exemplo, quando dizemos que a altura de uma pessoa é 175 cm, estamos medindo sua altura usando cm como unidade de medida e portanto o valor observado é, na realidade, um valor entre 174,5 cm e 175,5 cm. Vejamos um exemplo para motivar a discussão que se segue. Exemplo 7.1. O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante, devido a algum defeito técnico, ou término da bateria, e vamos indicar por X o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII, conforme mostra a Figura 7.1. Tabela 7.1: Distribuição uniforme discreta. x 0° 6° 12° 18° ... 348° 354° p(x) 1/60 1/60 1/60 1/60 ... 1/60 1/60 Capítulo 7 Variáveis Aleatórias Contínuas cap07b.p65 21/9/2009, 13:30 163 8.1 Distribuição Conjunta Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias. Neste capí- tulo, iremos nos concentrar no estudo de um par de variáveis aleatórias, indicando que os conceitos e resultados apresentados estendem-se facilmente a um conjunto finito de variáveis aleatórias. Um tratamento mais completo é dado ao caso de variáveis discretas, nas seções 8.1 a 8.4. Exemplo 8.1. Suponha que estamos interessados em estudar a composição de famílias com três crianças, quanto ao sexo. Definamos: X = número de meninos, ⎧ 1, se o primeiro filho for homem Y = ⎨ ⎩ 0, se o primeiro filho for mulher, Z = número de vezes em que houve variação do sexo entre um nascimento e outro, dentro da mesma família. Com essas informações, e supondo que as possíveis composições tenham a mes- ma probabilidade, obtemos a Tabela 8.1, onde, por exemplo, o evento HMH indica que o primeiro filho é homem, o segundo, mulher e o terceiro, homem. As distribuições de probabilidades das v.a. X, Y e Z podem ser obtidas dessa tabela e são dadas na Tabela 8.2. Capítulo 8 Variáveis Aleatórias Multidimensionais cap08c.P65 21/9/2009, 13:38 203 8 . 1 D I S T R I B U I Ç Ã O C O N J U N T A 205 Aqui, p(x, y, z) = P(X = x, Y = y, Z = z). Vamos nos fixar nas distribuições bidimensionais, isto é, nas distribuições conjuntas de duas variáveis. Nesse caso, uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de duplas entradas, como na Tabela 8.5, onde temos representada a mesma distribuição de X e Y, dada antes na Tabela 8.3. Tabela 8.5: Distribuição conjunta de X e Y, como uma tabela de dupla entrada. Y X 0 1 2 3 p(y) 0 1/8 2/8 1/8 0 1/2 1 0 1/8 2/8 1/8 1/2 p(x) 1/8 3/8 3/8 1/8 1 A representação gráfica de variáveis aleatórias bidimensionais (X, Y) exige gráfi- cos com três eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a probabilidade conjunta p(x, y). A Figura 8.1 representa a distribuição conjunta resumida na Tabela 8.5. A dificuldade em desenhar e interpretar tais gráficos nos leva, muitas vezes, a evitar o uso desse recurso tão valioso. Figura 8.1: Representação gráfica da v.a. (X, Y) da Tabela 8.5. z = p(x, y) 0,375 0,250 0,125 1 y 1 0 2 3 x Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o gráfico de curvas de níveis. Esse é o mesmo recurso utilizado em mapas geográficos sobre relevos, indicando-se por meio de linhas as cotas (alturas) de mes- ma intensidade em uma região. Curvas de níveis podem ser usadas também em mapas meteorológicos, de marés etc. Embora tais mapas sejam usados principalmente para variáveis contínuas, vamos exemplificar abaixo sua construção para os dados da Tabela 8.5. Notamos que existem valores apenas para as probabilidades 0, 1/8, 2/8 e 3/8, e cada um deles define um conjunto de pontos. Por exemplo, correspondendo à probabilidade 1/8 temos o conjunto de pontos (0, 0), (1, 1), (2, 0) e (3, 1). Na Figura 8.2 (b) representamos esses pontos, que corresponderiam à “curva de nível” para a cota 1/8. De modo análogo traçaríamos as demais curvas de níveis. A Figura 8.2 (e), reunindo todos os resultados, seria “equivalente” à Figura 8.1. Assim, os cap08c.P65 21/9/2009, 13:38 205 206 CAPÍTULO 8 — VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS pontos representados por × formariam a curva de nível da cota 1/8; os pontos representados por ° formariam a curva de nível com cota (probabilidade) 2/8, e assim por diante. Esse recurso é mais bem visualizado para variáveis contínuas, como na Figura 8.17. Figura 8.2: Curvas de níveis para a Tabela 8.5. (a) p(x, y) = 0 (b) p(x, y) = 1/8 (c) p(x, y) = 2/8 (d) todas as cotas 8.2 Distribuições Marginais e Condicionais Da Tabela 8.5 podemos obter facilmente as distribuições de X e Y. A primeira e última colunas da tabela dão a distribuição de Y, (y, p(y)), enquanto a primeira e última linhas da tabela dão a distribuição de X, (x, p(x)). Essas distribuições são chamadas distribuições marginais. Observamos, por exemplo, que P(X = 1) = P(X = 1, Y = 0) + P(X = 1, Y = 1) = 2/8 + 1/8 = 3/8 e P(Y = 0) = P(X = 0, Y = 0) + P(X = 1, Y = 0) + P(X = 2, Y = 0) + P(X = 3, Y = 0) = 1/8 + 2/8 + 1/8 + 0 = 1/2. Portanto, para obter as probabilidades marginais basta somar linhas e colunas. Quando estudamos os aspectos descritivos das distribuições com mais de uma variá- vel, vimos que, às vezes, é conveniente calcular proporções em relação a uma linha ou coluna, e não em relação ao total. Isso é equivalente aqui ao conceito de distribuição condicional. Por exemplo, qual seria a distribuição do número de meninos, sabendo-se que o primeiro filho é do sexo masculino? Ou seja, queremos calcular a probabilidade P(X = x|Y = 1). Da definição de probabilidade condicional, obtemos P(X = x|Y = 1) = P(X = x, Y = 1) = p(x|Y = 1), (8.1) P(Y = 1) para x = 0, 1, 2, 3. Pela Tabela 8.5 obtemos, por exemplo, cap08c.P65 21/9/2009, 13:38 206 8 . 3 F U N Ç Õ E S D E V A R I Á V E I S A L E A T Ó R I A S 213 4. No Problema 2, obtenha as distribuições de X + Y e de XY. Calcule E(X + Y), E(XY), Var(X + Y), Var(XY). 5. (a) No Problema 3, calcule E(X + Y) e Var(X + Y). (b) Se Z = aX + bY, calcule a e b de modo que E(Z) = 10 e Var(Z) = 600. 6. Dois tetraedros (dados com quatro faces) com as faces numeradas de um a quatro são lançados e os números das faces voltadas para baixo são anotados. Sejam as v.a.: X: maior dos números observados; Y: menor dos números observados; Z = X + Y. (a) Construa a tabela da distribuição conjunta de X e Y. (b) Determine as médias e as variâncias de X, Y e Z. 7. Numa urna têm-se cinco tiras de papel, numeradas 1, 3, 5, 5, 7. Uma tira é sorteada e recolocada na urna; então, uma segunda tira é sorteada. Sejam X1 e X2 o primeiro e o segundo números sorteados. (a) Determine a distribuição conjunta de X1 e X2. (b) Obtenha as distribuições marginais de X1 e X2. Elas são independentes? (c) Encontre a média e a variância de X1, X2 e ⎯X = (X1 + X2)/2. (d) Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração? 8. Numa urna têm-se cinco bolas marcadas com os seguintes números: –1, 0, 0, 0, 1. Retiram-se três bolas, simultaneamente; X indica a soma dos números extraídos e Y o maior valor da trinca. Calcule: (a) Função de probabilidade de (X, Y). (b) E(X) e Var(X). (c) Var(X + Y). 9. Dada a distribuição conjunta de X e Y abaixo, determine a média e a variância de: (a) X + Y. (b) X Y. Y X 1 2 3 1 5/27 1/27 3/27 2 4/27 3/27 4/27 3 2/27 3/27 2/27 10. Suponha que X e Y tenham a seguinte distribuição conjunta: Y X 1 2 3 1 0,1 0,1 0,0 2 0,1 0,2 0,3 3 0,1 0,1 0,0 Problemas cap08c.P65 21/9/2009, 13:38 213 8 . 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 215 Tabela 8.12: Distribuição conjunta para o Exemplo 8.7. Y X 0 1 2 p(y) 1 3/20 3/20 2/20 8/20 2 1/20 1/20 2/20 4/20 3 4/20 1/20 3/20 8/20 p(x) 8/20 5/20 7/20 1,00 Temos que: E(X ) = 0 × 8 + 1 × 5 + 2 × 7 = 0,95, 20 20 20 E(Y ) = 1 × 8 + 2 × 4 + 3 × 8 = 2,00, 20 20 20 E(XY ) = 0 × 3 + 1 × 3 + 2 × 2 + 0 × 1 + 2 × 1 20 20 20 20 20 + 4 × 2 + 0 × 4 + 3 × 1 + 6 × 3 = 1,90, 20 20 20 20 do que obtemos Cov(X, Y) = 1,90 – (0, 95)(2,00) = 0. Portanto, as v.a. X e Y desse exemplo são não-correlacionadas. Exemplo 8.8. Retomemos o Exemplo 8.3, para o qual vimos que Y e Z são indepen- dentes. É fácil ver que E(Z) = 1 e E(Y) = 1/2. Da Tabela 8.8 obtemos que E(YZ) = 1/2, do que decorre que a covariância entre Y e Z é zero. De modo geral, se X e Y forem independentes, então (8.9) é válida, logo, por (8.14) temos que Cov(X, Y) = 0. Vamos destacar esse fato por meio da Proposição 8.1. Se X e Y são duas variáveis aleatórias independentes, então Cov(X, Y) = 0. Em outras palavras, se X e Y forem independentes, então elas serão não- correlacionadas. A recíproca não é verdadeira, isto é, se tivermos Cov(X, Y) = 0, isso não implica que X e Y sejam independentes. De fato, para as v.a. do Exemplo 8.7, a covariância entre X e Y é zero, mas X e Y não são independentes, como podemos facilmente verificar. Podemos agora demonstrar o Teorema 8.3. (a) Para duas v.a. X e Y quaisquer, temos Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y); (8.15) cap08c.P65 21/9/2009, 13:38 215 218 CAPÍTULO 8 — VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS Na Figura 8.3(a), ao lado dos pontos (1, 0) e (2, 1), colocamos o número 2, para mostrar que esses pares têm probabilidades 2/8, ao passo que os demais têm probabilidades 1/8. Exemplo 8.12. O diagrama de dispersão das v.a. Y e Z do Exemplo 8.2 está ilustrado na Figura 8.4. Lembremos que, nesse caso, Y e Z são independentes. Figura 8.4: Diagrama de dispersão para as v.a. Y e Z do Exemplo 8.2. Exemplo 8.13. Na Figura 8.5 temos o diagrama de dispersão das variáveis X e W do Exemplo 8.10. Observe que, nesse caso, existe uma relação linear perfeita entre as duas variáveis. Figura 8.5: Diagrama de dispersão para as v.a. X e W do Exemplo 8.10. 11. Para as v.a. X e Y do Problema 2 e usando os resultados do Problema 4, calcule Cov(X, Y) e ρ(X, Y). 12. Considere a situação do Problema 10 do Capítulo 6. (a) Obtenha as distribuições de X + Y e |X – Y|. (b) Calcule E(XY), E(X/Y) e E(X + Y). (c) Verifique se X e Y são independentes. Problemas cap08c.P65 21/9/2009, 13:38 218 8 . 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 219 (d) Verifique se E(XY) = E(X) E(Y). O que você pode concluir? (e) Verifique se E(X/Y) = E(X)/E(Y). (f) Calcule Var(X + Y). É verdade que Var(X + Y) = Var(X) + Var(Y)? 13. Sejam X e Y com a distribuição conjunta da tabela abaixo. Mostre que Cov(X, Y) = 0, mas X e Y não são independentes. Y X –1 0 1 –1 0 1/4 0 0 1/4 0 1/4 1 0 1/4 0 14. Lançam-se dois dados perfeitos. X indica o número obtido no primeiro dado e Y o maior ou o número comum nos dois dados. (a) Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y. (b) As duas variáveis são independentes? Por quê? (c) Calcule as esperanças e variâncias de X e Y. (d) Calcule a covariância entre X e Y. (e) Calcule E(X + Y). (f) Calcule Var(X + Y). 15. Uma moeda perfeita é lançada três vezes. Sejam: X: número de caras nos dois primeiros lançamentos; Y: número de caras no terceiro lançamento; e S: número total de caras. (a) Usando a distribuição conjunta de (X, Y), verifique se X e Y são independentes. Qual é a covariância entre elas? (b) Calcule a média e a variância das três variáveis definidas. (c) Existe alguma relação entre os parâmetros encontrados em (b)? Por quê? 16. Depois de um tratamento, seis operários submeteram-se a um teste e, mais tarde, mediu-se a produtividade de cada um deles. A partir dos resultados apresentados na tabela ao lado, calcule o coeficiente de correlação entre a nota do teste e a produtividade. Operário Teste Produtividade 1 9 22 2 17 34 3 20 29 4 19 33 5 20 42 6 23 32 17. O exemplo a seguir ilustra que ρ = 0 não implica independência. Suponha que (X, Y) tenha distribuição conjunta dada pela tabela abaixo. (a) Mostre que E(XY) = E(X) E(Y), donde ρ = 0. (b) Justifique por que X e Y não são independentes. cap08c.P65 21/9/2009, 13:38 219 9 . 1 I N T R O D U Ç Ã O 235 9.1 Introdução Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples, que são úteis para representar situações reais, ou então para descrever um experimento aleató- rio. Notamos, também, que se especificarmos um espaço amostral e probabilidades asso- ciadas aos pontos desse espaço, o modelo probabilístico ficará completamente determinado e poderemos, então, calcular a probabilidade de qualquer evento aleatório de interesse. Muitas vezes, mesmo construindo um modelo probabilístico, certas questões não podem ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproxi- mações de quantidades de interesse. De modo bastante amplo, estudos de simulação tentam reproduzir num ambiente controlado o que se passa com um problema real. Para nossos propósitos, a solução de um problema real consistirá na simulação de variáveis aleatórias. A simulação de variáveis aleatórias deu origem aos chamados métodos Monte Carlo (MMC), que, por sua vez, supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis. Um número aleatório (NA) representa o valor de uma variável aleatória uni- formemente distribuída no intervalo (0, 1). Originalmente, esses números aleatórios eram gerados manualmente ou mecanicamente, usando dados, roletas etc. Modernamente, usa- mos computadores para gerar números que na realidade são pseudo-aleatórios. Para nossos propósitos, uma simulação pode ser entendida como uma particular realização do modelo (binomial, normal etc). Nesse sentido, os valores simulados po- dem ser considerados como uma amostra, como veremos nos capítulos seguintes. Esse entendimento será útil para estudar as distribuições de estimadores e suas propriedades. O nome Monte Carlo está relacionado com a cidade de mesmo nome, no Principado de Mônaco, principalmente devido à roleta, que é um mecanismo simples para gerar números aleatórios. Os MMC apareceram durante a Segunda Guerra Mundial, em pesquisas relacio- nadas à difusão aleatória de neutrons num material radioativo. Os trabalhos pioneiros de- vem-se a Ulam, Metropolis, Fermi e von Neumann, por volta de 1948-1949. Alguns traba- lhos que podem ser consultados são os artigos de Metropolis e Ulam (1949) e von Neumann (1951) e os livros de Sóbol (1976), Hammersley e Handscomb (1964) e Ross (1997). Capítulo 9 Noções de Simulação cap09c.p65 21/9/2009, 13:43 235 236 C A P Í T U L O 9 — N O Ç Õ E S D E S I M U L A Ç Ã O Para ilustrar, suponha que se queira calcular a área da figura F contida no quadrado Q de lado unitário (Figura 9.1). Suponha que sejamos capazes de gerar pontos aleatórios em Q, de modo homogêneo, isto é, de modo a cobrir toda a área do quadrado, ou, ainda, que esses pontos sejam uniformemente distribuídos sobre Q. Se gerarmos N pontos, suponha que N’ desses caiam em F. Então, poderemos aproximar a área de F por N’/N. No caso da figura, uma estimativa da área é 24/200, pois geramos 200 pontos em Q e 24 estão dentro de F. Quanto mais pontos gerarmos, melhor será a aproximação. Note que o problema em si não tem nenhuma componente aleatória: queremos calcular a área de uma figura plana. Mas, para resolver o problema, uma possível maneira foi considerar um mecanismo aleatório. Esse procedimento pode ser utilizado em muitas situações. Vejamos algumas maneiras de obter um número aleatório. Figura 9.1: Área de uma figura por simulação. Exemplo 9.1. Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer coroa. Os resultados possíveis são as seqüências ou números binários abaixo: 000, 001, 010, 011, 100, 101, 110, 111. Cada um desses números binários corresponde a um número decimal. Por exem- plo, (111)2 = (7)10, pois (111)2 = 1 × 22 + 1 × 21 + 1 × 20 (o índice indica a base em que o número está sendo expresso). Veja Morettin et alli (2005). Considere a representação decimal de cada seqüência acima e divida o resultado por 23 – 1 = 7. Obteremos os números aleatórios 0, 1/7, 2/7, ..., 1. Observe que você poderá, eventualmente, consi- derar a seqüência 111 “menos aleatória” do que 010, digamos. Mas qualquer uma das oito seqüências anteriores tem a mesma probabilidade, a saber, 1/23 = 1/8. Suponha, agora, que você lance a moeda dez vezes. Teremos números binários com dez dígitos, e cada um terá probabilidade 1/210 = 1/1024. Assim, a seqüência 1 1 1 1 1 1 1 1 1 1, cap09c.p65 21/9/2009, 13:43 236 9 . 1 I N T R O D U Ç Ã O 237 formada por “dez uns”, parece “menos aleatória” do que a seqüência 1 0 1 0 1 0 1 0 1 0, formada por “cinco pares de dez”, que por sua vez parece “menos aleatória” do que a seqüência 0 1 1 0 1 1 1 0 0 1, que requer uma descrição mais elaborada. No entanto, todas elas têm a mesma proba- bilidade de ocorrer no experimento acima. Intuitivamente, a aleatoriedade de uma seqüência está ligada à dificuldade de descrevê-la em palavras, como fizemos acima. Para esse caso de dez lançamentos, procederíamos como no caso de três lança- mentos, dividindo os 1.024 números decimais obtidos por 210 – 1 = 1.023, para obter 1.024 NA entre 0 e 1. De modo geral, lançando-se a moeda n vezes, teremos 2n possi- bilidades e os NA finais são obtidos por meio de divisão por 2n – 1. Exemplo 9.2. Números aleatórios também podem ser gerados usando-se uma roleta como a da Figura 9.2, com dez setores numerados 0, 1, 2, ..., 9. Gire a roleta dez vezes e anote os números obtidos numa coluna. Faça a mesma coisa mais duas vezes, de modo a obter algo como: Figura 9.2: Roleta com dez setores. 6 1 0 9 4 4 5 0 4 5 1 0 2 5 4 6 3 9 1 2 9 3 8 0 2 2 6 0 7 9 Agora, divida cada número em cada linha por 1.000, para obter os NA 0,610; 0,944; 0,504; 0,510; 0,254; 0,639; 0,129; 0,380; 0,226; 0,079. Para obter NA com quatro casas decimais, basta girar a roleta quatro vezes. Na realidade, os números acima foram obtidos de uma tabela de números aleatórios, como aquela da Tabela VII. No exemplo, iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez dígitos cada. Tabelas de números ale- atórios são construídas por meio de mecanismos como o que descrevemos. O pro- blema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de números aleatórios, da ordem de 1.000 ou 10.000. O procedimento de simulação manual, usando uma tabela de números aleatórios, pode se tornar muito trabalhoso ou mesmo impraticável. cap09c.p65 21/9/2009, 13:43 237 238 C A P Í T U L O 9 — N O Ç Õ E S D E S I M U L A Ç Ã O A solução alternativa é substituir a simulação manual por simulação por meio de computadores, utilizando números pseudo-aleatórios, em vez de números aleatórios. Os números pseudo-aleatórios (NPA) são obtidos por meio de técnicas que usam relações matemáticas recursivas determinísticas. Logo, um NPA gerado numa iteração dependerá do número gerado na iteração anterior e, portanto, não será realmente aleató- rio, originando o nome pseudo-aleatório. Há vários métodos para gerar NPA. Um dos primeiros, formulado pelo matemático John von Neumann, é chamado o método de quadrados centrais (veja o Problema 18). Um método bastante utilizado em pacotes computacionais é o método congruencial, discutido nos Problemas 1 e 2. Os diversos pacotes aplicativos, estatísticos ou não, utilizam métodos como o congruencial para implementar sub-rotinas de geração de NPA. Como exemplos de pa- cotes, citamos o NAG (Numerical Algorithm Group), atualmente incorporado ao pacote MATLAB, e o IMSL. O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA. Exemplo 9.3. Temos no Quadro 9.1 um exemplo de geração de dez NA. O comando “Random 10 C1” seguido de “Uniform 0,1” pede para gerar dez NA e guardá-los na coluna C1. Quadro 9.1: Geração de números aleatórios. Minitab. MTB > RANDOM 10 C1; SUBC > UNIFORM (0, 1). C1 1 0.590042 2 0.859332 3 0.021023 4 0.340748 5 0.673675 6 0.558276 7 0.911412 8 0.775391 9 0.867138 10 0.865328 O pacote SPlus usa o comando runif(n, min, max), onde n é o número de valores a gerar e (min, max) é o intervalo no qual se quer gerar os NPA. No nosso caso, min = 0 e max = 1. Exemplo 9.4. O comando “u < – runif(10,0,1)” pede para gerar dez NA e guardá-los no vetor u. O comando “u” imprime os dez valores. Veja o Quadro 9.2. cap09c.p65 21/9/2009, 13:43 238 9 . 1 I N T R O D U Ç Ã O 239 Quadro 9.2: Geração de números aleatórios. SPlus. > u <– runif (10, 0, 1) > u [1] 0.6931500 0.8586156 0.1494293 0.2947197 0.3474523 0.7571899 0.3016043 0.3051952 [9] 0.9135144 0.7996542 A planilha Excel usa a função ALEATÓRIO() para gerar NA, ou então “Geração de números aleatórios”, escolhendo a opção “Análise de Dados” do menu “Ferramentas”. Exemplo 9.5. O Quadro 9.3 mostra, na coluna A, o resultado de gerar 20 NA usando o Excel. Foi utilizada a opção Uniforme (0,1). Quadro 9.3: Geração de números aleatórios. Excel. A B C D E F G 1 0.382 0 5 1 0.77423 1 2 2 0.100681 1 4 1 0.91015 2 9 3 0.596484 1 3 0 –0.12675 3 10 4 0.899106 1 4 4 –1.43943 4 6 5 0.88461 1 6 0 1.192723 5 7 6 0.958464 1 5 1 –0.89864 6 7 0.014496 0 6 1 –0.64207 7 8 0.407422 1 6 0 –1.16122 8 9 0.863247 0 3 0 0.47886 9 10 0.138585 1 5 3 0.832001 10 11 0.245033 1 1 1.001472 12 0.045473 0 0 0.61513 13 0.03238 0 2 1.896733 14 0.164129 1 3 –1.25248 15 0.219611 0 1 1.308572 16 0.01709 2 –1,28498 17 0.285043 1 0.357816 18 0.343089 0 –0.1679 19 0.553636 2 1.580393 20 0.357372 1 0.994548 1. Vejamos o significado da expressão x mod m, na qual x e m são inteiros não-negativos. O resultado de tal operação é o resto da divisão de x por m. Ou seja, se x = mq + r, então x mod m = -z r. Por exemplo, 13 mod 4 = 1. Encontre 18 mod 5 e 360 mod 100. 2. O método congruencial. No chamado método congruencial multiplicativo de gerar NPA, come- çamos com um valor inicial n0, chamado semente, e geramos sucessivos valores n1, n2, ... por meio da relação Problemas cap09c.p65 21/9/2009, 13:43 239 9 . 4 E X E M P L O S C O M P U T A C I O N A I S 249 Figura 9.8: Histogramas de distribuições simuladas no Exemplo 9.14. SPlus. Tabela 9.2: Opções de Distribuições Contínuas. Distribuição Excel (Par.) Minitab (Par.) SPlus (Par.) Normal Normal (0, 1) Normal (μ, σ) norm (μ, σ) Exponencial — Exponential (β) exp (β) t (Student) — T (ν) t (ν) F (Snedecor) — F (ν1, ν2) f (ν1, ν2) Gama — Gamma (α, β) gamma (α, β) Qui-Quadrado — Chisquare (ν) chisq (ν) beta — Beta(α, β) beta (α, β) Vejamos, agora, alguns exemplos para v.a.’s contínuas. Exemplo 9.15. Usando o pacote Minitab, geramos: (a) 10 valores de uma N(0, 1); (b) 20 valores de uma Exp(2); (c) 15 valores de uma χ2(5). Os comandos e respectivos valores simulados estão mostrados no Quadro 9.7. cap09c.p65 21/9/2009, 13:43 249 9 . 4 E X E M P L O S C O M P U T A C I O N A I S 251 Figura 9.9: Histogramas de algumas distribuições geradas no Exemplo 9.16. Na planilha Excel a normal pode ser gerada por meio da “opção normal” no menu “Ferramentas (Análise de Dados (Geração de números aleatórios))” ou pela função ALEATÓRIO( ) e a fórmula = INV. NORM (ALEATÓRIO( ), μ, σ). Exemplo 9.17. A coluna E do Quadro 9.3 traz 20 valores gerados de uma N(0, 1) usando a ferramenta GNA. cap09c.p65 21/9/2009, 13:43 251 9 . 5 P R O B L E M A S E C O M P L E M E N T O S 257 33. A altura X das pessoas segue aproximadamente uma curva normal com média μ e variância σ 2. (a) Proponha dois valores realísticos para μ e σ, e gere 10 alturas de uma população de homens. Calcule a média e o desvio padrão desta população. (b) Com os mesmos parâmetros gere uma outra amostra de 10 alturas. Olhando e ana- lisando as duas amostras elas parecem vir de populações distintas? (c) Gere uma amostra de 10 alturas de uma população feminina. Compare com a amostra obtida em (a), e diga se é possível afirmar que as duas amostras vêm de populações distintas. (d) Como você acha que os parâmetros influenciam para diferenciar bem as amostras? Dê exemplos. cap09c.p65 21/9/2009, 13:43 257 Parte 3 Parte 3 Capítulo 10 261 Introdução à Inferência Estatística Capítulo 11 296 Estimação Capítulo 12 330 Testes de Hipóteses Capítulo 13 361 Inferência para Duas Populações Capítulo 14 399 Análise de Aderência e Associação Capítulo 15 420 Inferência para Várias Populações Capítulo 16 449 Regressão Linear Simples I N F E R Ê N C I A E S T A T Í S T I C A cap10d.p65 21/9/2009, 13:49 259 10.1 Introdução Vimos, na Parte 1, como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados. Na Parte 2, construímos modelos teóricos (probabilísticos), identifica- dos por parâmetros, capazes de representar adequadamente o comportamento de algumas variáveis. Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirma- ções sobre as características de uma população, com base em informações dadas por amostras. O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas. Basta observar como uma cozinheira verifica se o prato que ela está preparando tem ou não a quantidade adequada de sal. Ou, ainda, quando um comprador, após experimentar um pedaço de laranja numa banca de feira, decide se vai comprar ou não as laranjas. Essas são decisões baseadas em procedimentos amostrais. Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios intuitivos do dia-a-dia para que possam ser utilizados cientificamente em situações mais complexas. 10.2 População e Amostra Nos capítulos anteriores, tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocor- rências: as distribuições de probabilidades de variáveis aleatórias (qualitativas ou quan- titativas). Na prática, freqüentemente o pesquisador tem alguma idéia sobre a forma da distribuição, mas não dos valores exatos dos parâmetros que a especificam. Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adul- tos possa ser representada por um modelo normal (embora as alturas não possam assumir valores negativos). Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente; precisaríamos conhecer os parâmetros (média e variância) des- sa normal para que ela ficasse completamente especificada. O propósito do pesquisador seria, então, descobrir (estimar) os parâmetros da distribuição para sua posterior utilização. Capítulo 10 Introdução à Inferência Estatística cap10d.p65 21/9/2009, 13:49 261 1 0 . 2 P O P U L A Ç Ã O E A M O S T R A 263 salários na amostra, e esperamos que esta reflita a distribuição de todos os salários, desde que a amostra tenha sido escolhida com cuidado. Exemplo 10.2. Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental. Uma amostra de 200 pessoas é sorteada, e a opinião de cada uma é registrada como sendo a favor ou contra o projeto. A população consiste de todos os moradores da cidade, e a amostra é formada pelas 200 pessoas selecionadas. Podemos, como foi visto no Capítulo 5, definir a variável X, que toma o valor 1, se a resposta de um morador for favorável, e o valor 0, se a resposta for contrária ao projeto. Assim, nossa população pode ser reduzida à distribuição de X, e a amostra será constituída de uma seqüência de 200 zeros e uns. Exemplo 10.3. O interesse é investigar a duração de vida de um novo tipo de lâmpada, pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente. Então, 100 lâmpadas do novo tipo são deixadas acesas até queimarem. A duração em horas de cada lâmpada é registrada. Aqui, a variável é a duração em horas de cada lâmpada. A população é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa, com o mesmo processo. A amostra é formada pelas 100 lâmpadas selecionadas. Note-se que nesse caso não podemos observar a população, ou seja, a distribuição da duração de vida das lâmpadas na população, pois isso corresponderia a queimar todas as lâmpadas. Assim, em alguns casos, não podemos observar a popula- ção toda, pois isso significaria danificar (ou destruir) todos os elementos da população. Esse problema geralmente é contornado atribuindo-se um modelo teórico para a distri- buição da variável populacional. Exemplo 10.4. Em alguns casos, fazemos suposições mais precisas sobre a população (ou sobre a variável definida para os elementos da população). Digamos que X represen- te o peso real de pacotes de café, enchidos automaticamente por uma máquina. Sabe-se que a distribuição de X pode ser representada por uma normal, com parâmetros μ e σ 2 desconhecidos. Sorteamos 100 pacotes e medimos seus pesos. A população será o con- junto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina, e que pode ser suposta como normal. A amostra será formada pelas 100 medidas obtidas dos pacotes selecionados, que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal. Veremos mais adiante como tal amostra pode ser obtida. Exemplo 10.5. Para investigar a “honestidade” de uma moeda, nós a lançamos 50 vezes e contamos o número de caras observadas. A população, como no caso do Exemplo 10.2, pode ser considerada como tendo a distribuição da variável X, assumindo o valor 1, com probabilidade p, se ocorrer cara, e assumindo o valor 0, com probabilidade 1 – p, se ocorrer coroa. Ou seja, a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p. A variável ficará completamente especificada quando co- nhecermos p. A amostra será uma seqüência de 50 números zeros ou uns. cap10d.p65 21/9/2009, 13:49 263 1 0 . 4 C O M O S E L E C I O N A R U M A A M O S T R A 267 10.4 Como Selecionar uma Amostra As observações contidas em uma amostra são tanto mais informativas sobre a popula- ção quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. Por exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma idéia geral da quantidade dos glóbulos brancos no corpo todo, pois sabe-se que a distribuição dos glóbulos brancos é homogê- nea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”. Mas nem sempre a escolha de uma amostra adequada é imediata. Por exemplo, voltando ao Exemplo 10.2, para o qual queríamos obter uma amostra de habitantes para saber a opi- nião sobre um projeto governamental, escolhendo intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo projeto, saberemos de antemão que o resultado conterá um viés de seleção. Isto é, na amostra, a proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo, donde a importância da adoção de procedimentos científicos que permitam fazer inferências adequadas sobre a população. A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo, que esses procedimentos constituem especialidades dentro da Estatística, sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas. Poderíamos dividir os procedi- mentos científicos de obtenção de dados amostrais em três grandes grupos: (a) Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida, por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda, subdividi-los em dois subgrupos: levantamentos probabilísticos e não-probabilísticos. O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estão os demais procedimentos, tais como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novos medi- camentos e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida, baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo. Estão nessa situação os Exemplos 10.1 (conhecer os salários da Cia. MB), 10.2 (identificar a proporção de indivíduos favoráveis ao projeto), 10.4 (pesos dos pacotes de café) etc. (b)Planejamento de Experimentos, cujo principal objetivo é o de analisar o efeito de uma variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em estudo (população), bem como o controle de fatores externos, com o intuito de medir o efeito desejado. Podemos citar como exemplos aquele já citado sobre a altura de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 10.6. Em ensaios clínicos em medicina, esse tipo de estudo é bastante usado, como por exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença. (c) Levantamentos Observacionais: aqui, os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis cap10d.p65 21/9/2009, 13:49 267 268 CAPÍTULO 10 — INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA erros grosseiros. As séries de dados temporais são exemplos típicos desses levanta- mentos. Por exemplo, queremos prever as vendas de uma empresa em função de ven- das passadas. O pesquisador não pode selecionar dados, esses são as vendas efetiva- mente ocorridas. Nesses casos, a especificação de um modelo desempenha um papel crucial na ligação entre dados e população. No caso de uma série temporal, o modelo subjacente é o de processo estocástico; pode- mos pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse processo. A população hipotética aqui seria o conjunto de todas essas realizações, e a série observada seria a amostra. Veja Morettin e Toloi (2006) para mais informações. Neste livro iremos nos concentrar principalmente em levantamentos amostrais e, mais ainda, num caso simples de amostragem probabilística, a amostragem aleatória simples, com reposição, a ser designada por AAS. O leitor poderá consultar Bussab e Bolfarine (2005) para obter mais detalhes sobre outros procedimentos amostrais. Um breve resumo sobre alguns planos é dado no Problema 37. Noções sobre planejamento de experimentos podem ser vistas em Peres e Saldiva (1982). 1. Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais: (a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 7h30, decidiu-se entrevistar os 30 primeiros ope- rários que chegassem à fábrica na quarta-feira. (b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários. (c) Para estimar a porcentagem média da receita municipal investida em lazer, enviaram- se questionários a todas as prefeituras, e a amostra foi formada pelas prefeituras que enviaram as respostas. (d) Para verificar o fato de oferecer brindes nas vendas de sabão em pó, tomaram-se quatro supermercados na zona sul e quatro na zona norte de uma cidade. Nas quatro lojas da zona sul, o produto era vendido com brinde, enquanto nas outras quatro era vendido sem brinde. No fim do mês, compararam-se as vendas da zona sul com as da zona norte. 2. Refazer o Problema 7 do Capítulo 8. 10.5 Amostragem Aleatória Simples A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amos- tra probabilística de uma população. Além disso, o conhecimento adquirido com esse procedimento servirá de base para o aprendizado e desenvolvimento de outros procedi- mentos amostrais, planejamento de experimentos, estudos observacionais etc. Comece- mos introduzindo o conceito de AAS de uma população finita, para a qual temos uma listagem de todas as N unidades elementares. Podemos obter uma amostra nessas condi- ções, escrevendo cada elemento da população num cartão, misturando-os numa urna e sorteando tantos cartões quantos desejarmos na amostra. Esse procedimento torna-se inviável quando a população é muito grande. Nesse caso, usa-se um processo alternativo, Problemas cap10d.p65 21/9/2009, 13:49 268 1 0 . 5 A M O S T R A G E M A L E A T Ó R I A S I M P L E S 269 no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios (veja a sua utilização em Problemas e Complementos) ou por meio do uso de computadores, que podem gerar números aleatórios (veja o Capítulo 9). Utilizando-se um procedimento aleatório, sorteia-se um elemento da população, sendo que todos os elementos têm a mesma probabilidade de ser selecionados. Repe- te-se o procedimento até que sejam sorteadas as n unidades da amostra. Podemos ter uma AAS com reposição, se for permitido que uma unidade possa ser sorteada mais de uma vez, e sem reposição, se a unidade sorteada for removida da população. Do ponto de vista da quantidade de informação contida na amostra, amostrar sem reposição é mais adequado. Contudo, a amostragem com reposição conduz a um tra- tamento teórico mais simples, pois ela implica que tenhamos independência entre as unidades selecionadas. Essa independência facilita o desenvolvimento das proprieda- des dos estimadores que serão considerados. Portanto, para o restante do livro, o plano amostral considerado será o de amostragem aleatória simples com reposição, que denotaremos simplesmente por AAS. Vejamos com algum detalhe o significado mais preciso de uma amostra. Exemplo 10.7. Considere o Problema 2 acima, em que colhemos todas as amostras possí- veis de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. Defina a variável X: valor assumido pelo elemento na população. Então, a distribuição de X é dada pela Tabela 10.1. Tabela 10.1: Distribuição da v.a. X para o Problema 2. x 1 3 5 7 P(X = x) 1/5 1/5 2/5 1/5 Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração, vimos que era possível escrever a distribuição con- junta do par (X1, X2). Veja também a Tabela 10.2. Além disso, as distribuições margi- nais de X1 e X2 são independentes e iguais à distribuição de X. Desse modo, cada uma das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população corresponde a observar uma particular realização da v.a. (X1, X2), com X1 e X2 indepen- dentes e P(X1 = x) = P(X2 = x) = P(X = x), para todo x. Essa é a caracterização de amostra casual simples que iremos usar neste livro. Definição. Uma amostra aleatória simples de tamanho n de uma variável aleatória X, com dada distribuição, é o conjunto de n variáveis aleatórias independentes X1, X2, ..., Xn, cada uma com a mesma distribuição de X. Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn), onde Xi indica a observação do i-ésimo elemento sorteado. cap10d.p65 21/9/2009, 13:49 269 274 CAPÍTULO 10 — INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distri- buição amostral de uma estatística. Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T. É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral, em nosso caso reduzido a AAS. Exemplo 10.9. Voltemos ao Exemplo 10.7, no qual selecionamos todas as amostras de tamanho 2, com reposição, da população {1, 3, 5, 5, 7}. A distribuição conjunta da variável bidimensional (X1, X2) é dada na Tabela 10.2. Vejamos qual é a distribuição da estatística ⎯X = X1 + X2 . (10.1) 2 Essa distribuição é obtida por meio da Tabela 10.2. Por exemplo, quando a amos- tra selecionada é o par (1, 1), a média será 1; então, temos que P(⎯X = 1) = 1/25. Obte- remos a média igual a 3 quando ocorrer o evento A = {(1, 5),(3, 3),(5, 1)}, logo P(⎯X = 3) = P(A) = 2 + 1 + 2 + 5 = 1 . 25 25 25 25 5 Tabela 10.2: Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da população {1, 3, 5, 5, 7}. X2 X1 1 3 5 7 Total 1 1/25 1/25 2/25 1/25 1/5 3 1/25 1/25 2/25 1/25 1/5 5 2/25 2/25 4/25 2/25 2/5 7 1/25 1/25 2/25 1/25 1/5 Total 1/5 1/5 2/5 1/5 1 Procedendo de maneira análoga para os demais valores que⎯X pode assumir, obtemos a Tabela 10.3, que dá a distribuição da v.a.⎯X. Na Figura 10.2 temos as distribuições de X e de⎯X. Tabela 10.3: Distribuição amostral da estatística⎯X. ⎯x 1 2 3 4 5 6 7 Total P(⎯X =⎯x) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1,00 cap10d.p65 21/9/2009, 13:49 274 278 CAPÍTULO 10 — INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Teorema 10.1. Seja X uma v.a. com média μ e variância σ 2, e seja (X1, ..., Xn) uma AAS de X. Então, E(⎯X) = μ e Var(⎯X) = σ 2 . n Prova. Pelas propriedades vistas no Capítulo 8, temos: E(⎯X) = (1/n) {E(X1) + ... + E(Xn)} = (1/n) {μ + μ + ... + μ} = nμ/n = μ. De modo análogo, e pelo fato de X1, ..., Xn serem independentes, temos Var(⎯X) = (1/n2) {Var(X1) + ... + Var(Xn)} = (1/n2) {σ 2 + ... + σ 2} = nσ 2/n2 = σ 2/n. Determinamos, então, a média e a variância da distribuição amostral de⎯X. Veja- mos, agora, como obter informação sobre a forma da distribuição dessa estatística. Exemplo 10.10. (continuação) Para a população {1, 3, 5, 5, 7}, vamos construir os histogramas das distribuições de⎯X para n = 1, 2 e 3. (i) Para n = 1, vemos que a distribuição de⎯X coincide com a distribuição de X, com E(⎯X) = E(X) = 4,2 e Var(⎯X) = Var(X) = 4,16 (Figura 10.4(a)). Figura 10.4: Distribuição de⎯X para amostras de {1, 3, 5, 5, 7}. cap10d.p65 21/9/2009, 13:49 278 1 0 . 8 D I S T R I B U I Ç Ã O A M O S T R A L D A M É D I A 279 (ii) Para n = 2, baseados na Tabela 10.3, temos a distribuição de⎯X dada na Figura 10.4(b), com E(⎯X) = 4,2 e Var(⎯X) = 2,08. (iii) Finalmente, para n = 3, com os dados da Tabela 10.6, temos a distribuição de⎯X na Figura 10.4 (c), com E(⎯X) = 4,2 e Var(⎯X) = 1,39. Observe que, conforme n vai aumentando, o histograma tende a se concentrar cada vez mais em torno de E(⎯X) = E(X) = 4,2, já que a variância vai diminuindo. Os casos extremos passam a ter pequena probabilidade de ocorrência. Quando n for suficiente- mente grande, o histograma alisado aproxima-se de uma distribuição normal. Essa apro- ximação pode ser verificada analisando-se os gráficos da Figura 10.5, que mostram o comportamento do histograma de⎯X para várias formas da distribuição da população e vários valores do tamanho da amostra n. Esses exemplos sugerem que, quando o tamanho da amostra aumenta, indepen- dentemente da forma da distribuição da população, a distribuição amostral de⎯X apro- xima-se cada vez mais de uma distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido como Teorema Limite Central (TLC). Figura 10.5: Histogramas correspondentes às distribuições amostrais de⎯X para amostras extraídas de algumas populações. Teorema 10.2. (TLC) Para amostras aleatórias simples (X1, ..., Xn), retiradas de uma população com média μ e variância σ 2 finita, a distribuição amostral da média⎯X apro- xima-se, para n grande, de uma distribuição normal, com média μ e variância σ 2/n. cap10d.p65 21/9/2009, 13:49 279 284 CAPÍTULO 10 — INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA que difere de S2 apenas no denominador, e que foi estudado no Capítulo 3. Desta tabela, obtemos as distribuições amostrais apresentadas nas Tabelas 10.7, 10.8 e 10.9. Tabela 10.6: Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n = 3, retiradas da população {1, 3, 5, 5, 7} (μ = 4,2, σ 2 = 4,16 e Md = 5). Tipo de Freqüência Soma Soma dos Média Mediana Variância amostra (prob. × 125) quadrados ⎯x md s2 σ2 111 1 3 3 1,00 1 0 0 113 3 5 11 1,67 1 4/3 8/9 115 6 7 27 2,33 1 16/3 32/9 117 3 9 51 3,00 1 12 8 133 3 7 19 2,33 3 4/3 8/9 135 12 9 35 3,00 3 4 8/3 137 6 11 59 3,67 3 28/3 56/9 155 12 11 51 3,67 5 16/3 32/9 157 12 13 75 4,33 5 28/3 56/9 177 3 15 99 5,00 7 12 8 333 1 9 27 3,00 3 0 0 335 6 11 43 3,67 3 4/3 8/9 337 3 13 67 4,33 3 16/3 32/9 355 12 13 59 4,33 5 4/3 8/9 357 12 15 83 5,00 5 4 8/3 377 3 17 107 5,67 7 16/3 32/9 555 8 15 75 5,00 5 0 0 557 12 17 99 5,67 5 4/3 8/9 577 6 19 123 6,33 7 4/3 8/9 777 1 21 147 7,00 7 0 0 Total 125 Tabela 10.7: Distribuição amostral da variância S 2, para amostras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}. s2 0,00 1,33 4,00 5,33 9,33 12,00 P(S 2 = s2) 11/125 42/125 24/125 24/125 18/125 6/125 E(S2) = 4,16, Var(S2) = 11,28. Tabela 10.8: Distribuição amostral da mediana da amostra md para amos- tras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}. md 1 3 5 7 Prob. 13/125 31/125 68/125 13/125 E(md) = 4,30, Var(md) = 2,54. ^ cap10d.p65 21/9/2009, 13:49 284 1 0 . 1 0 O U T R A S D I S T R I B U I Ç Õ E S A M O S T R A I S 285 Tabela 10.9: Distribuição amostral da variância ^σ 2, para amostras de tamanho 3, retiradas da população {1, 3, 5, 5, 7}. ^σ 2 0,00 0,89 2,67 3,56 6,22 8,00 Prob. 11/125 42/125 24/125 24/125 18/125 6/125 E(σ 2) = 2,77, Var(σ 2) = 5,04. Os gráficos das funções de probabilidade estão nas Figuras 10.6, 10.7 e 10.8. A obtenção das propriedades dessas estatísticas, de modo geral, não é uma tarefa fácil, e os modelos de probabilidade resultantes correspondem a distribuições mais complexas. Figura 10.6: Distribuição amostral de S2 para amostras de tamanho n = 3 extraídas de {1, 3, 5, 5, 7}. Figura 10.7: Distribuição amostral de md para amostras de tamanho n = 3 de {1, 3, 5, 5, 7}. ^ ^ cap10d.p65 21/9/2009, 13:49 285 290 CAPÍTULO 10 — INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Exemplo 10.16. O SPlus usa o comando sample(x,n) para gerar uma amostra sem reposição de tamanho n do conjunto x e o comando sample(x,n,replace=T) para gerar uma amostra com reposição. O Quadro 10.1 mostra como obter amostras de tamanho n = 7 do conjunto x = {1, 2, 3, ..., 15}, sem e com reposição. Quadro 10.1: Geração de amostras. SPlus. > x<–c (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15) > > > sample (x, 7) [1] 6 7 4 2 3 10 5 > > > sample (x, 7, replace=T) [1] 12 14 11 10 15 4 11 Exemplo 10.17. O Minitab usa os comandos Sample e Replace para obter amostras. Temos, no Quadro 10.2, amostras de tamanho n = 5 obtidas do conjunto {1, 2, ..., 10} (na coluna C1). Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição. Quadro 10.2: Geração de amostras. Minitab. C1 C2 C3 1 1 10 8 2 2 1 3 3 3 8 8 MTB > Sample 5 C1 C2. 4 4 2 6 MTB > 5 5 7 4 MTB > Sample 5 C1 C3; 6 6 SUBC> Replace. 7 7 MTB > 8 8 9 9 10 10 10.13 Problemas e Complementos 21. Uma v.a. X tem distribuição normal com média 10 e desvio padrão 4. Aos participantes de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média amostral. Ganha um prêmio aquele cuja média amostral for maior que 12. (a) Se um participante escolher uma amostra de tamanho 16, qual é a probabilidade de ele ganhar um prêmio? (b) Escolha um tamanho de amostra diferente de 16 para participar do jogo. Qual é a probabilidade de você ganhar um prêmio? (c) Baseado nos resultados acima, qual o melhor tamanho de amostra para participar do jogo? cap10d.p65 21/9/2009, 13:49 290 C A P Í T U L O 1 1 — E S T I M A Ç Ã O 296 11.1 Primeiras Idéias Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população, com base nos dados de uma amostra. Salientamos que dois proble- mas básicos nesse processo são: (a) estimação de parâmetros; e (b) teste de hipóteses sobre parâmetros. Lembremos que parâmetros são funções de valores populacionais, enquanto esta- tísticas são funções de valores amostrais. O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 12. Neste capítulo iremos discutir as idéias básicas sobre estimação. Para ilustrar, consideremos o exemplo seguinte. Exemplo 11.1. Uma amostra de n = 500 pessoas de uma cidade é escolhida, e a cada pessoa da amostra é feita uma pergunta a respeito de um problema municipal, para o qual foi apresentada uma solução pela prefeitura. A resposta à pergunta poderá ser SIM (favorável à solução) ou NÃO (contrária à solução). Deseja-se estimar a propor- ção de pessoas na cidade favoráveis à solução apresentada. Se 300 pessoas responderam SIM à pergunta, então uma estimativa natural para essa proporção seria 300/500 ou 60%. Nossa resposta é baseada na suposição de que a amos- tra é representativa da população. Sabemos, também, que outra amostra poderia levar a outra estimativa. Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência Estatística. Vejamos o que pode ser feito nesse caso particular. Definamos as v.a. X1, ..., Xn, tais que: ⎧1, se a i-ésima pessoa na amostra responder SIM, Xi = ⎨ ⎩0, se a i-ésima pessoa na amostra responder NÃO, e seja p = P (sucesso), onde aqui sucesso significa resposta SIM à questão formulada. Capítulo 11 Estimação cap11c.p65 21/9/2009, 14:05 296 C A P Í T U L O 1 1 — E S T I M A Ç Ã O 298 Figura 11.1: Resultados de 15 tiros dados por 4 rifles. Desse modo, podemos descrever cada arma da seguinte maneira: Arma A: não-viesada, pouco acurada e baixa precisão. Arma B: viesada, pouco acurada e baixa precisão. Arma C: não-viesada, muito acurada e boa precisão. Arma D: viesada, pouco acurada e alta precisão. Do exposto acima, notamos a importância de se definir propriedades desejáveis para estimadores. Trataremos desse assunto na próxima seção. Outro problema que aparece em inferência é como obter um estimador de determinado parâmetro. Nem sempre temos uma sugestão para um estimador, como no caso da proporção, no Exem- plo 11.1. Nas seções 11.3, 11.4 e 11.5 trataremos de três desses métodos. 11.2 Propriedades de Estimadores Inicialmente vejamos a questão da estimação de um modo mais geral. Considere- mos uma amostra (X1, X2, ..., Xn) de uma v.a. que descreve uma característica de inte- resse de uma população. Seja θ um parâmetro que desejamos estimar, como por exem- plo a média μ = E(X) ou a variância σ 2 = Var(X). Definição. Um estimador T do parâmetro θ é qualquer função das observações da amostra, ou seja, T = g(X1, ..., Xn). Notemos que, segundo essa definição, um estimador é o que chamamos antes de estatística, porém associando-o a um parâmetro populacional. cap11d.p65 25/9/2009, 16:05 298 C A P Í T U L O 1 1 — E S T I M A Ç Ã O 312 Escolhida uma amostra e encontrada sua média⎯x0, e admitindo-se σ ⎯x conhecido, podemos construir o intervalo ]⎯x0 – 1,96σ ⎯x ,⎯x0 + 1,96σ ⎯x [. (11.34) Esse intervalo pode ou não conter o parâmetro μ, mas pelo exposto acima temos 95% de confiança de que contenha. Para ilustrar o que foi dito acima, consideremos o seguinte experimento de simula- ção. Geramos 20 amostras de tamanho n = 25 de uma distribuição normal de média μ = 5 e desvio padrão σ = 3. Para cada amostra construímos o intervalo de confiança para μ, com coeficiente de confiança γ = 0,95, que é da forma⎯X ± 1,176, usando (11.34). Na Figura 11.4, temos esses intervalos representados e notamos que três deles (amostras de números 5, 14 e 15) não contêm a média μ = 5. Figura 11.4: Intervalos de confiança para a média de uma N(5, 9), para 20 amostras de tamanho n = 25. Exemplo 11.13. Uma máquina enche pacotes de café com uma variância igual a 100 g2. Ela estava regulada para encher os pacotes com 500 g, em média. Agora, ela se desregulou, e queremos saber qual a nova média μ. Uma amostra de 25 pacotes apre- sentou uma média igual a 485 g. Vamos construir um intervalo de confiança com 95% de confiança para μ. De (11.34), teremos IC(μ; 0,95) = 485 ± 1,96 × 2, ou seja, IC(μ; 0,95) = ]481, 489[, pois σ ⎯x = σ/√⎯n = 10/5 = 2g. Se T for um estimador do parâmetro θ, e conhecida a distribuição amostral de T, sempre será possível achar dois valores t1 e t2, tais que P(t1 < θ < t2) = γ, (11.35) cap11c.p65 21/9/2009, 14:05 312 1 1 . 6 I N T E R V A L O S D E C O N F I A N Ç A 315 Observe que o primeiro intervalo tem amplitude menor que o segundo. Outra observação importante é que por (11.40) e um γ fixo, os intervalos que podemos obter para amostras diferentes (mas de mesmo tamanho n) terão a mesma amplitude, dada por 2z(γ)/√⎯4n. Por outro lado, usando (11.41), a amplitude do intervalo será 2z(γ) √ p ^q ^ , que é variável de n amostra para amostra, pois p ^ (e, conseqüentemente, q ^) variará de amostra para amostra. 14. Calcule o intervalo de confiança para a média de uma N(μ, σ 2) em cada um dos casos abaixo. Média Tamanho Desvio Padrão Coeficiente de Amostral da Amostra da População Confiança 170 cm 100 15 cm 95% 165 cm 184 30 cm 85% 180 cm 225 30 cm 70% 15. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvu- las, e obtém-se a vida média de 800 horas e o desvio padrão de 100 horas. (a) Qual o intervalo de confiança de 99% para a vida média da população? (b) Com que confiança dir-se-ia que a vida média é 800 ± 0,98? (c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 ± 7,84? (Que suposições você fez para responder às questões acima?) 16. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população, em valor absoluto, seja menor que 1, com coeficiente de confiança igual a: (a) 95% (b) 99% 17. Uma população tem desvio padrão igual a 10. (a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média seja superior a uma unidade? (b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se x ⎯ = 50? 18. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de detergente. Construir um intervalo de confiança para p = proporção das donas de casa que preferem A com c.c. γ = 90%. 19. Encontre os intervalos de confiança para p se k/n = 0,3, com c.c. γ = 0,95. Utilize os dois enfoques apontados na seção 11.6, com n = 400. 20. Antes de uma eleição, um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos eleitores eram favoráveis ao candidato em questão. Problemas cap11c.p65 21/9/2009, 14:05 315 C A P Í T U L O 1 1 — E S T I M A Ç Ã O 316 (a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de, no máximo, 0,01 com probabilidade de 80%. (b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores eram favoráveis ao candidato em questão, construa um intervalo de confiança para a proporção p. Utilize γ = 0,95. 21. Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine: (a) o intervalo de confiança para p, com coeficiente de confiança de 95% (interprete o resultado); (b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabilidade de 95% (interprete o resultado). 11.7 Erro Padrão de um Estimador Vimos que, obtida a distribuição amostral de um estimador, podíamos calcular a sua variância. Se não pudermos obter a distribuição exata, usamos uma aproximação, se essa estiver disponível, como no caso de⎯X, e a variância do estimador será a variância dessa aproximação. Por exemplo, para a média amostral⎯X, obtida de uma amostra de tamanho n, temos que Var(⎯X) = σ 2 , n na qual σ 2 é a variância da v.a. X definida sobre a população. À raiz quadrada dessa variância chamaremos de erro padrão de⎯X e o denotaremos por EP(⎯X) = σ . (11.42) √⎯n Definição. Se T for um estimador do parâmetro θ, chamaremos de erro padrão de T a quantidade EP(T) = √ Var(T). (11.43) A variância de T dependerá dos parâmetros da distribuição de X, o mesmo aconte- cendo com o erro padrão. Por exemplo, em (11.42), EP(⎯X) depende de σ, que em geral é desconhecida. Podemos, então, obter o erro padrão estimado de⎯X, dado por ep(⎯X) = E ^P( ⎯X) = S/√⎯n, (11.44) na qual S2 é a variância amostral. Genericamente, o erro padrão estimado de T é dado por E ^P(T) = √ Var(T). (11.45) Muitas vezes a quantidade (11.45) é chamada de erro amostral. Mas preferimos chamar de erro amostral à diferença e = T – θ. ^ cap11c.p65 21/9/2009, 14:05 316 1 1 . 8 I N F E R Ê N C I A B AY E S I A N A 317 Exemplo 11.17. Para o Exemplo 11.15, p ^ = 0,6, e o erro padrão de p ^ será dado por EP(p ^) = p(1 – p) . (11.46) n Como não conhecemos p usamos no seu lugar o estimador p ^, obtendo-se E ^P(p ^) = √ (0,6)(0,4)/400 = 0,025. Observe que o intervalo de confiança (11.41) pode ser escrito p ^ ± z(γ )(E ^P(p ^)), ao passo que o intervalo para μ dado por (11.37) pode ser escrito ⎯X ± (1,96)(EP(⎯X )). 11.8 Inferência Bayesiana O estabelecimento de uma ponte entre os valores observados na amostra e os mo- delos postulados para a população, objeto da inferência estatística, exige a adoção de princípios teóricos muito bem especificados. Neste livro usaremos a chamada teoria freqüentista (às vezes também chamada de clássica). Seus fundamentos encontram-se em trabalhos de J. Neyman, E. Pearson, R. Fisher e outros. Consideremos um exemplo para ilustrar esse enfoque. Suponha que tenhamos uma amostra observada (x1, ..., xn) de uma população normal, N(μ, σ 2), e queremos fazer inferências sobre os valores de μ e σ 2, baseados nas n observações. Por meio de algum procedimento estudado neste capítulo, selecionamos estimadores μ ^(x) e σ ^ 2(x) que sejam funções do vetor de observações x = (x1, ..., xn)'. Considere dados hipotéticos x1, x2,..., todos amostras de tamanho n, que poderiam ter sido gerados da população em questão. Obtemos, então, as distribuições amostrais de μ ^(x) e σ ^ 2(x), como na seção 10.7. Podemos também obter intervalos de confiança para os parâmetros des- conhecidos μ e σ 2, bem como testar hipóteses sobre esses parâmetros, assunto a ser discutido no Capítulo 12. Para construir intervalos de confiança e testar hipóteses será necessário conhecer a distribuição amostral dos estimadores. Como só temos um conjunto de dados e não dados hipotéticos, estas distribuições amostrais terão de ser obtidas de outra maneira, e não como no Exemplo 10.7. Usualmente isso é feito usando teoremas como o Teorema Limite Central, discutido na seção 10.8, obtendo-se uma distribuição aproximada para os estimadores, que vale para tamanhos de amostras grandes. A crítica que se faz à teoria freqüentista é a possibilidade de “replicar dados”, bem como o recurso à teoria assintótica. Uma teoria que não faz uso de tais argumentos é a inferência bayesiana, cujos fundamentos foram estabelecidos por T. Bayes em 1763. Outros expoentes dessa corrente foram Bernoulli (1713), Laplace (1812) e Jeffreys (1939). Aqui, o Teorema de Bayes, estudado no Capítulo 5, tem papel fundamental. A noção de probabilidade prevalente aqui é a subjetiva, discutida brevemente no mesmo capítulo. cap11c.p65 21/9/2009, 14:05 317 C A P Í T U L O 1 1 — E S T I M A Ç Ã O 320 Do mesmo modo, P(y < 0) = P(θ1)P(y < 0|θ1) + P(θ2)P(y < 0|θ2) = 7/15 , e teremos a tabela a seguir: y p(y) y > 0 8/15 y < 0 7/15 Vemos que essa é a mesma distribuição marginal de y, dada na tabela que mostra a distribuição conjunta de y e θ. Então, por (11.48), P(θ = θ1|y > 0) = P(θ1)P(y > 0|θ1) = 3/5 × 2/3 = 3/4, P(y > 0) 8/15 P(θ = θ2|y > 0) = P(θ2)P(y > 0|θ2) = 1/4. P(y > 0) De modo análogo, obtemos P(θ = θ1|y < 0) = 3/7, P(θ = θ2|y < 0) = 4/7. Temos, então, as probabilidades condicionais de alta e baixa, dada a informação de que o retorno é positivo ou negativo: θ p(θ|y) y θ1 θ2 y > 0 3/4 1/4 y < 0 3/7 4/7 Podemos, por exemplo, “estimar” θ (alta ou baixa) por θ1 (mercado em alta) se y > 0, já que P(θ = θ1|y > 0) = 3/4 e “estimar” θ por θ2 (mercado em baixa) se y < 0, pois P(θ = θ2|y < 0) = 4/7. Ou seja, tomamos o valor máximo da probabilidade a posteriori, dada a informação sobre o rendimento. Esse é um exemplo do que se chama de modelo estático. Poderíamos considerar um modelo dinâmico, supondo-se que esse muda de período para período (de dia para dia ou de mês para mês etc.). 11.9. Exemplos Computacionais Simulando Erros Padrões Na seção 11.7 definimos o que seja o erro padrão de um estimador T de um parâmetro θ, baseado numa AAS de uma população rotulada pela v.a. X. Vimos, em particular, que o erro padrão da média amostral⎯X é dado por (11.42) e esse pode ser estimado por (11.44), ou seja, E^P(⎯X) = S . √⎯n cap11c.p65 21/9/2009, 14:05 320 1 1 . 1 0 P R O B L E M A S E C O M P L E M E N T O S 325 26. Suponha que as vendas de um produto satisfaçam ao modelo Vt = α + βt + at, onde at é a variável aleatória satisfazendo as suposições da seção 11.4, e o tempo é dado em meses. Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo. Obtenha as previsões para os meses de novembro e dezembro do ano 1 e para julho e agosto do ano 2. t 1 2 3 4 5 6 7 8 9 10 yt 5,0 6,7 6,0 8,7 6,2 8,6 11,0 11,9 10,6 10,8 27. Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, dos quais 180 preferiam esse produto. (a) Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo; tome γ = 0,90. (b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0,001. (c) É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 0,0005 com probabilidade 0,95? Caso contrário, determine o que deve ser feito. 28. Uma amostra de 10.000 itens de um lote de produção foi inspecionada, e o número de defeitos por item foi registrado na tabela abaixo. No de defeitos 0 1 2 3 4 Quantidade de peças 6.000 3.200 600 150 50 (a) Determine os limites de confiança para a proporção de itens defeituosos na popula- ção, com coeficiente de confiança de 98%. Use (11.40). (b) Mesmo problema, usando (11.41). 29. Antes de uma eleição em que existiam dois candidatos, A e B, foi feita uma pesquisa com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no candidato A. Construa um intervalo de confiança, com c.c. γ = 0,95, para a porcentagem de eleitores favoráveis ao candidato A na época das eleições. 30. Encontre o c.c. de um intervalo de confiança para p, se n = 100, p^ = 0,6 e a amplitude do intervalo deve ser igual a 0,090. 31. Usando os resultados do Problema 32 do Capítulo 10, mostre que o intervalo de confiança para a diferença das médias populacionais, com variâncias conhecidas, é dado por IC(μ1 – μ2 : γ ) = (⎯X –⎯Y) ± z(γ ) √σ 2 1/n1 + σ 2 2/n2. 32. Estão sendo estudados dois processos para conservar alimentos, cuja principal variável de interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a distribuição N(μA, 100), e no processo B o tempo Y obedece à distribuição N(μB, 100). Sorteiam-se duas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50, e a de B, com 25 latas, duração média igual a 60. cap11c.p65 21/9/2009, 14:05 325 12.1 Introdução Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese. Isto é, feita determinada afirmação sobre uma população, usualmente sobre um parâmetro dessa, desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação. Muitas vezes, essa afirmação sobre a população é derivada de teorias desenvolvidas no cam- po substantivo do conhecimento. A adequação ou não dessa teoria ao universo real pode ser verificada ou refutada pela amostra. O objetivo do teste estatístico de hipóte- ses é, então, fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese (estatística) formulada. Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um parâmetro de uma população. A idéia central desse procedimento é a de supor verdadeira a hipótese em questão e verificar se a amostra observada é “verossímil” nessas condições. No capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações. 12.2 Um Exemplo Vamos introduzir a idéia de teste de uma hipótese por meio de um exemplo hipo- tético que, partindo de uma situação simples, será gradualmente ampliado para aten- der à situação geral do teste de hipóteses. Exemplo 12.1. Uma indústria usa, como um dos componentes das máquinas que pro- duz, um parafuso importado, que deve satisfazer a algumas exigências. Uma dessas é a resistência à tração. Esses parafusos são fabricados por alguns países, e as especificações técnicas variam de país para país. Por exemplo, o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg, com desvio padrão de 12 kg. Já para o país B, a média é de 155 kg e desvio padrão 20 kg. Um lote desses parafusos, de origem desconhecida, será leiloado a um preço muito convidativo. Para que a indústria saiba se faz ou não uma oferta, ela necessita saber qual Capítulo 12 Testes de Hipóteses cap12c.p65 21/9/2009, 14:25 330 13.1 Introdução Neste capítulo abordaremos o tópico importante de comparar duas populações Pl e P2, baseados em dados fornecidos por amostras dessas populações. Como vimos, uma grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal. Alguns testes que trataremos envolverão a normal. Contudo, se essa suposição de normalidade for violada, procedimentos mais “robustos” têm de ser utilizados, e veremos exemplos de tal situação. Uma pergunta que aparece freqüentemente em Ciência é a seguinte: o método A é melhor do que o B? Em termos estatísticos, ela equivale a comparar dois conjuntos de informações, resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos. Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a “igual- dade” ou “equivalência” de duas populações. Por exemplo, suponha que estamos interessados em saber se alunos de duas regiões, A e B, tiveram desempenhos iguais em um mesmo teste nacional. Mais ainda, suponha que tenhamos os resultados do teste para “todos os alunos” das duas regiões, isto é, conhecemos as duas populações. Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas populações sejam iguais, isto é, μA = μB e σA = σB. Será que isso equivale a dizer que os desempenhos nas duas regiões são equivalentes? Se uma análise mais cuidadosa não for feita, poderemos ser levados a responder afirmativamente a essa questão. Entretan- to, observando a Figura 13.1, vemos que é possível ter duas distribuições com os mesmos parâmetros acima, mas formas bastante distintas. Figura 13.1: Distribuições das populações A e B, com μA = μB = 4, σA = σB = 1,16. Capítulo 13 Inferência para Duas Populações cap13d.P65 21/9/2009, 14:38 361 C A P Í T U L O 1 3 — I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 362 Esse fato nos remete à necessidade de também mencionarmos a forma da distri- buição. Especificada a forma, a igualdade dos parâmetros que identificam a curva implica a igualdade ou coincidência das duas populações. É bem pouco provável que um mesmo fenômeno obedeça a formas de distribuições distintas, como no exemplo da Figura 13.1. Seguir uma mesma distribuição, porém com parâmetros distintos, é mais verossímil. Como a normal é um modelo importante e seguido por muitas variáveis de interesse prático, estaremos admitindo essa forma, a não ser quando uma análise dos dados nos diga o contrário. Neste capítulo trataremos de várias situações, que passamos a descrever. 1. Inferências para duas médias: amostras independentes. Aqui temos dados na forma de duas amostras, extraídas independentemente de cada população. É muito comum em experimentos do tipo “controle” versus “tratamento”, nos quais o interesse principal é verificar o efeito desse último. O caso típico é aquele de comparar uma nova droga com uma padrão, usadas para o tratamento de uma doença. Exemplo 13.1. (a) Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para outro grupo. Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso por meio da televisão. (b) Queremos comparar o efeito de duas rações, A e B, sobre o crescimento de porcos. Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco semanas verificam-se quais foram os ganhos de peso dos porcos dos dois grupos. (c) 20 canteiros foram plantados com uma variedade de milho. Em dez deles um novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão. Exami- nando-se as produções dos dois canteiros, queremos saber se há diferenças sig- nificativas entre as produções. Na maioria das vezes fica claro o que chamamos de controle e tratamento. No exemplo (c) acima, os canteiros tratados com o novo fertilizante seriam o grupo de tratamento, enquanto os demais, tratados com o fertilizante usual, constituiriam o gru- po de controle. Mas nos exemplos (a) e (b) essa distinção é apenas convencional. Formalmente, o modelo para o problema das duas amostras é o seguinte: as v.a. X1, ..., Xm representam as respostas do grupo de controle e são consideradas v.a. inde- pendentes, com a mesma distribuição, P1; Y1, ..., Yn representam as respostas do grupo de tratamento e são v. a. independentes, com a mesma distribuição, P2. Além disso, X1, ..., Xm, Y1, ..., Yn são independentes entre si. A hipótese a ser testada é H0 : P1 = P2, (13.1) ou seja, queremos testar a homogeneidade das populações de onde as amostras foram extraídas. H0 é chamada hipótese de homogeneidade. cap13d.P65 21/9/2009, 14:38 362 C A P Í T U L O 1 3 — I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 364 ordinal. A análise fica mais fácil quando a P1 e P2 são atribuídas distribuições de variá- veis contínuas. Discutiremos a razão desta suposição adicional. Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais, mas as variâncias são diferentes. Na Figura 13.1, as duas curvas teriam disper- sões diferentes ao redor de suas médias. Então, um teste preliminar de igualdade de variâncias seria necessário. O teste t de Student para o caso de populações normais será apresentado neste capítulo. A hipótese (13.1) ou (13.2) nos diz que não há efeito do tratamento. A alternativa usual para H0 é que o efeito do tratamento é o de aumentar as respostas. Isto é, P2 gera valores maiores que P1, com maior freqüência. Mas pode ocorrer o contrário: diminuir as respostas. Por exemplo, o “tratamento” visa a diminuir o tempo para executar deter- minada tarefa. 2. Inferências para duas médias: amostras dependentes Quando se comparam as médias de duas populações, pode ocorrer uma diferença significativa por causa de fatores externos não-controlados. Por exemplo, no caso do Exemplo 13.4 abaixo, poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro. Logo, a diferença seria devido a esses fatos, e não ao mérito real da técnica de vendas. Um modo de contornar esse problema é coletar as observações em pares, de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos, exceto no que diz respeito ao fator que queremos comparar. Por exemplo, no caso do Exemplo 13.1 (a), para testar os dois métodos de ensino, poderíamos usar n pares de gêmeos, sendo que um elemento de cada par recebe aulas pela TV e outro ao vivo. Esse procedimento pretende controlar o maior número possí- vel de fatores externos que possam afetar o aprendizado. Se houver diferença no apren- dizado, essa dever-se-á realmente ao método. Esse procedimento também é usado quando observações das duas amostras são feitas no mesmo indivíduo, por exemplo, medindo uma característica do indivíduo antes e depois de ele ser submetido a um tratamento. O teste t de Student para observações pareadas (ou emparelhadas), supondo nor- malidade, é apropriado para essas situações. 3. Inferências para duas variâncias: amostras independentes Como vimos no item 1, podemos testar se duas amostras independentes pro- vêm de duas populações com variâncias iguais, desconhecidas. Se essas variâncias forem diferentes, o teste tem de ser modificado. Esse teste, sob a suposição de normalidade das duas populações, usa uma estatística que tem uma distribuição especial, chamada F de Snedecor. Finalizando esta seção, ressaltamos que poderemos ter mais do que duas amostras, e técnicas semelhantes podem ser desenvolvidas. Veja o Capítulo 15. cap13d.P65 21/9/2009, 14:38 364 C A P Í T U L O 1 3 — I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 372 foram 62 e 71, respectivamente. Sabe-se que o desvio padrão, em ambos os casos, deve ser da ordem de 20 unidades. É possível afirmar que o gasto médio nas duas filiais seja o mesmo? Caso contrário, dê um intervalo de confiança para a diferença. 7. Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Qual seria a conclusão sobre os dois tratamentos? Método Amostra Média Desvio Padrão A 15 48 10 B 12 52 15 8. No Problema 4, teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais. 9. Para investigar a influência da opção profissional sobre o salário inicial de recém-forma- dos, investigaram-se dois grupos de profissionais: um de liberais em geral e outro de formados em Administração de Empresas. Com os resultados abaixo, expressos em salários mínimos, quais seriam suas conclusões? Liberais 6,6 10,3 10,8 12,9 9,2 12,3 7,0 Administradores 8,1 9,8 8,7 10,0 10,2 8,2 8,7 10,1 13.3.2 Populações Não-Normais Passamos, agora, a descrever um teste que não faz suposições a respeito da forma das distribuições P1 e P2, a não ser que as variáveis envolvidas tenham uma escala de medida pelo menos ordinal. Ou seja, podemos abordar o caso de variáveis qualitativas ordinais e variáveis quantitativas. Esse teste (chamado de Wilcoxon ou de Mann-Whitney) pertence a uma categoria de procedimentos chamados não- paramétricos ou livres de distribuição. Teremos para análise amostras independentes das duas populações e queremos testar a hipótese (13.1) contra a alternativa de que as distribuições diferem em locali- zação: estaremos interessados em saber se uma população tende a ter valores maiores do que a outra, ou se elas têm a mesma mediana ou média. O teste de Wilcoxon é baseado nos postos dos valores obtidos combinando-se as duas amostras. Isso é feito ordenando-se esses valores, do menor para o maior, inde- pendentemente do fato de qual população cada valor provém. A estatística do teste é a soma dos postos associados aos valores amostrados de uma população, P1, por exemplo. Se essa soma for grande, isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores de P2, e, então, rejeitamos (13.1). No caso de termos uma v.a. qualitativa ordinal, comumente associamos números às diversas categorias (ou classes, ou atributos), segundo as quais a variável é classi- cap13d.P65 21/9/2009, 14:38 372 1 3 . 3 C O M P A R A Ç Ã O D E D U A S P O P U L A Ç Õ E S : A M O S T R A S I N D E P E N D E N T E S 379 Figura 13.4: Resistência à remoção, em kg, para o modelo C. Figura 13.5: Resistência à remoção, em kg, para o modelo T. Vemos que há assimetrias nos histogramas, sugerindo que a aplicação do teste t de Student não é adequada nessa situação. A Tabela 13.6 mostra as médias das 5 leituras para cada corpo de prova, para o modelo T e para o modelo C (em ordem crescente). Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T, e grampos do tipo C constituam o tratamento. Ordenando as médias da Tabela 13.6 e atribuindo postos obtemos a Tabela 13.7. Tabela 13.6: Valores de resistência à remoção para os dois modelos. T C T C 0,60 0,52 1,19 1,19 0,63 0,77 1,20 1,20 0,83 0,79 1,26 1,34 0,85 0,79 1,28 1,36 0,91 0,81 1,30 1,38 0,95 0,81 1,37 1,43 1,01 0,89 1,45 1,64 1,03 0,98 1,54 1,71 1,03 1,01 1,68 2,16 1,16 1,18 2,20 2,25 cap13d.P65 21/9/2009, 14:38 379 1 3 . 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 387 H0. Se α = 0,05, então wα = 1, e o valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0. Como salientamos antes, a decisão, nesse caso, dependerá de uma análise cuidadosa dos resultados, dado o pequeno valor de n. 13.5 Comparação de Proporções em Duas Populações Nosso objetivo agora é a comparação das proporções de duas populações P1 e P2. Sendo mais explícitos, queremos comparar as proporções populacionais p1 e p2, por meio dos estimadores ˆp1 e ˆp 2 obtidos de amostras independentes de tamanhos n1 e n2 respectiva- mente. Das seções 10.9 e 12.6 temos ˆ , ( ) p1 1 1 1 1 1 ∼ N p p p n − ⎛ ⎝⎜ ⎞ ⎠⎟ , , ( ) p N p p p n 2 2 1 2 2 1 ∼ − ⎛ ⎝⎜ ⎞ ⎠⎟ ˆ . Comparando com o resultado da seção 13.3.1, e também do Problema 10.32, obtemos , ( ) ( ) , p p N p p p p n p p n 1 2 1 2 1 1 1 2 2 2 1 1 − − − + − ⎛ ⎝⎜ ⎞ ⎠⎟ ∼ ˆ ˆ e portanto, a estatística de decisão, tanto para a construção de intervalos de confiança como para testes de hipóteses, será z p p p p p p n p p n N = − − − − + − ( ˆ ˆ ) ( ) ( ) ( ) ( , ). 1 2 1 2 1 1 1 2 2 2 1 1 0 1 ∼ Mas como os valores dos parâmetros são desconhecidos, substituem-se as variâncias pelas seus estimadores, obtendo-se, como visto em 13.3.1(b), uma distribuição aproxima- damente t de Student. Entretanto, estudos envolvendo proporções utilizam amostras gran- des e os valores da distribuição t aproximam-se de valores da normal padronizada. Desse modo, para comparação de duas proporções recomenda-se sempre o uso da estatística: 1 1 z p p p p p p n p p n N = − − − − + − ( ˆ ˆ ) ( ) ˆ ( ˆ ) ˆ ( ˆ ) ( , ). 1 2 1 2 1 1 1 2 2 2 0 1 ∼ (13.35) Exemplo 13.12: Para lançamento da nova embalagem do sabonete SEBO a divisão de criação estuda duas propostas: A: amarela com letras vermelhas, ou B: preta com letras douradas. cap13d.P65 21/9/2009, 14:38 387 1 3 . 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 389 Da tabela obtemos ˆpc= (348/1000) = 0,348, substituindo em (13.36), obtemos: Z = − + ⎛ ⎝⎜ ⎞ ⎠⎟ = 0 42 0 30 0 348 0 652 1 400 1 600 3 90 , , , ( , ) , . Consultando a Tabela III, encontramos valor-p próximo de zero, o que leva a rejei- ção de H0. Como esse resultado mostra que as variâncias também são diferentes, a construção do Intervalo de Confiança é obtida do mesmo modo acima. 16. Para investigar a lealdade de consumidores a um determinado produto, sorteou-se uma amostra de 200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados trazem evidências de diferença de grau de fidelidade entre os sexos? Em caso afirmativo construa um intervalo de confiança para a diferença. 17. Em uma amostra de 500 famílias da cidade A, constatou-se que 298 haviam comprado, durante os últimos 30 dias, o refrigerante Meca-Mela em sua nova versão incolor. Na cidade B esse número foi de 147 em 300 famílias entrevistadas. Na cidade A foi feita uma campanha publicitária através da rádio local, e não na cidade B. Os resultados trazem evidências de que as campanhas locais aumentam as vendas? 18. Um partido afirma que a porcentagem de votos masculinos a seu favor será 10% a mais que a de votos femininos. Em uma pesquisa feita entre 400 homens, 170 votariam no partido, enquanto que entre 625 mulheres, 194 lhe seriam favoráveis. A afirmação do partido é verdadeira ou não? Caso rejeite a igualdade, dê um IC para a diferença. 19. Para investigar os resultados do segundo turno de uma eleição estadual tomaram-se duas amostras de 600 eleitores cada: uma da capital e outra do interior. Da primeira, 276 disse- ram que votariam no candidato A, enquanto que 312 eleitores do interior também o fariam. (a) Estime a proporção de eleitores da capital que votariam em A. Dê um IC. (b) Existe diferença nas proporções entre capital e interior? (c) Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro inferior a 2%? (d) Qual a proporção esperada de votos que irá receber o candidato A no estado? (e) De uma amostra de 120 indivíduos da classe A e B, 69 são favoráveis a eleição em dois turnos, enquanto que em uma amostra de 100 indíviduos da classe C, 48 é que são favoráveis. Existe evidência e diferenças de opiniões em relação à classe social? 20. Para verificar a importância de um cartaz nas compras de certo produto, procedeu-se do seguinte modo: (a) formaram-se sete pares de lojas; (b) os pares foram formados de modo que tivessem as mesmas características quanto à localização, ao tamanho e ao volume de vendas; (c) num dos elementos do par, colocou-se o cartaz; no outro, não; (d) as vendas semanais foram registradas, e os resultados estão a seguir. Qual seria a sua conclusão sobre a eficiência do cartaz? Use o teste t, fazendo as supo- sições necessárias. Problemas cap13d.P65 21/9/2009, 14:38 389 1 3 . 6 E X E M P L O C O M P U T A C I O N A L 391 Na Tabela 13.12 temos os dados e as diferenças di = xi – yi, i = 1, 2, ..., 26. Na Figura 13.6 temos os box plots dos dois conjuntos de dados, que sugerem distribui- ções bem diferentes. Tabela 13.12: Índices de placa bacteriana. Sujeito Antes (xi) Depois (yi) di = xi – yi Postos de |di | 1 2,18 0,43 1,75 18 2 2,05 0,08 1,97 20 3 1,05 0,18 0,87 7 4 1,95 0,78 1,17 13 5 0,28 0,03 0,25 2 6 2,63 0,23 2,40 23,5 7 1,50 0,20 1,30 16 8 0,45 0,00 0,45 3 9 0,70 0,05 0,65 5 10 1,30 0,30 1,00 10 11 1,25 0,33 0,92 8 12 0,18 0,00 0,18 1 13 3,30 0,90 2,40 23,5 14 1,40 0,24 1,16 12 15 0,90 0,15 0,75 6 16 0,58 0,10 0,48 4 17 2,50 0,33 2,17 21 18 2,25 0,33 1,92 19 19 1,53 0,53 1,00 10 20 1,43 0,43 1,00 10 21 3,48 0,65 2,83 26 22 1,80 0,20 1,60 17 23 1,50 0,25 1,25 14,5 24 2,55 0,15 2,40 23,5 25 1,30 0,05 1,25 14,5 26 2,65 0,25 2,40 23,5 Total 35,52 351,0 Figura 13.6: Box plot para xi (antes) e yi (depois). SPlus. cap13d.P65 21/9/2009, 14:38 391 1 3 . 6 E X E M P L O C O M P U T A C I O N A L 393 Quadro 13.1: Test t pareado. Minitab. MTB > Paired c1 c2; SUBC> Confidence 95.0; SUBC> Test 0.0; SUBC> Alternative 1; SUBC> GDotplot; SUBC> GBoxplot. Paired T-Test and Confidence Interval Paired T for C1 – C2 N Mean StDev SE Mean C1 26 1.642 0.883 0.173 C2 26 0.276 0.232 0.046 Difference 26 1.366 0.750 0.147 95% CI for mean difference: (1.063, 1.669) T-Test of mean difference = 0 (vs not = 0): T-Value = 9.29 P-Value = 0.000 Figura 13.7: Dotplot das diferenças di, com o intervalo de confiança para μD; também mostrados H0 : μD = 0 e⎯d = 1,366. cap13d.P65 21/9/2009, 14:38 393 1 3 . 7 P R O B L E M A S E C O M P L E M E N T O S 395 conclusões você obteria se uma amostra de 25 torneiros apresentasse salário médio igual a 4,22 salários mínimos e desvio padrão igual a 1,25 salário mínimo? 27. Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa região. 69,5 71,6 73,0 68,9 68,9 70,0 72,6 66,2 68,1 72,4 67,6 73,2 67,6 69,7 71,0 69,4 71,5 73,8 69,6 69,6 68,2 69,9 71,4 70,7 69,7 71,0 66,0 70,3 71,7 69,2 69,8 68,4 69,5 68,2 72,1 70,8 72,2 69,2 71,7 65,6 69,6 70,1 69,9 70,5 68,0 70,2 69,0 66,3 69,4 67,1 (a) Analise estatisticamente os dados. (b) Com base na sua análise, e sabendo que na região considerada existem, ao todo, 200 municípios, em quantos deles você acha que o gasto com pessoal é maior que 70% do orçamento? (c) Em outra região, sabe-se que o gasto médio com pessoal é de 65%, e o desvio padrão é de 20%. Qual das duas regiões é mais homogênea em relação a essa variável? Por quê? 28. Uma amostra de 100 trabalhadores de uma fábrica grande demora, em média, 12 minutos para completar uma tarefa, com um desvio padrão de dois minutos. Uma amostra de 50 trabalhadores de uma outra fábrica demora, em média, 11 minutos para completar a mesma tarefa, com desvio padrão igual a três minutos. (a) Construa um IC de 95% para a diferença entre as duas médias populacionais. (b) Deixe bem claro quais as suposições feitas para a solução apresentada. 29. Deseja-se testar se dois tipos de ensino profissional são igualmente eficazes. Para isso, sortearam-se duas amostras de operários; a cada uma, deu-se um dos tipos de treina- mento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclu- são você poderia tirar, baseando-se nos resultados abaixo? Amostra No de elementos Média Desvio padrão Tipo I 12 75 5 Tipo II 10 74 10 30. Numa discussão sobre reajuste salarial, entre empresários e o sindicato dos empregados, chegou-se a um impasse. Os empresários dizem que o salário médio da categoria é 7,6 salários mínimos (SM), e os empregados dizem que é 6,5 SM. Para eliminar dúvidas, cada um dos grupos resolveu colher uma amostra independente. Os empresários, com uma amostra de 90 operários, observaram um salário médio de 7,0 SM, com um desvio padrão igual a 2,9 SM. Já a amostra do sindicato, com 60 operários, apresentou média igual a 7,10 SM e desvio padrão de 2,4 SM. (a) As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos? (b) De posse dos dois resultados, qual é o seu parecer? cap13d.P65 21/9/2009, 14:38 395 C A P Í T U L O 1 3 — I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 396 31. A Torrefação Guarany está querendo comprar uma nova ensacadora de café. Após con- sultar o mercado, ficou indecisa entre comprar a de marca A ou a de marca B. Quanto ao custo, facilidade de pagamento, tamanho etc. elas são equivalentes. O fator que decidirá a compra será a precisão em encher os pacotes (medido pela variância). Deseja-se, na realidade, testar hipótese σ 2 A = σ 2 B, através da estatística F = S 2 A/S 2 B. Podem-se construir regiões críticas bilaterais, unilaterais à direita ou à esquerda, dependendo do objetivo. Indique qual seria a região crítica mais favorável às seguintes pessoas: (Justifique.) (a) proprietário da torrefação; (b) fabricante de A; e (c) fabricante de B. 32. Um médico deseja saber se uma certa droga reduz a pressão arterial média. Para isso, mediu a pressão arterial em cinco voluntários, antes e depois da ingestão da droga, obtendo os dados do quadro abaixo. Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial média? Que suposições você fez para resol- ver o problema? Voluntário A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76 33. Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1.190 horas, com desvio padrão de 90 horas. Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1.230 horas, com desvio padrão de 120 horas. Admitindo que as variâncias populacionais sejam diferentes, você acha que existe diferença entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B? 34. Queremos comparar dois métodos de ensino A e B. Dispomos de 40 crianças. Podemos proceder de duas maneiras: (i) Sorteamos 20 crianças para compor uma classe, e as restantes formam outra classe. Aplicamos um método a cada classe e, depois, fazemos uma avaliação para todas as crianças a respeito do assunto ensinado. (ii) Aplicamos inicialmente um teste de inteligência às 40 crianças. Numeramos as crian- ças de 1 a 40, segundo o resultado do teste. Consideramos os 20 pares (1, 2), (3, 4), ..., (39, 40), e de cada par sorteamos uma criança para cada classe. Obtemos, assim, duas classes de 20 crianças, homogêneas quanto à inteligência. Apli- camos um método a cada classe e depois avaliamos todas as crianças. (a) Qual a variável de observação em cada procedimento? (b) Quais as hipóteses estatísticas adequadas? (c) Qual o teste estatístico de decisão em cada caso? (d) Qual dos dois procedimentos você preferiria? Por quê? 35. De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja princi- pal atividade é o turismo, 120 são contra. (a) Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante? cap13d.P65 21/9/2009, 14:38 396 C A P Í T U L O 1 3 — I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 398 44. Para o CD-Temperaturas, teste se a temperatura média de Cananéia é igual à temperatura média de Ubatuba (suponha que as observações para cada cidade sejam independentes, embora saibamos que elas não são, pois temos dados de séries temporais). 45. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se: Cidade A B No de entrevistados 400 600 No de favoráveis 180 350 Construa um IC para a diferença de proporções de opiniões nas duas cidades. 46. Duas máquinas A e B, são usadas para empacotar pó de café. A experiência passada garante que o desvio padrão para ambas é de 10 g. Porém, suspeita-se que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B. As médias foram, respectivamente, xA = 502,74 g e xB = 496,60 g. Com esses números, e com o nível de 5%, qual seria a conclusão do teste H0: μA = μB? 47. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida Meca-Mela entre as demais similares. Na região norte, a proporção é de 40 entre 225 entrevistados. Baseado no resultado dessa amostra, você diria que a proporção de todos os moradores nas duas regiões é a mesma? Use α = 0,05. 48. Uma pesquisa mercadológica sobre fidedignidade a um produto doi realizada em dois anos consecutivos, com duas amostras independentes de 400 donas de casa em cada uma delas. A preferência pela marca em questão foi de 33% e 29%, respectivamente. Os resultados trazem alguma evidência de mudança de preferência? – – cap13d.P65 21/9/2009, 14:38 398 C A P Í T U L O 1 4 — A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 400 Aqui, o teste comparará o número de casos ocorridos em caselas especificadas, com o número esperado de casos nelas, quando a hipótese H0 for verdadeira. O procedimento consiste em considerar classes, segundo as quais a variável X, característica da população, pode ser classificada. A variável X pode ser qualitativa ou quantitativa. Neste capítulo estudaremos um teste no qual as probabilidades da v.a. X pertencer a cada uma das classes são especificadas. A estatística usada será (14.1). Exemplo 14.1. Um dado é lançado 300 vezes, com os resultados dados na Tabela 14.1. Por enquanto, considere somente a linha correspondente às freqüências observadas. Com os resultados observados, queremos saber se o dado é “honesto”, isto é, se a proba- bilidade de ocorrência de qualquer face é 1/6. Ou seja, queremos testar a hipótese H0 : p1 = p2 = ... = p6 = 1/6, onde pi = P (face i), i = 1, 2, ..., 6. Isso equivale a dizer que P0 segue uma distribuição uniforme discreta. Tabela 14.1: Resultados do lançamento de um dado 300 vezes. Ocorrência (i) 1 2 3 4 5 6 Total Freq. Observada (ni) 43 49 56 45 66 41 300 Freq. Esperada (n* i) 50 50 50 50 50 50 300 2. Testes de Homogeneidade Considere o seguinte exemplo. Exemplo 14.2. Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 100 alunos de Ciências Biológicas. As notas são classificadas segundo os graus A, B, C, D e E (onde D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado). Os resultados estão na Tabela 14.2. Tabela 14.2: Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia. Aluno Grau de A B C D E Total C. Humanas 15 20 30 20 15 100 C. Biológicas 8 23 18 34 17 100 Total 23 43 48 54 32 200 Queremos testar se as distribuições das notas, para as diversas classes, são as mesmas para os dois grupos de alunos. Esse teste pode ser estendido para o caso de três ou mais populações. cap14c.p65 21/9/2009, 14:46 400 1 4. 1 I N T R O D U Ç Ã O 401 Testes desse tipo já foram vistos no Capítulo 13, onde queríamos testar a hipótese (13.1). Estudamos lá dois testes, o t de Student e o de Wilcoxon. Para esses testes, supomos ou que as populações sejam normais ou, então, preferencialmente, que tenham distribui- ções contínuas (não necessariamente normais). Mas, de qualquer modo, testávamos sepa- radamente se as duas populações diferiam em localização ou escala. No caso presente iremos apresentar um teste baseado na estatística (14.1), que contempla alternativas gerais; por exemplo, as populações podem diferir-se em localização e escala. Novamente, para efetuar o teste, consideramos amostras das duas populações, P1 e P2, e classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis características de P1 e P2. 3. Testes de Independência Vimos, no Capítulo 4, a importância de quantificar o grau de associação entre duas variáveis, usando a estatística (14.1). Porém, essa quantificação só tem sentido se as variáveis não forem independentes. O teste que apresentaremos aqui supõe a existência de duas v.a.’s X e Y, e os valores de amostras delas são classificados segundo categorias, obtendo-se uma tabela de dupla entrada. Queremos testar a hipótese que X e Y são independentes. Exemplo 14.3. Uma companhia de seguros analisou a freqüência com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram hospitais. Os resultados estão na Tabela 14.3. A hipótese a testar é que o uso de hospital independe do sexo do segurado (veja o Problema 6 do Capítulo 4). Tabela 14.3: Freqüências com que 2.000 segurados usaram hospital. Homens Mulheres Usaram hospital 100 150 Não usaram hospital 900 850 4. Teste para o Coeficiente de Correlação Quando se investiga associação entre duas variáveis quantitativas, o artifício de agrupar os dados em intervalos (classes) reduz a variável quantitativa a um caso parti- cular de variável qualitativa, assim, poderíamos usar as mesmas técnicas da análise desse último tipo de variável. Mas esse procedimento pode não ser o melhor possível, e o uso do coeficiente de correlação como medida de associação entre variáveis quan- titativas é o caminho mais apropriado. Na seção 14.5 voltaremos a tratar desse tema agora sob o ponto de vista da inferência. Para finalizar esta seção, notamos que os testes descritos nos itens (1)-(3) são todos baseados na distribuição qui-quadrado e são parte dos chamados testes não-paramétricos. Para essa classe de testes não se supõe que a população (ou populações) siga algum modelo particular, como fizemos para alguns dos testes dos Capítulos 12 e 13. Na seção 14.6 cap14c.p65 21/9/2009, 14:46 401 C A P Í T U L O 1 4 — A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 406 1. Calcule o valor-p para o Exemplo 14.1. 2. Calcule os valores-p para os Exemplos 14.5 e 14.6. 3. Um modelo genético especifica que animais de certa população devam estar classificados em quatro categorias, com probabilidades p1 = 0,656, p2 = 0,093, p3 = 0,093, p4 = 0,158. Dentre 197 animais, obtivemos as seguintes freqüências observadas: O1 = 125, O2 = 18, O3 = 20, O4 = 34. Teste se esses dados estão de acordo com o modelo genético postulado. 4. Teste se os dados abaixo são observações de uma distribuição normal com média 30 e desvio padrão 10. 15,9 16,9 18,3 18,5 19,0 19,5 21,8 23,0 23,8 24,5 26,1 26,9 32,3 35,0 36,1 36,5 37,2 38,5 40,9 44,2 5. Um dado foi lançado 1.000 vezes, com os seguintes resultados: Ocorrência 1 2 3 4 5 6 Freqüência 158 186 179 161 141 175 Teste a hipótese que o dado é balanceado. 14.3 Testes de Homogeneidade Vimos no capítulo anterior como testar a hipótese (13.1) de que as duas popula- ções P1 e P2 tinham a mesma distribuição. Os testes utilizados foram baseados na distribuição t de Student, que assume normalidade das populações, ou o teste não- paramétrico de Wilcoxon (Mann-Whitney), que não faz essa suposição, mas fica bem mais fácil se as distribuições forem contínuas. O teste que apresentaremos agora pode ser usado para dados discretos ou contínu- os e serve para testar H0 dada por (13.1) contra alternativas gerais, e não somente para testar diferenças de localização. Exemplo 14.2 (continuação) Considerando P1 como a população de alunos de Ciências Humanas e P2 a dos alunos de Ciências Biológicas, nosso objetivo é testar a hipótese H0 : P1 = P2, usando os resultados amostrais da Tabela 14.2. Para isso, precisamos encontrar os valores esperados n* ij, para aplicar a fórmula (14.1). Inicialmente, observemos que se H0 for verdadeira, a distribuição de probabilidades nas duas linhas deveria ser a mesma, e equivaleria a ter uma única população P. A última linha (de totais) da Tabela 14.2 representaria uma amostra de 200 alunos dessa única Problemas cap14c.p65 21/9/2009, 14:46 406 1 4 . 3 T E S T E S D E H O M O G E N E I D A D E 407 população. A Tabela 14.7 apresenta as estimativas das proporções, em cada grau, para P1, P2 e P. Sendo H0 verdadeira, deveríamos esperar para P1 e P2 as mesmas proporções observadas para P, ou valores aproximadamente iguais. Ou, ainda, todas as linhas dessa tabela deveriam ser iguais entre si, e iguais à linha de totais, o que aparentemente não ocorre. A partir dessas porcentagens podemos obter as freqüências absolutas correspon- dentes (ou valores esperados) se H0 for verdadeira. Obtemos, então, a Tabela 14.8. Tabela 14.7: Porcentagens estimadas das classes para cada população. Aluno Grau de A B C D E Total C. Humanas 15 20 30 20 15 100 C. Biológicas 8 23 18 34 17 100 Total 11,5 21,5 24 27 16 100 Tabela 14.8: Freqüências absolutas sob H0 (n* ij). Aluno Grau de A B C D E Total C. Humanas 11,5 21,5 24 27 16 100 C. Biológicas 11,5 21,5 24 27 16 100 Total 23 43 48 54 32 200 Desse modo, encontramos os valores esperados n* ij, que podem ser substituídos em (14.1), obtendo-se χ2 obs = (15 – 11,5)2 + ... + (15 – 16)2 + (8 – 11,5)2 + ... + (17 – 16)2 = 9,09. 11,5 16 11,5 16 Novamente, para consultar a tabela precisamos determinar os graus de liberdade, e va- mos usar o mesmo argumento anterior. Quantas caselas poderíamos preencher livremente em uma simulação, sendo que os totais marginais são conhecidos? Observando a Tabela 14.9, concluímos que basta preencher apenas quatro caselas, as seis restantes são encontradas por diferenças. Como exemplo, preenchemos quatro caselas com círculos; as demais (sinais de “mais”) podem ser obtidas por diferenças a partir dos totais de linhas ou colunas. Tabela 14.9: Determinação do número de graus de liberdade. Aluno Grau de A B C D E Total C. Humanas o + o + + 100 C. Biológicas + o + o + 100 Total 23 43 48 54 32 200 cap14c.p65 21/9/2009, 14:46 407 C A P Í T U L O 1 4 — A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 408 Da Tabela IV, com α = 0,05 e 4 graus de liberdade encontramos χ2 c = 9,488, o que leva à não-rejeição de H0, ou seja, a distribuição das notas é a mesma para as duas populações. Observe que os valores esperados na Tabela 14.8 podem ser obtidos de n* ij = (ni . n.j)/n. Exemplo 14.7. Consideremos, novamente, o Exemplo 13.9 e verifiquemos quantos elementos de cada amostra caem nas seguintes classes de resistência à remoção: (0,4; 1,0], (1,0; 1,6], (1,6; 2,2], (2,2; 2,8]. Obtemos a Tabela 14.10, com os valores espera- dos entre parênteses. Tabela 14.10: Valores observados para amostras do Exemplo 13.12. Populações (0,4; 1,0] (1,0; 1,6] (1,6; 2,2] (2,2; 2,8] Total P1(T) 29 (33) 60 (52) 9 (11) 2 (4) 100 P2(C) 37 (33) 44 (52) 13 (11) 6 (4) 100 Total 66 104 22 8 200 Utilizando (14.1) obtemos χ2 obs = 6,1585. Como temos s = 4, rejeitaremos H0, se 6,1585 > c, onde c é o valor de uma v.a. com distribuição χ2(3), tal que P(χ 2(3) > c) = α. Com α = 0,05, obtemos c = 7,815 da Tabela IV, logo não rejeitamos H0 no nível α. Esse teste pode ser estendido para o caso de termos r populações P1, ..., Pr e que- rermos testar a hipótese H0 : P1 = P2 = ... = Pr (14.6) contra a alternativa em que pelo menos duas são distintas. Obteremos uma tabela de dupla entrada r × s. Designando-se os tamanhos das amostras dessas populações por n1, ..., nr, com n1 + ... + nr = N, e por nij o número de elementos da amostra de Pi classificados na categoria j, teremos a situação da Tabela 4.11. A hipótese a ser testada aqui é H0 : p11 = p21 = ... = pr1 ... p1s = p2s = ... = prs Nesse caso, a estatística (14.1) tem distribuição χ 2(v), onde o número de graus de liberdade v é dado por v = (r – 1)(s – 1). O argumento para obter esse número é o mesmo usado para o Exemplo 14.2. 6. Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas obtidas por estudantes de escolas particulares, ao tomarem o exame vestibular para uma Universidade. Para testar essa hipótese, foram selecionadas duas amostras de estudantes que prestaram o vestibular, suas médias gerais foram anotadas e obteve-se a tabela a seguir. Problemas cap14c.p65 21/9/2009, 14:46 408 1 4 . 7 P R O B L E M A S E C O M P L E M E N T O S 417 Podemos comparar os quantis (empíricos) dos dados com os quantis da normal, por meio de um gráfico q × q, com o objetivo de verificar que os pontos se distribuem ao redor de uma reta, como na Figura 14.4. Figura 14.4: Quantis da normal padrão contra quantis dos dados. 14.7 Problemas e Complementos 17. Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações para o Problema 20 do Capítulo 4. 18. Supõe-se que uma moeda favoreça cara, na proporção de duas caras para três coroas. Para testar tal hipótese, lança-se uma moeda quatro vezes, contando-se o número de caras. Repete-se esse experimento 625 vezes. Os resultados estão na tabela abaixo. Esses dados confirmam ou não a suposição? No de caras 0 1 2 3 4 Total Freqüências 72 204 228 101 20 625 19. Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes artificiais, A e B, obtendo-se os resultados seguintes. Sexo Preferem A Preferem B Indecisos Feminino 50 110 40 Masculino 150 42 8 A distribuição de preferências pelos dois sexos é a mesma? Calcule o valor-p. cap14c.p65 21/9/2009, 14:46 417 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 420 15.1 Introdução Como vimos no Capítulo 1, uma das preocupações de um estatístico ao analisar um conjunto de dados é criar modelos que explicitem estruturas do fenómeno sob observação, as quais frequentemente estão misturadas com variações acidentais ou aleatórias. A identificação dessas estruturas permite conhecer melhor o fenómeno, bem como fazer afirmações sobre possíveis comportamentos. Portanto, uma estratégia conveniente de análise é supor que cada observação seja formada por duas partes, como vimos em (1.1) do Capítulo 1: observação = previsível + aleatório. (15.1) Aqui, a primeira componente incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressa por uma função matemática, com parâmetros desconhecidos. A segunda parte, a aleatória (ou não previsível), representa aquilo que o pesquisador não pode controlar e para a qual são impostas algumas suposições, como, por exemplo, que ela obedeça a algum modelo probabilístico específico, que, por sua vez, também contém parâmetros desconhecidos. Dentro desse cenário, o trabalho do estatístico passa a ser o de estimar os parâmetros desconhecidos das duas partes do modelo, baseado em amostras observadas. Neste capítulo iremos investigar um modelo simples, chamado de análise de variância com um fator. No capítulo seguinte iremos estudar o modelo de regressão linear simples. As técnicas de análise de variância foram desenvolvidas principalmen- te pelo estatístico inglês Ronald A. Fisher, a partir de 1918. O leitor interessado pode consultar os trabalhos pioneiros de Fisher (1935, 1954) ou Peres e Saldiva (1982) para mais informações sobre esse assunto. A situação geral pode ser descrita como segue. Temos uma população P de unidades experimentais (indivíduos, animais, empresas etc.), para a qual temos uma v.a. Y de interesse. Capítulo 15 Inferência para Várias Populações cap15d.p65 21/9/2009, 14:56 420 1 5 . 1 I N T R O D U Ç Ã O 421 Suponha, agora, que possamos classificar as unidades dessa população segundo níveis de um fator. Por exemplo, o fator pode ser o sexo, com dois níveis, arbitrariamente denotados por l: sexo masculino e 2: sexo feminino. A v.a. Y pode ser a altura de cada indivíduo. Genericamente podemos ter I níveis para esse fator. A população fica, então, divi- dida em I subpopulações (ou estratos), P1, ..., PI, cada uma representada por um nível i do fator, i = 1, 2, ..., I. No exemplo citado teríamos duas subpopulações: a dos indiví- duos do sexo masculino e a dos indivíduos do sexo feminino. Na Figura 15.1 mostramos graficamente as suposições adotadas para o comporta- mento da população neste modelo. A Figura 15.1 (a) mostra um comportamento mais amplo, com distribuições distintas para cada subpopulação. Na Figura 15.1 (b), aparece a suposição mais comum, em que a parte aleatória segue uma distribuição normal, com a mesma variância σ 2 para todas as subpopulações Pi, i = 1, 2, ..., I. Figura 15.1: Formas da distribuição de y para os diversos níveis do fator. Fator (a) f(y/x) Y P2 P1 μ2 μ3 μ4 μ1 P3 P4 Fator (b) f(y/x) Y P1 P2 μ2 μ3 μ4 μ1 P3 P4 Fator (c) f(y/x) Y P1 P2 μ2 μ3 μ4 μ1 μ P3 P4 cap15d.p65 21/9/2009, 14:56 421 1 5 . 1 I N T R O D U Ç Ã O 423 Logo, além de estimar μ1, ..., μI, temos que estimar também σ 2 e. Se (15.4) e (15.5) valerem, teremos I subpopulações normais N(μi, σ 2 e), i = 1, 2, ..., I, que têm médias diferentes e mesma variância. A Figura 15.1 (b) ilustra essa situação, com I = 4. O modelo (15.4) é chamado modelo com efeitos fixos, no sentido de que as subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador. Se o experimento fosse repetido, amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas. Pode-se considerar, também, modelos com efeitos aleatórios, mas esse caso não será tratado neste livro. Exemplo 15. l. Um psicólogo está investigando a relação entre o tempo que um indi- víduo leva para reagir a um estímulo visual (Y) e alguns fatores, como sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem). Na Tabela 15.1 temos os tempos para n = 20 indivíduos (valores da v.a. Y). O fator sexo tem dois níveis: i = 1: sexo masculino (H) e i = 2: sexo feminino (M), com n1 = n2 = 10. O fator idade tem cinco níveis: i = 1: indivíduos com 20 anos de idade, i = 2: indivíduos com 25 anos etc., i = 5: indivíduos com 40 anos. Aqui, n1 = ... = n5 = 4. A acuidade visual, como porcentagem Tabela 15.1: Tempos de reação a um estímulo (Y) e acuidade visual (Z) de 20 indivíduos, segundo o sexo (W) e a idade (X). Indivíduo Y W X Z 1 96 H 20 90 2 92 M 20 100 3 106 H 20 80 4 100 M 20 90 5 98 M 25 100 6 104 H 25 90 7 110 H 25 80 8 101 M 25 90 9 116 M 30 70 10 106 H 30 90 11 109 H 30 90 12 100 M 30 80 13 112 M 35 90 14 105 M 35 80 15 118 H 35 70 16 108 H 35 90 17 113 M 40 90 18 112 M 40 90 19 127 H 40 60 20 117 H 40 80 cap15d.p65 21/9/2009, 14:56 423 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 424 da visão completa, também gera cinco níveis: i = 1: indivíduos com 100% de visão, i = 2: indivíduos com 90% de visão, e assim por diante. Não foi possível controlar essa variável a priori como as outras duas, já que ela exige exames oftalmológicos para sua mensuração. Daí o desbalanceamento dos tamanhos observados: n1 = 2, n2, = 10, n3 = 5, n4 = 2 e n5 = 1. Fatores desse tipo são chamados de co-fatores. Assim, para o fator sexo, teremos o modelo (15.4) com i = 1, 2, j = 1, 2, 3, ..., 10, e para o fator idade, o mesmo modelo com i = 1, 2, ..., 5, j = 1, 2, 3, 4. Exemplo 15.2. Uma escola analisa seu curso por meio de um questionário com 50 ques- tões sobre diversos aspectos de interesse. Cada pergunta tem uma resposta, numa escala de 1 a 5 (v.a. Y), onde a maior nota significa melhor desempenho. Na última avaliação usou-se uma amostra de alunos de cada período, e os resultados estão na Tabela 15.2. Aqui, o fator é período, com três níveis: i = 1: manhã, i = 2: tarde e i = 3: noite; temos n1 = 7, n2 = 6 e n3 = 8. Tabela 15.2: Avaliação de um curso segundo o período. Período Manhã Tarde Noite 4,2 2,7 4,6 4,0 2,4 3,9 3,1 2,4 3,8 2,7 2,2 3,7 2,3 1,9 3,6 3,3 1,8 3,5 4,1 3,4 2.8 Exemplo 15.3. Num experimento sobre a eficácia de regimes para emagrecer, ho- mens, todos pesando cerca de 100 kg e de biotipos semelhantes, são submetidos a três regimes. Após um mês, verifica-se a perda de peso de cada indivíduo, obtendo-se os valores da Tabela 15.3. Tabela 15.3: Perdas de peso de indivíduos submetidos a três regimes. Regime 1 2 3 11,8 7,4 10,5 10,5 9,7 11,2 12,5 8,2 11,8 12,3 7,2 13,1 15,5 8,6 14,0 11,4 7,1 9,8 cap15d.p65 21/9/2009, 14:56 424 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 426 (iii) E(e1j e2k) = 0, para todo j e k, indicando independência entre observações das duas subpopulações. Com essas suposições, temos duas amostras aleatórias simples, independentes entre si, retiradas das duas subpopulações N(μ1, σe 2) e N(μ2, σe 2). Queremos testar a hipótese H0: μ1 = μ2 contra a alternativa H1: μ1 ≠ μ2. Como já salientamos acima, esse teste pode ser conduzido com os métodos do Capí- tulo 13, mas o objetivo aqui é introduzir a metodologia da análise de variância, com um caso simples. A extensão para mais de dois níveis será estudada na seção 15.3. Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais, ou seja, Var(e1j) = Var(e2j) = σe 2, para todo j = 1, ..., ni. (15.7) Essa é a propriedade conhecida como homoscedasticidade, isto é, estamos admi- tindo que a variabilidade residual é a mesma para os dois níveis (ou que P1 e P2 têm a mesma variabilidade segundo a v.a. Y). Note também que E(yij) = μi, Var(yij) = Var(eij) = σ2e. (15.8) 15.2.2 Estimação do Modelo Nosso objetivo é estimar μ1, μ2 e σe 2 no modelo (15.6), para podermos testar H0. Usaremos estimadores de mínimos quadrados. Poderíamos usar também estimadores de máxima verossimilhança, pois sabemos que nossas observações têm distribuição normal. Temos que, de (15.6), os resíduos são dados por eij = yij – μi, (15.9) e a soma dos quadrados dos resíduos é dada por ) ( = = ∑ ∑ SQ e y ij j n i ij j n i i i i ( , ) μ μ μ 1 2 2 1 1 2 1 1 2 2 − = = = = ∑ ∑ ∑ ∑ ( ) = − + − = = ( ) , y y j j n j j n 1 1 1 2 2 1 2 2 1 2 μ μ ou seja, SQ e e j j n j j n ( , μ μ ) 1 2 1 2 1 2 2 1 1 2 = + = = ∑ ∑ . (15.10) cap15d.p65 21/9/2009, 14:56 426 1 5 . 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 427 Observe que essa soma de quadrados é uma função de μ1 e, μ2 Se as variâncias residuais das duas subpopulações não fossem iguais, essa soma seria mais afetada por aquele nível que tivesse maior variância, e isso deveria influenciar a escolha dos estimadores. Nesse caso, uma sugestão seria então minimizarmos a expressão (15.10) com eij 2 substituída por (eij/σi)2, com Var(eij) = σi 2, o que conduz a estimadores de mínimos quadrados ponderados. Derivando (15.10) em relação a μ1 e μ2 obtemos: ∂ ∂ =− − = = =∑ SQ y i i ij j n i i ( , ) ( ) , , μ μ μ μ 1 2 1 2 0 1 2, do que segue que os estimadores são dados por ˆ , μ1 1 1 1 1 1 1 = = =∑ n y y j j n , (15.11) ˆ , μ2 2 2 1 2 2 = 1 = =∑ n y y j j n , (15.12) que são as médias das observações dos níveis l e 2, respectivamente. Logo, SQ y y y y j j n j j n ( , ) ( ) ( ) . μ μ 1 2 1 1 1 2 2 1 2 2 1 2 = − + − = = ∑ ∑ ˆ ˆ (15.13) Podemos pensar em (15.13) como a quantidade total de informação quadrática perdida pela adoção do modelo (15.6). Essa soma é também denominada soma dos quadrados dos resíduos. Vejamos outra maneira de escrever essa soma. Dentro do grupo dos homens, a variância da subpopulação P1 pode ser estimada por S n y y j j n 1 2 1 1 1 1 2 1 1 1 = − − =∑( ) , (15.14) e a variância da subpopulação P2 das mulheres é estimada por S n y y j j n 2 2 2 2 1 2 2 1 1 2 = − − =∑( ) . (15.15) Segue-se que SQ n S n S ( , ) ( ) ( ) . μ μ 1 2 1 1 2 2 2 2 1 1 = − + − ˆ ˆ (15.16) cap15d.p65 21/9/2009, 14:56 427 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 428 Temos, acima, dois estimadores não-viesados do mesmo parâmetro σe 2 e, portanto, podemos definir uma variância amostral ponderada ( ) ( ) S n S n S n n e 2 1 1 2 2 2 2 1 2 1 1 2 = − + − + − , (15.17) e, usando (15.16), podemos escrever S SQ n e 2 1 2 2 = − ( , μ μ ), ˆ ˆ (15.18) se n = n1 + n2. Vemos que S2 e é a quantidade média de informação quadrática perdida e é um estimador não-viesado de σ 2 e. Observe que esse é o mesmo estimador definido em (13.10). Temos, portanto, um primeiro enfoque para estimar a variância desconhecida, σe 2, por meio da variância devida ao erro ou variância dentro de amostras, dada por Se 2, que é baseada nas variâncias amostrais, dadas por (15.14) e (15.15). A soma de quadrados (15.16) é também chamada de soma de quadradros dentro dos grupos. Um outro enfoque será visto mais adiante, e que consiste em estimar σe 2, através de uma variância entre amostras, baseada na variabilidade entre as médias amostrais, também chamada variação devida ao fator. Exemplo 15.1. (continuação) Para os dados da Tabela 15.1, temos: Grupo dos Homens (nível l): y y y j j 1 1 1 10 1 2 1 2 110 1 670 9 74 54 = − = = , , ∑ = ( ) , , , ; S Grupo das Mulheres (nível 2): y y y j j 2 2 1 10 2 2 2 2 104 9 566 9 62 99 = − = = , , ∑ = ( ) , , , . S Segue-se que S S e e 2 670 9 566 9 18 1 237 8 18 68 77 8 29 = + = = = , , . , , , , . Note que a soma dos quadrados dos resíduos é SQ y y ( , ) ( , ) . , . μ μ 1 2 1 2 1 237 8 = = SQ ˆ ˆ Observe, também, que –y1 e –y2, denotam os tempos médios estimados de reação ao estímulo dos homens e mulheres, respectivamente. Uma questão de interesse é a seguinte: será que o conhecimento do sexo de um indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo? Para responder a essa questão, devemos ter algum modelo alternativo para poder comparar os ganhos. O modelo usualmente adotado é o mais simples de todos, ou seja, aquele cap15d.p65 21/9/2009, 14:56 428 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 430 Tabela 15.4: Resíduos para vários modelos ajustados aos dados do Exemplo 15.1. Variáveis Resíduos dos Modelos e (1) e (2) e (3) Indivíduo Tempo de Sexo Idade y y i − y y ij − i y y ij i − Reaçâo 1 96 H 20 –11,50 –14,1 –2,50 2 92 M 20 –15,50 –12,9 –6,50 3 106 H 20 –1,50 –4,1 7,50 4 100 M 20 –7,50 –4,9 1,50 5 98 M 25 –9,50 –6,9 –5,25 6 104 H 25 –3,50 –6,1 0,75 7 110 H 25 2,50 –0,1 6,75 8 101 M 25 –6,50 –3,9 –2,25 9 116 M 30 8,50 11,1 8,25 10 106 H 30 –1,50 –4,1 –1,75 11 109 H 30 1,50 –1,1 1,25 12 100 M 30 –7,50 –4,9 –7,75 13 112 M 35 –4,50 7,1 1,25 14 105 M 35 –2.50 0,1 –5,75 15 118 H 35 10,50 7,9 7,25 16 108 H 35 0,50 –2,1 –2,75 17 113 M 40 5,50 8,1 –4,25 18 112 M 40 4,50 7,1 –5,25 19 127 H 40 19,50 16,9 9,75 20 117 H 40 9,50 6,9 –0,25 d.p. 8,50 8,29 6,08 2d.p. 17,00 16,58 12,16 Nota: Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os “lucros” na adoçõo de cada modelo. No texto aparece o significado de cada coluna dos resíduos. 15.2.3 Intervalos de Confiança Com as suposições feitas sobre os erros, podemos escrever y N n y N n e e 1 1 2 1 2 2 2 2 ∼ ∼ ( , / ), ( , / ), μ σ μ σ (15.23) o que permite construir intervalos de confiança separados para os dois parâmetros μ1 e μ2, como já vimos anteriormente. Esses têm a forma y t S n i = i e i ± γ , 1, 2, (15.24) cap15d.p65 21/9/2009, 14:56 430 1 5 . 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 431 onde tγ é o valor crítico da distribuição t de Student com v = n – 2 graus de liberdade, tal que P t t n t ( ( ) ) , − − γ γ = γ < 2 < 0 < γ < 1. Observe que o número de graus de liberda- de é (n – 2) e não ni – l, porque Z y n N i i i i e = − ( ) ( , ), μ σ ∼ 0 1 W n S n e e = − − ( ) ( ) 2 2 2 2 2 σ χ ∼ e, portanto, Z W n n y S i i i i e / ( ) ( ) − = − 2 μ tem distribuição t(n – 2) pelo Teorema 7.1. Daqui, obtemos (15.24). Exemplo 15.1. (continuação) Para o Exemplo 15.1, temos: IC ( ; , ) , ( , ) , / ] , ; , [, μ1 0 95 110 10 2 101 8 29 10 104 59 115 61 = ± = IC ( ; , ) , ( , ) , / ] , ; , [, μ2 0 95 104 90 2 101 8 29 10 99 39 110 41 = ± = com t0,95 = 2,101 encontrado na Tabela V, com v = 18 graus de liberdade. Ainda, com as suposições feitas, podemos concluir que y y N n n e e 1 2 1 2 2 1 2 2 − − + ∼ ( , / / ), μ μ σ σ (15.25) de modo que a estatística T y y S n n e = − − − + ( ) ( ) / / ) 1 2 1 2 1 2 1 1 μ μ (15.26) tem distribuição t de Student com v = n1 + n2 – 2 = n – 2 graus de liberdade, e um intervalo de confiança para a diferença μ1 – μ2 pode ser construído. Exemplo 15.1. (continuação) Para o exemplo, IC ( ; , ) ( ) / / μ μ 1 2 1 2 1 2 0 95 1 1 − = − ± + y y t S n n y e = − ± + = − ( , , ) ( , )( , ) / / ] , ; , [. 110 1 104 9 2 101 8 29 1 10 1 10 2 59 12 99 Este resultado implica que a hipótese H0 1 2 :μ = μ (15.27) cap15d.p65 21/9/2009, 14:56 431 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 432 não pode ser rejeitada no nível α = 0,05, já que o zero pertence ao intervalo. Isso está de acordo com o resultado já apontado de que o conhecimento do sexo de um indiví- duo não irá ajudar a prever o tempo de reação ao estímulo. O teste da hipótese para (15.27), com as suposições adotadas, é feito usando a esta- tística (15.26), com n1 + n2 – 2 g.l., obtendo-se o valor observado t0 = 1,40, que, compa- rado com o valor crítico de 2,101(α = 5% e l8 g.l.), leva à não-rejeição da hipótese, como foi visto acima. 15.2.4 Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num quadro, para facilitar a análise. Se (15.27) for válida, o modelo adotado será yij = μ + eij, e a quantidade de informação perdida (devida aos resíduos) será dada por SQ y y ij j n i i ( ) ( ) , μ = − = = ∑ ∑ 1 1 2 2 ˆ (15.28) que iremos chamar de soma de quadrados total, abreviadamente, SQTot. Analogamente, adotado o modelo (15.4), a quantidade de informação perdida é dada por (15.13) ou (15.16), e que chamamos de soma de quadrados dos resíduos, abreviadamente, SQRes, ou soma de quadrados dentro dos dois grupos, abreviadamente, SQDen. A economia obtida ao passarmos de um modelo para outro será SQTot – SQDen = SQEnt, (15.29) que chamaremos de soma de quadrados entre grupos. Não é difícil provar que (veja o problema 18) SQEnt = − =∑n y y i i i 1 2 2 ( ) . (15.30) Observando essa expressão, vemos que ela representa a variabilidade entre as médi- as amostrais, ou seja, uma “distância” entre a média de cada grupo e a média global. Donde o nome “soma de quadrados entre grupos”. Quanto mais diferentes forem as médias –yi, i = 1, 2, maior será SQEnt e, conseqüentemente, menor será SQDen. As quantidades QMTot = SQTot n− 1 (15.31) cap15d.p65 21/9/2009, 14:56 432 1 5 . 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 433 e QMDen = SQDen n− 2 (15.32) são chamadas quadrado médio total e quadrado médio dentro (ou residual), respec- tivamente. Todas essas informações são agrupadas numa única tabela, conhecida pelo nome de ANOVA (abreviação de ANalysis Of VAriance), descrita na Tabela 15.5. Tabela 15.5: Tabela de Análise de Variância (ANOVA). F.V. g.l. SQ QM F Entre 1 SQEnt QMEnt QMEnt/S,2 Dentro n – 2 SQDen QMDen (ou Se 2) Total n – 1 SQTot QMTot (ou S2) Na primeira coluna temos as descrições das diferentes somas de quadrados, tec- nicamente indicadas por fontes de variação (F.V.). Os graus de liberdade (g.l.) da segunda coluna estão associados às respectivas somas de quadrados, sendo que o número de g.l. da SQE é obtido por subtração. Falaremos abaixo sobre QMEnt e a razão F = QMEnt/QMDen. Exemplo 15.1. (continuação) Com os dados obtidos anteriormente para o Exemplo 15.1, podemos construir a tabela ANOVA para o modelo (15.4). O resultado está na Tabela 15.6. Tabela 15.6: Tabela ANOVA para o Exemplo 15.1. F.V. g.l. SQ QM F Entre 1 135,20 135,20 1,97 Dentro 18 1.237,80 68,77 Total 19 1.373,00 72,26 Da ANOVA encontramos os desvios padrões residuais Se = 68 77 = 8 29 , , do “mo- delo completo” (15.4) e S = 72 26 = 8 50 , , , do “modelo reduzido” (15.19). A econo- mia propiciada ao passar de um modelo para outro, em termos de soma de quadrados, é 135,20, e em termos de quadrados médios, comparando 72,26 e 68,77. Proporcio- nalmente, economizamos 135 20 1 373 00 0 0985 9 85 , . , , , %, = ≈ cap15d.p65 21/9/2009, 14:56 433 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 434 ou seja, aproximadamente 10% na SQ de resíduos. Podemos dizer que essa é a pro- porção da variação explicada pelo modelo (15.9). Essa medida é chamada coeficiente de explicação do modelo, denotada por R2 = SQEnt SQTot . (15.33) Essa medida já foi usada na seção 4.6. Veja o problema 27. A conveniência ou não do modelo (15.4) está associada ao teste (15.27), já que aceitar essa hipótese implica a adoção do modelo (15.19). Com as suposições feitas, a estatística para o teste é (15.26), que, sob H0 fica T y y S n n e = − + 1 2 1 2 1 1 / / , (15.34) que tem distribuição t(n1 + n2 – 2). Também sabemos que o quadrado de T tem distri- buição F(1, n1 + n2 – 2) (ver seção 13.3). Contudo, QMEnt = SQEnt = − + − n y y n y y 1 1 2 2 2 2 ( ) ( ) , e como y n y n y n n = + + 1 1 2 2 1 2 , podemos escrever QMEnt = + − = − + n n n n y y y y n n 1 2 1 2 1 2 2 1 2 2 1 2 1 1 ( ) ( ) / / . (15.35) Logo, concluímos que T y y S n n S F e e 2 1 2 2 2 1 2 2 1 1 = − + = = ( ) ( / / ) . QMEnt (15.36) Essa é a estatística que aparece na última coluna da tabela ANOVA. Portanto, po- demos usar F, com (1, n – 2) graus de liberdade para testar a hipótese (15.27). Rejeita- remos H0 se F > c, c determinado pelo nível de significância do teste. Exemplo 15.4. Da ANOVA da Tabela 15.6, vemos que o valor da estatística F é 1,97. Consultando a Tabela VI, com (1,18) g.l. e α = 0,05, encontramos o valor crítico 4,41. Logo, não rejeitamos H0: μ1 = μ2. Isso significa que não há vantagem em usar o modelo (15.4) no lugar de (15.19). cap15d.p65 21/9/2009, 14:57 434 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 436 para i = 1, 2, 3, 4, 5 (níveis de idade) e j = 1, 2, 3, 4 (quatro indivíduos para cada nível de idade). Na Figura 15.2 temos os box plots da variável resposta (tempo de reação estímulo), para cada nível do fator idade. Vemos claramente que o tempo aumenta com a idade. Figura 15.2: Box plots para a variável Y (estímulo) para cada nível de idade. 130 120 110 100 90 20 25 30 35 40 Idade Estímulo Agora, queremos minimizar SQ ( , , ) ( ) , μ μ μ 1 5 2 1 4 1 5 … = − = = ∑ ∑ yij i j i (15.38) com as hipóteses E(eij) = 0, para todo i, j e Var(eij) = σe 2, para todo i, j. É fácil verificar que os estimadores das médias μi. são ˆ , , , , , μi i ij j i n y y i = = = =∑ 1 1 2 5 1 4 … (15.39) e que SQDen SQRes SQ = = = − = = ∑ ∑ ( , , ) ( ) , μ μ 1 5 2 1 4 1 5 … y y ij i j i ˆ ˆ ou seja, SQDen = − =∑( ) , n S i i i 1 2 1 5 cap15d.p65 21/9/2009, 14:57 436 1 5 . 3 M O D E L O P A R A M A I S D E D U A S S U B P O P U L A Ç Õ E S 437 onde S2 é variância amostrals do i-ésimo nível (grupo de idade). Todas essas variâncias amostrais são estimadores não-viesados de σe 2, logo pode-se, novamente, considerar o estimador ponderado S n S n n e i i i 2 2 1 5 1 5 5 = − − = − ∑ = ( ) SQDen . (15.40) Para nossos dados, obtemos: (1) i = l (20 anos) y1 = 98 5 , , ( ) , , , y y S j j 1 1 4 1 2 1 2 107 0 35 67 ∑ = − = = (2) i = 2 (25 anos) y2 =103 25 , , ( ) , , , y y S j j 2 1 4 2 2 2 2 78 75 26 25 ∑ = − = = (3) i = 3 (30 anos) y3 =107 75 , , ( ) , , , y y S j j 3 1 4 3 2 3 2 132 75 44 25 ∑ = − = = (4) i = 4 (35 anos) y3 =110 75 , , ( ) , , , y y S j j 4 1 4 4 2 4 2 94 75 31 58 ∑ = − = = (5) i = 5 (40 anos) y3 =117 25 , , ( ) , , , . y y S j j 5 1 4 5 2 5 2 140 75 46 92 ∑ = − = = Segue-se que Se 2 = 554/15 = 36,93, Se = 6,08. A tabela ANOVA para o fator idade está na Tabela 15.7. Tabela 15.7: Tabela ANOVA para o Exemplo 15.1, com fator idade. F.V. g.l. SQ QM F Entre 4 819,00 204,75 5,54 Dentro 15 554,00 36,93 Total 19 1.373,00 72,26 Da tabela concluímos que houve uma redução substancial na soma de quadrados (819 unidades quadradas), ou seja, R2 819 1 373 59 65 = = . , %, cap15d.p65 21/9/2009, 14:57 437 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 438 isto é, aproximadamente 60% da variação total é explicada pelo fator idade, reduzindo o erro quadrático médio de 8,50 para 6,08. Como antes, podemos construir os intervalos de confiança para os parâmetros μi. Por exemplo, para o grupo de idade de 25 anos, IC ( ; , ) , ( , )( , ) ] , ; , [. μ2 0 95 103 25 2 131 6 08 2 96 77 109 73 = ± = Os resíduos desse modelo encontram-se na Tabela 15.4, coluna e(3), e verifi- camos que eles diminuíram bastante, indicando a boa capacidade de previsão do modelo. A análise dos resíduos na Figura 15.3 não sugere violação de nenhuma das suposições feitas. Figura 15.3: Resíduos do modelo yij = μi + eij para o fator idade. 12,16 (2se) (se) (–se) (–2se) 6,08 –6,08 –12,16 20 anos 25 anos 30 anos 35 anos 40 anos 0,00 Todas as idades y y y y y y A hipótese H0 1 5 :μ μ = …= (15.41) pode ser testada usando-se o valor 5,54 da estatística F. Da Tabela VI encontramos que o valor crítico de F(4,15), com α = 0,05, é 3,06, logo rejeitamos H0. Ou seja, há evidências de que os tempos médios de reação para os diversos grupos de idade não sejam todos iguais. cap15d.p65 21/9/2009, 14:57 438 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 440 Um modo de investigar a causa da rejeição é comparar os grupos dois a dois. Como já foi visto na seção 15.2, isso pode ser feito por meio da construção de intervalos de confiança para a diferença, obtendo-se, por exemplo, IC( ; ) ( ) / / , μ μ γ γ 1 2 1 2 1 2 1 1 − = − ± + y y t S n n e (15.42) com tγ obtido de uma distribuição t de Student com n – I graus de liberdade. Podería- mos, então, construir os intervalos para todos os possíveis pares e, observando–se aqueles que não contêm o valor zero, obter conclusões sobre a razão da rejeição. Exemplo 15.5. Investigando o efeito da idade, vimos que a hipótese H0 foi rejeitada. O intervalo de confiança para a diferença de duas médias quaisquer seria dado por IC( ; , ) ( ) ( , )( , ) / / μ μ i j i j y y − = − ± + 0 95 2 131 6 08 1 4 1 4 = − ± ( ) , . y y i j 9 16 Segue-se que grupos de idade cuja diferença de médias seja superior a 9,16 seriam diferentes. Na Tabela 15.8 observa-se que se aceita a igualdade apenas para grupos vizinhos, indicando uma relação mais forte entre as variáveis, fato que será explorado no próximo capítulo. Tabela 15.8: Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 15.1. Grupo 20 anos 25 anos 30 anos 35 anos 40 anos Média 98,50 103,25 107,75 110,75 117,25 Diferença 4,75 4,50 3,00 6,50 No entanto, com esse procedimento não se pode controlar as probabilidades do erro de tipo I, ou seja, a probabilidade de rejeitar uma hipótese verdadeira. Por exemplo, suponhamos que todas as médias sejam iguais. No problema acima, com cinco grupos e sob a hipótese nula, teríamos então 5 2 10 ⎛ ⎝ ⎜⎜⎜⎜ ⎞ ⎠ ⎟⎟⎟⎟= possíveis comparações duas a duas, cada uma testada no nível de 5%, e a probabilidade de que pelo menos uma das comparações exceda 9,16 é bem maior do que 5% (na realidade, pode ser mostrado que essa probabilidade está em torno de 29%). Essa probabilidade cresce com o número de comparações. Para controlar melhor essa probabilidade global do erro de tipo I, pode ser usada uma correção, baseada na desigualdade de Bonferroni (ver problema 19). Usa-se, então, o intervalo IC( ; ) ( ) / / , μ μ γ γ i j i j e i j y y t S n n − = − ± + ∗ 1 1 (15.43) onde o único valor que muda é o de t*γ, que tem o mesmo número de graus de liberdade, mas o nível de significância agora é α* = α/m, onde m é o número de comparações duas a duas que desejamos fazer. cap15d.p65 21/9/2009, 14:58 440 1 5 . 5 T E S T E D E H O M O S C E D A S T I C I D A D E 441 Exemplo 15.6. No Exemplo 15.5, α* = 0,05/10 = 0,005. Da Tabela V, com 15 graus de liberdade, encontramos t* = 3,438 (obtido por interpolação linear) e então IC( ; , ) ( ) ( , )( , ) / μ μ i j y y − = − ± 0 95 3 438 6 08 1 2 1 2 ( ) , . y y 1 2 14 78 − ± Rejeitaremos H0 para diferenças maiores do que 14,78 e vemos que apenas existe diferença entre os grupos de 20 e 40 anos. Os intervalos de Bonferroni são conservadores, pois o nível α* real será menor do que aquele nominal, e essa diferença aumenta com m. Portanto, recomenda-se que o seu uso seja restrito a um número pequeno de comparações. 11. Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto. As quan- tidades de água que passaram pela laje, em cada tipo, foram medidas durante um mês, obtendo-se os valores da tabela abaixo. Que conclusão pode obter? l II III IV 56 64 45 42 55 61 46 39 62 50 45 45 59 55 39 43 60 56 43 41 12. Os dados abaixo vêm de um experimento completamente aleatorizado, onde 5 processos de estocagem foram usados com um produto perecível por absorção de água. 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos, e após uma semana mediu-se a quantidade de água absorvida. Os resultados codificados estão no quadro abai- xo. Existem evidências de que os processos de estocagem produzem resultados diferentes? Sexo A B C D E 8 4 1 4 10 6 –2 2 6 8 7 0 0 5 7 5 –2 –1 5 4 8 3 –3 4 9 15.5 Teste de Homoscedasticidade Uma das suposições básicas para a aplicação da técnica de ANOVA é a de homoscedasticidade, ou seja, que a variância seja a mesma em todos os níveis. Muitas Problemas cap15d.p65 21/9/2009, 14:58 441 1 5 . 6 E X E M P L O C O M P U T A C I O N A L 443 Consultando a Tabela IV, com 4 g.l. e α = 0,05, encontramos χc 2 = 11,1, e portanto não rejeitamos a hipótese H0 de igualdade de variâncias. 15.6 Exemplo Computacional Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de análise de variância. Retomemos o Exemplo 15.1, como fator idade. O Quadro 15.1 mostra a saída do Minitab, usando a opção ANOVA do menu. Observe que os valores encontrados coincidem com aqueles já obtidos na seção 15.3, Tabela 15.7. O valor-p do teste de igualdade de médias é indicado por P = 0,006. A saída mostra também as estimativas das médias dos grupos, os desvios padrões e o desvio padrão ponderado, Se = 6,08. Os intervalos de confiança individuais estão mostrados de forma pictórica, com uma escala anexa, notando-se intersecções que levam à rejeição da hipótese de igualdade de médias. Quadro 15.1: ANOVA para o Exemplo 15.1. Minitab. One-way Analysis of Variance Analysis of Variance for C1 Source DF SS MS F P C2 4 819.0 204.8 5.54 0.006 Error 15 554.0 36.9 Total 19 1373.0 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ 20 4 98.50 5.97 (_ _ _ _ _ _*_ _ _ _ _ _) 25 4 103.25 5.12 (_ _ _ _ _ _*_ _ _ _ _ _) 30 4 107.75 6.65 (_ _ _ _ _ _*_ _ _ _ _ _) 35 4 110.75 5.62 (_ _ _ _ _ _*_ _ _ _ _ _) 40 4 117.25 6.85 (_ _ _ _ _ _*_ _ _ _ _ _) _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ _+_ _ _ _ _ Pooled StDev = 6.08 100 110 120 Na Figura 15.3 temos os resíduos para cada nível do fator idade, bem como os resíduos para todas as idades. Na Figura 15.4 vemos os box plots desses resíduos, por nível, e na Figura 15.5 o box plot dos resíduos para todas as idades. cap15d.p65 21/9/2009, 14:59 443 C A P Í T U L O 1 5 — I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 444 Figura 15.4: Box plots para os resíduos por nível do fator idade. 10 20 25 30 35 40 Idade Resíduos 10 –10 Figura 15.5: Boxplot para os resíduos de todas as idades. 10 Resíduos 10 –10 15.7 Problemas e Complementos 13. A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é mais eficaz. O encarregado de responder a essa pergunto pode dispor de 24 pessoas para verificar a hipótese. Ele as dividiu em três grupos de oito pessoas, de modo aleatório, e submeteu cada grupo a um dos métodos. Após o treinamento os 24 participantes foram submetidos a um mesmo teste, cujos resultados estão na tabela abaixo (quanto maior a nota, melhor o resultado). Quais seriam as conclusões sobre os métodos de treinamento? Método 1 Método 2 Método 3 3 8 4 7 6 7 5 4 4 4 7 9 2 3 3 2 8 10 4 9 8 5 6 9 Σxi 38 37 62 Σxi 2 224 199 496 14. Quer-se testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo. As embalagens são as seguintes: A: a tradicional embalagem preta B: cartolina vermelha C: papel alumínio rosa Escolheram-se três territórios de venda, com potenciais de vendas supostamente idênticos. cap15d.p65 21/9/2009, 14:59 444 1 5 . 7 P R O B L E M A S E C O M P L E M E N T O S 445 Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas obser- vadas durante 4 semanas, obtendo-se os resultados da tabela abaixo. Quais seriam suas conclusões e críticas a esse experimento? Réplicas Embalagens (Semanas) A B C 1 15 21 9 2 20 23 13 3 9 19 20 4 12 25 18 Total 56 88 60 15. Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto seria mais bem aceito. Vinte e quatro donas-de-casa atribuíram notas (0 a 10) para o prato que produziram com o produto. Junto com o produto foram fornecidos quatro tipos de receitas: duas para doces (A e D) e duas para salgados (B e C). Feita a análise estatística, quais recomendações você faria ao produtor? Discuta a validade das suposições feitas para resolver o problema. Receita A B C D 2 4 3 3 5 7 5 6 1 3 1 2 7 9 9 8 2 4 6 1 6 8 8 4 16. Num curso de extensão universitária, entre outras informações, obteve-se informação sobre salário e área de formação académica, com os seguintes resultados: Formação ni –x s Humanas 65 28,75 3,54 Exatas 12 35,21 5,46 Biológicas 8 43,90 4,93 Aqui, ni indica a frequência, –x o salário médio, e s o desvio padrão amostral. Teste a hipótese de que os salários médios nessas três áreas é o mesmo. 17. Suspeita-se que quatro livros, escritos sob pseudónimo, são de um único autor. Uma pequena investigação iniciai selecionou amostras de páginas de cada um dos livros, contando-se o número de vezes que determinada construção sintática foi usada. Com os resultados abaixo, quais seriam as suas conclusões? cap15d.p65 21/9/2009, 14:59 445 16.1 Introdução No Capítulo 8 introduzimos o conceito de regressão para duas v.a. quantitativas, X e Y. Vimos que a esperança condicional de Y, dado que X = x, por exemplo, denotada por E(Y|x), é uma função de x, ou seja, E(Y|x) = μ(x). (16.1) Em (8.27) definimos precisamente essa função. Uma definição similar vale para E(X|y), que será uma função de y. Estamos considerando aqui o caso em que X e Y são definidas sobre uma mesma população P. Por exemplo, X pode ser a idade e Y o tempo de reação ao estímulo, no Exemplo 15.1. Nesse exemplo, a análise sugeriu a existên- cia de uma relação mais forte entre as duas variáveis, e a modelamos por yij = μi + eij, i = 1, ..., 5, j = 1, ..., 4, (16.2) onde μi é a média do grupo de idade i. Podemos pensar que o fator idade determina cinco subpopulações (ou estratos) em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni = 4, i = 1, ..., 5. Em (16.1), μ(x) pode ser qualquer função de x; veja o Exemplo 8.21. Um caso simples de interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional. Nesse caso, μ(x) e μ(y) são, de fato, funções lineares. Veja a seção 8.8. Continuando com o Exemplo 15.1, tanto X (idade) como Y (tempo de resposta ao estímulo) são v.a. contínuas, e podemos pensar em introduzir um modelo alternativo para yij, dada a relação entre X e Y. Observando as médias de Y, segundo os grupos de idades, ou seja, E(Y|x), percebemos que estas aumentam conforme as pessoas enve- lhecem. A Figura 16.1 mostra os dados observados, onde notamos uma tendência crescente, bem como os valores repetidos de Y para cada nível de idade x. Um modelo razoável para E(Y|x) pode ser E(Y|x) = μ(x) = α + βx, (16.3) ou seja, o tempo médio de reação é uma função linear da idade. Capítulo 16 Regressão Linear Simples cap16c.p65 21/9/2009, 15:11 449 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 450 Figura 16.1: Gráfico de dispersão de idade e rea- ção ao estímulo, com reta ajustada. A forma da função μ(x) deve ser definida pelo pesquisador, em função do grau de conhecimento teórico que ele tem do fenômeno sob estudo. Um modelo alternativo a (16.2) seria, então, yij = μ(xi) + eij, (16.4) com E(Y|xi) = μ(xi) = α + βxi, i = 1, 2, ..., 5. Entretanto, a forma usual de escrever o modelo é yi = μ(xi) + ei, (16.5) onde yi indica o tempo de reação do i-ésimo indivíduo com xi anos de idade, i = 1, 2, ..., n, e n é o número total de observações. Teremos, então, com essa notação, valores repetidos para X, por exemplo, x1 = ... = x4 = 20. Convém reforçar a idéia que estamos propondo um modelo de comportamento para as médias das subpopulações, logo teremos de estimar os parâmetros envolvidos na função μ(x), baseados numa amostra de n = 20 observações, no exemplo. No caso de (16.3) o modelo pode ser escrito como yi = E(Y|xi) + ei = α + βxi + ei, i = 1, 2, ..., n, (16.6) devendo-se encontrar os valores mais prováveis para α e β, segundo algum critério, a partir de n observações de pares de valores de (X, Y). Antes de prosseguirmos, seria conveniente interpretar os parâmetros envolvidos no mo- delo (16.5). Sabemos que α, o intercepto, representa o ponto onde a reta corta o eixo das ordenadas, e β, o coeficiente angular, representa o quanto varia a média de Y para um aumento de uma unidade da variável X. Esses parâmetros estão representados na Figura 16.2. Figura 16.2: Representação do modelo E(Y|x) = α + βx. cap16c.p65 21/9/2009, 15:11 450 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 454 1. Usando os dados do Exemplo 15.1: (a) Encontre a reta de mínimos quadrados ^zi = α + βxi, onde z mede a acuidade visual e x, a idade. (b) Interprete o significado de α e β nesse problema. (c) Para cada indivíduo, encontre o desvio ^ei = zi – ^zi; existe algum com valor muito exagerado? 2. A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas. (a) Encontre a reta de MQ, supondo a relação E(y|x) = α + βx. (b) Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável? (c) Qual o significado do coeficiente angular nesse caso? (d) E do coeficiente linear? x 10 13 5 7 20 y 4 3 6 5 2 3. Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico. Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas, e após 15 dias mediu-se a potência. Os resultados estão no quadro abaixo. (a) Faça a representação gráfica dos dados. (b) Ajuste a reta de MQ, da potência como função da temperatura. (c) O que você acha desse modelo? (d) A que temperatura a potência média seria nula? Temperatura 30° 50° 70° 90° Potência 38 43 32 26 33 19 27 23 14 21 4. Ainda usando os dados do exemplo numérico 15.1, investigue o ajuste da reta de MQ na variável tempo de reação como função da acuidade visual. 16.3 Avaliação do Modelo Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo linear postulado é adequado ou não, dadas as suposições que fizemos sobre ele. 16.3.1 Estimador de σσσσσ 2 e Como no capítulo anterior, para julgar a vantagem da adoção de um modelo mais complexo (linear ou outro qualquer), vamos usar a estratégia de compará-lo com o modelo mais simples, que é aquele discutido na seção 15.2, ou seja, yi = μ + ei. (16.19) A vantagem será sempre medida por meio da diminuição dos erros de previsão, ou ainda, da variância residual S2 e. Para o modelo ajustado (16.16), cada resíduo é dado por ^ei = yi – y ^ i = yi – α ^ – β ^xi. (16.20) Problemas cap16c.p65 21/9/2009, 15:11 454 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 458 16.3.3 Tabela de Análise de Variância Do mesmo modo como foi feito na seção 15.2, podemos resumir as informações anteriores numa única tabela ANOVA, ilustrada na Tabela 16.2. Tabela 16.2: Tabela ANOVA para modelo de regressão. F.V. g.l. SQ QM F Regressão 1 SQReg SQReg = QMReg QMReg/S 2 e Resíduo n – 2 SQRes SQRes/(n – 2) = S 2 e Total n – 1 SQTot SQTot/(n – 1) = S 2 Também podemos medir o lucro relativo que se ganha ao introduzir o modelo, usando a estatística R2 = SQReg , (16.34) SQTot definida anteriormente. A estatística F será discutida na seção 16.4. Exemplo 16.3. Dos cálculos que nos levaram ao modelo (16.18), podemos construir a Tabela 16.3. Temos que R 2 = 810 = 59%. 1.373 Tabela 16.3: Tabela ANOVA para o modelo (16.18). F.V. g.l. SQ QM F Regressão 1 810 810 25,90 Resíduo 18 563 31,28 Total 19 1.373 72,26 O modelo proposto diminui a variância residual em mais da metade e explica 59% da variabilidade total. Verificamos, então, que é vantajosa a adoção do modelo linear (16.18) para explicar o tempo médio de reação ao estímulo, em função da idade. A estratégia adotada para verificar se compensa ou não utilizar o modelo y = α + βx + e é observar a redução no resíduo quando comparado com o modelo y = μ + e. Se a redução for muito pequena, os dois modelos serão praticamente equivalentes, e isso ocorre quando a inclinação β for zero ou muito pequena, não compensando usar um modelo mais complexo. Estaremos, pois, interessados em testar a hipótese H0 : β = 0, (16.35) o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros. Esse assunto será objeto da próxima seção. A Figura 16.4 ilustra as duas situações que podem ocorrer. cap16c.p65 21/9/2009, 15:11 458 1 6 . 3 A V A L I A Ç Ã O D O M O D E L O 459 Na Figura 16.4 (a) temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta. Na situação da Figura 16.4 (b) teremos dúvidas se vale a pena ou não introduzir um modelo mais complexo, ganhando muito pouco em termos de explicação. Figura 16.4: Retas ajustadas a dois conjuntos de dados. (a) x explica y; (b) x não explica y. Para a avaliação final do modelo devemos investigar com mais cuidado o compor- tamento dos resíduos, o que será feito na seção 16.5. 5. Usando os resultados do Problema 1, construa a tabela ANOVA para o modelo z ^ = α ^ + β ^x, encontrado naquele problema. (a) Qual a estimativa S 2? E S 2 e? (b) Você acha que a redução nos resíduos foi grande? (c) Qual o valor de R 2? Interprete esse número. 6. Um estudo sobre duração de certas operações está investigando o tempo requerido (em segundos) para acondicionar objetos e o volume (em dm3) que eles ocupam. Uma amostra foi observada e obtiveram-se os seguintes resultados: Tempo 10,8 14,4 19,6 18,0 8,4 15,2 11,0 13,3 23,1 Volume 20,39 24,92 34,84 31,72 13,59 30,87 17,84 23,22 39,65 (a) Faça o diagrama de dispersão dos dados. (b) Estime a reta de regressão do tempo de operação em função do volume. (c) Construa a tabela ANOVA para o modelo. (d) Qual o valor de S2? É pequeno quando comparado com S 2 e? (e) Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento? 7. Construa a tabela ANOVA para o Problema 2 e interprete os resultados. 8. Construa a tabela ANOVA com os dados do Problema 3. 9. Idem para o Problema 4. Problemas cap16c.p65 21/9/2009, 15:11 459 1 6 . 5 A N Á L I S E D E R E S Í D U O S 467 IC(μ(28); 0,95) = 105,7 ± (2,101)(5,59) 1 + (28 – 30)2 = 20 1000 = 105,7 ± 2,7 = ]103,0; 108,4[. Se quiséssemos saber dentro de que intervalo 95% das futuras observações iriam estar, construiríamos o Intervalo de Predição: IP(Yf; 0,95) = 105,7 ± (2,101)(5,59) 1 + 1 + (28 – 30)2 = 20 1000 = 105,7 ± 12,1 = ]93,6; 117,8[. 10. Usando a tabela ANOVA, construída no Problema 5: (a) Construa o IC(β; 95%). (b) Construa o IC(α; 90%). (c) Use a estatística F para testar a hipótese H0: β = 0. (d) Construa o IC para a acuidade visual média do grupo etário de 28 anos. (e) E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos? 11. Com as informações do Exemplo 15.1, e a ANOVA construída no Problema 9, você diria que a acuidade visual ajuda a prever o tempo de reação dos indivíduos? Que estatística você usou para justificar seu argumento e por quê? 12. Investigando a relação entre a quantidade de fertilizante usado (x) e a produção de soja (y) numa estação experimental com 20 canteiros, obteve-se a equação de MQ: .y ^ = 15,00 + 2,83x. (3,22) (1,65) Com esses resultados você diria que a quantidade de fertilizante influi na produção? Por quê? 16.5 Análise de Resíduos Para verificar se um modelo é adequado, temos que investigar se as suposições feitas para o desenvolvimento do modelo estão satisfeitas. Para tanto, estudamos o compor- tamento do modelo usando o conjunto de dados observados, notadamente as discrepâncias entre os valores observados e os valores ajustados pelo modelo, ou seja, fazemos uma análise dos resíduos. O i-ésimo resíduo é dado por e^ i = yi – y ^ i, i = 1, 2, ..., n. (16.60) Lembremos que já utilizamos estes resíduos para obter medidas da qualidade e dos estimadores dos parâmetros do modelo. Agora iremos estudar o comportamento indi- vidual e conjunto destes resíduos, comparando com as suposições feitas sobre os verdadeiros erros ei. Existem várias técnicas formais para conduzir essa análise, mas aqui iremos ressaltar basicamente métodos gráficos. Para mais detalhes, ver Draper e Smith (1998). Problemas cap16c.p65 21/9/2009, 15:11 467 1 6 . 5 A N Á L I S E D E R E S Í D U O S 469 Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis inade- quações. Apresentamos na Figura 16.7 alguns tipos usuais de gráficos de resíduos. A Figura 16.7 (a) é a situação ideal para os resíduos, distribuídos aleatoriamente em torno do zero, sem nenhuma observação muito discrepante. Figura 16.7: Gráficos de resíduos. (a) situação ideal; (b), (c) modelo não-linear; (d) elemento atípico; (e), (f), (g) heterocedasticidade; (h) não-normalidade. Nas situações (b) e (c) temos possíveis inadequações do modelo adotado, e as curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno. A Figura 16.7 (d) mostra a existência de um elemento discrepante, e deve ser investigada a razão desse desvio tão marcante. Pode ser um erro de medida, ou a discrepância pode ser real. Em situações como essa, em que há observações muito diferentes das demais, métodos chamados robustos têm de ser utilizados. Os casos (e), (f) e (g) indicam claramente que a suposição de homoscedasticidade (mesma variância) não está satisfeita. Em (h), parece haver maior incidência de obser- vações nos extremos, mostrando que a suposição de normalidade não está satisfeita. Analisados os resíduos e diagnosticada uma possível transgressão das suposições, devemos propor alterações que tornem o modelo mais adequado aos dados e às supo- sições feitas. A verificação da hipótese de normalidade pode ser realizada fazendo-se um histograma dos resíduos ou um gráfico de q × q, como explicado no Capítulo 3. Exemplo 16.7. (continuação) A análise dos resíduos do modelo (16.18) mostra que esses não violam as suposições de média zero e variância comum. A Figura 16.8 mostra cap16c.p65 21/9/2009, 15:11 469 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 470 o histograma dos resíduos, e a Figura 16.9 mostra um gráfico q × q. Esse gráfico, feito com o SPlus, coloca nos eixos das ordenadas os valores crescentes dos e ^ i e no eixo das abscissas os quantis de uma normal padrão. Se os valores fossem de uma normal, eles deveriam se dispor ao longo de uma reta. Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não são normalmente distribuídos. Figura 16.8: Histograma dos resíduos do modelo (16.18). Figura 16.9: Gráfico q × q (normalidade) para os resíduos do modelo (16.18). Quando a suposição de variância comum não estiver satisfeita, usualmente faz-se uma transformação da variável resposta y, ou da preditora x, ou de ambas. Para detalhes, ver Bussab (1986) e a seção 16.6. Exemplo 16.8. Num processo industrial, além de outras variáveis, foram medidas: X = temperatura média (°F) e Y = quantidade de vapor. Os dados estão na Tabela 16.5 (Draper & Smith, 1998, Appendix A). cap16c.p65 21/9/2009, 15:11 470 1 6 . 5 A N Á L I S E D E R E S Í D U O S 471 Tabela 16.5: Temperatura e quantidade de vapor de um processo industrial. No xi yi e ^ i 1 35,3 10,98 0,174 2 29,7 11,13 –0,123 3 30,8 12,51 1,345 4 58,8 8,40 –0,531 5 61,4 9,27 0,547 6 71,3 8,73 0,797 7 74,4 6,36 –1,326 8 76,7 8,50 0,998 9 70,7 7,82 –0,161 10 57,5 9,14 0,106 11 46,4 8,24 –1,680 12 28,9 12,19 0,873 13 28,1 11,88 0,499 14 39,1 9,57 –0,933 15 46,8 10,94 1,052 16 48,5 9,58 –0,173 17 59,3 10,09 1,199 18 70,0 8,11 0,073 19 70,0 6,83 –1,207 20 74,5 8,88 1,202 21 72,1 7,68 –0,189 22 58,1 8,47 –0,517 23 44,6 8,86 –1,204 24 33,4 10,36 –0,598 25 28,6 11,08 –0,261 Fonte: Draper e Smith (1998). O gráfico de dispersão e a reta de MQ estão na Figura 16.10 (a). A reta estimada de MQ é dada por y^ i = 9,424 – 0,0798(xi – 52,6), (16.63) ou ainda y ^ i = 13,623 – 0,0798xi, (16.64) de modo que α ^ = 13,623 e β ^ = –0,0798. Os resíduos e ^ i = yi – y ^ i estão na quarta coluna da Tabela 16.5 e seu gráfico contra xi na Figura 16.10 (b). O gráfico q × q para verifi- car a suposição de normalidade está na Figura 16.10 (c). Observamos que há vários pontos afastados da reta. cap16c.p65 21/9/2009, 15:11 471 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 472 Figura 16.10: (a) gráfico de dispersão com reta ajustada; (b) resíduos vs temperatura; (c) gráfico q × q (normalidade). 13. Com o modelo linear já obtido para a acuidade visual como função da idade, construa os tipos de resíduos apresentados no Exemplo 16.6. Represente-os graficamente. Você observa alguma transgressão das suposições básicas? Problemas cap16c.p65 21/9/2009, 15:11 472 1 6 . 6 A L G U N S M O D E L O S E S P E C I A I S 473 14. Para cada gráfico de resíduo abaixo, indique qual a possível transgressão observada. 15. Abaixo estão os valores da variável preditora (x), os resíduos observados depois do ajuste do modelo e a ordem em que os dados foram obtidos. Preditor 11 20 14 22 12 25 15 Resíduo –1 –2 3 –3 –1 5 0 Ordem 9 6 13 1 7 14 8 Preditor 14 19 21 18 22 16 21 Resíduo 0 3 –2 2 –5 0 1 Ordem 3 12 4 11 2 10 5 (a) Verifique se existe alguma possível transgressão das suposições, analisando o gráfico (xi, e ^ i). (b) Faça o gráfico do resíduo contra a ordem do experimento. Você observa alguma inconveniência? 16.6 Alguns Modelos Especiais Nesta seção introduziremos alguns modelos particulares simples e que são de interesse prático. Iniciamos com o modelo que teoricamente passa pela origem. Depois, consideramos modelos não-lineares, mas que podem ser linearizados por meio de alguma transformação. 16.6.1 Reta Passando pela Origem Em algumas situações temos razões teóricas (ou ditadas pelas peculiaridades do problema a analisar) para supor que o modelo deva ser do tipo yi = βxi + ei, i = 1, ..., n. (16.65) cap16c.p65 21/9/2009, 15:11 473 1 6 . 6 A L G U N S M O D E L O S E S P E C I A I S 475 Figura 16.11: Dados e reta ajustada para o Exemplo 16.8. 16.6.2 Modelos Não-Lineares Quando usamos modelos de regressão, ou qualquer outro tipo de modelo, a situação ideal é aquela em que o pesquisador, por razões teóricas inerentes ao problema real sob estudo, pode sugerir a forma funcional da relação entre duas ou mais variáveis. Na prática, isso nem sempre acontece. Muitas vezes o pesquisador está interessado em usar técnicas de regressão para explorar modelos convenientes sugeridos pelos dados observados. Como vimos, o primeiro passo para investigar o tipo de modelo a ser adotado é a representação gráfica dos dados, a qual pode sugerir a forma da curva relacionando as variáveis, além de fornecer outras informações (veja o final da seção 16.1). Por exemplo, com os dados da Tabela 16.6 obtemos o diagrama de dispersão da Figura 16.12. Nota- mos claramente a inadequação da reta como modelo, sendo que provavelmente uma relação exponencial do tipo f(x) = α eβx (16.67) seja mais adequada. Um modelo que pode, então, ser sugerido, é yi = α eβxi + εi, i = 1, ..., n. (16.68) Tabela 16.6: Taxa de Inflação no Brasil de 1961 a 1979. Ano t Inflação (Y) Y* = log Y 1961 –9 9 2,2 1963 –7 24 3,2 1965 –5 72 4,3 1967 –3 128 4,8 1969 –1 192 5,2 1971 –1 277 5,6 1973 –3 373 5,9 1975 –5 613 6,4 1977 –7 1.236 7,1 1979 –9 2.639 7,9 cap16c.p65 21/9/2009, 15:11 475 1 6 . 6 A L G U N S M O D E L O S E S P E C I A I S 477 ε*i podem ser negativos, positivos ou nulos. Portanto, para o modelo linear (16.73) podemos fazer as suposições usuais das seções anteriores. Exemplo 16.10. Utilizando os dados da Tabela 16.6, devemos, inicialmente, calcular os logaritmos naturais da variável Y. Note que nesse exemplo a variável explicativa é o tempo, convenientemente codificado. Na Figura 16.13 temos o diagrama de dispersão dos dados transformados e da reta ajustada, a saber y^*i = 5,27 + 0,28t, t = –9, ..., 9. (16.74) A análise de tal modelo pode ser conduzida como antes. Veja o Problema 35. Observe que o modelo original ajustado é y^ i = 194,42 · e0,28t, i = 1, ..., 10, (16.75) pois α = e5,27. Essa curva está representada na Figura 16.12. Os resíduos do modelo (16.74), transformado, e do modelo (16.75), original, são dados na Tabela 16.7 e nas Figuras 16.14 e 16.15, respectivamente. Note que em ambos os casos os resíduos não parecem ser aleatórios, havendo curvaturas, sugerindo a possibilidade de um modelo com termos quadráticos ou cúbicos, por exemplo. Figura 16.13: Diagrama de dispersão para o loga- ritmo da inflação com reta ajustada. Tabela 16.7: Resíduos para os modelos linear e exponencial. Resíduos Resíduos t Reta Exponencial –9 –0,55 –6,643 –7 –0,11 –3,386 –5 0,43 24,057 –3 0,37 44,067 –1 0,21 45,061 1 0,05 19,757 3 –0,21 –77,348 5 –0,27 –175,412 7 –0,13 –145,251 9 0,11 222,632 cap16c.p65 21/9/2009, 15:11 477 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 478 Figura 16.14: Resíduos da reta ajustada ao logaritmo da inflação versus ano. Figura 16.15: Resíduos do modelo exponencial ajus- tado aos dados originais versus ano. Os histogramas e gráficos q × q para normalidade dos resíduos estão nas Figuras 16.16 e 16.17. Notamos que o histograma é assimétrico, mostrando claramente o valor correspondente a t = 9. Como há poucos pontos, a análise de resíduos fica prejudicada; o gráfico q × q mostra os pontos não muito próximos de retas. Figura 16.16: Histogramas: (a) resíduos reta ajustada ao log (inflação); (b) resíduos modelo exponencial. cap16c.p65 21/9/2009, 15:11 478 1 6 . 7 R E G R E S S Ã O R E S I S T E N T E 479 Figura 16.17: Gráficos q × q dos resíduos: (a) reta; (b) exponencial. 16.7 Regressão Resistente Nesta seção vamos considerar apenas o caso de regressão linear simples. Ou seja, temos os valores observados (xi, yi), i = 1, ..., n e queremos ajustar o modelo (16.6). Notamos que os estimadores α ^ e β ^ em (16.14) são baseados em⎯x,⎯y e desvios em relação a essas médias. A regressão resistente baseia-se em medianas, em vez de médias. Inicialmente, dividi- mos o conjunto dos n pontos em três grupos, de tamanhos aproximadamente iguais, basea- dos principalmente na ordenação da variável x e no gráfico de dispersão. Chamemos esses grupos de E (de esquerda), C (de centro) e D (de direita). Se n = 3k, cada grupo terá k pontos. Se n = 3k + 1, colocamos k pontos nos grupos E e D e k +1 pontos no grupo C. Final- mente, se n = 3k + 2, colocamos k + 1 pontos nos grupos E e D e k pontos no grupo C. Para cada grupo obtemos um ponto resumo, formado pela mediana dos xi e a mediana dos yi naquele grupo. Denominemos esses pontos por (xE, yE), (xC, yC), (xD, yD). Na Figura 16.18 temos um exemplo com três grupos com k = 3 em cada grupo. Figura 16.18: Reta resistente com três grupos. cap16c.p65 21/9/2009, 15:11 479 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 480 Os estimadores de β e α são dados, respectivamente, por b0 = yD – yE , (16.76) xD – xE a0 = 1 [(yE – b0xE) + (yC – b0xC) + (yD – b0xD)]. (16.77) 3 A reta resistente ajustada é ~yi = a0 + b0xi, i = 1, ..., n. (16.78) Os modelos robustos necessitam, muitas vezes, recorrer a processos interativos para obter estimadores mais eficientes. Isso deve ser feito quando os resíduos não forem bem comportados. Não abordaremos esse tópico neste livro. Veja Hoaglin et al. (1983) para mais informação. Exemplo 16.11. Voltemos aos dados do exemplo 16.1. Como n = 20 = 3 × 6 + 2, os grupos E, C e D serão formados com 7, 6 e 7 pontos, respectivamente. Observando a Figura 16.1, consideramos os grupos como seguem: Grupo E i 2 1 4 3 5 8 6 Idade 20 20 20 20 25 25 25 Y 92 96 100 106 98 101 104 Grupo C i 7 12 10 11 9 14 Idade 25 30 30 30 30 35 Y 110 100 106 109 116 105 Grupo D i 16 13 15 18 17 20 19 Idade 35 35 35 40 40 40 40 Y 108 112 118 112 113 117 127 Os pontos resumidores são: (xE, yE) = (20, 100), (xC, yC) = (30, 107, 5), (xD, yD) = (40, 112), logo, as estimativas dos coeficientes serão cap16c.p65 21/9/2009, 15:11 480 1 6 . 8 E X E M P L O S C O M P U T A C I O N A I S 481 b0 = 112 – 100 = 0,6, 20 a0 = 1 [(100 – 0,6(20)) + (107,5 – 0,6(30)) + (112 – 0,6(40))] = 88,3 3 de modo que a reta resistente ajustada será ~yi = 88,3 + 0,6xi, que está representada na Figura 16.19, justamente com a reta de MQ, dada em (16.18). Figura 16.19: Reta de MQ (—) e reta resistente (– – – ) para o Exemplo 16.11. Na próxima seção daremos um exemplo em que as duas retas, a de MQ e a resistente, são bastante diferentes. 16.8 Exemplos Computacionais Nesta seção vamos considerar dois exemplos: um sobre a aplicação a dados reais do mer- cado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier. Exemplo 16.12. Retomemos o Exemplo 4.13, no qual consideramos as variáveis Y = preço de ação da Telebrás e X = índice da Bolsa de Valores de São Paulo, cada uma com n = 39 observações. O gráfico de dispersão das duas variáveis está na Figura 16.20, juntamente com a reta de mínimos quadrados. O modelo ajustado é y^ i = –5,57 + 0,93xi, e no Quadro 16.1 temos a saída do programa Minitab. Nesta, encontramos: (a) Estimativas dos coeficientes α e β, juntamente com as estimativas dos desvios padrões respectivos (1,085 e 0,0297). (b) Valores da estatística t, para testar as hipóteses nulas de que os coeficientes são nulos (denotadas por T ), juntamente com o valor-p (P = 0,000), mostrando que devemos rejeitar essas hipóteses nulas. cap16c.p65 21/9/2009, 15:11 481 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 482 (c) Uma tabela de análise de variância, com o valor F = 969,44, com 1 e 37 g.l., e o valor-p P = 0,000. (d) O valor de R2 = 96,3%, que nos diz que o modelo ajustado explica a maior parte da variabilidade dos dados. Figura 16.20: Gráfico de dispersão das variáveis X e Y, para o Exemplo 16.12 e reta ajustada. Quadro 16.1: Análise do Exemplo 16.12. Minitab. Regression Analysis The regression equation is Tel = – 5.57 + 0.925 Ibv Predictor Coef StDev T P Constant –5.570 1.085 –5.13 0.000 Ibv 0.92491 0.02971 31.14 0.000 S = 0.7614 R – Sq = 96.3% R – Sq (adj) = 96.2% Analysis of Variance Source DF SS MS F P Regression 1 561.99 561.99 969.44 0.000 Residual Error 37 21.45 0.58 Total 38 583.44 Na Figura 16.21 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado. Na Figura 16.21(a) temos o gráfico q x q dos quantis dos resíduos contra os quantis da normal padrão, para avaliar a normalidade dos resíduos. Na Figura 16.21(b) temos o gráfico dos resíduos contra a ordem das observações e, na Figura 16.21(d), o gráfico dos resíduos contra os valores ajustados. Finalmente, na Figura 16.21(c) temos o histograma dos resíduos. O que você pode dizer desses gráficos? cap16c.p65 21/9/2009, 15:11 482 1 6 . 8 E X E M P L O S C O M P U T A C I O N A I S 483 Figura 16.21: Gráficos após o ajuste do modelo: análise de resíduos, Exemplo 16.11. Minitab Exemplo 16.13. Considere os dados da Tabela 16.8, provenientes da mensuração da velocidade do vento no aeroporto de Philadelphia (EUA), sempre a uma hora da manhã, para os primeiros 15 dias de dezembro de 1974 (Graedel e Kleiner, 1985). Tabela 16.8: Velocidade do vento no aeroporto de Philadelphia. t vt t vt 1 22,2 9 20,4 2 61,1 10 20,4 3 13,0 11 20,4 4 27,8 12 11,1 5 22,2 13 13,0 6 7,4 14 7,4 7 7,4 15 14,8 8 7,4 Observamos no diagrama de dispersão da Figura 16.22 o valor atípico 61,1 desta- cado dos demais pontos. A reta de MQ ajustada aos dados é ^vt = 30,034 – 1,454t, t = 1, 2, ..., 15, (16.79) e é “puxada” por esse ponto. Essa reta está representada por uma linha cheia na figura. cap16c.p65 21/9/2009, 15:11 483 1 6 . 9 P R O B L E M A S E C O M P L E M E N T O S 485 (c) Represente a reta de regressão no gráfico feito anteriormente. (d) Qual a posição do ponto (⎯x,⎯y) em relação à reta de regressão? (e) Qual o número esperado de erros para um digitador com 5 meses de experiência? 19. Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias, representadas em salários mínimos. Renda familiar (x) Gasto com alimentação (y) 3 1,5 5 2,0 10 6,0 20 10,0 30 15,0 50 20,0 70 25,0 100 40,0 150 60,0 200 80,0 Obtenha a equação de regressão y ^ = α ^ + β ^x. (a) Qual a previsão do gasto com alimentação para uma família com renda de 170 reais? (b) Qual a previsão do gasto para famílias com excepcional renda, por exemplo 1.000 reais? Você acha esse valor razoável? Por quê? (c) Se você respondeu que o valor obtido em (b) não é razoável, encontre uma explica- ção para o ocorrido. (Sugestão: interprete a natureza das variáveis X e Y e o compor- tamento de Y para grandes valores de X.) 20. A análise do lucro anual de uma ação, como função linear da sua cotação média anual, forneceu os resultados abaixo com alguns campos em branco. Preencha as lacunas e interprete os resultados. ANOVA Fonte g.l. SQ QM F Regressão 1209 Resíduo Total 11 1766 Modelo Descrição Coef. EP t valor-p LI (95%) LS (95%) Intercepto 49,00 22,00 0,055 –1,34 Cotação 0,30 0,07 0,003 0,45 21. Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados. A tabela abaixo mostra o número de anúncios publicados e o correspondente número de cap16c.p65 21/9/2009, 15:11 485 C A P Í T U L O 1 6 — R E G R E S S Ã O L I N E A R S I M P L E S 486 carros vendidos por seis companhias que usaram apenas esse jornal como veículo de propaganda. Companhia A B C D E G Anúncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajustando-se a reta de regressão, obteve-se y = 1,516x + 27,844 e F = 70,17. Como você argumentaria com a companhia G para que ela aumentasse o número de anúncios, aumentando a venda de carros? 22. O custo de manutenção de tratores parece aumentar com a idade do trator. Os seguin- tes dados foram obtidos (X representa idade em anos e Y o custo por seis meses): (a) Ajuste o modelo y ^ = β ^ 0 + β ^ 1x e teste a hipótese de interesse para o nível α = 0,10. (b) Devemos procurar um modelo mais adequado? (c) Determine uma “previsão” para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de confiança com γ = 0,90. (d) Teste as hipóteses H0 : β0 = 300, H1 : β0 > 300, para o nível α = 0,05. X Y 0,5 163 0,5 182 1,0 978 1,0 466 1,0 549 4,0 495 4,0 723 4,0 681 4,5 619 4,5 1.049 4,5 1.033 5,0 890 5,0 1.522 5,0 1.194 5,5 987 6,0 764 6,0 1.373 23. Origem do Termo Regressão. O uso do termo regressão deve-se a Francis Galton, por volta de 1885, quando investigava relações entre características antropométricas de sucessivas gerações. Uma de suas constatações era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em média, numa intensidade menor”. Por exemplo: embora pais com baixa estatura tendam a ter filhos também com baixa estatura, estes têm altura média maior do que a altura média de seus pais. O mesmo ocorre, mas em direção contrária, com pais com estatura alta. Essa afirmação pode ser mais bem compreendida observando-se os dados usados por Galton, e representados parcialmente na Figura 16.23. Se as características permanecessem as mesmas de cap16c.p65 21/9/2009, 15:11 486 1 6 . 9 P R O B L E M A S E C O M P L E M E N T O S 487 geração para geração, esperar-se-ia que a reta de regressão tivesse seu coeficiente angular próximo de 1. Em sua análise, Galton encontrou o valor 0,516, mostrando que a reta tende para aquela paralela ao eixo x e passando pela média (y =⎯y). A esse fenômeno de a altura dos filhos mover-se em direção à altura média de todos os ho- mens ele chamou de regressão, e às vezes de reversão, tendo aparecido num artigo de 1885, no Journal of the Anthropological Institute, com o título “Regression Towards Mediocrity in Hereditary Stature” — Regressão para a Mediocridade em Estaturas Hereditárias; mediocridade, aqui, referindo-se a média. Figura 16.23: Média da altura de filhos contra altura com- posta dos pais, baseada no estudo de Galton. Os dados abaixo referem-se a outro experimento de Galton, dentro da mesma investiga- ção, procurando estudar a relação entre o diâmetro, em centésimos de polegada, de ervilhas-pais (x) e ervilhas-filhas (y). Analise a reta de regressão para os dados e interprete os coeficientes. Diâmetros em 0,01 de polegadas de sementes de ervilhas Pais (x) 15,0 16,0 17,0 18,0 19,0 20,0 21,0 Filhos (y) 15,4 15,7 16,0 16,3 16,6 17,0 17,3 24. Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado. Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração através do instrumento. Como uma análise de regressão poderia auxiliar o pesquisador? Modele o problema acima, espe- cificando as variáveis independente e dependente e as hipóteses de interesse. 25. Os dados abaixo correspondem a duas variáveis X e Y, onde: X = concentração conhecida de ácido lático e Y = concentração de ácido lático registrada pelo instrumento cap16c.p65 21/9/2009, 15:11 487 Livros Básicos BLACKWELL, D. Estatística básica. São Paulo: Editora McGraw-Hill do Brasil Ltda., 1973. BUSSAB, W. O. Análise de variância e de regressão. São Paulo: Atual, 1986. FELLER, W. An introduction to probability theory and its applications. Volume I. 2a edição. Nova York: Wiley, 1964. HAMMERSLEY, J. M. e HANDSCOMB, D. C. Monte Carlo methods. Nova York: Wiley, 1964. MORETTIN, P. A., HAZZAN, S. e BUSSAB, W. O. Cálculo: funções de uma e várias variáveis. São Paulo: Editora Saraiva, 2005. HELENE, O. A. M. e VANIN, V. R. Tratamento estatístico de dados. São Paulo: Edito- ra Edgard Blücher Ltda., 1981. MEYER, P. L. Introductory probability and statistical applications. Reading: Addison- Wesley, 1965. MORETTIN, P. A. Introdução à estatística para ciências exatas. São Paulo: Atual, 1981. MURTEIRA, B. J. Análise exploratória de dados. Lisboa: McGraw-Hill, 1993. SOBOL, I. M. Método de Monte Carlo. Moscow: Editorial MIR, 1976. STUART, A. The ideas of sampling. Nova York: MacMillan Publishing Company, 1984. TUKEY, J. W. Exploratory data analysis. Reading: Addison-Wesley, 1977. Livros Mais Avançados BUSSAB, W. O. e BOLFARINE, H. Elementos de amostragem. São Paulo: Editora E. Blücher, 2005. CHAMBERS, J. M., CLEVELAND, W. S., KLEINER, B. e TUKEY, P. A. Graphical methods for data analysis. Nova York: Chapman and Hall, 1983. CONOVER, W. J. Pratical nonparameric statistics. Nova York: Wiley, 1971. DAVISON, A. C. e HINKLEY, D. V. Bootstrap methods and their application. Cambridge University Press, 1997. DIXON, W. J. e MASSEY, F. J. Introduction to statistical analysis. 2a edição. Nova York: McGraw-Hill, 1957. DRAPER, N. R. e SMITH, H. Applied regression analysis. 3a edição. Nova York: Wiley, 1998. EFROM, B. e TIBSHIRANI, R. J. An introduction to the bootstrap. Nova York: Chapman and Hall, 1993. FISHER, R. A. The design of experiments. Edimburgo: Oliver and Boyd, 1935. . Statistical methods for research workers. 12th edition. New York: Hafner, 1954. HOAGLIN, D. C., MOSTELLER, F. e TUKEY, J. W. Understanding robust and exploratory data analysis. Nova York: Wiley, 1983. KLEIJNEN, J. e VAN GROENENDAAL, W. Simulation: a statistical perspective. Chichester: John Wiley and Sons, 1994. R E F E R Ê N C I A S cap17b_Referencias.p65 21/9/2009, 15:17 495 496 E S T A T Í S T I C A B Á S I C A LEHMANN, E. L. Nonparametrics: statistical methods based on ranks. São Francisco: Holden-Day, 1975. MORETTIN, P. A. e TOLOI, C. M. C. Análise de séries temporais. Segunda Edição. São Paulo: Editora Edgard Blücher, 2006. O’HAGAN, A. Bayesian inference. London: Edward Arnold, 1994. PERES, C. A. e SALDIVA, C. D. Planejamento de experimentos. São Paulo: 5o SINAPE, 1982. ROSS, C. A. Simulation. 2a edição. Nova York: Academic Press, 1997. Artigos de Interesse BOX, G. E. P. e MÜLLER, M. E. A note on the generation of random normal deviates. Annals of Statistics, 29, pp. 610-611, 1958. EFRON, B. Bootstrap methods: another look at the jackknife. Annals of Statistics, 7, pp. 1-26, 1979. EFRON, B. e GOUS, A. Bayesian and frequentist model selection. TR n. 193, Division of Biostatistics, Stanford University, 1997. FREEDMAN, D. e DIACONIS, P. On the maximum deviation between the histogram and the underling density. Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete, 58, pp.-139-167. GRAEDEL, T. E. e KLEINER, B. Exploratory analysis of atmospheric data. Probability, Statistics and Decision Making in the Atmospheric Sciences (A. H. Murphy and R. W. Katz, Editors), pp. 1-43. Boulder: Westview Press, 1985. METROPOLIS, N. e ULAM, S. The Monte Carlo method. Journal of The American Statistical Association, 44, pp. 335-341, 1949. NEYMAN, J. Probabilidade e Estatística Freqüentista. Rio de Janeiro: IMPA/CNPq, 1978. SALDIVA, P. H. N., LICHTENFELS, A. J. F. C., PAIVA, P. S. O., BARONE, I. A., MARTINS, M. A., MASSAD, E., PEREIRA, J. C. R., XAVIER, V. P., SINGER, J. M. e BÖHM, G. M. Association between air pollution and mortality due to respiratory diseases in children in São Paulo: a preliminary report. Environmental Research, 65, pp. 218-226, 1994. SINGER, J. M. e ANDRADE, D. F. Regression models for the analysis of pretest data. Biometrics, 53, pp. 729-735, 1997. VON NEUMANN, J. Various techniques used in connection with random digits, Monte Carlo Method. U. S. National Bureau of Standards Applied Mathematical Series, 12, pp. 36- 38, 1951. Tabelas HARTER, H. L. e OWEN, D. B. Selected tables in mathematical statistics. Volume 1. Chi- cago: Markham, 1970. MILLER, L. H. Table of percentage points of Kolmogorov statistics. Journal of the American Statistical Association, 51, pp. 11-121, 1956. PEREIRA, J. S. C. e BUSSAB, W. O. Tábuas de estatística e matemática. São Paulo: Brasiliense, 1974. cap17b_Referencias.p65 21/9/2009, 15:17 496 Regiões UF Superfície População Densidade Norte RO 237.576,167 1.453.756 6,12 AC 164.165,250 653.385 3,99 AM 1.559.161,810 3.221,940 2,07 RR 224.298,980 395.725 1,76 PA 1.247.689,515 7.065.573 5,66 AP 142.814,585 587.311 4,11 TO 277.620,914 1.243.627 4,48 Subtot. 3.853.327 14.623.317 3,79 Nordeste MA 331.983,293 6.118.995 18,43 PI 251.529,186 3.032.435 12,06 CE 148.825,602 8.185.250 55,0 RN 52.796,791 3.013.740 57,08 PB 56.439,838 3.641.397 64,52 PE 98.311,616 8.486.638 86,32 AL 27.767,661 3.037.231 108,38 SE 21.910,348 1.939.426 88,52 BA 564.692,669 14.080.670 24,94 Subtot. 1.554.257 51.535.782 33,16 A seguir apresentamos vários conjuntos de dados, que serão referenciados no texto pela sigla CD acompanhada de um nome identificador. CD-Brasil: Dados sobre o Brasil CD-Municípios: Populações de Municípios do Brasil CD-Notas: Notas em Estatística CD-Poluição: Dados de Poluição de São Paulo CD-Temperaturas: Temperaturas Médias Mensais CD-Salários: Salários para Quatro Profissões CD-Veículos: Estatísticas sobre Veículos CD-PIB: Produto Interno Bruto do Brasil CD-Mercado: Preços de Ações da Telebrás e IBOVESPA CD-Placa: Índices de Placa Bacteriana 1. Dados sobre o Brasil Dados de superfície (em km2), população estimada e densidade (hab/km2) das unidades federativas (UF) do Brasil, por região. Fonte: IBGE, Contagem da População, 2007. C O N J U N T O S D E D A D O S cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 497 E S T A T Í S T I C A B Á S I C A 498 1. Dados sobre o Brasil (cont.) 2. Populações de Municípios do Brasil Populações (em 10.000 habitantes) dos 30 municípios mais populosos do Brasil. Fonte: IBGE, Contagem da População, 1996. Regiões UF Superfície População Densidade Sudeste MG 586.528,293 19.273.533 32,86 ES 46.077,519 3.351.669 72,74 RJ 43.696,054 15.420.450 352,90 SP 248.209,426 39.827.690 160,46 Subtot. 924.511 77.873.342 84,23 Sul PR 199.314,850 10.284.503 51,6 SC 95.346,181 5.866.487 61,53 RS 281.748,583 10.582.287 37,56 Subtot. 576.410 26.733.877 46,38 Centro MS 357.124,962 2.265.813 6,34 /Oeste MT 903.357,908 2.854.642 3,16 GO 340.086,698 5.647.035 16,6 DF 5.801,937 2.455.903 423,29 Subtot. 1.606.372 13.223.393 8,23 Brasil Total 8.514.876,599 183.989.711 21,61 No Município População No Município População 1 São Paulo (SP) 988,8 16 Nova Iguaçu (RJ) 83,9 2 Rio de Janeiro (RJ) 556,9 17 São Luís (MA) 80,2 3 Salvador (BA) 224,6 18 Maceió (AL) 74,7 4 Belo Horizonte (MG) 210,9 19 Duque de Caxias (RJ) 72,7 5 Fortaleza (CE) 201,5 20 São Bernardo do Campo (SP) 68,4 6 Brasília (DF) 187,7 21 Natal (RN) 66,8 7 Curitiba (PR) 151,6 22 Teresina (PI) 66,8 8 Recife (PE) 135,8 23 Osasco (SP) 63,7 9 Porto Alegre (RS) 129,8 24 Santo André (SP) 62,8 10 Manaus (AM) 119,4 25 Campo Grande (MS) 61,9 11 Belém (PA) 116,0 26 João Pessoa (PB) 56,2 12 Goiânia (GO) 102,3 27 Jaboatão (PE) 54,1 13 Guarulhos (SP) 101,8 28 Contagem (MG) 50,3 14 Campinas (SP) 92,4 29 São José dos Campos (SP) 49,7 15 São Gonçalo (RJ) 84,7 30 Ribeirão Preto (SP) 46,3 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 498 C O N J U N T O S D E D A D O S 499 3. Notas em Estatística Notas de 100 alunos do curso de Economia da FEA-USP, em prova da disciplina Introdução à Probabilidade e à Estatística, 1999. Fonte: Autores. 3,5 4,0 5,5 6,0 5,0 5,5 5,0 5,5 4,0 10,0 6,5 9,5 4,0 7,0 7,5 3,0 4,5 5,0 2,5 6,0 5,0 6,5 3,5 4,5 8,5 4,0 8,0 7,0 6,0 7,5 8,5 6,0 9,0 6,0 6,5 7,5 5,5 6,5 8,0 8,5 4,5 7,5 8,0 3,0 4,0 8,0 4,5 5,5 6,0 6,0 7,5 3,5 3,0 7,0 1,5 4,5 10,0 5,5 2,5 10,0 4,0 6,5 7,5 5,5 7,0 7,5 6,0 6,5 6,5 5,5 6,5 5,0 5,5 7,5 8,0 6,5 5,0 7,0 6,0 5,5 3,0 5,0 3,5 6,0 6,5 6,0 8,0 5,5 7,5 6,0 2,5 7,5 9,0 6,0 6,5 3,5 4,5 7,0 5,0 5,0 4. Dados de Poluição de São Paulo Dados de poluentes na cidade de São Paulo, 1o jan. a 30 abr. 1991. CO: monóxido de carbono (ppm); O3: ozônio (ppb) Temp.: temperatura (°C); Umid.: umidade relativa do ar ao meio-dia (%) Fonte: Saldiva et al. (1994). Data CO O3 Temp. Umid. Data CO O3 Temp. Umid. Jan. 1 6,6 113,6 15,2 56 21 6,2 134,3 17,0 57 2 6,2 115,2 15,5 55 22 6,1 82,1 20,0 61 3 7,9 130,4 16,8 62 23 7,3 233,2 20,1 61 4 8,6 110,4 16,4 96 24 6,6 72,0 18,9 68 5 8,8 107,2 15,2 62 25 6,2 96,8 18,8 70 6 6,4 86,4 16,0 64 26 5,1 61,6 15,9 94 7 6,9 120,0 16,3 63 27 6,1 32,8 15,2 97 8 7,9 150,4 17,8 68 28 5,7 35,2 17,0 63 9 8,2 149,0 18,1 71 29 6,7 87,2 18,6 61 10 8,7 117,3 18,3 64 30 6,5 85,6 20,0 63 11 6,3 59,7 19,2 69 31 5,7 34,7 19,9 88 12 6,3 27,2 17,2 76 13 6,3 119,2 15,1 62 14 6,4 120,8 18,9 78 15 7,7 26,7 19,2 90 16 7,9 50,1 18,3 73 17 7,9 35,2 16,0 94 18 7,7 40,0 15,5 78 19 6,9 96,0 16,0 62 20 6,2 142,0 18,0 66 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 499 E S T A T Í S T I C A B Á S I C A 500 4. Dados de Poluição de São Paulo (cont.) Data CO O3 Temp. Umid. Data CO O3 Temp. Umid. Fev. 1 5,8 22,9 18,9 78 15 6,2 172,7 19,0 70 2 6,2 83,9 17,8 73 16 6,7 65,2 19,0 80 3 5,5 204,2 17,0 75 17 6,1 149,2 18,0 63 4 6,7 192,5 17,9 66 18 6,7 100,0 16,7 76 5 7,9 99,7 18,0 65 19 7,4 128,4 15,8 65 6 6,4 182,3 17,8 63 20 5,9 135,7 16,0 58 7 6,9 141,0 18,2 72 21 5,5 121,2 17,0 99 8 6,4 87,2 18,0 85 22 6,1 85,2 17,6 57 9 5,2 34,4 18,5 96 23 7,2 48,4 16,9 86 10 5,7 40,0 18,9 81 24 5,6 81,6 15,2 61 11 4,7 60,8 20,0 67 25 7,2 72,8 15,2 71 12 7,3 82,0 17,9 68 26 6,9 164,9 17,0 63 13 6,2 98,9 18,0 67 27 6,9 137,1 17,0 58 14 6,7 200,0 17,0 60 28 7,7 82,4 17,3 62 Data CO O3 Temp. Umid. Data CO O3 Temp. Umid. Mar. 1 6,3 38,8 18,9 60 17 6,6 92,8 15,8 59 2 7,7 30,4 18,8 76 18 7,7 97,1 16,9 55 3 6,4 26,7 18,1 90 19 10,3 32,0 18,9 97 4 6,4 33,6 18,3 69 20 7,5 56,0 18,1 65 5 7,9 24,0 18,1 89 21 11,4 91,7 19,0 74 6 6,2 12,3 18,0 75 22 9,5 38,9 17,8 88 7 6,8 12,3 18,0 99 23 7,8 33,1 17,1 75 8 8,0 129,2 21,0 69 24 7,4 34,7 18,0 78 9 8,3 105,6 19,0 65 25 8,9 140,8 18,6 77 10 7,8 116,8 19,0 64 26 9,5 27,7 16,0 92 11 6,9 85,3 19,0 59 27 10,1 18,8 14,2 94 12 7,5 56,0 19,0 61 28 12,5 24,0 14,0 96 13 8,4 61,9 20,1 62 29 6,2 33,1 14,8 83 14 8,1 50,7 18,0 77 30 7,9 28,8 16,3 91 15 6,6 40,5 16,9 64 31 7,6 18,7 17,0 81 16 7,1 48,5 15,2 53 Data CO O3 Temp. Umid. Data CO O3 Temp. Umid. Abr. 1 9,1 27,2 17,8 56 16 7,8 29,9 18,5 69 2 7,0 42,7 16,4 69 17 11,6 20,3 18,0 59 3 7,2 62,4 16,0 62 18 6,9 19,7 19,0 64 4 7,8 68,3 16,0 64 19 7,8 13,3 16,1 83 5 9,1 16,5 14,8 80 20 6,9 34,7 13,1 70 6 9,7 122,1 12,3 57 21 4,7 40,0 13,8 62 7 6,3 104,0 14,9 66 22 7,9 150,2 14,8 58 8 10,8 35,2 17,6 65 23 7,4 120,7 13,2 60 9 12,0 150,3 17,9 70 24 8,5 28,8 14,9 50 10 8,9 48,8 16,6 60 25 8,5 9,1 15,5 97 11 7,6 38,4 18,9 52 26 9,0 2,7 15,9 82 12 9,4 59,7 19,0 56 27 8,9 11,2 14,1 75 13 11,9 39,6 19,8 82 28 10,3 33,1 14,5 58 14 10,3 63,5 19,1 57 29 6,1 34,4 14,0 64 15 8,3 92,0 18,4 60 30 7,0 53,6 15,1 73 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 500 C O N J U N T O S D E D A D O S 501 5. Temperaturas Médias Mensais Temperaturas médias mensais, em graus centígrados, de janeiro de 1976 a dezem- bro de 1985, em Cananéia e Ubatuba, São Paulo. Fonte: Boletim Climatológico, no 6, 1989, IO-USP. Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1976 25,2 27,1 1980 24,4 26,1 24,3 25,3 25,0 26,6 24,2 25,8 26,4 27,7 21,4 23,7 23,6 24,4 19,8 21,6 21,7 23,0 17,0 20,0 18,2 20,5 17,2 19,3 17,6 20,1 17,6 20,2 17,8 20,3 20,2 20,2 17,3 19,7 21,6 21,3 20,2 21,5 22,5 23,7 22,2 22,6 24,0 25,5 24,6 25,6 1977 25,3 26,4 1981 25,0 25,9 26,4 27,4 26,2 27,0 24,9 26,3 24,3 24,7 21,8 23,8 22,3 22,9 21,0 22,3 21,9 22,3 19,3 20,8 18,2 19,9 20,8 22,6 17,1 19,0 19,6 21,6 18,0 20,2 20,2 21,6 19,5 21,4 21,6 22,5 19,4 20,7 22,5 23,3 23,2 23,4 24,0 24,1 23,6 23,8 1978 24,8 25,9 1982 23,8 24,3 25,2 25,8 25,0 25,9 24,3 25,5 23,9 23,7 21,6 22,9 21,6 22,1 19,2 21,5 19,9 20,1 17,4 19,8 20,3 20,3 18,9 21,4 18,8 20,3 17,5 20,8 18,7 20,8 19,7 21,8 19,7 20,8 21,6 22,3 20,6 21,5 22,9 23,7 22,4 24,3 23,9 24,7 23,8 23,8 1979 22,9 24,0 1983 25,9 26,4 24,5 25,3 25,9 26,6 23,2 24,2 24,1 23,5 21,8 23,2 22,6 18,9 19,3 22,3 20,9 18,0 16,6 19,6 16,9 15,3 16,5 19,2 17,2 14,7 18,8 21,7 17,9 14,4 18,1 20,5 17,1 16,2 22,0 22,5 20,4 19,9 21,7 22,5 23,5 22,6 24,1 24,5 24,5 23,3 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 501 E S T A T Í S T I C A B Á S I C A 502 5. Temperaturas Médias Mensais (cont.) Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1984 26,2 25,6 1985 24,0 23,8 26,6 25,6 25,5 26,2 24,7 23,3 25,3 25,1 22,2 19,1 23,8 24,5 21,8 19,4 20,1 21,6 19,5 20,1 18,0 19,8 18,3 19,0 18,0 19,8 16,2 19,0 19,1 20,1 18,3 18,3 19,2 20,2 21,4 22,0 21,6 22,2 22,3 22,5 22,6 22,9 23,0 23,1 24,0 23,9 6. Salários Salários, em 1979 (em francos suíços), para quatro profissões, em 30 cidades de diferentes países. Fonte: “Prices and Salaries Around The World”, 1979/1980. União dos Bancos Suíços, Zurique. Cidade Prof. Sec. Mecânico Administrador Eng. Eletr. Amsterdã 34.125 26.542 59.280 47.730 Atenas 11.025 12.456 31.980 18.870 Bogotá 4.725 3.806 14.040 14.430 Bruxelas 28.350 25.528 59.280 33.855 Buenos Aires 5.775 6.574 21.060 36.075 Caracas 11.550 20.068 45.240 42.180 Chicago 33.600 39.790 60.060 48.285 Cid. México 6.825 8.304 28.860 22.200 Dublin 18.375 13.840 23.400 25.530 Estocolmo 28.875 25.950 54.600 33.855 Genebra 56.700 37.022 71.760 53.835 Hong-Kong 11.550 5.822 20.280 17.205 Istambul 4.725 6.228 13.260 12.210 Londres 20.745 17.646 31.200 21.090 Los Angeles 32.550 36.330 59.280 46.065 Madri 14.700 12.110 32.760 31.635 Manila 2.100 1.730 20.280 4.440 Milão 12.600 13.494 17.160 31.080 Montreal 29.400 23.528 51.480 34.410 Nova Iorque 27.300 32.870 67.080 53.280 Paris 24.150 15.916 40.560 43.845 Rio de Janeiro 7.350 8.650 53.040 42.735 San Francisco 32.025 39.946 65.520 46.065 São Paulo 9.450 11.072 74.470 29.970 Singapura 8.925 5.190 24.960 8.325 Sydney 28.350 20.068 34.320 31.080 Tel Aviv 7.875 9.688 14.040 14.430 Tóquio 30.450 16.954 63.180 34.410 Toronto 29.925 25.950 44.460 39.960 Zurique 52.500 34.600 78.000 55.500 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 502 C O N J U N T O S D E D A D O S 503 7. Estatísticas sobre Veículos Dados sobre 30 veículos novos, nacionais (N) e importados (I) em março de 1999. Preço em dólares, comprimento em metros e motor em CV. Fonte: Folha de S. Paulo, 14/3/1999. Veículo Preço Comprimento Motor N/I Asia Towner 9.440 3,36 40 I Audi A3 38.850 4,15 125 I Chevrolet Astra 10.532 4,11 110 N Chevrolet Blazer 16.346 4,60 106 N Chevrolet Corsa 6.176 3,73 60 N Chevrolet Tigra 12.890 3,92 100 I Chevrolet Vectra 13.140 4,47 110 N Chrysler Neon 31.640 4,36 115 I Dodge Dakota 11.630 4,98 121 N Fiat Fiorino 6.700 4,16 76 N Fiat Marea 12.923 4,39 127 N Fiat Uno Mille 5.257 3,64 57 N Fiat Palio 6.260 3,73 61 N Fiat Siena 7.780 4,10 61 I Ford Escort 10.767 4,20 115 I Ford Fiesta 6.316 3,83 52 N Ford Ka 5.680 3,62 54 N Ford Mondeo 33.718 4,56 130 I Honda Civic 14.460 4,45 106 N Hyundai Accent 21.500 4,12 91 I Peugeot 106 13.840 3,68 50 I Renault Clio 13.700 3,70 74 I Toyota Corolla 15.520 4,39 116 N Toyota Perua 24.632 4,40 96 N VW Gol 6.340 3,81 54 N VW Golf 22.200 4,15 100 I VW Parati 9.300 4,08 69 N VW Polo 12.018 4,14 99 I VW Santana 11.386 4,57 101 N VW Saveiro 7.742 4,38 88 N 8. Produto Interno Bruto do Brasil Dados anuais do PIB, de 1861 a 1986; índices relativos a 1949. Ano PIB Ano PIB Ano PIB Ano PIB 1861 4.57 1893 9.38 1925 43.64 1957 155.71 1862 5.04 1894 9.14 1926 44.83 1958 167.70 1863 5.18 1895 8.80 1927 47.51 1959 177.09 1864 5.35 1896 8.12 1928 54.28 1960 194.27 1865 5.71 1897 7.33 1929 52.51 1961 214.28 1866 5.65 1898 6.89 1930 47.99 1962 225.63 1867 5.14 1899 6.98 1931 39.45 1963 229.02 1868 5.05 1900 8.08 1932 39.40 1964 235.66 1869 5.61 1901 9.14 1933 42.44 1965 242.02 1870 6.48 1902 10.17 1934 51.18 1966 254.37 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 503 E S T A T Í S T I C A B Á S I C A 504 8. Produto Interno Bruto do Brasil (cont.) Ano PIB Ano PIB Ano PIB Ano PIB 1871 6.56 1903 10.48 1935 58.04 1967 266.58 1872 6.55 1904 11.34 1936 63.79 1968 291.37 1873 6.72 1905 12.47 1937 66.35 1969 317.59 1874 7.71 1906 13.76 1938 68.54 1970 347.77 1875 7.88 1907 14.45 1939 67.43 1971 386.99 1876 7.98 1908 16.01 1940 67.53 1972 433.62 1877 7.30 1909 17.81 1941 65.07 1973 494.29 1878 7.32 1910 20.56 1942 66.03 1974 538.96 1879 7.38 1911 24.29 1943 66.30 1975 567.05 1880 7.88 1912 26.75 1944 68.24 1976 624.37 1881 7.62 1913 26.00 1945 75.01 1977 652.71 1882 6.86 1914 22.91 1946 84.48 1978 683.46 1883 6.65 1915 20.84 1947 87.30 1979 749.82 1884 6.54 1916 21.07 1948 93.76 1980 799.61 1885 7.02 1917 21.96 1949 100.00 1981 772.85 1886 8.07 1918 24.60 1950 106.44 1982 779.94 1887 8.94 1919 28.47 1951 112.83 1983 760.20 1888 9.25 1920 30.39 1952 115.70 1984 803.53 1889 9.59 1921 31.23 1953 118.59 1985 869.90 1890 9.64 1922 33.76 1954 130.57 1986 941.26 1891 9.35 1923 39.11 1955 139.59 1892 9.15 1924 43.60 1956 144.05 9. Mercado Preços de fechamento de ações da Telebrás (multiplicados por 1000) e índice diário da Bolsa de Valores de São Paulo (dividido por 100), de 1o de janeiro de 1995 a 29 de junho de 1995. Fonte: Bolsa de Valores de São Paulo. Mês Dia Telebrás Índice Jan. 2 34,99 43,19 3 33,31 40,98 4 32,09 39,68 5 32,56 40,37 6 30,31 38,27 9 28,91 36,28 10 26,10 32,70 11 28,25 34,99 12 30,41 38,41 13 32,00 41,04 16 31,25 40,56 17 32,37 42,10 18 30,87 40,79 19 28,63 38,09 20 29,56 38,62 23 28,44 37,58 24 29,28 38,40 26 29,84 39,27 27 28,35 37,84 30 27,32 35,81 31 30,41 38,85 Mês Dia Telebrás Índice Fev. 1 31,34 39,90 2 30,78 38,98 3 31,44 39,44 6 30,59 38,30 7 28,63 36,37 8 27,60 35,56 9 26,38 34,01 10 25,26 33,08 13 24,98 32,95 14 24,56 31,92 15 23,02 30,69 16 20,96 28,64 17 22,45 30,23 20 21,61 29,62 21 19,74 27,93 22 20,49 28,72 23 23,02 32,17 24 23,48 32,71 Mês Dia Telebrás Índice Mar. 2 20,96 29,89 3 21,42 29,88 6 20,40 28,67 7 18,43 26,16 8 16,84 23,63 9 15,06 21,38 10 21,05 26,86 13 20,77 26,71 14 23,30 30,17 15 21,99 29,39 16 23,75 31,42 17 22,08 29,81 20 21,14 28,70 21 22,45 30,06 22 22,36 30,04 23 23,67 31,46 24 25,63 33,61 27 25,73 33,72 28 24,61 32,56 29 24,51 31,98 30 24,14 31,26 31 22,64 29,79 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 504 C O N J U N T O S D E D A D O S 505 Mês Dia Telebrás Índice Abr. 3 22,08 28,94 4 24,33 31,25 5 24,98 31,80 6 25,54 32,54 7 25,35 31,92 10 24,79 31,14 11 24,23 30,18 12 23,95 30,21 17 24,89 31,13 18 25,82 31,94 19 27,23 33,31 20 27,79 33,84 24 29,00 35,13 25 30,13 36,99 26 30,69 38,26 27 31,06 38,51 28 30,86 38,14 Mês Dia Telebrás Índice Maio 2 31,23 38,62 3 31,99 39,76 4 32,41 40,44 5 31,71 40,08 8 30,86 39,14 9 32,23 40,65 10 31,90 40,50 11 30,62 39,51 12 30,95 39,98 15 29,91 38,94 16 29,63 38,35 17 31,14 39,64 18 31,23 40,08 19 30,81 39,50 22 31,99 40,34 23 32,56 40,88 24 33,31 41,00 25 32,37 40,19 26 30,27 39,05 29 30,91 38,96 30 28,71 37,07 31 28,98 37,21 Mês Dia Telebrás Índice Jun. 1 29,53 37,74 2 30,91 39,66 5 31,50 40,63 6 30,36 39,33 7 29,07 38,08 8 29,01 38,18 9 27,51 36,71 12 28,16 37,05 13 29,42 37,89 14 27,88 36,65 16 28,48 37,18 19 28,57 36,96 20 27,15 35,77 21 27,88 36,32 22 27,70 35,99 23 27,74 35,86 26 27,65 35,37 27 28,80 36,61 28 29,21 37,15 29 28,62 36,78 10. Índices de Placa Bacteriana Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade pré-esco- lar, antes e depois do uso de uma escova experimental e de uma escova convencional. Fonte: Singer e Andrade (1997). Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 1 F 2,18 0,43 1,20 0,75 2 F 2,05 0,08 1,43 0,55 3 F 1,05 0,18 0,68 0,08 4 F 1,95 0,78 1,45 0,75 5 F 0,28 0,03 0,50 0,05 6 F 2,63 0,23 2,75 1,60 7 F 1,50 0,20 1,25 0,65 8 F 0,45 0,00 0,40 0,13 9 F 0,70 0,05 1,18 0,83 10 F 1,30 0,30 1,43 0,58 11 F 1,25 0,33 0,45 0,38 12 F 0,18 0,00 1,60 0,63 13 F 3,30 0,90 0,25 0,25 9. Mercado (cont.) cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 505 E S T A T Í S T I C A B Á S I C A 506 10. Índices de Placa Bacteriana (cont.) Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 14 F 1,40 0,24 2,98 1,03 15 M 0,90 0,15 3,35 1,58 16 M 0,58 0,10 1,50 0,20 17 M 2,50 0,33 4,08 1,88 18 M 2,25 0,33 3,15 2,00 19 M 1,53 0,53 0,90 0,25 20 M 1,43 0,43 1,78 0,18 21 M 3,48 0,65 3,50 0,85 22 M 1,80 0,20 2,50 1,15 23 M 1,50 0,25 2,18 0,93 24 M 2,55 0,15 2,68 1,05 25 M 1,30 0,05 2,73 0,85 26 M 2,65 0,25 3,43 0,88 cap18b_CONJ_DADOS.P65 21/9/2009, 15:18 506 As tabelas a seguir são, em geral, auto-explicativas, mas o uso de cada uma está explica- do no texto. O Manual Explicativo de Pereira e Bussab (1974) pode ser consultado para mais explicações. 1. As tabelas I a VII são reproduzidas de Pereira e Bussab (1974), com permissão da Editora e autores. 2. A tabela VIII foi elaborada usando o SPlus e baseada em Lehmann (1975). 3. As tabelas IX e X são adaptadas de Pereira e Bussab (1974), com permissão da Editora e autores. T A B E L A S cap19b_TABELAS.P65 21/9/2009, 15:55 507 508 E S T A T Í S T I C A B Á S I C A Tabela I — Distribuição Binomial X ~ b(n, p) Corpo da tabela dá as probabilidades P(X = j), j = 0, 1, ..., n. p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 2p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 3 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 4 x = 0 902 810 640 562 490 360 250 2 = x x = 0 857 729 512 422 343 216 125 3 = x x = 0 815 656 410 316 240 130 062 4 = 4 x = 1 095 180 320 375 420 480 500 1 = x n = 1 135 243 384 422 441 432 375 2 = x x = 1 171 292 410 422 412 346 250 3 = 4 x = 2 002 010 040 062 090 160 250 0 = x n = 2 007 027 096 141 189 288 375 1 = x x = 2 014 049 154 211 265 346 375 2 = 4 n = 3 0+0 001 008 016 027 064 125 0 = x n = 2 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p x = 3 0+004 026 047 076 154 250 1 = 4 n = 3 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p x = 4 0+0+ 002 004 008 026 062 0 = x n = 4 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 5 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 6 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 7 x = 0 698 478 210 133 062 028 008 7 = x x = 0 774 590 328 237 168 078 031 5 = x x = 0 735 531 262 178 118 047 016 6 = x = x1 257 372 367 311 247 131 055 6 = x x = 1 204 328 410 396 360 259 156 4 = x = x1 232 354 393 356 303 187 094 5 = x = x2 041 124 275 311 318 261 164 5 = x x = 2 021 073 205 264 309 346 312 3 = x = x2 031 098 246 297 324 311 234 4 = x = x3 004 023 115 173 227 290 273 4 = x = x3 002 015 082 132 185 276 312 3 = x x = 3 001 008 051 088 132 230 312 2 = x = x4 0+ 003 029 058 097 194 273 3 = x x = 4 0+ 0+ 006 015 028 077 156 1 = x = x4 0+ 001 015 033 060 138 234 2 = x = x5 0+ 0+ 004 012 025 077 164 2 = x x = 5 0+ 0+ 0+ 001 002 010 031 0 = x = x5 0+ 0+ 002 004 010 037 094 1 = x = x6 0+ 0+ 0+ 001 004 017 055 1 = x = x6 0+ 0+ 0+ 0+ 001 004 016 0 = x = x7 0+ 0+ 0+ 0+ 0+ 002 006 0 = x n = 5 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 6 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 7 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 8 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 9 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 10 x = 0 599 349 107 056 028 006 001 10 = x x = 0 663 430 168 100 058 017 004 8x = x = 0 630 387 134 075 040 010 002 9x = x = 1 315 387 268 188 121 040 010 9 = x x = 1 279 383 336 267 198 090 031 7x = x = 1 299 387 302 225 156 060 018 8x = x = 2 075 194 302 282 233 121 044 8 = x x = 2 051 149 294 311 296 209 109 6x = x = 2 063 172 302 300 267 161 070 7x = x = 3 010 057 201 250 267 215 117 7 = x x = 3 005 033 147 208 254 279 219 5x = x = 3 008 045 176 234 267 251 164 6x = x = 4 0+ 005 046 087 136 232 273 4x = x = 4 001 007 066 117 172 251 246 5x = x = 4 001 011 068 146 200 251 205 6 = x x = 5 0+ 001 026 058 103 201 246 5 = x x = 5 0+ 0+ 009 023 047 124 219 3x = x = 5 0+ 001 017 039 074 167 246 4x = x = 6 0+ 0+ 006 016 037 111 205 4 = x x = 6 0+ 0+ 001 004 010 041 109 2x = x = 6 0+ 0+ 003 009 021 074 164 3x = x = 7 0+ 0+ 001 003 009 042 117 3 = x x = 7 0+ 0+ 0+ 0+ 001 008 031 1x = x = 7 0+ 0+ 0+ 001 004 021 070 2x = x = 8 0+ 0+ 0+ 0+ 0+ 001 004 0 = x x = 8 0+ 0+ 0+ 0+ 0+ 004 018 1x = x = 8 0+ 0+ 0+ 0+ 001 011 044 2 = x x x = 9 0+ 0+ 0+ 0+ 0+ 0+ 002 0 = x x = 9 0+ 0+ 0+ 0+ 0+ 002 010 1 = x x x 10 0+ 0+ 0+ 0+ 0+ 0+2 001 0 = x n = 8 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 9 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 10 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 11 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 12 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 13 x = 0 569 314 086 042 020 004 0+m 11= x x = 0 540 282 069 032 014 002 0+m 12 = x x = 0 513 254 055 024 010 001 0+— 13 x = x = 1 329 384 236 155 093 027 005 10= x x = 1 341 377 206 127 071 017 003 11 = x x = 1 351 367 179 103 054 011 002 12 x = x = 2 087 213 295 258 200 089 027 9 = x x = 2 099 230 283 232 168 064 016 10 = x x = 2 111 245 268 206 139 045 010 11 x = x = 3 014 071 221 258 257 177 061 8 = x x = 3 017 085 236 258 240 142 054 9 = x x = 3 021 100 246 252 218 111 035 10 x = x = 4 002 021 133 194 231 213 121 8 = x x = 4 003 028 154 210 234 184 087 9 x = x = 4 001 016 111 172 220 236 161 7 = x x = 5 0+m 004 053 103 158 227 193 7 = x x = 5 0+m 006 069 126 180 221 157 8 x = x = 5 0+m 002 039 060 132 221 226 6 = x x = 6 0+m 0+m 016 040 079 177 226 6 = x x = 6 0+m 001 023 056 103 197 209 7 x = x = 6 0+m 0+m 010 027 057 147 226 5 = x x = 7 0+m 0+m 003 011 029 101 193 5 = x x = 7 0+m 0+m 006 019 044 131 209 6 x = x = 7 0+m 0+m 002 006 017 070 161 4 = x x = 8 0+m 0+m 001 002 006 042 121 4 = x x = 8 0+m 0+m 001 005 014 066 157 5 x = x = 9 0+m 0+m 0+m 001 003 024 067 4 x = x = 8 0+m 0+m 0+m 001 004 023 061 3 = x x = 9 0+m 0+m 0+m 0+m 001 012 054 3 = x x =10 0+m 0+m 0+m 0+m 001 006 035 3 x = x = 9 0+m 0+m 0+m 0+m 001 005 027 2 = x x 10 0+m 0+m 0+m 0+m 0+m 002 016 2 = x x =11 0+m 0+m 0+m 0+m 0+m 001 010 2 x = mx =10 0+m 0+m 0+m 0+m 0+m 001 005 1 = x x 11 0+m 0+m 0+m 0+m 0+m 0+m 003 1 = x x =12 0+m 0+m 0+m 0+m 0+m 0+m 002 1 x = x =11 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x x 12 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x x =13 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x n = 11 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 12 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 13 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p 2 — 3 — 4 5 — 6 — 7 8 — 9 — 10 11 — 12 — 13 8 — 9— 10 11 — 12 — 13 2 — 3 — 4 5 — 6— 7 cap19b_TABELAS.P65 21/9/2009, 15:55 508 T A B E L A S 509 Tabela I — Distribuição Binomial (continuação) p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 14 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 15 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 16 x = 0 463 206 035 013 005 0+m 0+m 15 x x = 0 440 185 028 010 003 0+m 0+m 16 x x = 0 488 229 044 018 007 001 0+m 14= x x = 1 366 343 132 067 031 005 0+m 14 x x = 1 371 329 113 053 023 003 0+m 15 x x = 1 359 356 154 083 041 007 001 13= x x = 2 135 267 231 156 092 022 003 13 x x = 2 146 275 211 134 073 015 002 14 x x = 2 123 267 250 180 113 032 006 12= x x = 3 031 129 250 225 170 063 014 12 x x = 3 036 142 246 208 146 047 009 13 x x = 3 026 114 250 240 194 065 022 11= x x = 4 004 035 172 220 229 155 061 10= x x = 4 005 043 188 225 219 127 042 11 x x = 4 006 051 200 225 204 101 028 12 x x = 5 001 010 103 165 206 186 092 10 x x = 5 001 014 120 180 210 162 067 11 x x = 5 0+m 006 066 147 196 207 122 9 = x x = 6 0+m 002 043 092 147 207 153 9 = x x = 6 0+m 003 055 110 165 198 122 10 x x = 6 0+m 001 032 073 126 207 183 8 = x x = 7 0+m 0+m 014 039 081 177 196 8 = x x = 7 0+m 0+m 020 052 101 189 175 9 = x x = 7 0+m 0+m 009 028 062 157 209 7 = x x = 8 0+m 0+m 002 008 023 092 183 6 = x x = 8 0+m 0+m 003 013 035 118 196 7 = x x = 8 0+m 0+m 006 020 049 142 196 8 = x x = 9 0+m 0+m 0+m 002 007 041 122 5 = x x = 9 0+m 0+m 001 003 012 061 153 6 = x x = 9 0+m 0+m 001 006 019 084 175 7 = x x =10 0+m 0+m 0+m 001 003 024 092 5 = x x 10 0+m 0+m 0+m 001 006 039 122 6 = x x =10 0+m 0+m 0+m 0+m 001 014 061 4 = x x =11 0+m 0+m 0+m 0+m 001 007 042 4 = x x 11 0+m 0+m 0+m 0+m 001 014 067 5 = x x =11 0+m 0+m 0+m 0+m 0+m 003 022 3 = x x =12 0+m 0+m 0+m 0+m 0+m 001 006 2 = x x =12 0+m 0+m 0+m 0+m 0+m 002 014 3 = x x 12 0+m 0+m 0+m 0+m 0+m 004 028 4 = x x =13 0+m 0+m 0+m 0+m 0+m v 001 1 = x x =13 0+m 0+m 0+m 0+m 0+m 0+m 003 2 = x x 13 0+m 0+m 0+m 0+m 0+m 001 009 3 = x x =14 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x x =14 0+m 0+m 0+m 0+m 0+m 0+m 0+m 1 = x x 14 0+m 0+m 0+m 0+m 0+m 0+m 002 2 = x x =15 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x x 15 0+m 0+m 0+m 0+m 0+m 0+m 0+m 1 = x x 16 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x n = 14 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 15 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 16 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 19 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 18 p → 0,05 0,10 0,20 0,25 0,30 0,40 0,50 n = 17 x = 0 377 135 014 004 001 0+m 0+m 19 = x = x1 377 285 068 027 009 001 0+m 18 = x x = 0 397 150 018 006 002 0+m 0+m 18 = = x2 179 285 154 060 036 005 0+m 17 = x x = 1 376 300 061 034 013 001 0+m 17 = x = 0 418 167 023 008 002 0+m 0+m 17 = = x3 053 180 218 152 067 017 002 16 = x x = 2 168 284 172 096 046 007 001 16 = x = 1 374 315 096 043 017 002 0+m 16 = = x4 011 080 218 202 149 047 007 15 = x x = 3 047 168 230 170 105 025 003 15 = x = 2 158 280 191 114 058 010 001 15 = x = 4 009 070 215 213 168 061 012 14 = x = 3 041 156 239 189 125 034 005 14 = x = 4 008 060 209 221 187 060 018 13 = = x5 002 027 164 202 192 093 022 14 = x = x6 0+m 007 095 157 192 145 052 13 = x x = 5 001 022 151 199 202 115 033 13 = = x7 0+m 001 044 097 153 180 096 12 = x x = 6 0+m 005 062 144 187 166 071 12 = x = 5 001 017 136 191 208 138 047 12 = = x8 0+m 0+m 017 049 098 180 144 11 = x x = 7 0+m 001 035 082 138 189 121 11 = x = 6 0+m 004 068 128 178 184 094 11 = = x9 0+m 0+m 005 020 051 146 176 10 = x x = 8 0+m 0+m 012 038 081 173 167 10 = x = 7 0+m 001 027 067 120 193 148 10 = x = 9 0+m 0+m 003 014 039 128 185 9x = x = 8 0+m 0+m 008 028 064 161 185 9x = = 10 0+m 0+m 001 007 022 093 178 9 = x x = 9 0+m 0+m 002 009 028 107 185 8x = = 11 0+m 0+m 0+m 002 008 145 144 8 = x x =10 0+m 0+m 001 004 015 077 167 8x = = 12 0+m 0+m 0+m 0+m 002 180 096 7 = x x =11 0+m 0+m 0+m 001 005 037 121 7x = x =10 0+m 0+m 0+m 002 009 067 148 7x = = 13 0+m 0+m 0+m 0+m 001 180 052 6 = x x =12 0+m 0+m 0+m 0+m 001 015 071 6x = x =11 0+m 0+m 0+m 001 003 024 094 6x = = 14 0+m 0+m 0+m 0+m 0+m 146 022 5 = x x =13 0+m 0+m 0+m 0+m 0+m 004 033 5x = x =12 0+m 0+m 0+m 0+m 001 008 047 5x = x =14 0+m 0+m 0+m 0+m 0+m 001 012 4x = x =13 0+m 0+m 0+m 0+m 0+m 002 018 4x = x =14 0+m 0+m 0+m 0+m 0+m 0+m 005 3x = = 15 0+m 0+m 0+m 0+m 0+m 098 007 4 = x = 16 0+m 0+m 0+m 0+m 0+m 053 002 3 = x x 15 0+m 0+m 0+m 0+m 0+m 0+m 003 3x = = 17 0+m 0+m 0+m 0+m 0+m 024 0+m 2 = x x =16 0+m 0+m 0+m 0+m 0+m 0+m 001 2x = x =15 0+m 0+m 0+m 0+m 0+m 0+m 001 2x = = 18 0+m 0+m 0+m 0+m 0+m 008 0+m 1 = x x 17 0+m 0+m 0+m 0+m 0+m 0+m 0+m 1x = x =16 0+m 0+m 0+m 0+m 0+m 0+m 0+m 1x = = 19 0+m 0+m 0+m 0+m 0+m 002 0+m 0 = x x =18 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x x =17 0+m 0+m 0+m 0+m 0+m 0+m 0+m 0 = x n = 19 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 18 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p n = 17 0,95 0,90 0,80 0,75 0,70 0,60 0,50 ← p 14 — 15 — 16 17 — 18 — 19 14 — 15 — 16 19 — 18 — 17 cap19b_TABELAS.P65 21/9/2009, 15:55 509 512 E S T A T Í S T I C A B Á S I C A Tabela IV — Distribuição Qui-quadrado Y ~ χ2 (ν) Corpo da tabela dá os valores yc tais que P (Y > yc) = p. Para valores ν > 30, use a aproximação normal dada no texto. p = 99% 98% 97,5% 95% 90% 80% 70% 50% 30% 20% 10% 5% 4% 2,5% 2% 1% 0,2% 0,1% 1 0,0316. .0,0363 0,001 0,004 0,016 0,064 0,148 0,455 1,074 1,642 2,706 3,841 4,218 5,024 5,412 6,635 9,550 10,827 1 2 0,020 0,040 0,051 0,103 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 6,438 7,378 7,824 9,210 12,429 13,815 2 3 0,115 0,185 0,216 0,352 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 8,311 9,348 9,837 11,345 14,796 16,266 3 4 0,297 0,429 0,484 0,711 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 10,026 11,143 11,668 13,277 16,924 18,467 4 5 0,554 0,752 0,831 1,145 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,070 11,644 12,832 13,388 15,086 18,907 20,515 5 6 0,872 1,134 1,237 1,635 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,592 13,198 14,449 15,033 16,812 20,791 22,457 6 7 1,239 1,564 1,690 2,167 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 14,703 16,013 16,622 18,475 22,601 24,322 7 8 1,646 2,032 2,180 2,733 3,490 4,594 5,527 7,344 9,524 11,030 13,362 15,507 16,171 17,534 18,168 20,090 24,352 26,125 8 9 2,088 2,532 2,700 3,325 4,168 5,380 6,393 8,343 10,656 12,242 14,684 16,919 17,608 19,023 19,679 21,666 26,056 27,877 9 10 2,558 3,059 3,247 3,940 4,865 6,179 7,267 9,342 11,781 13,442 15,987 18,307 19,021 20,483 21,161 23,209 27,722 29,588 10 11 3,053 3,609 3,816 4,575 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 20,412 21,920 22,618 24,725 29,354 31,264 11 12 3,571 4,178 4,404 5,226 6,304 7,807 9,034 11,340 14,011 15,812 18,549 21,026 21,785 23,337 24,054 26,217 30,957 32,909 12 13 4,107 4,765 5,009 5,892 7,042 8,634 9,926 12,340 15,119 16,985 19,812 22,362 23,142 24,736 25,472 27,688 32,535 34,528 13 14 4,660 5,368 5,629 6,571 7,790 9,467 10,821 13,339 16,222 18,151 21,064 23,685 24,485 26,119 26,873 29,141 34,091 36,123 14 15 5,229 5,985 6,262 7,261 8,547 10,307 11,721 14,339 17,322 19,311 22,307 24,996 25,816 27,488 28,259 30,578 35,628 37,697 15 16 5,812 6,614 6,908 7,962 9,312 11,152 12,624 15,338 18,418 20,465 23,542 26,296 27,136 28,845 29,633 32,000 37,146 39,252 16 17 6,408 7,255 7,564 8,672 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 28,445 30,191 30,995 33,409 38,648 40,790 17 18 7,015 7,906 8,231 9,390 10,865 12,857 14,440 17,338 20,601 22,760 25,989 28,869 29,745 31,526 32,346 34,805 40,136 42,312 18 19 7,633 8,567 8,906 10,117 11,651 13,716 15,352 18,338 21,689 23,900 27,204 30,144 31,037 32,852 33,687 36,191 41,610 43,820 19 20 8,260 9,237 9,591 10,851 12,443 14,578 16,266 19,337 22,775 25,038 28,412 31,410 32,321 34,170 35,020 37,566 43,072 45,315 20 21 8,897 9,915 10,283 11,591 13,240 15,445 17,182 20,337 23,858 26,171 29,615 32,671 33,597 35,479 36,343 38,932 44,522 46,797 21 22 9,542 10,600 10,982 12,338 14,041 16,314 18,101 21,337 24,939 27,301 30,813 33,924 34,867 36,781 37,659 40,289 45,962 48,268 22 23 10,196 11,293 11,688 13,091 14,848 17,187 19,021 22,337 26,018 28,429 32,007 35,172 36,131 38,076 38,968 41,638 47,391 49,728 23 24 10,856 11,992 12,401 13,848 15,659 18,062 19,943 23,337 27,096 29,553 33,196 36,415 37,389 39,364 40,270 42,980 48,812 51,179 24 25 11,524 12,697 13,120 14,611 16,473 18,940 20,867 24,337 28,172 30,675 34,382 37,652 38,642 40,646 41,566 44,314 50,223 52,620 25 26 12,198 13,409 13,844 15,379 17,292 19,820 21,792 25,336 29,246 31,795 35,563 38,885 39,889 41,923 42,856 45,642 51,627 54,052 26 27 12,879 14,125 14,573 16,151 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 41,132 43,194 44,140 46,963 53,022 55,476 27 28 13,565 14,847 15,308 16,928 18,939 21,588 23,647 27,336 31,319 34,027 37,916 41,337 42,370 44,461 45,419 48,278 54,411 56,893 28 29 14,258 15,574 16,047 17,708 19,768 22,475 24,577 28,336 32,461 35,139 39,087 42,557 43,604 45,722 46,693 49,588 55,792 58,302 29 30 14,953 16,306 16,791 18,493 20,599 23,364 25,508 29,336 33,530 36,250 40,256 43,773 44,834 46,979 47,962 50,892 57,167 59,703 30 p = 99% 98% 97,5% 95% 90% 80% 70% 50% 30% 20% 10% 5% 4% 2,5% 2% 1% 0,2% 0,1% Graus de liberdade ν Graus de liberdade ν cap19b_TABELAS.P65 21/9/2009, 15:55 512 516 E S T A T Í S T I C A B Á S I C A Tabela VII — Números Aleatórios 61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02 94 47 40 99 93 82 13 22 40 33 19 72 55 69 82 16 94 21 66 39 50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48 51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39 25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48 63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90 12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92 38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67 22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82 07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49 61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80 97 15 71 92 40 28 33 35 23 32 75 36 18 98 41 10 50 93 75 95 39 81 34 84 33 83 42 77 35 00 51 42 82 63 30 47 01 98 96 73 58 35 04 52 06 81 24 32 74 53 28 82 43 35 01 73 34 47 05 76 52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88 41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47 88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13 11 12 32 28 25 67 22 97 11 73 55 24 09 23 47 12 93 44 80 47 33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16 03 67 08 29 16 04 92 31 62 03 94 53 02 60 55 72 46 68 25 93 41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94 18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80 06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61 12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51 79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34 01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95 90 73 28 21 38 57 39 36 24 33 31 99 64 86 19 61 55 50 65 14 44 10 20 96 70 32 41 46 22 97 08 22 02 47 43 57 15 87 76 59 52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77 23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56 cap19b_TABELAS.P65 21/9/2009, 15:55 516 518 E S T A T Í S T I C A B Á S I C A Tabela VIII — Distribuição de Mann-Whitney (continuação) m u n = 5 n = 6 n = 7 n = 8 n = 9 n = 10 m u n = 7 n = 8 n = 9 n = 10 5 0 0040 0022 0013 0008 0005 0003 7 0 0003 0002 0001 0001 1 0079 0043 0025 0016 0010 0007 1 0006 0003 0002 0001 2 0159 0087 0051 0031 0020 0013 2 0012 0006 0003 0002 3 0278 0152 0088 0054 0035 0023 3 0020 0011 0006 0004 4 0476 0260 0152 0093 0060 0040 4 0035 0019 0010 0006 5 0754 0411 0240 0148 0095 0063 5 0055 0030 0017 0010 6 1111 0628 0356 0225 0145 0097 6 0087 0047 0026 0015 7 1548 0887 0530 0326 0210 0140 7 0131 0070 0039 0023 8 2103 1234 0745 0466 0300 0200 8 0189 0103 0058 0034 9 2738 1645 1010 0637 0415 0276 9 0265 0145 0082 0048 10 3452 2143 1338 0855 0559 0376 10 0364 0200 0115 0068 11 4206 2684 1717 1111 0734 0496 11 0487 0270 0156 0093 12 5000 3312 2159 1422 0949 0646 12 0641 0361 0209 0125 13 5794 3961 2652 1772 1199 0823 13 0825 0469 0274 0165 14 6548 4654 3194 2176 1489 1032 14 1043 0603 0356 0215 15 7262 5346 3775 2618 1818 1272 15 1297 0760 0454 0277 16 7897 6039 4381 3108 2188 1548 16 1588 0946 0571 0351 17 8452 6688 5000 3621 2592 1855 17 1914 1159 0708 0439 18 8889 7316 5619 4165 3032 2198 18 2279 1405 0879 0544 19 9246 7857 6225 4716 3497 2567 19 2675 1678 1052 0665 20 9524 8355 6806 5284 3986 2970 20 3100 1984 1261 0806 21 9722 8766 7348 5835 4491 3393 21 3552 2317 1496 0976 6 0 0011 0006 0003 0002 0001 22 4024 2679 1755 1148 1 0022 0012 0007 0004 0002 23 4508 3063 2039 1349 2 0043 0023 0013 0008 0005 24 5000 3472 2349 1574 3 0076 0041 0023 0014 0009 25 5492 3894 2680 1819 4 0130 0070 0040 0024 0015 26 5976 4333 3032 2087 5 0206 0111 0063 0038 0024 27 6448 4775 3403 2374 6 0325 0175 0100 0060 0037 28 6900 5225 3788 2681 7 0465 0256 0147 0088 0055 29 7325 5667 4185 3004 8 0660 0367 0213 0128 0080 30 7721 6106 4591 3345 9 0898 0507 0296 0180 0112 10 1201 0688 0406 0248 0156 11 1548 0903 0539 0332 0210 12 1970 1171 0709 0440 0280 13 2424 1474 0906 0567 0363 14 2944 1830 1142 0723 0467 15 3496 2226 1412 0905 0589 16 4091 2669 1725 1119 0736 17 4686 3141 2068 1361 0903 18 5314 3654 2454 1638 1999 19 5909 4178 2864 1942 1317 20 6504 4726 3310 2280 1566 21 7056 5274 3773 2643 1838 22 7576 5822 4259 3035 2139 23 8030 6346 4749 3445 2461 24 8452 6859 5251 3878 2811 25 8799 7331 5741 4320 3177 26 9102 7774 6227 4773 3564 27 9340 8170 6690 5227 3962 28 9535 8526 7136 5680 4374 29 9675 8829 7546 6122 4789 30 9794 9097 7932 6555 5211 cap19b_TABELAS.P65 21/9/2009, 15:55 518 T A B E L A S 519 Tabela VIII — Distribuição de Mann-Whitney (continuação) m u n = 8 n = 9 n = 10 m u n = 9 n = 10 m u n = 10 8 0 0001 0000 0000 9 0 0000 0000 10 0 0000 1 0002 0001 0000 1 0000 0000 1 0000 2 0003 0002 0001 2 0001 0000 2 0000 3 0005 0003 0002 3 0001 0001 3 0000 4 0009 0005 0003 4 0002 0001 4 0001 5 0015 0008 0004 5 0004 0002 5 0001 6 0023 0012 0007 6 0006 0003 6 0002 7 0035 0019 0010 7 0009 0005 7 0002 8 0052 0028 0015 8 0014 0007 8 0004 9 0074 0039 0022 9 0020 0011 9 0005 10 0103 0056 0031 10 0028 0015 10 0008 11 0141 0076 0043 11 0039 0021 11 0010 12 0190 0103 0058 12 0053 0028 12 0014 13 0249 0137 0078 13 0071 0038 13 0019 14 0325 0180 0103 14 0094 0051 14 0026 15 0415 0232 0133 15 0122 0066 15 0034 16 0524 0296 0171 16 0157 0086 16 0045 17 0653 0372 0217 17 0200 0110 17 0057 18 0803 0464 0273 18 0252 0140 18 0073 19 0974 0570 0338 19 0313 0175 19 0093 20 1172 0694 0416 20 0385 0217 20 0116 21 1393 0836 0506 21 0470 0267 21 0144 22 1641 0998 0610 22 0567 0326 22 0177 23 1911 1179 0729 23 0680 0394 23 0216 24 2209 1383 0864 24 0807 0474 24 0262 25 2527 1606 1015 25 0951 0564 25 0315 26 2869 1852 1185 26 1112 0667 26 0376 27 3227 2117 1371 27 1290 0782 27 0446 28 3605 2404 1577 28 1487 0912 28 0526 29 3992 2707 1800 29 1701 1055 29 0615 30 4392 3029 2041 30 1933 1214 30 0716 31 4796 3365 2299 31 2181 1388 31 0827 32 5204 3715 2574 32 2447 1577 32 0952 33 5608 4074 2863 33 2729 1781 33 1088 34 6008 4442 3167 34 3024 2001 34 1237 35 6395 4813 3482 35 3332 2235 35 1399 36 6773 5187 3809 36 3652 2483 36 1575 37 7131 5558 4143 37 3981 2745 37 1763 38 7473 5926 4484 38 4317 3019 38 1965 39 7791 6285 4827 39 4657 3304 39 2179 40 8089 6635 5173 40 5000 3598 40 2406 cap19b_TABELAS.P65 21/9/2009, 15:55 519 520 E S T A T Í S T I C A B Á S I C A Tabela IX — Distribuição de Wilcoxon T + O corpo da tabela dá os valores wp tais que P(T+ < wp) = p w0.005 w0.01 w0.025 w0.05 w0.10 w0.005 w0.01 w0.025 w0.05 w0.10 n = 4 0 0 0 0 1 n = 27 84 94 108 120 135 5 0 0 0 1 3 28 92 102 117 131 146 6 0 0 1 3 4 29 101 111 127 141 158 7 0 1 3 4 6 30 110 121 138 152 170 8 1 2 4 6 9 31 119 131 148 164 182 9 2 4 6 9 11 32 129 141 160 176 195 10 4 6 9 11 15 33 139 152 171 188 208 11 6 8 11 14 18 34 149 163 183 201 222 12 8 10 14 18 22 35 160 175 196 214 236 13 10 13 18 22 27 36 172 187 209 228 251 14 13 16 22 26 32 37 184 199 222 242 266 15 16 20 26 31 37 38 196 212 236 257 282 16 20 24 30 36 43 39 208 225 250 272 298 17 24 28 35 42 49 40 221 239 265 287 314 18 28 33 41 48 56 41 235 253 280 303 331 19 33 38 47 54 63 42 248 267 295 320 349 20 38 44 53 61 70 43 263 282 311 337 366 21 44 50 59 68 78 44 277 297 328 354 385 22 49 56 67 76 87 45 292 313 344 372 403 23 55 63 74 84 95 46 308 329 362 390 423 24 62 70 82 92 105 47 324 346 379 408 442 25 69 77 90 101 114 48 340 363 397 428 463 26 76 85 99 111 125 49 357 381 416 447 483 50 374 398 435 467 504 cap19b_TABELAS.P65 21/9/2009, 15:55 520 1. 1. 1. 1. 1. (a) razão (e) razão (b) ordinal (f) nominal (c) razão (g) intervalar (d) intervalar 3. 3. 3. 3. 3. População urbana: Número de habitantes n i fi Menos de 500.000 3 0,1111 500.001 a 1.000.000 2 0,0740 1.000.001 a 5.000.000 15 0,5556 5.000.001 a 10.000.000 4 0,1481 Mais de 10.000.000 3 0,1111 Total 27 1,0000 Densidade populacional: Densidade (hab./km2) ni fi Menos de 10 9 0,3333 10 a 30 5 0,1852 30 a 50 4 0,1481 50 a 100 6 0,2222 Mais de 100 3 0,1111 Total 27 1,0000 6. 6. 6. 6. 6. (a) Histograma (b) Gráfico de dispersão unidimensional 8. 8. 8. 8. 8. Histograma Ramo-e-folhas Decimal point is 1 place to the right of the colon 4 : 6 5 : 0046 6 : 234778 7 : 35 8 : 045 9 : 2 10 : 22 11 : 69 12 : 13 : 06 14 : 15 : 2 16 : 17 : 18 : 8 19 : 20 : 1 21 : 1 22 : 5 Valores maiores: 556.9 998,8 Gráfico de dispersão unidimensional Capítulo 2 R E S P O S T A S cap20b_RESPOSTA.P65 21/9/2009, 15:48 522 R E S P O S T A S 525 42. 42. 42. 42. 42. dam (urb) = 1.413.000; dam (rural) = 546.900 45. 45. 45. 45. 45. Dados não simétricos; pontos acima da reta u = v no gráfico de simetria. 48. 48. 48. 48. 48. (a) n = 120; dq = 16; Δ = 5,47 = 16(0,039896)1/3. (b) n = 30; dq = 20.734; Δ = 7.600 = n = 20.734(0,049237)1/3. (c) Histograma de X 38. 38. 38. 38. 38. (a) Z é uma nota padronizada. (b) As notas padronizadas são: –0,58 –0,58 –0,18 –0,18 –0,58 –1,35 –0,18 –0,18 –0,58 –0,18 –1,35 –0,95 –0,95 –0,58 –0,58 –0,95 –0,18 –0,58 –3,26 –0,95 –0,95 –0,18 –1,35 –0,58 –0,58 (c)⎯z = 0; dp = 1 (d) z = –3,26 (e) política 39. 39. 39. 39. 39. (a) ⎯x(0,1) = 10,84;⎯x(0,25) = 10,52 40. 40. 40. 40. 40. CV(A) = 20%; CV(B) = 30% 13. 13. 13. 13. 13. (a) (b) 0,74 15. 15. 15. 15. 15. Seção e Notas de Estatística não são correlacionadas. 18. 18. 18. 18. 18. (a) Salário Estado Menos de entre 10 Mais de Total Civil 10 S.M. e 20 S.M. 20 S.M. solteiro 0,12 0,19 0,09 0,40 casado 0,08 0,31 0,21 0,60 Total 0,20 0,50 0,30 1,00 1. 1. 1. 1. 1. (b) 50% (d) 58,3% (c) 19,4% 3. 3. 3. 3. 3. (b) 2,5% (d) 12,5% (c) 50% (e) Bastante modificada; maioria das pessoas que ganham pouco têm alta rotatividade. 5. 5. 5. 5. 5. Existe relação, pois as probabilidades marginais não se repetem no interior da tabela. 7. 7. 7. 7. 7. χ2 = 0,67, C = 0,81 8. 8. 8. 8. 8. Problema 3: χ2 = 5,625, C = 0,351, T = 0,375. Problema 6: χ2 = 11,42, C = 0,075, T = 0,076. 9. 9. 9. 9. 9. Não há diferenças entre as três empresas. 11. 11. 11. 11. 11. (b) O gráfico indica dependência linear entre as variáveis. (c) 0,86 (d) Porto Alegre e Fortaleza apresentam comporta- mentos diferentes dos demais. CAPÍTULO 4 Capítulo 4 cap20b_RESPOSTA.P65 21/9/2009, 15:48 525 — A — Amostra, aleatória simples, 268-270 com reposição, 269 estratificada, 293 por conglomerados, 293 sem reposição, 269 sistemática, 294 tamanho de uma, 287-289 Análise, Bidimensional, 68 de aderência, 402 de dados, 1 de resíduos, 467-469 exploratória de dados, 1 Aproximação normal, 182 Associação, de variáveis, 73-75, 80, 83 — B — Bayes, 116-121 Bonferroni, 441 Bootstrap, 321-323 Box Plots, 47-50 — C — Coeficiente de contingência, 76, 79 de correlação, 84-85 de variação, 65 Comparação de médias, 439-440 Confiabilidade, 114 Contrastes, 446 Covariância, 85, 214-218 Curva de nível, 205, 231 — D — Dados, 4 Densidade de freqüência, 18-19 de probabilidade, 168 Desigualdade de Chebyshev, 326 Desvio absoluto mediano, 66 médio, 38-40 padrão, 39-40 Distribuição amostral da média, 277-281 amostral da mediana, 283-286 amostral da proporção, 281-283 amostral da variância, 283-286 Bernoulli, 142-143 Beta, 201 binomial, 145 condicional, 206-207, 224 conjunta, 68, 203-206 de freqüências, 11-13 de Pascal, 162 de variáveis, 129,179, 203 exponencial, 181 F de Snedecor, 192-193 Gama, 188-189 geométrica, 161 hipergeométrica, 147 lognormal, 200 Mann-Whitney, 372 marginais, 70, 206, 222 multinomial, 419 normal, 46 normal bidimensional, 229-231 Pareto, 199 Í N D I C E R E M I S S I V O cap21b_REMISSIVO.P65 21/9/2009, 15:44 537 538 E S T A T Í S T I C A B Á S I C A Poisson, 148-153 qui-quadrado, 189-190 t de Student, 191-192 uniforme, 140-141, 174-176 Weibull, 201 Wilcoxon, 372, 378, 381 — E — Erro padrão, 316-317 quadrático médio, 302-303 Escalas, 14 Espaço amostral, 104-105 Esperança condicional, 227 matemática, 168-169 Estatísticas, 271 de ordem, 36, 271 Estimação de parâmetros, 296 Estimadores consistentes, 300-301 de momentos, 304-305 de máxima verossimilhança, 308 de mínimos quadrados, 305-307 não-viesados, 299-300 propriedades, 298 Evento(s) aleatório, 104 certo, 106 impossível, 106 independentes, 113-114 intersecção, 107 reunião, 107 Excel, 3 — F — Freqüência absoluta, 12 acumulada, 30 relativa, 12 Função característica de operação, 335 de distribuição acumulada, 138, 170 de distribuição empírica, 32 de probabilidade, 131-132 de variáveis aleatórias, 137, 185, 210 de verossimilhança, 308-310 — G — Gráfico de dispersão, 16-18, 80-83, 217-218 de dispersão simbólico, 93 de quantis, 51-52, 99 de simetria, 51-52 em barras, 15 em setores, 16 para variáveis, 15-18 — H — Hipótese alternativa, 334-336 Histograma, 18-19 alisado, 28 — I — Independência de eventos, 111-115 de variáveis, 214-224 Inferência Bayesiana, 317 estatística, 261 para duas populações, 367-381 para várias populações, 420 Intervalo de confiança, 310-311 de predição, 448 interquartil, 47 para a média, 310, 313-314 para a variância, 310-316 para proporção, 310-316 cap21b_REMISSIVO.P65 21/9/2009, 15:44 538 539 Í N D I C E R E M I S S I V O — L — Lei dos grandes números, 326 — M — Média aparada, 65 aritmética, 35 de v.a., 135, 168 Mediana amostral, 35 de v.a., 135-137 Medidas de associação, 76 de dispersão, 37, 40 de posição, 35-36 resistentes, 45 resumo, 35 Método congruencial, 239 de máxima verossimilhança, 308 de mínimos quadrados, 305 Minitab, 3 Modelos de v.a., 141, 173 lineares, 449 não-lineares, 475 para duas populações, 425 para várias populações, 435 probabilísticos, 103 Monte Carlo, 235 — N — Números aleatórios, 235-237 pseudo-aleatórios, 238 tabelas de, 238, 292, 516 — O — Outliers, 48, 49 — P — Pacotes estatísticos, 3 Parâmetro, 265 População, 262 Porcentagem, 13 Probabilidade, 105 condicional, 111 propriedades, 106 regra do produto, 111 subjetiva, 121 Processo de Poisson, 153 estocástico, 268 Proporção, 12 — Q — Quantis empíricos, 41 teóricos, 154, 193 Qui-quadrado, 77, 189-190 — R — Ramos-e-folhas, 20-21, 33 Regressão análise de resíduos, 467-469 ANOVA, 458 estimação, 452 intervalo de confiança, 463-467 intervalo de predição, 465-467 linear simples, 449 modelos especiais, 473-474 resistente, 479 soma de quadrados, 456-457 Resumo de dados, 9 — S — Simulação, 235 Bernoulli, 244 binomial, 244 exponencial, 245 cap21b_REMISSIVO.P65 21/9/2009, 15:44 539 540 E S T A T Í S T I C A B Á S I C A Gama, 254 qui-quadrado, 247 v.a., 240 Soma de quadrados dentro, 433 entre, 433 regressão, 425-432 total, 433 SPlus, 3 — T — Tabela ANOVA, 458 de contingência, 69 de dupla entrada, 69 Técnicas computacionais, 3 Teorema do limite central, 279 Transformações de Box-Müller, 253 de variáveis, 52-53 Teste de aderência, 402 de hipótese, 330 de homocedasticidade, 441 de homogeneidade, 406 de independência, 409 de Kolmogorov-Smirnov, 416 de Mann-Whitney, 372 de média, 339 de proporção, 341 de variância, 351 de Wilcoxon, 372, 384 erros de um, 331 nível de significância, 338 para coeficiente de correlação, 411 poder, 344, 347 região crítica, 338 T, 363-389 — V — Valor médio amostral, 37-41 de v.a., 135, 167 Valor-p, 348-351 Valores atípicos, 48 discrepantes, 49-50 Variáveis aleatórias, 128-134, 163-166, 203-206 contínuas, 163-202 discretas, 128 independência, 127-234 multidimensionais, 203 nominais, 10 ordinais, 10 qualitativas, 9 quantitativas, 9 Variância amostral, 40 de v.a., 136, 170 cap21b_REMISSIVO.P65 21/9/2009, 15:44 540