·
Cursos Gerais ·
Análise Matemática
Envie sua pergunta para a IA e receba a resposta na hora

Prefere sua atividade resolvida por um tutor especialista?
- Receba resolvida até o seu prazo
- Converse com o tutor pelo chat
- Garantia de 7 dias contra erros
Recomendado para você
13
Mapa da Aula: Pensamento Lógico e Quantitativo - Aula 01
Análise Matemática
PUC
12
Mapa da Aula 8: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
44
Resumo da Teoria de Conjuntos e Cálculo Proposicional
Análise Matemática
PUC
16
Mapa da Aula 2: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
22
Mapa da Aula: Pensamento Lógico e Quantitativo - Aula 04
Análise Matemática
PUC
11
Mapa da Aula 07: Inferência Estatística e Testes de Hipóteses
Análise Matemática
PUC
14
Mapa da Aula 9: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
23
Mapa da Aula 5: Pensamento Lógico e Quantitativo - Estatística Descritiva e Inferencial
Análise Matemática
PUC
9
Aula 10: Mapa da Aula sobre Pensamento Lógico e Quantitativo
Análise Matemática
PUC
11
Mapa da Aula - Pensamento Lógico e Quantitativo: Negações de Proposições Compostas
Análise Matemática
PUC
Texto de pré-visualização
PENSAMENTO LÓGICO E QUANTITATIVO Helio Radke Bittencourt Aula 06 2 MAPA DA AULA Neste material você tem uma linha do tempo com os principais acontecimentos das videoaulas organizados nas seguintes seções Momentos importantes da disciplina Conceitos e termos relevantes para o conteúdo da aula Para lembrar Dinâmicas exercícios interativos e infográficos Para exercitar Para ir além Curiosidades personalidades e entretenimento Esta é uma versão simplificada do Mapa da Aula para impressão Os recursos interativos disponíveis no material não funcionarão nesta versão Para uma experiência mais enriquecedora acesse a versão completa do Mapa da Aula na aba AULAS 3 AULA 6 PARTE 1 O professor inicia a aula relembrando que uma população é um conjunto de um número finito ou infinito de elementos e quando se utiliza a amostragem compõese uma amostra a partir dessa população Portanto a amostra é um subconjunto da população Em uma população temse parâmetros populacionais Para eles designamse letras diferentes das utilizadas na amostra A média populacional é representada pela letra grega µ o desvio padrão populacional pelo σ e a proporção pelo p ou π Já na amostra temse os estimadores que vão gerar estimativas sobre os parâmetros Aqui o professor frisa que a palavra estimativa carrega certa dúvida indicando que o resultado não é preciso ou perfeito Os estimadores são representados como x média amostral S desvio padrão amostral e p proporção amostral estimativa da verdadeira proporção populacional A amostragem é o primeiro pilar da inferência estatística Amostragem Técnicas As técnicas de amostragem se dividem em probabilísticas e não probabilísticas Nas probabilísticas a responsabilidade sobre a seleção é de um dispositivo aleatório como uma urna por exemplo um sorteio As amostras probabilísticas são preferíveis às não probabilísticas porque a estas não é possível associar probabilidade de seleção aos elementos Helio explica que essa característica possibilita a inserção de um viés que contamine os resultados de maneira indesejável Algumas das estratégias adotadas para seleções amostrais não probabilísticas são Quotas utilizadas em pesquisas sociais e eleitorais Geralmente são estabelecidas de acordo com o sexo a idade e a classe social ou a escolaridade pois são variáveis que interferem substancialmente nos resultados Conveniência bastante aplicada por selecionar uma amostra da população que estar acessível Apesar do acesso à amostra ser mais simples e de baixo custo sua credibilidade pode ser questionada Bola de neve técnica em que um entrevistado vai indicando outro até que se componha a amostra Tráfego para essa amostragem o entrevistador se posiciona em um ponto de tráfego e escolhe os entrevistados de acordo com critérios prédefinidos Não probabilísticas Técnicas de amostragem No meio acadêmico temse preferência pelas técnicas de amostragem probabilísticas pela maior credibilidade e rigor estatístico 0243 0427 Verdadeiro Falso 4 No meio acadêmico adotamse os métodos probabilísticos dada sua maior credibilidade e capacidade de fazer afirmações com rigor estatístico Como exemplo o professor cita Amostragem estratificada para esse procedimento criamse estratos ou grupos a priori e se procede uma amostra simples dentro de cada um desses grupos Amostragem sistemática selecionase o primeiro elemento aleatoriamente e em seguida vai se selecionando os demais de acordo com o passo determinado pela razão Nn Amostragem por conglomerados nessa técnica a população é dividida em grupos ordenados hierarquicamente cidades bairros setores censitários quadras domicílios pessoas que são selecionados em cada nível É comum obter uma menor precisão ao utilizar esta técnica causada pela falta de heterogeneidade dentro dos conglomerados A técnica escolhida pelo professor para ser mais cuidadosamente explorada é a amostragem aleatória simples também chamada AAS que apesar de simples como o nome sugere é considerada uma das melhores por ser totalmente imparcial e representativa Probabilísticas Helio alerta que muitas vezes não é executável adotar a AAS porque ela requer o cadastro de toda a população alvo Grande parte desses cadastros é protegido pela Lei Geral de Proteção de Dados LGPD O cadastro de toda a população alvo é necessário para que seja numerada de 1 a N sendo N o número total de elementos O segundo passo é sortear n números da população entre 1 e N sendo que uma pessoa que já foi selecionada para a amostra não pode ser escolhida novamente Já a terceira etapa consiste em compor a amostra com os elementos sorteados Amostragem aleatória simples O professor procura demonstrar a aplicabilidade da amostragem aleatória simples em uma população de cinco elementos A B C D E Nela Helio decide compor amostras de tamanho 2 Em primeiro lugar ele verifica quantas amostras podese extrair dessa população Matematicamente a equação para se chegar ao número de possibilidades é Simulação Lembrese N é o tamanho da população e n o tamanho da amostra Na equação efetuase o fatorial de N dividido pelo fatorial de n multiplicado pelo fatorial da diferença entre eles O fatorial de um número é calculado pela multiplicação desse número por todos os seus antecessores até chegar ao número 1 A Lei Geral de Proteção de Dados 137092018 tem como principal objetivo proteger os direitos fundamentais de liberdade e de privacidade Ela define o que são dados pessoais e explica que alguns deles estão sujeitos a cuidados ainda mais específicos como os dados pessoais sensíveis e sobre crianças e adolescentes Assim estabelece regras para empresas e organizações públicas ou privadas sobre coleta uso armazenamento e compartilhamento de dados pessoais impondo multas e sanções no caso de descumprimento As falhas de segurança podem gerar multas de até 2 do faturamento anual da organização no Brasil LGPD 0944 5 Nesse caso calculase o fatorial de 5 5 x 4 x 3 x 2 x 1 dividido pelo fatorial de 2 2 x 1 multiplicado pelo fatorial de 3 3 x 2 x 1 O resultado é 10 o que significa que são possíveis 10 combinações de amostra diferentes Depois disso o professor lista essas possibilidades e ainda calcula a probabilidade de uma amostra ser uma das selecionadas dividindo n por N 040 ou 40 Em seguida o professor decide aplicar a variável idade Entre os cinco elementos dessa população o dado varia entre 20 e 60 anos Primeiro ele calcula os parâmetros populacionais números que caracterizam uma população a média µ entre os cinco elementos é 40 anos e o desvio padrão σ é de 14142 anos Depois Helio busca verificar se as amostras conseguem manter essas características da população e calcula a média de idade de todas elas A conclusão é que os estimadores são variáveis pois dependem das amostras selecionadas Calculando a média das 10 estimativas ela sempre coincide com o parâmetro É devido a essa característica que o estimador é chamado de não viciado aquele que em média coincide com o valor do parâmetro A média amostral é um estimador não viciado da média populacional No gráfico percebese que há equilíbrio das estimativas em torno do 40 o que significa que o estimador não é viciado Aumentando o número de amostras para três a variabilidade nas estimativas diminui Case Pouso Novo I O professor apresenta uma pequena cidade do Rio Grande do Sul chamada Pouso Novo que registrou 1875 habitantes no Censo de 2010 N1875 Na eleição de 2016 1533 eram eleitores A base de dados em que o exercício se ampara é fictícia uma vez que a oficial é protegida pela LGPD Nela o professor tentou representar o resultado das eleições na cidade e inventou os votos candidato 1 2 ou 3 e a idade dos votantes Antes de proceder com o exercício Helio explica que toda linguagem de programação e todas as planilhas como o Excel têm uma função que gera números equiprováveis no intervalo de zero a um Geralmente nas linguagens de programação é a função random assim como na calculadora No Excel em português são as funções aleatório que vai gerar números contínuos entre zero e um e aleatórioentre que gera números inteiros entre um e N No Excel o professor ensina a usar a função aleatório Ele se baseia em uma distribuição uniforme entre zero e um Ao escrever ALEATÓRION a ferramenta gera um número aleatório entre zero e um Na computação esse número também é chamado de pseudo aleatório Na função ALEATÓRIOENTRE ao digitarse ALEATÓRIOENTRE11533 sendo 1533 o tamanho da população temse números equiprováveis com a mesma probabilidade de seleção A planilha está disponível na plataforma e é possível testála Seleção aleatória no Excel 2458 6 Novamente o professor decide trabalhar com a variável idade Primeiro ele calcula os parâmetros média de idade µ e desvio padrão populacional σ da base de dados fictícia Na planilha amostras da idade n15 cria mil amostras de tamanho 15 e arrasta por toda a matriz até o 1000 serão mil levantamentos com 15 elementos cada Na seção idade utiliza uma função chamada procura vertical PROCV com a intenção de descobrir a idade de determinado eleitor No vídeo da aula é possível acompanhar o preenchimento de todas as mil amostras Na última parte professor constrói um histograma ferramenta que possibilita visualizar o comportamento probabilístico de uma variável e para a variável idade encontra o formato de um sino Quando uma variável aleatória X segue uma distribuição normal ela é chamada de gaussiana ou normal Essa experimentação demonstra o teorema do limite central segundo o qual as estimativas da média amostral coincidem com a média populacional e quanto maior o n menor o desvio padrão Além disso essas estimativas vão descrever o comportamento de um sino como verificado pelo histograma Em linguagem matemática O nome da distribuição faz referência ao matemático astrônomo e físico alemão que contribuiu em diversas áreas da ciência dentre elas a teoria dos números estatística análise matemática geometria diferencial geodésia geofísica eletroestática astronomia e óptica Johann Carl Friedrich Gauss 17771855 Central limit theorem O professor indica uma animação curta para melhor visualização da distribuição em sino que caracteriza o teorema do limite central Clique aqui para assistir 7 AULA 6 PARTE 2 Os modelos contínuos como a distribuição normal são lidos a partir da área sob a curva de um histograma Para iniciar a linha de raciocínio o professor lembra do jogo de dardos ou de arco e flecha a maior pontuação é alcançada quando o jogador atinge o centro do alvo onde a área é menor quanto mais para fora do alvo maior a área onde é menor mais improvável de acertar Em seguida Helio mostra uma montagem com bandeiras de países europeus em que a área da bandeira é proporcional à população do território correspondente Ou seja ao selecionar aleatoriamente dez moradores da Europa é improvável que oito deles sejam da Albânia ou de Mônaco por exemplo pois são países de baixa população As proporções tendem a ser reproduzidas na amostra Quanto maior a amostra mais provável que essas proporções sejam reproduzidas se utilizada a amostragem aleatória simples O professor relembra que o histograma é a ferramenta empírica do comportamento probabilístico de uma variável No caso do retângulo ocorre uma distribuição uniforme que descreve um modelo de igual probabilidade dentro de determinado intervalo É utilizada para a geração de números randômicos nas linguagens de programação A distribuição normal como visto anteriormente tem o formato de sino e será detalhada ao longo do encontro A região do meio é a mais provável pois concentra mais elementos O terceiro modelo ilustrado é o de distribuição exponencial utilizado na engenharia nele à medida que aumenta o valor de x diminui a probabilidade de ocorrência Probabilidade como área Modelo normal Serve para descrever o comportamento de uma variável contínua Teoricamente pode assumir qualquer valor em dado intervalo Altura tamanho peso de objeto temperatura e tempo são exemplos de variáveis contínuas A distribuição normal tem dois parâmetros a média µ ou parâmetro de locação que vai denotar o centro da curva a curva é simétrica em torno da média e o parâmetro de forma o desvio padrão σ Nessa representação como ilustrado abaixo o desvio padrão se localiza na inflexão no ponto em que o gráfico molda o formato do S 0725 Revisão Assinale a definição correta a respeito do conceito abaixo 0232 HISTOGRAMA Representação em forma de alvo como de um jogo de dardos das médias amostrais de uma população Gráfico em forma de sino que represen ta a amostra de uma população Ferramenta que possibilita visualizar o comportamento probabilístico de uma variável 8 Com o exercício o professor pretende exemplificar a distribuição de altura de homens adultos brasileiros tendo como média µ 175 cm e desvio padrão σ 6 cm A simetria é visível no gráfico A probabilidade de encontrar um homem adulto com menos de 175 cm é de 50 a mesma de encontrar um indivíduo com mais de 175 cm Outra característica da distribuição normal é que partindo da média se forem calculados números de desvios padrões tanto para a direita como para a esquerda de modo simétrico encontramse percentuais fixos um desvio padrão 682 dois 954 e três 997 O professor indica memorizar esses percentuais e reitera é a área que se tem sob a curva que demonstra a probabilidade Exemplo I O desvio padrão portanto é o que dá a forma a esse gráfico quanto maior o desvio mais espalhada fica a distribuição normal Quanto aos valores de X a distribuição normal está definida para valores de a então podese encontrar qualquer valor real possível Característica além de ser simétrica em torno da média a área total sob a curva é 1 A fórmula que descreve esse modelo é X Normal µ σ Leiase X tem distribuição normal com parâmetros µ e σ 1011 9 As funções que Helio apresentou em gráfico são de densidade que são aquelas que se pode ver em forma de histograma e são as áreas sob essas funções que indicam a probabilidade Existe ainda a função acumulada na qual é possível ler diretamente as probabilidades Por exemplo até o ponto 175 cm verificase 50 da área concentrada Na função de distribuição acumulada calcula se a área acumulada até determinado ponto No 190 cm a probabilidade é quase 1 Devido a essa facilidade de leitura a função acumulada é a mais utilizada para se fazer cálculos As linguagens de programação também têm pré programadas as acumuladas dos modelos mais comuns como o normal No Excel o professor mostra como realizar os cálculos de distribuição normal A planilha normal está disponível na plataforma e traz a organização das colunas pré programada Para inserir uma função ou conta em uma célula do programa utilizase o sinal seguido da função desejada nesse caso DISTNORMN e os parâmetros µ175 e σ6 Para cada um dos pontos o Excel gera o valor de densidade Ao lado é possível visualizar a distribuição no histograma Para realizar a distribuição acumulada na qual se comprova a probabilidade acumulada até o ponto utilizase a mesma função porém agora com final 1 para calcular a cumulativa O gráfico se encontra à direita do sino da distribuição normal Na função densidade o eixo y não indica probabilidade São as integrais as áreas da densidade que indicam a probabilidade Em uma planilha genérica o professor sugere considerar quatro desvios padrões e testa diferentes valores para média e passo a fim de visualizar a organização do histograma Distribuição normalpadrão ou reduzida Z Como é uma distribuição contínua os valores de X podem ir de a a média da distribuição normal também pode ir de a e o desvio padrão pode ser qualquer valor positivo maior que zero Há então infinitas normais Cada exemplo necessitaria de um cálculo de integrais complexo Existe porém uma forma de reduzir todos os problemas de distribuição normal a um único a distribuição normalpadrão ou reduzida representada pela variável Z Para se chegar a ela fazse uma transformação sobre a variável original Assim o resultado vai indicar em quantos desvios padrões a mais ou a menos da média está X A distribuição normal padronizada leva esse nome porque se trata de uma distribuição normal sempre com os mesmos parâmetros µ0 e σ1 o que garante a ela a padronização Por isso essa distribuição é tabelada e pode ser consultada buscando a linha do número inteiro com uma casa decimal no caso ilustrado até 34 e na coluna correspondente a casa centesimal O número encontrado é a área concentrada até o 142 Na planilha do Excel Helio mostra as funções densidade e acumulada da normalpadrão DISTNORMPN 2847 10 O desvio padrão é comum em seleções de vestibular como o da UFRGS Sabendo o número médio de acertos e o desvio é possível calcular pela distribuição normal a probabilidade de acertos de 20 questões por exemplo Para isso primeiro se calcula Z para entender a quantos desvios padrões corresponde o número 20 Depois buscase esse valor no caso 173 na tabela Z chegandose a 418 Isso significa que a probabilidade de alguém ficar acima de 173 desvio da média ou 20 acertos é de 418 Exemplo II Padronização Z Como material complementar Helio deixa um vídeo explicativo sobre a distribuição normalpadrão ou reduzida Z da qual tratou nessa parte da aula O conteúdo está em inglês Clique aqui para assistir Distribuição normalpadrão Acerca do conceito abaixo é possível afirmar 3645 Seu resultado indica a quantos desvios padrões a mais ou a menos da média está X Essa distribuição torna mais difícil a de terminação de probabilidades Não há previsibilidade na variável Z DISTRIBUIÇÃO NORMALPADRÃO Z 11 AULA 6 PARTE 3 Essa parte da aula será dedicada à realização de inferências sobre os parâmetros populacionais a partir de amostragem e de probabilidade Para isso o professor se propõe a focar na média amostral x Inferências Estimação por ponto Mais uma vez Helio faz a analogia ao jogo de dardos ou de arco e flecha Ele explica que a estimação por ponto consiste em dar um único tiro para tentar acertar o valor do parâmetro Nesse contexto a arma que se utiliza é o estimador x e o alvo é o parâmetro µ Cada estimativa é uma flechada Não consigo associar probabilidade de acerto a um único ponto Quando a gente estima por ponto a probabilidade de acertar no alvo é quase zero porque se trata de variáveis contínuas Como a chance de se acertar o alvo é quase zero estimando por ponto a alternativa é cercar as estimativas Estimar por intervalo consiste em cercar a estimativa pontual por uma região a qual se pode associar probabilidade de acerto Essas probabilidades são conhecidas e podem ser definidas pelo pesquisador geralmente entre 90 e 99 Estimação por intervalo Valores típicos de z 95 z 196 90 z 164 99 z 257 Nessa região é possível calcular a probabilidade de acerto Já foi apresentado que o estimador se distribui em uma curva normal que é tabelada e possibilita cálculos probabilísticos por se ter controle sobre os parâmetros É possível ainda deslocarse para a esquerda ou para a direita a partir do valor da estimativa pontual até se atingir determinado nível de confiança uma área definida pelo pesquisador Como tratado no vídeo anterior há valores fixos de probabilidade de acordo com o número de desvios para a direita ou para a esquerda 0026 0112 0342 12 Para construir o intervalo de confiança para a média cerca se a estimativa pontual A equação é n z X σ α 2 Onde x é a média amostral zα é o valor fixo tabelado e o desvio padrão é resultado do teorema do limite central O desvio padrão do estimador x é o desvio padrão populacional σ sobre n Case Pouso Novo II Voltando ao exemplo do vídeo passado no município de Pouso Novo a média de idade dos eleitores é de 4714 anos e o desvio padrão é de 1655 anos Porém o professor vai checar esses dados por meio da estimação por intervalo Com 95 de probabilidade o intervalo de confiança vai entre 3909 e 5585 anos Helio explica que a expressão anterior apresenta um problema em situações reais o desvio padrão é desconhecido porque a média também é desconhecida Para solucionar a questão o estatístico e cervejeiro William Sealy Gosset desenvolveu uma distribuição chamada t de Student a partir de dados da cervejaria Guinness onde trabalhava Distribuição t de Student n s t X n 2 1 α Nessa equação otimizada por Gosset é preciso ter apenas uma amostra para realizar uma estimativa sobre a média da população e ainda associar uma probabilidade de acerto o que é considerado um marco para a inferência estatística Essa descoberta faz diferença principalmente em amostras pequenas onde o t tabelado vai variar bastante e o desvio padrão será substituído pelo desvio padrão amostral No caso de uma população finita e com poucos elementos é acrescentado um fator de correção Foi um químico e estatístico inglês mais conhecido pelo pseudônimo Student Gosset trabalhava na cervejaria Guinness onde media fatores do processo de produção e ponderava como eles se relacionavam aos resultados do produto A partir desses dados o matemático desenvolveu o teste t distribuição passível de ser tabulada como um modo barato de monitorar a qualidade da cerveja Na época não existia uma teoria para a tomada de decisões com base em pequenas amostras Por isso o grande diferencial desse teste é justamente permitir que se façam inferências usando um menor número de elementos William Sealy Gosset 18761937 0902 0708 13 Biometrika Um dos periódicos mais antigos e renomados de estatística aplicada à saúde e à biologia a Biometrika segue em atividade O artigo de 1908 publicado por Gosset que apresenta o teste t está disponível nos arquivos online Clique para acessar a publicação How Beer changed the World O vídeo faz um apanhado da história de Gosset e do teste t de Student além de explicar mais detalhadamente os problemas da distribuição z explorada na aula anterior O conteúdo está em inglês Clique aqui para assistir Exemplo I intervalo de confiança No arquivo PousoNovo é possível fazer o desvio padrão amostral s para cada uma das amostras e o intervalo limite inferior de confiança limite superior de confiança Para este último utilizase a função INVTBC O desenvolvimento do exercício pode ser acompanhado no vídeo da aula O professor refaz o exemplo de Pouso Novo com as 15 amostras dessa vez a partir da média x e do desvio padrão amostral s e substituindo z por t Assim como z o valor de t provém de uma tabela Para consultála buscamos pela linha de n1 Já a coluna correspondente será α2 ou 1 nível de confiança No caso da probabilidade ser de 95 o nível de confiança é 0025 e p é 2145 Assim o intervalo vai de 3831 a 5663 anos Case Pouso Novo III Com 95 de confiança é o intervalo que vai conter o parâmetro Parâmetro é algo fixo No segundo exemplo tendo o n a média e o desvio o professor busca o limite inferior e superior de confiança para o tíquete médio de um supermercado O valor alcançado como margem de erro é de R 3693 e o tíquete médio vai de R 21981 a R 29367 Além de resolver o problema partindo da equação t de Student Helio ensina a habilitar um suplemento do Excel chamado análise de dados que calcula o intervalo de confiança O passo a passo é realizado pelo professor no vídeo Exemplo II intervalo de confiança 1407 1747 2046 14 AULA 6 PARTE 4 Esta parte da aula 6 trata de variáveis não qualitativas No vídeo anterior o professor explorou os intervalos de confiança para média e agora vai explanar sobre os intervalos de confiança para proporções utilizados para as pesquisas de intenção de voto nas eleições marcas preferidas e outros itens que aparecem com frequência no cotidiano O parâmetro a ser descoberto é a proporção populacional p e o estimador a ser utilizado é a população amostral p Intervalo de confiança para proporções Estimação por intervalo Relembrando uma estimação por intervalo significa cercar a proporção p por uma região que tenha uma probabilidade conhecida de conter o parâmetro A região de confiança é aquela com 1α de probabilidade de conter o parâmetro Novamente os valores de confiança vão de 90 a 99 A proporção é um número entre 0 e 1 e em seu cálculo os elementos do numerador também fazem parte do denominador Proporção Não há como calcular uma média quando estamos trabalhando com variáveis qualitativas então vamos ter de trabalhar com proporções Geralmente é necessário um tamanho amostral maior para estimar uma proporção satisfatoriamente Isso porque em amostras menores um elemento equivale a uma proporção muito grande na amostra o que é pouco confiável Até então no caso de Pouso Novo considerouse a idade dos eleitores O foco agora é tratar a proporção de votos de cada candidato Para isso o professor volta à planilha do Excel e primeiro faz uma contagem dos votos dos concorrentes Para transformar em proporção ou parâmetro p divide esses números pelo total de eleitores 1533 Para o candidato C1 por exemplo chegase ao parâmetro p 4331 O professor supõe então que não se conheça o resultado das eleições e que uma pesquisa eleitoral seja realizada Para isso vai estimar mil amostras de tamanho 15 Em primeiro lugar será necessário gerar números aleatórios de moradores depois planificar em quais candidatos cada um deles votou e só então calcular a proporção Nesse caso como a amostra é pequena em relação ao tamanho da população não se chega exatamente ao parâmetro p calculado anteriormente os 60 atingidos aqui diferem muito dos 4331 calculados na primeira parte do exercício com toda a população Além disso essa distribuição não é considerada normal contínua mas discreta binomial Case Pouso Novo IV 0019 0115 0425 15 Trabalhar com distribuição discreta para fazer intervalo de confiança é algo que daria bastante trabalho para o pesquisador é mais difícil porque ou falta ou passa do nível de confiança préfixado Em uma distribuição contínua conseguimos estabelecer mais facilmente um nível de confiança qualquer O ideal é que se tenha pelo menos 30 casos para estimar uma proporção Quando se utiliza essa aproximação binomial pela normal a equação a ser empregada é n p p z p ˆ 1 ˆ ˆ 2 α Exemplo I estimação por intervalo Neste exercício o professor quer chegar a um intervalo de confiança para o número de canhotos em uma amostra de 120 pessoas em que 12 pessoas aleatórias eram canhotas Para isso em um primeiro momento é necessário calcular o p 10 e substituílo na fórmula anterior Com 95 de confiança o resultado encontrado foi de 46 a 154 Exemplo III estimação por intervalo Trazendo para o contexto brasileiro o professor quer calcular o intervalo de confiança de uma pesquisa eleitoral Datafolha para o governo de Minas Gerais em 2022 A amostra é de 2650 eleitores e a margem de erro 2 O primeiro passo é desconsiderar os votos brancos e nulos e chegar ao percentual de intenções do primeiro e segundo candidatos Depois aplicase a fórmula da proporção e chegase ao intervalo de ambos Nesse caso o limite máximo foi de 535 e o resultado das eleições registrado pelo TSE foi de 562 dos votos O professor explica que como 8 dos entrevistados ainda não sabiam em quem votar a pesquisa foi fiel ao cenário final No segundo exemplo Helio lembra de uma consulta realizada em 2016 pela BBC sobre o Brexit saída do Reino Unido da União Europeia Na época foram ouvidos 1725 britânicos sendo que 54 eram contra a separação e 46 a favor A intenção agora é checar se houve ou não um empate técnico calculando o intervalo de confiança para as duas opções de voto com confiança de 95 O resultado aplicando a equação anterior é que não houve empate e a opção permanecer foi a vencedora da pesquisa Exemplo II estimação por intervalo 1326 1452 1715 16 No exemplo IV abordase uma pesquisa eleitoral do Ipec para o governo de São Paulo também no âmbito das eleições de 2022 Nesse caso porém a diferença entre os dados levantados e o resultado do pleito é substancial pois o candidato que aparecia em segundo lugar nas intenções de voto foi o eleito Para chegar a essa conclusão o professor procede da mesma forma que o exercício anterior Exemplo IV estimação por intervalo Case Pouso Novo V De volta ao case de Pouso Novo o professor histograma as estimativas que calculou para cada um dos candidatos e demonstra os espaçamentos causados pelo tamanho reduzido da amostra Distribuição t de Student A distribuição t de Student é uma distribuição de probabilidades semelhante à distribuição normal Seu histograma também tem forma de sino e é simétrico em relação a média A diferença é que é utilizada quando as amostras são pequenas e o desvio padrão da população é desconhecido Estimação por intervalo Acerca do conceito abaixo é possível afirmar 2018 2224 Verdadeiro Falso ESTIMAÇÃO POR INTERVALO Para que seja calculada o desvio padrão tem de ser conhecido Consiste em cercar a proporção p por uma região que tenha uma probabilida de conhecida de conter o parâmetro Estimação com a qual não é possível se associar probabilidade 17 AULA 6 PARTE 5 O professor faz uma breve retomada dos vídeos anteriores em que foram trabalhadas as estimações por intervalo para média e proporção Nelas foi possível associar uma probabilidade de acerto a um intervalo tendo como dado apenas uma amostra Assim podese inferir uma população inteira sem a necessidade de investigála por completo Helio relembra que o tamanho da amostra depende da variável de interesse uma variável qualitativa em que se investigam proporções ou quantitativa em que serão calculados a média e o desvio padrão No caso de proporção as amostras tendem a ser maiores no case de Pouso Novo explorado anteriormente a amostra com 15 elementos não se mostrou satisfatória Já nas variáveis quantitativas mais características precisam ser levadas em conta No caso de um cálculo da altura de uma população por exemplo em que a variável será relativamente estável o desvio padrão não será tão grande Já em situações de heterogeneidade a variabilidade será alta e por consequência vai exigir uma amostra maior Em resumo o tamanho amostral será maior em situações de Alta variabilidade Estimação de proporções A proporção da população que deve ser investigada é chamada de fração de amostragem nN Quando se trabalha com uma população pequena o recomendado é optar pelo censo investigar a população inteira Tamanho amostral Há pelo menos três ferramentas para auxiliar no cálculo do tamanho amostral além de se levar em conta as conhecidas particularidades das variáveis Dentre elas podese contar com Amostra piloto Estudos anteriores Palpite último caso Subsídios Exemplo 1 O professor retoma o exemplo do tíquete médio de um supermercado calculado na parte 3 da aula 6 Na ocasião a margem de erro foi de R 3693 e agora a intenção de Helio é minimizála para R 20 Para isso vai se ater principalmente a uma parte da equação do índice de confiança destacada em amarelo Isolandose o n chegase a uma expressão genérica para o cálculo de tamanho amostral 0053 0925 18 No exercício do supermercado o desvio padrão é de R 20515 e o erro de R 20 O valor encontrado portanto é 405 Isso quer dizer que para que a margem de erro caia de R 3693 para R20 a amostra deve ser de 405 tíquetes Em linhas gerais para reduzir uma margem de erro pela metade a amostra é multiplicada por quatro Se quero reduzir a margem de erro para a terça parte a amostra é multiplicada por nove A relação é quadrática No segundo exemplo o professor vai tentar chegar ao tamanho de uma amostra para três variáveis distintas altura peso e renda domiciliar Como indicado no início da videoaula a amostra para a altura não necessita ser tão grande como a da renda por exemplo já que sua variação é pequena Exemplo II No caso de uma proporção partese da fórmula do intervalo de confiança isolandose a parte da direita que é a margem de erro Exemplo III Nesse caso a equação genérica para o cálculo amostral é É preciso apenas ter uma estimativa do p para chegar ao tamanho da amostra Retomando o exemplo da amostra de canhotos em uma população n120 a margem de erro havia sido 54 mas o professor quer reduzila para 25 Para isso conforme o cálculo desenvolvido na aula a amostra precisa ser de 554 pessoas Exemplo IV Helio parte de um histograma para ilustrar os tamanhos amostrais das pesquisas eleitorais de agosto de 2019 a outubro de 2022 para presidente O número de entrevistados foi caindo significativamente ao longo do tempo o que aumenta a margem de erro mas diminui o custo de aplicação da pesquisa 1241 1511 1723 19 Até aqui foram analisados casos em que a população era infinita Para casos finitos a fórmula passa por alguns ajustes devese utilizar o fator de correção População finita Exemplo V Nesse exercício o professor vai aplicar o fator de correção para estimar a proporção de votos de um candidato no Brasil e em Pouso Novo com margem de erro de 2 No Brasil o tamanho da amostra seria de 2401 entrevistados No município do interior do RS uma amostra desse tamanho seria maior do que a população Por isso é necessário levar o resultado para a equação de correção chegandose a uma amostra de 936 pessoas A fração de amostragem depende do tamanho da população Quanto menor a população proporcionalmente é maior a fatia da população que deve ser investigada Tamanho amostral Tomando os exemplos que o professor apresentou em aula selecione o tamanho amostral ideal de acordo com a variável a ser descoberta 2257 2210 Renda domiciliar Alta variabilidade Amostra grande Baixa variabilidade Amostra pequena Tendência a amostras maiores Proporção Altura de uma população
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
13
Mapa da Aula: Pensamento Lógico e Quantitativo - Aula 01
Análise Matemática
PUC
12
Mapa da Aula 8: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
44
Resumo da Teoria de Conjuntos e Cálculo Proposicional
Análise Matemática
PUC
16
Mapa da Aula 2: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
22
Mapa da Aula: Pensamento Lógico e Quantitativo - Aula 04
Análise Matemática
PUC
11
Mapa da Aula 07: Inferência Estatística e Testes de Hipóteses
Análise Matemática
PUC
14
Mapa da Aula 9: Pensamento Lógico e Quantitativo
Análise Matemática
PUC
23
Mapa da Aula 5: Pensamento Lógico e Quantitativo - Estatística Descritiva e Inferencial
Análise Matemática
PUC
9
Aula 10: Mapa da Aula sobre Pensamento Lógico e Quantitativo
Análise Matemática
PUC
11
Mapa da Aula - Pensamento Lógico e Quantitativo: Negações de Proposições Compostas
Análise Matemática
PUC
Texto de pré-visualização
PENSAMENTO LÓGICO E QUANTITATIVO Helio Radke Bittencourt Aula 06 2 MAPA DA AULA Neste material você tem uma linha do tempo com os principais acontecimentos das videoaulas organizados nas seguintes seções Momentos importantes da disciplina Conceitos e termos relevantes para o conteúdo da aula Para lembrar Dinâmicas exercícios interativos e infográficos Para exercitar Para ir além Curiosidades personalidades e entretenimento Esta é uma versão simplificada do Mapa da Aula para impressão Os recursos interativos disponíveis no material não funcionarão nesta versão Para uma experiência mais enriquecedora acesse a versão completa do Mapa da Aula na aba AULAS 3 AULA 6 PARTE 1 O professor inicia a aula relembrando que uma população é um conjunto de um número finito ou infinito de elementos e quando se utiliza a amostragem compõese uma amostra a partir dessa população Portanto a amostra é um subconjunto da população Em uma população temse parâmetros populacionais Para eles designamse letras diferentes das utilizadas na amostra A média populacional é representada pela letra grega µ o desvio padrão populacional pelo σ e a proporção pelo p ou π Já na amostra temse os estimadores que vão gerar estimativas sobre os parâmetros Aqui o professor frisa que a palavra estimativa carrega certa dúvida indicando que o resultado não é preciso ou perfeito Os estimadores são representados como x média amostral S desvio padrão amostral e p proporção amostral estimativa da verdadeira proporção populacional A amostragem é o primeiro pilar da inferência estatística Amostragem Técnicas As técnicas de amostragem se dividem em probabilísticas e não probabilísticas Nas probabilísticas a responsabilidade sobre a seleção é de um dispositivo aleatório como uma urna por exemplo um sorteio As amostras probabilísticas são preferíveis às não probabilísticas porque a estas não é possível associar probabilidade de seleção aos elementos Helio explica que essa característica possibilita a inserção de um viés que contamine os resultados de maneira indesejável Algumas das estratégias adotadas para seleções amostrais não probabilísticas são Quotas utilizadas em pesquisas sociais e eleitorais Geralmente são estabelecidas de acordo com o sexo a idade e a classe social ou a escolaridade pois são variáveis que interferem substancialmente nos resultados Conveniência bastante aplicada por selecionar uma amostra da população que estar acessível Apesar do acesso à amostra ser mais simples e de baixo custo sua credibilidade pode ser questionada Bola de neve técnica em que um entrevistado vai indicando outro até que se componha a amostra Tráfego para essa amostragem o entrevistador se posiciona em um ponto de tráfego e escolhe os entrevistados de acordo com critérios prédefinidos Não probabilísticas Técnicas de amostragem No meio acadêmico temse preferência pelas técnicas de amostragem probabilísticas pela maior credibilidade e rigor estatístico 0243 0427 Verdadeiro Falso 4 No meio acadêmico adotamse os métodos probabilísticos dada sua maior credibilidade e capacidade de fazer afirmações com rigor estatístico Como exemplo o professor cita Amostragem estratificada para esse procedimento criamse estratos ou grupos a priori e se procede uma amostra simples dentro de cada um desses grupos Amostragem sistemática selecionase o primeiro elemento aleatoriamente e em seguida vai se selecionando os demais de acordo com o passo determinado pela razão Nn Amostragem por conglomerados nessa técnica a população é dividida em grupos ordenados hierarquicamente cidades bairros setores censitários quadras domicílios pessoas que são selecionados em cada nível É comum obter uma menor precisão ao utilizar esta técnica causada pela falta de heterogeneidade dentro dos conglomerados A técnica escolhida pelo professor para ser mais cuidadosamente explorada é a amostragem aleatória simples também chamada AAS que apesar de simples como o nome sugere é considerada uma das melhores por ser totalmente imparcial e representativa Probabilísticas Helio alerta que muitas vezes não é executável adotar a AAS porque ela requer o cadastro de toda a população alvo Grande parte desses cadastros é protegido pela Lei Geral de Proteção de Dados LGPD O cadastro de toda a população alvo é necessário para que seja numerada de 1 a N sendo N o número total de elementos O segundo passo é sortear n números da população entre 1 e N sendo que uma pessoa que já foi selecionada para a amostra não pode ser escolhida novamente Já a terceira etapa consiste em compor a amostra com os elementos sorteados Amostragem aleatória simples O professor procura demonstrar a aplicabilidade da amostragem aleatória simples em uma população de cinco elementos A B C D E Nela Helio decide compor amostras de tamanho 2 Em primeiro lugar ele verifica quantas amostras podese extrair dessa população Matematicamente a equação para se chegar ao número de possibilidades é Simulação Lembrese N é o tamanho da população e n o tamanho da amostra Na equação efetuase o fatorial de N dividido pelo fatorial de n multiplicado pelo fatorial da diferença entre eles O fatorial de um número é calculado pela multiplicação desse número por todos os seus antecessores até chegar ao número 1 A Lei Geral de Proteção de Dados 137092018 tem como principal objetivo proteger os direitos fundamentais de liberdade e de privacidade Ela define o que são dados pessoais e explica que alguns deles estão sujeitos a cuidados ainda mais específicos como os dados pessoais sensíveis e sobre crianças e adolescentes Assim estabelece regras para empresas e organizações públicas ou privadas sobre coleta uso armazenamento e compartilhamento de dados pessoais impondo multas e sanções no caso de descumprimento As falhas de segurança podem gerar multas de até 2 do faturamento anual da organização no Brasil LGPD 0944 5 Nesse caso calculase o fatorial de 5 5 x 4 x 3 x 2 x 1 dividido pelo fatorial de 2 2 x 1 multiplicado pelo fatorial de 3 3 x 2 x 1 O resultado é 10 o que significa que são possíveis 10 combinações de amostra diferentes Depois disso o professor lista essas possibilidades e ainda calcula a probabilidade de uma amostra ser uma das selecionadas dividindo n por N 040 ou 40 Em seguida o professor decide aplicar a variável idade Entre os cinco elementos dessa população o dado varia entre 20 e 60 anos Primeiro ele calcula os parâmetros populacionais números que caracterizam uma população a média µ entre os cinco elementos é 40 anos e o desvio padrão σ é de 14142 anos Depois Helio busca verificar se as amostras conseguem manter essas características da população e calcula a média de idade de todas elas A conclusão é que os estimadores são variáveis pois dependem das amostras selecionadas Calculando a média das 10 estimativas ela sempre coincide com o parâmetro É devido a essa característica que o estimador é chamado de não viciado aquele que em média coincide com o valor do parâmetro A média amostral é um estimador não viciado da média populacional No gráfico percebese que há equilíbrio das estimativas em torno do 40 o que significa que o estimador não é viciado Aumentando o número de amostras para três a variabilidade nas estimativas diminui Case Pouso Novo I O professor apresenta uma pequena cidade do Rio Grande do Sul chamada Pouso Novo que registrou 1875 habitantes no Censo de 2010 N1875 Na eleição de 2016 1533 eram eleitores A base de dados em que o exercício se ampara é fictícia uma vez que a oficial é protegida pela LGPD Nela o professor tentou representar o resultado das eleições na cidade e inventou os votos candidato 1 2 ou 3 e a idade dos votantes Antes de proceder com o exercício Helio explica que toda linguagem de programação e todas as planilhas como o Excel têm uma função que gera números equiprováveis no intervalo de zero a um Geralmente nas linguagens de programação é a função random assim como na calculadora No Excel em português são as funções aleatório que vai gerar números contínuos entre zero e um e aleatórioentre que gera números inteiros entre um e N No Excel o professor ensina a usar a função aleatório Ele se baseia em uma distribuição uniforme entre zero e um Ao escrever ALEATÓRION a ferramenta gera um número aleatório entre zero e um Na computação esse número também é chamado de pseudo aleatório Na função ALEATÓRIOENTRE ao digitarse ALEATÓRIOENTRE11533 sendo 1533 o tamanho da população temse números equiprováveis com a mesma probabilidade de seleção A planilha está disponível na plataforma e é possível testála Seleção aleatória no Excel 2458 6 Novamente o professor decide trabalhar com a variável idade Primeiro ele calcula os parâmetros média de idade µ e desvio padrão populacional σ da base de dados fictícia Na planilha amostras da idade n15 cria mil amostras de tamanho 15 e arrasta por toda a matriz até o 1000 serão mil levantamentos com 15 elementos cada Na seção idade utiliza uma função chamada procura vertical PROCV com a intenção de descobrir a idade de determinado eleitor No vídeo da aula é possível acompanhar o preenchimento de todas as mil amostras Na última parte professor constrói um histograma ferramenta que possibilita visualizar o comportamento probabilístico de uma variável e para a variável idade encontra o formato de um sino Quando uma variável aleatória X segue uma distribuição normal ela é chamada de gaussiana ou normal Essa experimentação demonstra o teorema do limite central segundo o qual as estimativas da média amostral coincidem com a média populacional e quanto maior o n menor o desvio padrão Além disso essas estimativas vão descrever o comportamento de um sino como verificado pelo histograma Em linguagem matemática O nome da distribuição faz referência ao matemático astrônomo e físico alemão que contribuiu em diversas áreas da ciência dentre elas a teoria dos números estatística análise matemática geometria diferencial geodésia geofísica eletroestática astronomia e óptica Johann Carl Friedrich Gauss 17771855 Central limit theorem O professor indica uma animação curta para melhor visualização da distribuição em sino que caracteriza o teorema do limite central Clique aqui para assistir 7 AULA 6 PARTE 2 Os modelos contínuos como a distribuição normal são lidos a partir da área sob a curva de um histograma Para iniciar a linha de raciocínio o professor lembra do jogo de dardos ou de arco e flecha a maior pontuação é alcançada quando o jogador atinge o centro do alvo onde a área é menor quanto mais para fora do alvo maior a área onde é menor mais improvável de acertar Em seguida Helio mostra uma montagem com bandeiras de países europeus em que a área da bandeira é proporcional à população do território correspondente Ou seja ao selecionar aleatoriamente dez moradores da Europa é improvável que oito deles sejam da Albânia ou de Mônaco por exemplo pois são países de baixa população As proporções tendem a ser reproduzidas na amostra Quanto maior a amostra mais provável que essas proporções sejam reproduzidas se utilizada a amostragem aleatória simples O professor relembra que o histograma é a ferramenta empírica do comportamento probabilístico de uma variável No caso do retângulo ocorre uma distribuição uniforme que descreve um modelo de igual probabilidade dentro de determinado intervalo É utilizada para a geração de números randômicos nas linguagens de programação A distribuição normal como visto anteriormente tem o formato de sino e será detalhada ao longo do encontro A região do meio é a mais provável pois concentra mais elementos O terceiro modelo ilustrado é o de distribuição exponencial utilizado na engenharia nele à medida que aumenta o valor de x diminui a probabilidade de ocorrência Probabilidade como área Modelo normal Serve para descrever o comportamento de uma variável contínua Teoricamente pode assumir qualquer valor em dado intervalo Altura tamanho peso de objeto temperatura e tempo são exemplos de variáveis contínuas A distribuição normal tem dois parâmetros a média µ ou parâmetro de locação que vai denotar o centro da curva a curva é simétrica em torno da média e o parâmetro de forma o desvio padrão σ Nessa representação como ilustrado abaixo o desvio padrão se localiza na inflexão no ponto em que o gráfico molda o formato do S 0725 Revisão Assinale a definição correta a respeito do conceito abaixo 0232 HISTOGRAMA Representação em forma de alvo como de um jogo de dardos das médias amostrais de uma população Gráfico em forma de sino que represen ta a amostra de uma população Ferramenta que possibilita visualizar o comportamento probabilístico de uma variável 8 Com o exercício o professor pretende exemplificar a distribuição de altura de homens adultos brasileiros tendo como média µ 175 cm e desvio padrão σ 6 cm A simetria é visível no gráfico A probabilidade de encontrar um homem adulto com menos de 175 cm é de 50 a mesma de encontrar um indivíduo com mais de 175 cm Outra característica da distribuição normal é que partindo da média se forem calculados números de desvios padrões tanto para a direita como para a esquerda de modo simétrico encontramse percentuais fixos um desvio padrão 682 dois 954 e três 997 O professor indica memorizar esses percentuais e reitera é a área que se tem sob a curva que demonstra a probabilidade Exemplo I O desvio padrão portanto é o que dá a forma a esse gráfico quanto maior o desvio mais espalhada fica a distribuição normal Quanto aos valores de X a distribuição normal está definida para valores de a então podese encontrar qualquer valor real possível Característica além de ser simétrica em torno da média a área total sob a curva é 1 A fórmula que descreve esse modelo é X Normal µ σ Leiase X tem distribuição normal com parâmetros µ e σ 1011 9 As funções que Helio apresentou em gráfico são de densidade que são aquelas que se pode ver em forma de histograma e são as áreas sob essas funções que indicam a probabilidade Existe ainda a função acumulada na qual é possível ler diretamente as probabilidades Por exemplo até o ponto 175 cm verificase 50 da área concentrada Na função de distribuição acumulada calcula se a área acumulada até determinado ponto No 190 cm a probabilidade é quase 1 Devido a essa facilidade de leitura a função acumulada é a mais utilizada para se fazer cálculos As linguagens de programação também têm pré programadas as acumuladas dos modelos mais comuns como o normal No Excel o professor mostra como realizar os cálculos de distribuição normal A planilha normal está disponível na plataforma e traz a organização das colunas pré programada Para inserir uma função ou conta em uma célula do programa utilizase o sinal seguido da função desejada nesse caso DISTNORMN e os parâmetros µ175 e σ6 Para cada um dos pontos o Excel gera o valor de densidade Ao lado é possível visualizar a distribuição no histograma Para realizar a distribuição acumulada na qual se comprova a probabilidade acumulada até o ponto utilizase a mesma função porém agora com final 1 para calcular a cumulativa O gráfico se encontra à direita do sino da distribuição normal Na função densidade o eixo y não indica probabilidade São as integrais as áreas da densidade que indicam a probabilidade Em uma planilha genérica o professor sugere considerar quatro desvios padrões e testa diferentes valores para média e passo a fim de visualizar a organização do histograma Distribuição normalpadrão ou reduzida Z Como é uma distribuição contínua os valores de X podem ir de a a média da distribuição normal também pode ir de a e o desvio padrão pode ser qualquer valor positivo maior que zero Há então infinitas normais Cada exemplo necessitaria de um cálculo de integrais complexo Existe porém uma forma de reduzir todos os problemas de distribuição normal a um único a distribuição normalpadrão ou reduzida representada pela variável Z Para se chegar a ela fazse uma transformação sobre a variável original Assim o resultado vai indicar em quantos desvios padrões a mais ou a menos da média está X A distribuição normal padronizada leva esse nome porque se trata de uma distribuição normal sempre com os mesmos parâmetros µ0 e σ1 o que garante a ela a padronização Por isso essa distribuição é tabelada e pode ser consultada buscando a linha do número inteiro com uma casa decimal no caso ilustrado até 34 e na coluna correspondente a casa centesimal O número encontrado é a área concentrada até o 142 Na planilha do Excel Helio mostra as funções densidade e acumulada da normalpadrão DISTNORMPN 2847 10 O desvio padrão é comum em seleções de vestibular como o da UFRGS Sabendo o número médio de acertos e o desvio é possível calcular pela distribuição normal a probabilidade de acertos de 20 questões por exemplo Para isso primeiro se calcula Z para entender a quantos desvios padrões corresponde o número 20 Depois buscase esse valor no caso 173 na tabela Z chegandose a 418 Isso significa que a probabilidade de alguém ficar acima de 173 desvio da média ou 20 acertos é de 418 Exemplo II Padronização Z Como material complementar Helio deixa um vídeo explicativo sobre a distribuição normalpadrão ou reduzida Z da qual tratou nessa parte da aula O conteúdo está em inglês Clique aqui para assistir Distribuição normalpadrão Acerca do conceito abaixo é possível afirmar 3645 Seu resultado indica a quantos desvios padrões a mais ou a menos da média está X Essa distribuição torna mais difícil a de terminação de probabilidades Não há previsibilidade na variável Z DISTRIBUIÇÃO NORMALPADRÃO Z 11 AULA 6 PARTE 3 Essa parte da aula será dedicada à realização de inferências sobre os parâmetros populacionais a partir de amostragem e de probabilidade Para isso o professor se propõe a focar na média amostral x Inferências Estimação por ponto Mais uma vez Helio faz a analogia ao jogo de dardos ou de arco e flecha Ele explica que a estimação por ponto consiste em dar um único tiro para tentar acertar o valor do parâmetro Nesse contexto a arma que se utiliza é o estimador x e o alvo é o parâmetro µ Cada estimativa é uma flechada Não consigo associar probabilidade de acerto a um único ponto Quando a gente estima por ponto a probabilidade de acertar no alvo é quase zero porque se trata de variáveis contínuas Como a chance de se acertar o alvo é quase zero estimando por ponto a alternativa é cercar as estimativas Estimar por intervalo consiste em cercar a estimativa pontual por uma região a qual se pode associar probabilidade de acerto Essas probabilidades são conhecidas e podem ser definidas pelo pesquisador geralmente entre 90 e 99 Estimação por intervalo Valores típicos de z 95 z 196 90 z 164 99 z 257 Nessa região é possível calcular a probabilidade de acerto Já foi apresentado que o estimador se distribui em uma curva normal que é tabelada e possibilita cálculos probabilísticos por se ter controle sobre os parâmetros É possível ainda deslocarse para a esquerda ou para a direita a partir do valor da estimativa pontual até se atingir determinado nível de confiança uma área definida pelo pesquisador Como tratado no vídeo anterior há valores fixos de probabilidade de acordo com o número de desvios para a direita ou para a esquerda 0026 0112 0342 12 Para construir o intervalo de confiança para a média cerca se a estimativa pontual A equação é n z X σ α 2 Onde x é a média amostral zα é o valor fixo tabelado e o desvio padrão é resultado do teorema do limite central O desvio padrão do estimador x é o desvio padrão populacional σ sobre n Case Pouso Novo II Voltando ao exemplo do vídeo passado no município de Pouso Novo a média de idade dos eleitores é de 4714 anos e o desvio padrão é de 1655 anos Porém o professor vai checar esses dados por meio da estimação por intervalo Com 95 de probabilidade o intervalo de confiança vai entre 3909 e 5585 anos Helio explica que a expressão anterior apresenta um problema em situações reais o desvio padrão é desconhecido porque a média também é desconhecida Para solucionar a questão o estatístico e cervejeiro William Sealy Gosset desenvolveu uma distribuição chamada t de Student a partir de dados da cervejaria Guinness onde trabalhava Distribuição t de Student n s t X n 2 1 α Nessa equação otimizada por Gosset é preciso ter apenas uma amostra para realizar uma estimativa sobre a média da população e ainda associar uma probabilidade de acerto o que é considerado um marco para a inferência estatística Essa descoberta faz diferença principalmente em amostras pequenas onde o t tabelado vai variar bastante e o desvio padrão será substituído pelo desvio padrão amostral No caso de uma população finita e com poucos elementos é acrescentado um fator de correção Foi um químico e estatístico inglês mais conhecido pelo pseudônimo Student Gosset trabalhava na cervejaria Guinness onde media fatores do processo de produção e ponderava como eles se relacionavam aos resultados do produto A partir desses dados o matemático desenvolveu o teste t distribuição passível de ser tabulada como um modo barato de monitorar a qualidade da cerveja Na época não existia uma teoria para a tomada de decisões com base em pequenas amostras Por isso o grande diferencial desse teste é justamente permitir que se façam inferências usando um menor número de elementos William Sealy Gosset 18761937 0902 0708 13 Biometrika Um dos periódicos mais antigos e renomados de estatística aplicada à saúde e à biologia a Biometrika segue em atividade O artigo de 1908 publicado por Gosset que apresenta o teste t está disponível nos arquivos online Clique para acessar a publicação How Beer changed the World O vídeo faz um apanhado da história de Gosset e do teste t de Student além de explicar mais detalhadamente os problemas da distribuição z explorada na aula anterior O conteúdo está em inglês Clique aqui para assistir Exemplo I intervalo de confiança No arquivo PousoNovo é possível fazer o desvio padrão amostral s para cada uma das amostras e o intervalo limite inferior de confiança limite superior de confiança Para este último utilizase a função INVTBC O desenvolvimento do exercício pode ser acompanhado no vídeo da aula O professor refaz o exemplo de Pouso Novo com as 15 amostras dessa vez a partir da média x e do desvio padrão amostral s e substituindo z por t Assim como z o valor de t provém de uma tabela Para consultála buscamos pela linha de n1 Já a coluna correspondente será α2 ou 1 nível de confiança No caso da probabilidade ser de 95 o nível de confiança é 0025 e p é 2145 Assim o intervalo vai de 3831 a 5663 anos Case Pouso Novo III Com 95 de confiança é o intervalo que vai conter o parâmetro Parâmetro é algo fixo No segundo exemplo tendo o n a média e o desvio o professor busca o limite inferior e superior de confiança para o tíquete médio de um supermercado O valor alcançado como margem de erro é de R 3693 e o tíquete médio vai de R 21981 a R 29367 Além de resolver o problema partindo da equação t de Student Helio ensina a habilitar um suplemento do Excel chamado análise de dados que calcula o intervalo de confiança O passo a passo é realizado pelo professor no vídeo Exemplo II intervalo de confiança 1407 1747 2046 14 AULA 6 PARTE 4 Esta parte da aula 6 trata de variáveis não qualitativas No vídeo anterior o professor explorou os intervalos de confiança para média e agora vai explanar sobre os intervalos de confiança para proporções utilizados para as pesquisas de intenção de voto nas eleições marcas preferidas e outros itens que aparecem com frequência no cotidiano O parâmetro a ser descoberto é a proporção populacional p e o estimador a ser utilizado é a população amostral p Intervalo de confiança para proporções Estimação por intervalo Relembrando uma estimação por intervalo significa cercar a proporção p por uma região que tenha uma probabilidade conhecida de conter o parâmetro A região de confiança é aquela com 1α de probabilidade de conter o parâmetro Novamente os valores de confiança vão de 90 a 99 A proporção é um número entre 0 e 1 e em seu cálculo os elementos do numerador também fazem parte do denominador Proporção Não há como calcular uma média quando estamos trabalhando com variáveis qualitativas então vamos ter de trabalhar com proporções Geralmente é necessário um tamanho amostral maior para estimar uma proporção satisfatoriamente Isso porque em amostras menores um elemento equivale a uma proporção muito grande na amostra o que é pouco confiável Até então no caso de Pouso Novo considerouse a idade dos eleitores O foco agora é tratar a proporção de votos de cada candidato Para isso o professor volta à planilha do Excel e primeiro faz uma contagem dos votos dos concorrentes Para transformar em proporção ou parâmetro p divide esses números pelo total de eleitores 1533 Para o candidato C1 por exemplo chegase ao parâmetro p 4331 O professor supõe então que não se conheça o resultado das eleições e que uma pesquisa eleitoral seja realizada Para isso vai estimar mil amostras de tamanho 15 Em primeiro lugar será necessário gerar números aleatórios de moradores depois planificar em quais candidatos cada um deles votou e só então calcular a proporção Nesse caso como a amostra é pequena em relação ao tamanho da população não se chega exatamente ao parâmetro p calculado anteriormente os 60 atingidos aqui diferem muito dos 4331 calculados na primeira parte do exercício com toda a população Além disso essa distribuição não é considerada normal contínua mas discreta binomial Case Pouso Novo IV 0019 0115 0425 15 Trabalhar com distribuição discreta para fazer intervalo de confiança é algo que daria bastante trabalho para o pesquisador é mais difícil porque ou falta ou passa do nível de confiança préfixado Em uma distribuição contínua conseguimos estabelecer mais facilmente um nível de confiança qualquer O ideal é que se tenha pelo menos 30 casos para estimar uma proporção Quando se utiliza essa aproximação binomial pela normal a equação a ser empregada é n p p z p ˆ 1 ˆ ˆ 2 α Exemplo I estimação por intervalo Neste exercício o professor quer chegar a um intervalo de confiança para o número de canhotos em uma amostra de 120 pessoas em que 12 pessoas aleatórias eram canhotas Para isso em um primeiro momento é necessário calcular o p 10 e substituílo na fórmula anterior Com 95 de confiança o resultado encontrado foi de 46 a 154 Exemplo III estimação por intervalo Trazendo para o contexto brasileiro o professor quer calcular o intervalo de confiança de uma pesquisa eleitoral Datafolha para o governo de Minas Gerais em 2022 A amostra é de 2650 eleitores e a margem de erro 2 O primeiro passo é desconsiderar os votos brancos e nulos e chegar ao percentual de intenções do primeiro e segundo candidatos Depois aplicase a fórmula da proporção e chegase ao intervalo de ambos Nesse caso o limite máximo foi de 535 e o resultado das eleições registrado pelo TSE foi de 562 dos votos O professor explica que como 8 dos entrevistados ainda não sabiam em quem votar a pesquisa foi fiel ao cenário final No segundo exemplo Helio lembra de uma consulta realizada em 2016 pela BBC sobre o Brexit saída do Reino Unido da União Europeia Na época foram ouvidos 1725 britânicos sendo que 54 eram contra a separação e 46 a favor A intenção agora é checar se houve ou não um empate técnico calculando o intervalo de confiança para as duas opções de voto com confiança de 95 O resultado aplicando a equação anterior é que não houve empate e a opção permanecer foi a vencedora da pesquisa Exemplo II estimação por intervalo 1326 1452 1715 16 No exemplo IV abordase uma pesquisa eleitoral do Ipec para o governo de São Paulo também no âmbito das eleições de 2022 Nesse caso porém a diferença entre os dados levantados e o resultado do pleito é substancial pois o candidato que aparecia em segundo lugar nas intenções de voto foi o eleito Para chegar a essa conclusão o professor procede da mesma forma que o exercício anterior Exemplo IV estimação por intervalo Case Pouso Novo V De volta ao case de Pouso Novo o professor histograma as estimativas que calculou para cada um dos candidatos e demonstra os espaçamentos causados pelo tamanho reduzido da amostra Distribuição t de Student A distribuição t de Student é uma distribuição de probabilidades semelhante à distribuição normal Seu histograma também tem forma de sino e é simétrico em relação a média A diferença é que é utilizada quando as amostras são pequenas e o desvio padrão da população é desconhecido Estimação por intervalo Acerca do conceito abaixo é possível afirmar 2018 2224 Verdadeiro Falso ESTIMAÇÃO POR INTERVALO Para que seja calculada o desvio padrão tem de ser conhecido Consiste em cercar a proporção p por uma região que tenha uma probabilida de conhecida de conter o parâmetro Estimação com a qual não é possível se associar probabilidade 17 AULA 6 PARTE 5 O professor faz uma breve retomada dos vídeos anteriores em que foram trabalhadas as estimações por intervalo para média e proporção Nelas foi possível associar uma probabilidade de acerto a um intervalo tendo como dado apenas uma amostra Assim podese inferir uma população inteira sem a necessidade de investigála por completo Helio relembra que o tamanho da amostra depende da variável de interesse uma variável qualitativa em que se investigam proporções ou quantitativa em que serão calculados a média e o desvio padrão No caso de proporção as amostras tendem a ser maiores no case de Pouso Novo explorado anteriormente a amostra com 15 elementos não se mostrou satisfatória Já nas variáveis quantitativas mais características precisam ser levadas em conta No caso de um cálculo da altura de uma população por exemplo em que a variável será relativamente estável o desvio padrão não será tão grande Já em situações de heterogeneidade a variabilidade será alta e por consequência vai exigir uma amostra maior Em resumo o tamanho amostral será maior em situações de Alta variabilidade Estimação de proporções A proporção da população que deve ser investigada é chamada de fração de amostragem nN Quando se trabalha com uma população pequena o recomendado é optar pelo censo investigar a população inteira Tamanho amostral Há pelo menos três ferramentas para auxiliar no cálculo do tamanho amostral além de se levar em conta as conhecidas particularidades das variáveis Dentre elas podese contar com Amostra piloto Estudos anteriores Palpite último caso Subsídios Exemplo 1 O professor retoma o exemplo do tíquete médio de um supermercado calculado na parte 3 da aula 6 Na ocasião a margem de erro foi de R 3693 e agora a intenção de Helio é minimizála para R 20 Para isso vai se ater principalmente a uma parte da equação do índice de confiança destacada em amarelo Isolandose o n chegase a uma expressão genérica para o cálculo de tamanho amostral 0053 0925 18 No exercício do supermercado o desvio padrão é de R 20515 e o erro de R 20 O valor encontrado portanto é 405 Isso quer dizer que para que a margem de erro caia de R 3693 para R20 a amostra deve ser de 405 tíquetes Em linhas gerais para reduzir uma margem de erro pela metade a amostra é multiplicada por quatro Se quero reduzir a margem de erro para a terça parte a amostra é multiplicada por nove A relação é quadrática No segundo exemplo o professor vai tentar chegar ao tamanho de uma amostra para três variáveis distintas altura peso e renda domiciliar Como indicado no início da videoaula a amostra para a altura não necessita ser tão grande como a da renda por exemplo já que sua variação é pequena Exemplo II No caso de uma proporção partese da fórmula do intervalo de confiança isolandose a parte da direita que é a margem de erro Exemplo III Nesse caso a equação genérica para o cálculo amostral é É preciso apenas ter uma estimativa do p para chegar ao tamanho da amostra Retomando o exemplo da amostra de canhotos em uma população n120 a margem de erro havia sido 54 mas o professor quer reduzila para 25 Para isso conforme o cálculo desenvolvido na aula a amostra precisa ser de 554 pessoas Exemplo IV Helio parte de um histograma para ilustrar os tamanhos amostrais das pesquisas eleitorais de agosto de 2019 a outubro de 2022 para presidente O número de entrevistados foi caindo significativamente ao longo do tempo o que aumenta a margem de erro mas diminui o custo de aplicação da pesquisa 1241 1511 1723 19 Até aqui foram analisados casos em que a população era infinita Para casos finitos a fórmula passa por alguns ajustes devese utilizar o fator de correção População finita Exemplo V Nesse exercício o professor vai aplicar o fator de correção para estimar a proporção de votos de um candidato no Brasil e em Pouso Novo com margem de erro de 2 No Brasil o tamanho da amostra seria de 2401 entrevistados No município do interior do RS uma amostra desse tamanho seria maior do que a população Por isso é necessário levar o resultado para a equação de correção chegandose a uma amostra de 936 pessoas A fração de amostragem depende do tamanho da população Quanto menor a população proporcionalmente é maior a fatia da população que deve ser investigada Tamanho amostral Tomando os exemplos que o professor apresentou em aula selecione o tamanho amostral ideal de acordo com a variável a ser descoberta 2257 2210 Renda domiciliar Alta variabilidade Amostra grande Baixa variabilidade Amostra pequena Tendência a amostras maiores Proporção Altura de uma população