·
Economia ·
Econometria
Envie sua pergunta para a IA e receba a resposta na hora

Prefere sua atividade resolvida por um tutor especialista?
- Receba resolvida até o seu prazo
- Converse com o tutor pelo chat
- Garantia de 7 dias contra erros
Recomendado para você
1
8 Questões Objetivas sobre Estatística e Tratamento de Dados
Econometria
UCAM
18
Orçamentos, Custos e Finanças no Setor Público: Modelos de Previsão de Receitas
Econometria
UCAM
15
Referências de Marketing e Gestão de Marca
Econometria
UCAM
16
Fundamentos e Metodologias de Matemática: Estatística e Probabilidade
Econometria
UCAM
22
Métodos Avançados de Previsão de Demanda
Econometria
UCAM
15
Análise Estatística das Vendas e Frequência de Notas
Econometria
UCAM
15
Ajuste de Regressão Linear Múltipla: Conceitos e Aplicações
Econometria
UCAM
1
Fundamentos e Aplicações da Estatística em Ciência de Dados
Econometria
UCAM
12
Fundamentos da Econometria Clássica
Econometria
UCAM
20
Conceitos e Aplicações da Inferência Estatística
Econometria
UCAM
Texto de pré-visualização
INTRODUÇÃO A CIÊNCIA DE DADOS Talysson Manoel de Oliveira Santos Estatística descritiva para ciência de dados Objetivos de aprendizagem Ao final deste texto você deve apresentar os seguintes aprendizados Descrever a correlação entre estatística e ciência de dados Analisar os conceitos de variáveis e distribuição de frequência Explicar as medidas em estatística descritiva Introdução Atualmente a ciência de dados é uma das áreas do conhecimento mais valorizadas por empresas de diferentes ramos de atuação Entre as fer ramentas utilizadas por essa área os métodos advindos da estatística figuram como os principais tendo um papel fundamental nas etapas de processamento de dados e análise dos resultados De forma geral a estatística é a ciência que apresenta métodos próprios para coletar apresentar e interpretar adequadamente con juntos de dados sejam eles qualitativos ou quantitativos A estatística descritiva cujo objetivo básico é o de sintetizar um conjunto de observações de uma variável permite que se tenha uma visão global sobre a posição e a dispersão desses valores por meio do uso de tabelas gráficos e medidas descritivas Neste capítulo você vai estudar sobre a importância da ciência de dados e o motivo pelo qual essa área vem sendo cada vez mais solicitada por empresas ligadas a diversos setores da economia Você também vai ler sobre a importância da estatística para a ciência de dados assim como os conceitos de variáveis e distribuição de frequên cia Por fim você vai conhecer as medidas em estatística descritiva e ver como extrair informações de tabelas e gráficos que vão auxiliar na tomada de decisões a partir dos dados 1 O que é ciência de dados e como se correlaciona com a estatística Nas últimas décadas a tecnologia tem passado por rápidas e constantes evoluções Na Primeira Revolução Industrial entre 1760 e 1840 o desen volvimento da máquina a vapor impulsionou o progresso da indústria têxtil e de ferro Entre 1850 e 1945 a Segunda Revolução Industrial alavancou a indústria química elétrica de petróleo e de aço Na Terceira Revolu ção os computadores tiveram a sua capacidade aumentada e tornaramse acessíveis impactando profundamente na sociedade e nas empresas Na atualidade estamos vivendo a Quarta Revolução Industrial na qual diver sos dispositivos conectados geram grandes volumes de dados diariamente AMARAL 2016 Por volta de 1980 armazenar dados era um grande desafio que custava caro cerca de 200 dólares a cada 1 MB Hoje o avanço tecnológico nos permite armazenar grandes quantidades de dados a um preço baixo AMA RAL 2016 Em função dessa mudança organizações públicas e privadas começaram a buscar metodologias capazes de armazenar e processar essa quantidade abundante de dados a fim de obter informações Isso mudou a maneira de operar das empresas tornandoas mais ágeis na tomada de decisões sustentadas por informações extraídas dos dados SHARDA DELEN TURBAN 2019 Com essa constante evolução nos moldes operacionais das empresas e a busca de informações para agregar valor a um negócio a ciência de dados cresceu muito Isso ocorreu porque essa área é a responsável por todas as etapas do uso de dados conforme ilustra a Figura 1 Estatística descritiva para ciência de dados 2 Figura 1 Etapas do uso de dados que são atribuições da ciência de dados Fonte Adaptada de Amaral 2016 O primeiro passo realizado pela ciência de dados surge de uma demanda É importante pensar em todas as variáveis que fazem parte do processo e no tipo de informação que se deseja extrair Após entender o problema e determinar o tipo de informação desejada e as variáveis que fazem parte do processo é hora de iniciar o segundo passo coletar os dados Os dados obtidos nesse passo podem ser comprados de empresas especializadas em vendêlos produzidos ou simplesmente coletados de algum banco de dados com acesso aberto Os dados coletados são então armazenados A etapa de armazenamento é responsável por garantir a recuperação e a duplicação dos dados Além disso permite que eles sejam analisados no futuro mantém informações sigilosas em segurança e otimiza o espaço utilizado AMARAL 2016 3 Estatística descritiva para ciência de dados É nas etapas de processar os dados e explorar os resultados que surge a correlação entre estatística e ciência de dados Nessas etapas o obje tivo é buscar e aplicar metodologias adequadas para encontrar padrões extrair informações e interpretar os resultados obtidos a partir da análise dos dados Entre as metodologias mais utilizadas está a estatística que pode ser definida como parte da matemática aplicada que estuda maneiras de organizar descrever e interpretar dados de forma sistemática SILVA GRAMS SILVEIRA 2018 Nos passos seguintes o cientista de dados é responsável por comunicar os resultados e retornar informações para a etapa de entendimento do problema A estatística é uma ferramenta da ciência de dados que se divide em três grandes áreas SILVA GRAMS SILVEIRA 2018 estatística descritiva inferência estatística estatística probabilística A estatística descritiva é a primeira etapa da análise de dados ou seja é responsável por descrever e resumir os dados por meio de gráficos tabelas e números A estatística inferencial interpreta os indicadores da estatística descritiva para inferir eventos prováveis fundamentados pelas características dos dados A estatística probabilística analisa a proba bilidade de um evento ocorrer e atribui o grau de incerteza associado à sua ocorrência Na próxima seção você vai aprender a analisar conceitos de variáveis e distribuição de frequência que são termos comuns da estatística descritiva 2 Conceitos de variáveis e distribuição de frequência A estatística descritiva está ligada à análise inicial dos dados A partir do seu uso é possível avaliar como as observações se distribuem onde estão concentradas e como estão em termos de associação e dispersão ZABALA 2020 Na sequência você vai aprender conceitos de variáveis e de métodos descritivos que são a base para análises estatísticas mais avançadas Estatística descritiva para ciência de dados 4 Variáveis Variável é uma característica de interesse que é mensurada em cada indivíduo da população Os seus valores variam entre os indivíduos podendo ser numé ricos ou não numéricos As variáveis quantitativas são as características que podem ser medidas utilizando valores numéricos como número de alunos na classe de cálculo ou peso de uma pessoa As variáveis qualitativas representam as características não numéricas dentro de um conjunto de interesse como marca modelo de veículos e gênero ZABALA 2020 As variáveis quantitativas podem ser classificadas como contínuas ou discretas Variáveis contínuas características mensuráveis que assumem valores em uma escala contínua podendo ser valores não inteiros como peso altura tempo e pressão arterial Variáveis discretas características mensuráveis que assumem apenas valores inteiros ou seja discretos como número de filhos e número de jogadores As variáveis qualitativas podem ser classificadas como ordinais ou nominais Variáveis ordinais existe uma ordenação para as categorias Exem plos de variáveis ordinais são escolaridade 1º 2º 3º grau estágio da gravidez inicial intermediário final e mês janeiro fevereiro novembro dezembro Variáveis nominais não existe uma ordenação para as categorias como religião raça cor preferida time de futebol favorito Uma variável originalmente quantitativa pode ser coletada de forma qualitativa Por exemplo quando a variável idade informa apenas a faixa etária 25 a 30 anos 50 a 55 anos ela é qualitativa ordinal Outro ponto importante é que nem sempre uma variável representada por números é quantitativa Exemplos disso são o número do telefone de uma pessoa o número da casa o número da identidade e o sexo do indivíduo quando registrado em uma planilha como 1 para masculino e 2 para feminino 5 Estatística descritiva para ciência de dados Distribuição de frequência Você já viu que as variáveis de um processo se dividem em quatro tipos Como os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas eles devem receber tratamentos diversos Portanto você vai estudar agora as ferramentas tabelas e gráfi cos mais adequadas para a análise de frequência de cada tipo de dados Para os dados de natureza qualitativa é usual fazer uma tabela de frequência como mostra o Quadro 1 Nesse quadro são apresentadas as frequências de ocorrência de cada um dos sexos no total de 103 entrevis tados em uma pesquisa de satisfação do consumidor feita por uma loja de eletrodomésticos Sexo Frequência absoluta Frequência relativa Feminino 62 602 Masculino 41 398 Total de participantes 103 100 Quadro 1 Distribuição de frequências dos entrevistados conforme o sexo Observe que no Quadro 1 cada categoria da variável sexo feminino masculino é representada em uma linha A coluna de frequência absoluta mostra a contagem de entrevistados em cada categoria e a coluna de fre quência relativa mostra o percentual que as contagens representam no total de entrevistados Para variáveis do tipo qualitativa ordinal as linhas da tabela de frequên cias devem ser dispostas na ordem existente para as categorias O Quadro 2 mostra a distribuição de frequências dos entrevistados segundo o mês de observação que é uma variável qualitativa ordinal Para essa análise é possível acrescentar mais duas colunas com as frequências acumuladas absoluta e relativa Frequências acumuladas mostram a quantidade de clientes entrevistados até cada mês Estatística descritiva para ciência de dados 6 Mês de observação Frequência absoluta Frequência relativa Frequência absoluta acumulada Frequência relativa acumulada Fevereiro 19 1845 19 1845 Março 6 582 25 2427 Abril 6 582 31 3009 Maio 11 1069 42 4078 Junho 23 2233 65 6311 Julho 20 1942 85 8253 Agosto 18 1747 103 100 Total 103 100 Quadro 2 Distribuição de frequências dos entrevistados em função do mês de observação A frequência absoluta se refere à quantidade de entrevistados em cada mês a frequência acumulada à quantidade total entrevistada até determinado mês Por exemplo no mês de fevereiro 19 pessoas responderam à pesquisa de satisfação Em março outras seis pessoas foram entrevistadas Logo a frequência acumulada de março indica que até esse mês um total de 25 pessoas já foram entrevistadas 19 em fevereiro mais seis em março A partir do Quadro 2 você pode observar que a maior frequência de participação na pesquisa ocorreu nos últimos três meses de fevereiro a maio apenas 4078 do total de pessoas entrevistadas já haviam participado os outros 5922 participaram de junho a agosto Com o intuito de tornar a análise de distribuição de frequência mais fácil de visualizar você pode utilizar também os gráficos Os mais comuns para a análise de distribuição de frequência de variáveis qualitativas são os gráficos de setores popularmente conhecidos como gráficos de pizza e os histogramas que são a representação gráfica em colunas ou em barras REIS REIS 2002 A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências do total de entrevistados segundo sexo Na Figura 3 o uso do histograma para a distribuição de frequências dos entrevistados em função do mês de observação 7 Estatística descritiva para ciência de dados Figura 2 Gráfico de distribuição dos entrevistados quanto ao sexo Figura 3 Gráfico de distribuição dos entrevistados por mês À medida que a complexidade das análises aumenta como quando é ne cessário comparar vários grupos com relação às variáveis que têm muitas categorias as vantagens do uso da representação gráfica ficam ainda mais evidentes Estatística descritiva para ciência de dados 8 Se você quiser usar o gráfico de setores para comparar a distribuição de frequências de uma mesma variável em N grupos então você vai precisar de N gráficos de setores Já o histograma permite fazer esse tipo de comparação com apenas um gráfico Se for comparar uma variável entre dois ou mais grupos de número de observações diferentes use a frequência relativa de cada grupo para a construção do gráfico e a comparação Quando se trata de uma variável discreta que assume poucos valores a forma de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais É como se cada valor que a variável discreta assume fosse uma classe e que existe uma ordem natural nessas classes REIS REIS 2002 Veja o exemplo a seguir A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento do número de filhos por família em uma localidade específica Para isso 25 famílias informaram o número de filhos Com as informações coletadas você pode fazer uma análise completa a partir da tabela de distribuições de frequência mostrada no Quadro 3 e do histograma que consta na Figura 4 Número de filhos Frequência absoluta Frequência relativa Frequência relativa acumulada 0 1 40 40 1 3 120 160 2 7 280 440 3 10 400 840 4 2 80 920 5 2 80 100 Total 25 100 Quadro 3 Distribuição de frequências do número de filhos por família em uma localida de 25 famílias 9 Estatística descritiva para ciência de dados Figura 4 Distribuição de frequência do número de filhos por família em uma localidade Analisando a distribuição de frequência Figura 4 é possível concluir que a maioria das famílias 40 tem três filhos A frequência acumulada mostra que 84 das famílias entrevistadas possuem de zero a três filhos e apenas 16 possuem de quatro a cinco filhos Só uma família entre as 25 entrevistadas não tem filhos O histograma deixa claras as afirmações feitas a partir da tabela e evidencia que a maior concentração de frequência é de famílias que têm dois ou três filhos Quando você trabalhar com uma variável quantitativa discreta que pode assumir muitos valores distintos ou quando a variável for qualitativa contínua é impraticável tentar construir uma tabela ou fazer a representação em gráficos considerando cada valor como uma categoria A solução é agrupar os valores em classes que representam faixas de valores com certa amplitude ZABALA 2020 De acordo com Scott 1979 a escolha do número de classes k sc e o tamanho das classes hsc estão condicionados à amplitude dos valores a serem representados da quantidade de observações disponíveis no conjunto de dados e do desvio padrão amostral Estatística descritiva para ciência de dados 10 onde n número de observações ou amostras s desvio padrão amostral maxx maior valor observado minx menor valor observado A altura de 100 alunos de uma escola do ensino médio foi coletada Sabendo que o desvio das amostras de altura é s 0066 que a altura máxima é 180 e que a altura mínima é 150 determine o tamanho e a quantidade de classes para representar a distribuição de frequência de altura dos alunos hsc 35006610013 hsc 005 ksc 180150005 ksc 6 Após encontrar o comprimento do intervalo e o número de classes basta montar a tabela de distribuições de frequência e preenchêla de acordo com os dados como mostra o Quadro 4 Número de filhos Frequência absoluta Frequência relativa Frequência relativa acumulada 15 155 9 90 90 155 160 14 140 230 160 165 17 170 400 165 170 19 190 590 170 175 33 330 920 175 180 8 80 100 Total 100 100 Quadro 4 Distribuição de frequências de altura dos alunos do ensino médio 11 Estatística descritiva para ciência de dados Na atualidade há muitos dados sendo gerados a todo instante e é comum trabalhar com conjuntos de dados em que as variáveis contêm milhares de observações Portanto é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas computacionais Atualmente uma das linguagens de programação mais utilizadas é o Python Saiba mais sobre como usar o Python consultando o livro Data Science do zero Primeiras regras com o Python de Joel Grus 3 Medidas em estatística descritiva A estatística descritiva é a etapa inicial para descrever e resumir os dados A seguir você vai aprender a usar e interpretar as métricas da estatística descritiva que se dividem em duas partes medidas para análise de posição e medidas para análise de dispersão Medidas de posição A média de uma variável é dada pela soma de todas as observações dividida pelo número de observações Pela facilidade de cálculo e de entendimento é a medida de tendência central mais conhecida e usada REIS REIS 2002 Portanto onde n é o número de observações no conjunto de dados e xi é o valor da iésima observação desse conjunto A mediana de um conjunto de dados é definida como sendo o valor maior que 50 dos dados dispostos em ordem crescente ou seja é o valor central para um conjunto de observações ordenadas A mediana é conhecida também como segundo quartil ZABALA 2020 Para um conjunto de n observações a mediana ocupa a posição n 12 dos valores ordenados A moda é o valor que ocorre com maior frequência para uma variável Para uma tabela de frequência composta por classes que representam intervalos a classe de maior frequência é chamada de classe modal Se existe apenas uma moda a distribuição é conhecida como unimodal se existem duas modas bimodal se existem três modas trimodal Quando existem quatro ou mais modas tratase de uma distribuição multimodal Estatística descritiva para ciência de dados 12 Dado um conjunto de observações x 4 3 5 2 6 5 8 4 4 calcule a média a mediana e a moda do conjunto Média 455 Mediana valores ordenados 2 3 4 4 4 5 5 6 8 Mediana 4 Moda o valor mais frequente Moda 4 A média é uma medida influenciada pela presença de valores extremos em um conjunto de dados isto é se no meio das observações há um valor muito menor que os demais esse valor vai fazer a média tender na sua direção O mesmo ocorre para um valor muito grande Já a mediana não é tão influen ciada por esses valores extremos ou outliers visto que o seu cálculo consiste em ordenar os valores e a partir disso determinar a mediana REIS REIS 2002 A moda também tem as suas vantagens Quando a variável apresenta distribuições bimodais ou multimodais a moda pode representar melhor a posição dos dados do que a média e a mediana Os quartis ou separatrizes deixam k 100 das observações abaixo deles na amostra ordenada Os casos mais comuns são os seguintes ZABALA 2020 o primeiro quartil deixa 25 das amostras ordenadas abaixo ou seja é o valor maior do que 25 das observações ordenadas o segundo quartil é a mediana o terceiro quartil é o valor maior do que 75 das observações ordenadas Um método simples para calcular os quartis de forma aproximada pode seguir os seguintes passos ZABALA 2020 ordene os dados de forma crescente L k n Se L não é inteiro arredondeo para o maior inteiro mais próximo O valor do quartil é o Lésimo valor a contar do menor Se L é inteiro o quartil é a média entre o Lésimo e o L 1ésimo termo a contar do menor Geralmente os softwares calculam os quartis usando interpolação 13 Estatística descritiva para ciência de dados Com o conjunto de observações 15 5 3 8 10 2 7 11 12 calcule os quartis 025 e 075 1 Ordene os dados 2 3 5 7 8 10 11 12 15 2 Para 025 L 225 para 075 L 675 3 O primeiro quartil é 5 e o terceiro quartil é 11 Medidas de dispersão A amplitude de uma variável é dada pela diferença do valor máximo pelo valor mínimo A variância avalia o quanto em média os dados variam ao quadrado em re lação à média Tratase de uma das principais medidas de dispersão em estatística ZABALA 2020 A variância amostral pode ser calculada da seguinte forma O desvio padrão amostral S é a raiz quadrada da variância amostral Usase o desvio padrão porque a interpretação da sua grandeza é mais intuitiva uma vez que a unidade de medida é a mesma da variável x ZABALA 2020 O coeficiente de variação CV é uma medida de dispersão relativa Essa métrica exprime a variabilidade em relação à média eliminando o efeito da magnitude dos dados DAVILA 201 É extremamente útil para comparar duas ou mais variáveis com unidades de medidas diferentes PETERNELLI 2013 O CV pode ser calculado da seguinte forma Estatística descritiva para ciência de dados 14 Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria nos restaurantes a fim de apurar possíveis irregularidades na venda dos seus produtos Na última vistoria os agentes coletaram o peso de 10 bifes que eram vendidos como bife de 200 gramas Os dados coletados são mostrados a seguir X 170 175 180 185 190 195 200 200 200 205 Faça uma análise estatística para verificar se há irregularidades com os bifes vendidos pelo restaurante Média 17017518018519019520020020510 Média 190 A 205 170 35g Variância 1701902 1751902 1801902 1851902 1901902 1951902 2001902 2001902 2051902 10 1 Variância 14444 Desvio padrão 1202 Coeficiente de variação 1202 190 CV 006 Dentro do processo de produção de determinado produto é normal o peso ou outra medida de quantidade variar um pouco Porém analisando os resultados para esse caso específico visto que os bifes apresentam média de peso igual a 190 gramas e desvio padrão de 12 gramas é possível concluir que a maioria dos clientes estão sendo lesados Portanto no que diz respeito ao controle de qualidade os bifes não apresentam um padrão bom Neste capítulo você estudou sobre a importância da ciência de dados nos moldes operacionais atuais das empresas e como a estatística descritiva é uma ferramenta importante no processo de extração de informações a partir dos dados Além disso você leu sobre os tipos de variáveis que podem estar presentes no conjunto de informações de um processo bem como a importância da análise da distribuição de frequência dos dados Por fim você viu como interpretar as medidas em estatística descritiva e extrair informações de tabelas e gráficos que permitem tomar decisões a partir dos dados 15 Estatística descritiva para ciência de dados AMARAL F Introdução à ciência de dados mineração de dados e big data Rio de Janeiro Alta Books 2016 DAVILA V H L Estatística descritiva Campinas IMEUNICAMP 201 Disponível em httpswwwimeunicampbrhlachosestdescr1pdf Acesso em 27 abr 2020 PETERNELLI L A Estatística descritiva In INF 162 São Paulo EACH USP 2013 Disponível em httpwwweachuspbrrvicentePaternelliCap2pdf Acesso em 27 abr 2020 REIS E A REIS I A Análise descritiva de dados Belo Horizonte UFMG 2002 Disponível em httpwwwestufmgbrportalarquivosrtsrte0202pdf Acesso em 27 abr 2020 SCOTT D W On optimal and databased histograms Biometrika v 66 n 3 Dec 1979 Disponível em httpwwwjstororgstable2335182originJSTORpdf Acesso em 27 abr 2020 SHARDA R DELEN D TURBAN E Business intelligence e análise de dados para gestão do negócio 4 ed Porto Alegre Bookman 2019 SILVA J S F GRAMS A L B SILVEIRA J F Estatística Porto Alegre Sagah 2018 ZABALA F Estatística clássica no RStudio Porto Alegre S n 2020 Disponível em http wwwestatisticaclassicacomecnrspdf Acesso em 27 abr 2020 Leitura recomendada GRUS J Data Science do zero primeiras regras com o Python Rio de Janeiro Alta Books 2018 Os links para sites da web fornecidos neste capítulo foram todos testados e seu fun cionamento foi comprovado no momento da publicação do material No entanto a rede é extremamente dinâmica suas páginas estão constantemente mudando de local e conteúdo Assim os editores declaram não ter qualquer responsabilidade sobre qualidade precisão ou integralidade das informações referidas em tais links Estatística descritiva para ciência de dados 16 Encerrra aqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem Na Biblioteca Virtual da Instituição você encontra a obra na íntegra Conteúdo
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
1
8 Questões Objetivas sobre Estatística e Tratamento de Dados
Econometria
UCAM
18
Orçamentos, Custos e Finanças no Setor Público: Modelos de Previsão de Receitas
Econometria
UCAM
15
Referências de Marketing e Gestão de Marca
Econometria
UCAM
16
Fundamentos e Metodologias de Matemática: Estatística e Probabilidade
Econometria
UCAM
22
Métodos Avançados de Previsão de Demanda
Econometria
UCAM
15
Análise Estatística das Vendas e Frequência de Notas
Econometria
UCAM
15
Ajuste de Regressão Linear Múltipla: Conceitos e Aplicações
Econometria
UCAM
1
Fundamentos e Aplicações da Estatística em Ciência de Dados
Econometria
UCAM
12
Fundamentos da Econometria Clássica
Econometria
UCAM
20
Conceitos e Aplicações da Inferência Estatística
Econometria
UCAM
Texto de pré-visualização
INTRODUÇÃO A CIÊNCIA DE DADOS Talysson Manoel de Oliveira Santos Estatística descritiva para ciência de dados Objetivos de aprendizagem Ao final deste texto você deve apresentar os seguintes aprendizados Descrever a correlação entre estatística e ciência de dados Analisar os conceitos de variáveis e distribuição de frequência Explicar as medidas em estatística descritiva Introdução Atualmente a ciência de dados é uma das áreas do conhecimento mais valorizadas por empresas de diferentes ramos de atuação Entre as fer ramentas utilizadas por essa área os métodos advindos da estatística figuram como os principais tendo um papel fundamental nas etapas de processamento de dados e análise dos resultados De forma geral a estatística é a ciência que apresenta métodos próprios para coletar apresentar e interpretar adequadamente con juntos de dados sejam eles qualitativos ou quantitativos A estatística descritiva cujo objetivo básico é o de sintetizar um conjunto de observações de uma variável permite que se tenha uma visão global sobre a posição e a dispersão desses valores por meio do uso de tabelas gráficos e medidas descritivas Neste capítulo você vai estudar sobre a importância da ciência de dados e o motivo pelo qual essa área vem sendo cada vez mais solicitada por empresas ligadas a diversos setores da economia Você também vai ler sobre a importância da estatística para a ciência de dados assim como os conceitos de variáveis e distribuição de frequên cia Por fim você vai conhecer as medidas em estatística descritiva e ver como extrair informações de tabelas e gráficos que vão auxiliar na tomada de decisões a partir dos dados 1 O que é ciência de dados e como se correlaciona com a estatística Nas últimas décadas a tecnologia tem passado por rápidas e constantes evoluções Na Primeira Revolução Industrial entre 1760 e 1840 o desen volvimento da máquina a vapor impulsionou o progresso da indústria têxtil e de ferro Entre 1850 e 1945 a Segunda Revolução Industrial alavancou a indústria química elétrica de petróleo e de aço Na Terceira Revolu ção os computadores tiveram a sua capacidade aumentada e tornaramse acessíveis impactando profundamente na sociedade e nas empresas Na atualidade estamos vivendo a Quarta Revolução Industrial na qual diver sos dispositivos conectados geram grandes volumes de dados diariamente AMARAL 2016 Por volta de 1980 armazenar dados era um grande desafio que custava caro cerca de 200 dólares a cada 1 MB Hoje o avanço tecnológico nos permite armazenar grandes quantidades de dados a um preço baixo AMA RAL 2016 Em função dessa mudança organizações públicas e privadas começaram a buscar metodologias capazes de armazenar e processar essa quantidade abundante de dados a fim de obter informações Isso mudou a maneira de operar das empresas tornandoas mais ágeis na tomada de decisões sustentadas por informações extraídas dos dados SHARDA DELEN TURBAN 2019 Com essa constante evolução nos moldes operacionais das empresas e a busca de informações para agregar valor a um negócio a ciência de dados cresceu muito Isso ocorreu porque essa área é a responsável por todas as etapas do uso de dados conforme ilustra a Figura 1 Estatística descritiva para ciência de dados 2 Figura 1 Etapas do uso de dados que são atribuições da ciência de dados Fonte Adaptada de Amaral 2016 O primeiro passo realizado pela ciência de dados surge de uma demanda É importante pensar em todas as variáveis que fazem parte do processo e no tipo de informação que se deseja extrair Após entender o problema e determinar o tipo de informação desejada e as variáveis que fazem parte do processo é hora de iniciar o segundo passo coletar os dados Os dados obtidos nesse passo podem ser comprados de empresas especializadas em vendêlos produzidos ou simplesmente coletados de algum banco de dados com acesso aberto Os dados coletados são então armazenados A etapa de armazenamento é responsável por garantir a recuperação e a duplicação dos dados Além disso permite que eles sejam analisados no futuro mantém informações sigilosas em segurança e otimiza o espaço utilizado AMARAL 2016 3 Estatística descritiva para ciência de dados É nas etapas de processar os dados e explorar os resultados que surge a correlação entre estatística e ciência de dados Nessas etapas o obje tivo é buscar e aplicar metodologias adequadas para encontrar padrões extrair informações e interpretar os resultados obtidos a partir da análise dos dados Entre as metodologias mais utilizadas está a estatística que pode ser definida como parte da matemática aplicada que estuda maneiras de organizar descrever e interpretar dados de forma sistemática SILVA GRAMS SILVEIRA 2018 Nos passos seguintes o cientista de dados é responsável por comunicar os resultados e retornar informações para a etapa de entendimento do problema A estatística é uma ferramenta da ciência de dados que se divide em três grandes áreas SILVA GRAMS SILVEIRA 2018 estatística descritiva inferência estatística estatística probabilística A estatística descritiva é a primeira etapa da análise de dados ou seja é responsável por descrever e resumir os dados por meio de gráficos tabelas e números A estatística inferencial interpreta os indicadores da estatística descritiva para inferir eventos prováveis fundamentados pelas características dos dados A estatística probabilística analisa a proba bilidade de um evento ocorrer e atribui o grau de incerteza associado à sua ocorrência Na próxima seção você vai aprender a analisar conceitos de variáveis e distribuição de frequência que são termos comuns da estatística descritiva 2 Conceitos de variáveis e distribuição de frequência A estatística descritiva está ligada à análise inicial dos dados A partir do seu uso é possível avaliar como as observações se distribuem onde estão concentradas e como estão em termos de associação e dispersão ZABALA 2020 Na sequência você vai aprender conceitos de variáveis e de métodos descritivos que são a base para análises estatísticas mais avançadas Estatística descritiva para ciência de dados 4 Variáveis Variável é uma característica de interesse que é mensurada em cada indivíduo da população Os seus valores variam entre os indivíduos podendo ser numé ricos ou não numéricos As variáveis quantitativas são as características que podem ser medidas utilizando valores numéricos como número de alunos na classe de cálculo ou peso de uma pessoa As variáveis qualitativas representam as características não numéricas dentro de um conjunto de interesse como marca modelo de veículos e gênero ZABALA 2020 As variáveis quantitativas podem ser classificadas como contínuas ou discretas Variáveis contínuas características mensuráveis que assumem valores em uma escala contínua podendo ser valores não inteiros como peso altura tempo e pressão arterial Variáveis discretas características mensuráveis que assumem apenas valores inteiros ou seja discretos como número de filhos e número de jogadores As variáveis qualitativas podem ser classificadas como ordinais ou nominais Variáveis ordinais existe uma ordenação para as categorias Exem plos de variáveis ordinais são escolaridade 1º 2º 3º grau estágio da gravidez inicial intermediário final e mês janeiro fevereiro novembro dezembro Variáveis nominais não existe uma ordenação para as categorias como religião raça cor preferida time de futebol favorito Uma variável originalmente quantitativa pode ser coletada de forma qualitativa Por exemplo quando a variável idade informa apenas a faixa etária 25 a 30 anos 50 a 55 anos ela é qualitativa ordinal Outro ponto importante é que nem sempre uma variável representada por números é quantitativa Exemplos disso são o número do telefone de uma pessoa o número da casa o número da identidade e o sexo do indivíduo quando registrado em uma planilha como 1 para masculino e 2 para feminino 5 Estatística descritiva para ciência de dados Distribuição de frequência Você já viu que as variáveis de um processo se dividem em quatro tipos Como os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas eles devem receber tratamentos diversos Portanto você vai estudar agora as ferramentas tabelas e gráfi cos mais adequadas para a análise de frequência de cada tipo de dados Para os dados de natureza qualitativa é usual fazer uma tabela de frequência como mostra o Quadro 1 Nesse quadro são apresentadas as frequências de ocorrência de cada um dos sexos no total de 103 entrevis tados em uma pesquisa de satisfação do consumidor feita por uma loja de eletrodomésticos Sexo Frequência absoluta Frequência relativa Feminino 62 602 Masculino 41 398 Total de participantes 103 100 Quadro 1 Distribuição de frequências dos entrevistados conforme o sexo Observe que no Quadro 1 cada categoria da variável sexo feminino masculino é representada em uma linha A coluna de frequência absoluta mostra a contagem de entrevistados em cada categoria e a coluna de fre quência relativa mostra o percentual que as contagens representam no total de entrevistados Para variáveis do tipo qualitativa ordinal as linhas da tabela de frequên cias devem ser dispostas na ordem existente para as categorias O Quadro 2 mostra a distribuição de frequências dos entrevistados segundo o mês de observação que é uma variável qualitativa ordinal Para essa análise é possível acrescentar mais duas colunas com as frequências acumuladas absoluta e relativa Frequências acumuladas mostram a quantidade de clientes entrevistados até cada mês Estatística descritiva para ciência de dados 6 Mês de observação Frequência absoluta Frequência relativa Frequência absoluta acumulada Frequência relativa acumulada Fevereiro 19 1845 19 1845 Março 6 582 25 2427 Abril 6 582 31 3009 Maio 11 1069 42 4078 Junho 23 2233 65 6311 Julho 20 1942 85 8253 Agosto 18 1747 103 100 Total 103 100 Quadro 2 Distribuição de frequências dos entrevistados em função do mês de observação A frequência absoluta se refere à quantidade de entrevistados em cada mês a frequência acumulada à quantidade total entrevistada até determinado mês Por exemplo no mês de fevereiro 19 pessoas responderam à pesquisa de satisfação Em março outras seis pessoas foram entrevistadas Logo a frequência acumulada de março indica que até esse mês um total de 25 pessoas já foram entrevistadas 19 em fevereiro mais seis em março A partir do Quadro 2 você pode observar que a maior frequência de participação na pesquisa ocorreu nos últimos três meses de fevereiro a maio apenas 4078 do total de pessoas entrevistadas já haviam participado os outros 5922 participaram de junho a agosto Com o intuito de tornar a análise de distribuição de frequência mais fácil de visualizar você pode utilizar também os gráficos Os mais comuns para a análise de distribuição de frequência de variáveis qualitativas são os gráficos de setores popularmente conhecidos como gráficos de pizza e os histogramas que são a representação gráfica em colunas ou em barras REIS REIS 2002 A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências do total de entrevistados segundo sexo Na Figura 3 o uso do histograma para a distribuição de frequências dos entrevistados em função do mês de observação 7 Estatística descritiva para ciência de dados Figura 2 Gráfico de distribuição dos entrevistados quanto ao sexo Figura 3 Gráfico de distribuição dos entrevistados por mês À medida que a complexidade das análises aumenta como quando é ne cessário comparar vários grupos com relação às variáveis que têm muitas categorias as vantagens do uso da representação gráfica ficam ainda mais evidentes Estatística descritiva para ciência de dados 8 Se você quiser usar o gráfico de setores para comparar a distribuição de frequências de uma mesma variável em N grupos então você vai precisar de N gráficos de setores Já o histograma permite fazer esse tipo de comparação com apenas um gráfico Se for comparar uma variável entre dois ou mais grupos de número de observações diferentes use a frequência relativa de cada grupo para a construção do gráfico e a comparação Quando se trata de uma variável discreta que assume poucos valores a forma de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais É como se cada valor que a variável discreta assume fosse uma classe e que existe uma ordem natural nessas classes REIS REIS 2002 Veja o exemplo a seguir A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento do número de filhos por família em uma localidade específica Para isso 25 famílias informaram o número de filhos Com as informações coletadas você pode fazer uma análise completa a partir da tabela de distribuições de frequência mostrada no Quadro 3 e do histograma que consta na Figura 4 Número de filhos Frequência absoluta Frequência relativa Frequência relativa acumulada 0 1 40 40 1 3 120 160 2 7 280 440 3 10 400 840 4 2 80 920 5 2 80 100 Total 25 100 Quadro 3 Distribuição de frequências do número de filhos por família em uma localida de 25 famílias 9 Estatística descritiva para ciência de dados Figura 4 Distribuição de frequência do número de filhos por família em uma localidade Analisando a distribuição de frequência Figura 4 é possível concluir que a maioria das famílias 40 tem três filhos A frequência acumulada mostra que 84 das famílias entrevistadas possuem de zero a três filhos e apenas 16 possuem de quatro a cinco filhos Só uma família entre as 25 entrevistadas não tem filhos O histograma deixa claras as afirmações feitas a partir da tabela e evidencia que a maior concentração de frequência é de famílias que têm dois ou três filhos Quando você trabalhar com uma variável quantitativa discreta que pode assumir muitos valores distintos ou quando a variável for qualitativa contínua é impraticável tentar construir uma tabela ou fazer a representação em gráficos considerando cada valor como uma categoria A solução é agrupar os valores em classes que representam faixas de valores com certa amplitude ZABALA 2020 De acordo com Scott 1979 a escolha do número de classes k sc e o tamanho das classes hsc estão condicionados à amplitude dos valores a serem representados da quantidade de observações disponíveis no conjunto de dados e do desvio padrão amostral Estatística descritiva para ciência de dados 10 onde n número de observações ou amostras s desvio padrão amostral maxx maior valor observado minx menor valor observado A altura de 100 alunos de uma escola do ensino médio foi coletada Sabendo que o desvio das amostras de altura é s 0066 que a altura máxima é 180 e que a altura mínima é 150 determine o tamanho e a quantidade de classes para representar a distribuição de frequência de altura dos alunos hsc 35006610013 hsc 005 ksc 180150005 ksc 6 Após encontrar o comprimento do intervalo e o número de classes basta montar a tabela de distribuições de frequência e preenchêla de acordo com os dados como mostra o Quadro 4 Número de filhos Frequência absoluta Frequência relativa Frequência relativa acumulada 15 155 9 90 90 155 160 14 140 230 160 165 17 170 400 165 170 19 190 590 170 175 33 330 920 175 180 8 80 100 Total 100 100 Quadro 4 Distribuição de frequências de altura dos alunos do ensino médio 11 Estatística descritiva para ciência de dados Na atualidade há muitos dados sendo gerados a todo instante e é comum trabalhar com conjuntos de dados em que as variáveis contêm milhares de observações Portanto é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas computacionais Atualmente uma das linguagens de programação mais utilizadas é o Python Saiba mais sobre como usar o Python consultando o livro Data Science do zero Primeiras regras com o Python de Joel Grus 3 Medidas em estatística descritiva A estatística descritiva é a etapa inicial para descrever e resumir os dados A seguir você vai aprender a usar e interpretar as métricas da estatística descritiva que se dividem em duas partes medidas para análise de posição e medidas para análise de dispersão Medidas de posição A média de uma variável é dada pela soma de todas as observações dividida pelo número de observações Pela facilidade de cálculo e de entendimento é a medida de tendência central mais conhecida e usada REIS REIS 2002 Portanto onde n é o número de observações no conjunto de dados e xi é o valor da iésima observação desse conjunto A mediana de um conjunto de dados é definida como sendo o valor maior que 50 dos dados dispostos em ordem crescente ou seja é o valor central para um conjunto de observações ordenadas A mediana é conhecida também como segundo quartil ZABALA 2020 Para um conjunto de n observações a mediana ocupa a posição n 12 dos valores ordenados A moda é o valor que ocorre com maior frequência para uma variável Para uma tabela de frequência composta por classes que representam intervalos a classe de maior frequência é chamada de classe modal Se existe apenas uma moda a distribuição é conhecida como unimodal se existem duas modas bimodal se existem três modas trimodal Quando existem quatro ou mais modas tratase de uma distribuição multimodal Estatística descritiva para ciência de dados 12 Dado um conjunto de observações x 4 3 5 2 6 5 8 4 4 calcule a média a mediana e a moda do conjunto Média 455 Mediana valores ordenados 2 3 4 4 4 5 5 6 8 Mediana 4 Moda o valor mais frequente Moda 4 A média é uma medida influenciada pela presença de valores extremos em um conjunto de dados isto é se no meio das observações há um valor muito menor que os demais esse valor vai fazer a média tender na sua direção O mesmo ocorre para um valor muito grande Já a mediana não é tão influen ciada por esses valores extremos ou outliers visto que o seu cálculo consiste em ordenar os valores e a partir disso determinar a mediana REIS REIS 2002 A moda também tem as suas vantagens Quando a variável apresenta distribuições bimodais ou multimodais a moda pode representar melhor a posição dos dados do que a média e a mediana Os quartis ou separatrizes deixam k 100 das observações abaixo deles na amostra ordenada Os casos mais comuns são os seguintes ZABALA 2020 o primeiro quartil deixa 25 das amostras ordenadas abaixo ou seja é o valor maior do que 25 das observações ordenadas o segundo quartil é a mediana o terceiro quartil é o valor maior do que 75 das observações ordenadas Um método simples para calcular os quartis de forma aproximada pode seguir os seguintes passos ZABALA 2020 ordene os dados de forma crescente L k n Se L não é inteiro arredondeo para o maior inteiro mais próximo O valor do quartil é o Lésimo valor a contar do menor Se L é inteiro o quartil é a média entre o Lésimo e o L 1ésimo termo a contar do menor Geralmente os softwares calculam os quartis usando interpolação 13 Estatística descritiva para ciência de dados Com o conjunto de observações 15 5 3 8 10 2 7 11 12 calcule os quartis 025 e 075 1 Ordene os dados 2 3 5 7 8 10 11 12 15 2 Para 025 L 225 para 075 L 675 3 O primeiro quartil é 5 e o terceiro quartil é 11 Medidas de dispersão A amplitude de uma variável é dada pela diferença do valor máximo pelo valor mínimo A variância avalia o quanto em média os dados variam ao quadrado em re lação à média Tratase de uma das principais medidas de dispersão em estatística ZABALA 2020 A variância amostral pode ser calculada da seguinte forma O desvio padrão amostral S é a raiz quadrada da variância amostral Usase o desvio padrão porque a interpretação da sua grandeza é mais intuitiva uma vez que a unidade de medida é a mesma da variável x ZABALA 2020 O coeficiente de variação CV é uma medida de dispersão relativa Essa métrica exprime a variabilidade em relação à média eliminando o efeito da magnitude dos dados DAVILA 201 É extremamente útil para comparar duas ou mais variáveis com unidades de medidas diferentes PETERNELLI 2013 O CV pode ser calculado da seguinte forma Estatística descritiva para ciência de dados 14 Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria nos restaurantes a fim de apurar possíveis irregularidades na venda dos seus produtos Na última vistoria os agentes coletaram o peso de 10 bifes que eram vendidos como bife de 200 gramas Os dados coletados são mostrados a seguir X 170 175 180 185 190 195 200 200 200 205 Faça uma análise estatística para verificar se há irregularidades com os bifes vendidos pelo restaurante Média 17017518018519019520020020510 Média 190 A 205 170 35g Variância 1701902 1751902 1801902 1851902 1901902 1951902 2001902 2001902 2051902 10 1 Variância 14444 Desvio padrão 1202 Coeficiente de variação 1202 190 CV 006 Dentro do processo de produção de determinado produto é normal o peso ou outra medida de quantidade variar um pouco Porém analisando os resultados para esse caso específico visto que os bifes apresentam média de peso igual a 190 gramas e desvio padrão de 12 gramas é possível concluir que a maioria dos clientes estão sendo lesados Portanto no que diz respeito ao controle de qualidade os bifes não apresentam um padrão bom Neste capítulo você estudou sobre a importância da ciência de dados nos moldes operacionais atuais das empresas e como a estatística descritiva é uma ferramenta importante no processo de extração de informações a partir dos dados Além disso você leu sobre os tipos de variáveis que podem estar presentes no conjunto de informações de um processo bem como a importância da análise da distribuição de frequência dos dados Por fim você viu como interpretar as medidas em estatística descritiva e extrair informações de tabelas e gráficos que permitem tomar decisões a partir dos dados 15 Estatística descritiva para ciência de dados AMARAL F Introdução à ciência de dados mineração de dados e big data Rio de Janeiro Alta Books 2016 DAVILA V H L Estatística descritiva Campinas IMEUNICAMP 201 Disponível em httpswwwimeunicampbrhlachosestdescr1pdf Acesso em 27 abr 2020 PETERNELLI L A Estatística descritiva In INF 162 São Paulo EACH USP 2013 Disponível em httpwwweachuspbrrvicentePaternelliCap2pdf Acesso em 27 abr 2020 REIS E A REIS I A Análise descritiva de dados Belo Horizonte UFMG 2002 Disponível em httpwwwestufmgbrportalarquivosrtsrte0202pdf Acesso em 27 abr 2020 SCOTT D W On optimal and databased histograms Biometrika v 66 n 3 Dec 1979 Disponível em httpwwwjstororgstable2335182originJSTORpdf Acesso em 27 abr 2020 SHARDA R DELEN D TURBAN E Business intelligence e análise de dados para gestão do negócio 4 ed Porto Alegre Bookman 2019 SILVA J S F GRAMS A L B SILVEIRA J F Estatística Porto Alegre Sagah 2018 ZABALA F Estatística clássica no RStudio Porto Alegre S n 2020 Disponível em http wwwestatisticaclassicacomecnrspdf Acesso em 27 abr 2020 Leitura recomendada GRUS J Data Science do zero primeiras regras com o Python Rio de Janeiro Alta Books 2018 Os links para sites da web fornecidos neste capítulo foram todos testados e seu fun cionamento foi comprovado no momento da publicação do material No entanto a rede é extremamente dinâmica suas páginas estão constantemente mudando de local e conteúdo Assim os editores declaram não ter qualquer responsabilidade sobre qualidade precisão ou integralidade das informações referidas em tais links Estatística descritiva para ciência de dados 16 Encerrra aqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem Na Biblioteca Virtual da Instituição você encontra a obra na íntegra Conteúdo