Preview only show first 10 pages with watermark. For full document please download

Trabalho De Estatística

Conceitos básicos de Estatística

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    372.8KB
  • Views

    3,661
  • Categories


Share

Transcript

Nº de funcionários Histograma de frequência Acumulada Crescente idades Fac Polígono de Frequência Acumulada Freq. Universidade Estadual do Ceará - UECE Faculdade de Educação de Crateús – FAEC Curso de Licenciatura Plena em Química Prof.: Fabiano Disciplina: Introdução à Estatística Alunos: Adriana Maria Lima Virgílio, Debora Bezerra de Sousa, Maria Regina Rufino Barbosa, Francisco Jonas Xavier, Jéssica Rodrigues Sousa Estatística 05/01/2011 Crateús/Ce CONCEITOS DE ESTATÍSTICA A Estatística é ma parte da matemática que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. Seu aspecto essencial é o de proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente. A Estatística se divide em duas áreas: ESTATÍSTICA DESCRITIVA: trata-se da coleta, da organização e da descrição dados numéricos referentes a uma população ou amostra. ESTATÍSTICA INDUTIVA OU INFERENCIAL: trata-se da coleção de métodos e técnicas utilizados para se estudar uma população baseados em amostras probabilísticas desta mesma população. POPULAÇÃO Denomina-se população ou universo estatístico um conjunto formado por elementos portadores de, pelo menos, ma característica em comum ou que satisfazem uma mesma propriedade, sendo objetos de interesse para estudo. Na estatística o termo população é mais abrangente do que o usado na linguagem comum, o qual significa o conjunto dos habitantes de certo lugar. Exemplos de população: o conjunto de funcionários da Empresa Alpha, o conjunto dos alunos de uma escola etc. Quanto ao tipo, as populações podem ser: Finitas: São aquelas populações que apresentam um número limitado de indivíduos. Pode ser feita a contagem exata dos elementos que as compõem Infinitas: Essas normalmente estão associadas a processos em que o número de observações não tem fim. Uma população infinita deverá, portanto, ser concebida apenas como um esquema conceitual e teórico. Na prática, quando uma população é finita com um úmero grande de elementos, considera-se como população infinita. AMOSTRA Entende-se por amostra uma parte ou subconjunto representativo da população que se quer estudar. Considerando-se a possibilidade, na maioria das vez do tratamento de todos os elementos da população, limita-se as observações referente s a uma determinada pesquisa à apenas uma amostra dela. No entanto, é preciso garantir que a amostra possua as mesmas características básicas da população, no que diz respeito ao fenômeno que se deseja inferir. O LEVANTAMENTO ESTATÍSTICO Censo: Um levantamento censitário consiste no levantamento efetuado sobre toda uma população, o que sempre muito difícil. Isso se deve a vários fatores: como o tempo, o custo, entre outros, por isso é um levantamento estatístico pouco utilizado. Amostragem: É o método de trabalho estatístico mais comumente utilizado quando s e quer realizar, por exemplo, uma pesquisa eleitoral. A amostragem consiste numa técnica para recolher amostras, que garante, tanto quanto possível, o acaso na escolha dentre a população, garantindo, portanto, que cada elemento tenha a mesma chance de ser escolhido (caráter de representatividade). Geralmente, é o tipo de levantamento estatístico mais utilizado pelo seu baixo custo e pela praticidade de tempo. AS FASES DO LEVANTAMENTO ESTATÍSTICO Coleta de dados: Após cuidadoso planejamento e a devida determinação das características mesuráveis do fenômeno que se quer pesquisar, inicia-se a coleta de dados numéricos necessários à sua descrição. A coleta pode ser direta ou indireta. A coleta é direta quando os dados são coletados pelo o próprio pesquisador através de inquéritos e questionários, como é o caso das notas de verificação e de exames, do censo demográfico etc. A coleta se diz indireta quando é inferida de elementos conhecidos e / ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, pode se citar a pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por uma coleta direta. Processamento: Fase em que os dados são organizados através de uma classificação ou de uma ordenação para permitir sua análise e apresentação. Poe exemplo, numa pesquisa de intenção de votos, pode-se aproveitar e fazer perguntas acerca da idade, escolaridade, profissão e sexo dos entrevistados. Após uma análise destes dados, pode-se traçar um perfil do eleitor que vota no candidato A, no candidato B, e assim por diante. Interpretação: Fase em que os dados são analisados, previsões anteriores são ou não, novas previsões são efetuadas, dados são confrontados. Nesta fase os dados são analisados e podemos encontrar justificativas para as medidas encontradas. Apresentação ou exposição dos dados: Por diversa que seja a finalidade que se tenha em vista os dados devem ser apresentados sobre formas adequadas (tabelas ou gráficos), tornando mais fácil o exame daquilo que esta sendo o objeto de tratamento estatístico ulterior obtenção de medidas típicas. Análise dos resultados: Finalmente, faz-se uma análise dos resultados obtidos, através dos métodos de estatística indutiva, que tem por base a indução ou inferência, e tira-se desses resultados conclusões e previsões. AMOSTRAGEM: COMPOSIÇÃO DA AMOSTRA Basicamente existem dois métodos para composição da amostra: amostragem não probabilística e amostragem probabilística. Amostragem acidental: Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos. Amostragem intencional: de acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor uma amostra. O investigador se dirigir intencionalmente ao grupo de elementos dos quais deseja saber a opinião. Por exemplo, numa pesquisa sobre o grau de escolaridade dos funcionários da Empresa Alpha o pesquisador se dirige ao grupo em questão. Amostragem por cotas: é um dos métodos de amostragem mais comumente usado em levantamentos de mercado e em prévias eleitorais. Amostragem não probabilística Consiste de amostragens em que ha uma escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não probabilísticas não garantem a representatividade da população. AMOSTRAGEM PROBABILÍSTICA Esse método exige que cada elemento da população possua determinada probabilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Amostragem aleatória simples: Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, pode ser realizado numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, k números dessa seqüência, dos quais corresponderam aos elementos pertencentes à amostra. Quando o número de elementos da amostra é grande, esse tipo de sorteio torna-se muito trabalhoso. A fim de facilitá-lo, foi elaborada uma tabela de números aleatórios, construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso nas linha e colunas. Amostragem estratificada proporcional: muitas vezes a população se divide em estratos ou subpopulações. Como é provável que a variável em estudo apresente, de estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. Este método, além de considerar a existência dos estratos, obten-se os elementos da amostra proporcional ao número de elementos dos mesmos. Amostragem sistemática: quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. Nestes casos a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denomina-se sistemática. Amostragem por conglomerados (ou agrupamento): algumas populações não permitem ou tornam extremamente difícil que se identifiquem seus elementos. Não obstante isso pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) pode ser colhida, e uma contagem completa deve ser feita para o conglomerado sorteado. Agregados típicos são quarteirões, famílias organizações agências etc. Assim, por exemplo, no levantamento da população de ma cidade, podemos dispor do mapa indicando cada quarteirão e não dispor de uma relação atualizada de seus moradores. Pode-se, então colher uma amostra dos quarteirões e fazer a contagem completa de todos os residem naqueles quarteirões sorteados. Variável e Dado Tipos de variáveis Variáveis Quantitativas Quando os dados são de caráter quantitativo, e o conjunto dos resultados possui estrutura numérica. Podem ser Discretas ou Contínuas. - Contínua Característica mensurável em que a escala numérica de seus valores corresponde ao conjunto de números Reais R, ou seja, valores fracionários fazem sentido pois esse tipo de variável pode assumir qualquer valor entre dois limites. Ex.: Peso, altura, tempo, pressão arterial, salário (em salários mínimos) etc. - Discreta (ou descontínua) Pode assumir apenas um número finito ou infinito contável de valores, sendo assim, seus valores são expressos através de números inteiros não negativos. Normalmente o resultado é obtido por contagem. Ex.: Número de filhos, Número de alunos presentes na aula etc. Exemplo retirado da Tabela 1 UNIDADE DE INVESTIGAÇÃO NÚMERO DE FILHOS SALÁRIO (EM SALÁRIOS MINÍMOS) 1 0 1,00 2 2 1,25 3 5 2,00 Nesse exemplo está sendo representado os dois tipos de variáveis explicados anteriormente. A Variável Quantitativa Contínua esta sendo representada pelo salário, enquanto que, a Variável Quantitativa Discreta está sendo representada pelo número de filhos de alguns funcionário da Empresa Alpha. Variáveis Qualitativas (ou categóricas) Seus valores são representados por atributos, representando uma classificação dos indivíduos. Podem sem Nominais ou Ordinais. - Nominal Não existe ordenação dentre os atributos. Ex.: Sexo, cor dos olhos, cor da pele etc. - Ordinal Existe uma ordenação entre as categorias. Ex.: Escolaridade (1°, 2°, 3° graus), mês de coleta (janeiro, fevereiro, março,..., dezembro) etc. Exemplo retirado da Tabela 1 UNIDADE DE INVESTIGAÇÃO GRAU DE INSTRUÇÃO (EM GRAUS) GRAU DE INSTRUÇÃO 16 1° GRAU MÉDIO 18 2° GRAU FUND. 19 3° GRAU SUPERIOR Nesse exemplo foi apresentado o grau de instrução de alguns funcionários da Empresa Alpha. O grau de instrução representado numericamente em graus (2ª coluna) é um tipo de Variável Qualitativa Ordinal, enquanto que, o mesmo tipo de dado, representado categoricamente (3ª coluna) esta classificado como Variável Qualitativa Nominal. Tipos de dados - Dados absolutos São dados estatísticos resultantes da coleta direta da fonte, sem manipulação além a de contagem ou medida. Esse tipo de dado traduz um resultado exato e fiel mas não tem a virtude de ressaltar imediatamente suas conclusões numéricas, ou seja, a leitura dos seus valores é sempre enfadonha. - Dados relativos São obtidos pelo resultado de comparações por quociente que se estabelecem entre os dados absolutos, seu objetivo é o de facilitar as comparações entre quantidades. São representados, em geral, por meio de porcentagens, índices, coeficientes e taxas. A frequência relativa é o quociente entre a frequência absoluta de uma variável e o total de variáveis. Organização e apuração dos dados As séries estatísticas São qualquer tabela que apresente a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. - Série histórica (ou temporal) Este tipo de série é identificado pelo caráter variável do fator cronológico, temporal. O local e a espécie são elementos fixos. - Série geográfica (ou Série de localização) Apresenta como variável o fator geográfico. A época e o fato são elementos fixos. - Série específica (ou categórica) Apresenta como variável apenas a espécie ou fato. Exemplo retirado da Tabela 1 UNIDADE DE INVESTIGAÇÃO LOCAL DE MORADIA 1 ABC 2 CAPITAL 3 GUARULHOS Representação tabular e gráfica dos dados Os dados podem ser apresentados e representados por meio de Tabelas ou por meio de Gráficos. - Tabela Quadro que resume um conjunto de dados dispostos em linhas e colunas. Exemplo retirado da Tabela 1 UNIDADE DE INVESTIGAÇÃO IDADE (EM ANOS) 1 26 2 32 3 36 - Gráficos Representação visual de dados estatísticos que devem corresponder as tabelas. Nesse tipo de representação percebe-se o uso de escalas, sistemas de coordenadas e os dados devem ser mostrados de maneira simples e clara para que não tragam uma falsa idéia. Podem ser classificados em: Diagramas Gráficos dispostos em 2 dimensões. É o tipo de gráfico mais utilizado na representação de séries estatísticas. Podem ser: Gráficos em barras horizontais Gráficos em barras verticais (colunas) Gráficos em linhas Gráficos em setores (pizzas) Gráficos em radar (polar) Gráficos em polígono de freqüência Histogramas Pictogramas São representados por figuras representativas, assim sendo, desperta a atenção do público leigo, pois sua forma é atraente e sugestiva mas mostram apenas uma visão geral do fenômeno e não detalhes minuciosos. Cartogramas Possui ilustrações relativas a cartas geográficas. Tem como objetivo figurar os dados diretamente relacionados com áreas geográficas ou políticas. Estereogramas Gráficos dispostos em 3 dimensões, representa volume. Em alguns casos este tipo de gráfico fica difícil de ser interpretado. Distribuição de Freqüência Dados Brutos Feita a coleta, os dados originais ainda não se encontram prontos para análise, por estarem desordenados. Por essa razão, são chamados de dados brutos. Tomando por exemplo o número de filhos dos funcionários da Empresa Alpha da cidade de São Paulo e anotando-se os resultados em uma tabela da qual constem o número de funcionários em ordem crescente, ninguém garantirá que o número de filhos correspondentes a cada funcionário observarão uma determinada ordem numérica, crescente ou decrescente. Mais provável é que estejam desorganizados, uma vez que a ordem não corresponde necessariamente à ordem de número de funcionários. A tabela é portanto, uma tabela de dados brutos, a que se chegou pela simples coleta, sem qualquer preocupação quanto à sua ordenação. Rol O rol é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Número de filhos dos funcionários da Empresa Alpha da Cidade de São Paulo. 0 0 0 1 1 2 2 2 3 3 0 0 1 1 1 2 2 3 3 4 0 0 1 1 2 2 2 3 3 5 Essa classificação dos dados proporciona algumas vantagens concretas com relação à sua forma original. Ela torna possível visualizar, de forma bem ampla, as variações nos números de filhos, uma vez que os valores extremos são percebidos de imediato. Apesar de o rol propiciar ao analista mais informação e com menos esforço de concentração do que os dados brutos, ainda assim persiste o problema de à analise ter que se basear nas 30 observações individuais. O problema se agravará quando o número de dados for muito grande. Tabela de Freqüências Considere o número de filhos dos funcionários da Empresa Alpha. 0 1 0 0 1 2 0 0 2 3 2 2 1 3 3 3 4 0 3 2 3 2 2 0 1 1 2 3 1 1 Os dados brutos apresentados acima, não informam muita coisa sobre o número de filhos dos funcionários sendo difícil extrair deles muitas conclusões, sem esforço de concentração. Observa-se, entretanto aparecem repetidos, como o 0(zero) por exemplo. Esse fato irá sugerir naturalmente que se condensem todos os resultados em uma tabela, estabelecendo a correspondência entre o valor individual e o respectivo número de vezes que ele foi observado. O número de repetições de um valor ou de uma modalidade em um levantamento qualquer, é chamado freqüência desse valor ou dessa modalidade. Uma tabela de freqüências é uma tabela onde se procura fazer corresponder os valores observados da variável em estudo e as respectivas freqüências. A tabela de freqüências proporciona uma apresentação esteticamente mais vantajosa dos dados facilitando ainda a verificação do comportamento do fenômeno. É possível, por outro lado, com a utilização de uma tabela de freqüências, a obtenção de estatísticas (medidas) com menos cálculo e conseqüentemente, em menos tempo do que se esse trabalho fosse realizado a partir dos dados brutos. As tabelas de freqüências podem representar tanto valores individuais como valores agrupados em classes. Para se construir uma distribuição de freqüências é comum fazer a distinção entre dois tipos de variáveis. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em distribuição por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. Distribuição por ponto ou valores Considere um conjunto de valores resultados de uma contagem. Por exemplo, o número filhos dos funcionários da Empresa Alpha. 0 1 0 0 1 2 0 0 2 3 2 2 1 3 3 3 4 0 3 2 3 2 2 0 1 1 2 3 1 1 Esta coleção de valores não constitui informação mas pode transformada em informação mediante sua representação em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados(os pontos ou valores) e a coluna da direita pelo número de vezes que cada valor se repetiu(as freqüências simples ou absolutas). Para o exemplo, na tabela 1.1 tem-se: Tabela 1.1 Número de filhos dos funcionários da Empresa Alpha da Cidade de São Paulo -2001 Número de filhos (xi) Número de funcionários (fi) 0 1 2 3 4 5 7 7 8 6 1 1 6 fi = 30 i=1 Distribuição Por Classes ou intervalos Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de freqüências, onde os valores observados não mais aparecerão individualmente, mas agrupados classes. Quando a variável objeto de estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for mito grande, recomenda-se o agrupamento dos dados em classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como: Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados. Aparecimento de diversos valores da variável com freqüência nula. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno com um todo, bem como de sua variação. Considere-se um conjunto de valores resultados de uma medida. Por exemplo, a idade dos funcionários da Empresa Alpha: Idade (em anos) dos funcionários da Empresa Alpha 26 20 41 23 37 39 25 34 32 29 32 40 43 33 44 31 37 41 35 40 36 28 34 27 30 39 30 26 46 35 Este conjunto de valores, obviamente não pode ser representado da mesma forma que o anterior, pois quase não há repetições. Neste caso é necessário construir uma tabela denominada "distribuição de freqüências por classes ou intervalos". O procedimento para construir esta distribuição envolve os seguintes passos. Determinar a amplitude dos dados: h= xmax – xmin. Decidir sobre o número e classes "k" a ser utilizado. Recomenda-se um número de classes entre 5 e 15. Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados "h" pelo número de classes "k", arredondando para mais, ou seja, hi = h/k Contar o número de valores pertencentes a cada classe. O símbolo Um exemplo de uma distribuição por classes ou intervalos é apresentado na tabela abaixo. Tabela 1.2 Idade dos funcionários da Empresa Alpha Idades Número de funcionários (fi) 2630 3034 3438 3842 4246 5 6 6 7 2 5 fi = 26 i=1 Elementos de uma distribuição de freqüência Para construir uma tabela de freqüências, e necessário conhecer alguns termos próprios e de uso corrente, bem como o procedimento técnico mais adequado. Esses termos serão listados a seguir. Freqüência Simples Absoluta Símbolo: fi A freqüência simples absoluta é o número de repetições de um valor individual ou de uma classe de valores da variável. Trata-se do caso visto até o presente. A soma das frequências simples absolutas em uma tabela é chamada freqüência total e corresponde ao número total de observações. Freqüência Simples Relativa ou percentual Símbolo: fri A freqüência simples relativa representa a proporção de observação de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo. Amplitude Total : At A amplitude total ou intervalo total é a diferença entre o maior e o menor valor observado da variável em estudo. Se, por exemplo, a idade mais elevada dos funcionários é 46 e a menor é 20, a amplitude total do conjunto de valores observados seria: At : 46 - 20 = 26 Ponto médio da classe: Como não é possível trabalhar com classes é necessário escolher um representante da classe. Este representante é denominado de ponto médio da classe. É representado por xi e calculado por: xi = (li + lsi)/2 ou então xi = lii + hi/2 Classe Classe de freqüências, ou simplesmente, classe, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice i). Na tabela 1.2 Classe 2630 ou primeira classe (i = 1) Classe 38 42 ou quarta classe (i = 4) É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação se poderá extrair da tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüências nula ou muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno com um todo. Para determinar o número de classes há diversos métodos. A regra de Sturges, um dos métodos, estabelece que o número de classes é igual a: K = 1 + 3,3 log10 n K = número de classes n = número total de observações Exemplo: Se o número de observações for 50: K = 1 + 3,3 log 50 K= 1 + (3,3 x 1,69897) = 1 + 5,606601 = 6,606601 K 7 Esse exemplo revela um dos inconvenientes resultantes da aplicação da fórmula de Sturges, que é o de propor um número demasiado de classes para um número pequeno de observações e relativamente poucas classes, quando o total de observações for grande. Um outro método para determinar o número de classes é usar a raiz quadrada do número de valores como o número de classes, ou seja, k n. Limites de Classe Limite inferior da classe "i". Anota-se por lii Na Tabela 1.2 o limite inferior da terceira classe é 42. Limite superior da classe "i". Anota-se por lsi. Na tabela 1.2 o limite superior da terceira classe é 38. Tipos de freqüências Freqüência Simples Freqüência Simples Absoluta Símbolo: fi A freqüência simples absoluta é o número de repetições de um valor individual ou de uma classe de valores da variável. Trata-se do caso visto até o presente. A soma das frequências simples absolutas em uma tabela é chamada freqüência total e corresponde ao número total de observações. k Σ fi = n i=1 Considerem-se os exemplos dados pelas Tabelas 1.1e 1.2. Na Tabela 1.1 a freqüência simples absoluta do valor zero é 7, indicando que esse número aparece sete vezes no levantamento efetuado. Há, portanto sete funcionários sem filhos. Na Tabela 1.2, a freqüência simples absoluta da quarta classe é 7. Há, sete funcionários cujas idades se situam no intervalo compreendido pelas idades de 38, inclusive, a 42, exclusive. Freqüência Simples Relativa ou percentual Símbolo: fri A freqüência simples relativa representa a proporção de observação de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da classe ou do valor individua pelo número total de observações. Simbolicamente, Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100. Observando essa última expressão, vê-se claramente que a freqüências é sempre igual a 1,00 ou 100%. Considere-se o exemplo da tabela 1.3. Como ali observa, a freqüência simples relativa do valor 2 Tabela 1.3 Número de filhos dos funcionários da Empresa Alpha da Cidade de São Paulo. (xi) (fi) fri Frequências relativas percentuais 0 1 2 3 4 5 7 7 8 6 1 1 7/30 = 0.23 7/30 = 0.23 8/30 = 0.27 6/30 = 0.20 1/30 = 0.03 1/30 = 0.03 23% 23% 27% 20% 3% 3% 6 Σ fi = 30 i=1 6 Σ fri = 30/30 = 1,00 i=1 6 Σ fri = 100% i=1 Frequências Acumuladas Freqüência Absoluta Acumulada Símbolo: Fi A freqüência absoluta acumulada de uma classe ou de um valor individual é a soma da freqüência simples absoluta dessa classe ou desse valor com as frequências simples absolutas das classes ou dos valores anteriores. Considerem-se os exemplos das Tabela 1.4 e 1.5 Tabela 1.4 Número de filhos dos funcionários da Empresa Alpha. xi fi Fi 0 1 2 3 4 5 7 7 8 6 1 1 7 14 22 28 29 30 i=16fi=30 Tabela 1.5 Idade dos funcionários da Empresa Alpha Idades fi Fi 2630 3034 3438 3842 4246 5 6 6 7 2 5 11 17 24 26 5 Σ fi = 26 i=1 No caso da Tabela 1.5, F3 = 17, por exemplo, indica que houve 17 funcionários com idades iguais ou inferiores a 38. Frequência Relativa Acumulada Símbolo: Fri A freqüência relativa acumulada da classe ou do valor individual i é igual à soma da frequências simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes ou dos valores anteriores. A obtenção das frequências relativas acumuladas pode ser feita de duas formas: Acumulando as frequências simples relativas de acordo com a definição de frequências acumuladas. Calculando as frequências relativas diretamente a partir das frequências absolutas, de acordo com a definição de frequências relativas: Fri= Fin Considerem-se os exemplos das Tabelas 1.6 e 1.7. Tabela 1.6 Número de filhos dos funcionários da Empresa Alpha . xi fi fri(%) Fi De acordo com item (a) De acordo com item (b) Fri(%) Fri 0 1 2 3 4 5 7 7 8 6 1 1 23 23 27 20 3 3 7 14 22 28 29 30 0 + 23 = 23 23 + 23 = 46 46 +27 = 73 73 + 20 = 93 93 + 3 = 96 96 + 3 = 99 7/30 = 0.23 ou 23% 14/30 = 0.57 ou 57% 27/30 = 0.9 ou 90% 20/30 = 0.67 ou 67% 3/30 = 0.1 ou 10% 3/30 = 0.1 ou 10% 30 100 Tabela 1.7 Idade dos funcionários da Empresa Alpha Idades fi fri(%) Fi De acordo com item (a) De acordo com item (b) Fri (%) Fri 2630 3034 3438 3842 4246 5 6 6 7 2 19,23 23,1 23,1 26,7 7,7 5 11 17 24 26 19,23 42,3 42,3 27 7,7 5/26= 0,19 ou 19% 11/26= 0,42 ou 42% 17/26=0,65 ou 65% 24/26=0,92 ou 92% 26/26= 1,00 ou 100% 26 100 Considerem-se os exemplos das Tabelas 1.4 e 1.5. Na Tabela 1.6, Fr3 = 0.9, por exemplo, indica que noventa por cento dos funcionários têm dois filhos. Na Tabela 1.7, Fr2 = 0,42 indica que quarenta e dois por cento dos funcionários têm idades iguais ou inferiores a 34. Representação Gráfica A representação gráfica é um complemento importante de apresentação tabular. A principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuição dos valores observados. Propiciam os gráfico uma idéia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. Por outro lado, os fatos essenciais e as relações que poderiam ser difíceis de reconhecer em massas de dados estatísticos podem ser observados mais claramente através dos gráficos. Gráficos para Variáveis Qualitativas Gráfico de barras É um gráfico formado Por retângulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo. É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando desse modo,a não continuidade na seqüência dos dados. O objetivo desse gráfico é de comparar grandezas e é recomendável para variáveis cujas categorias tenham designações extensas. O gráfico abaixo, em barras, representa o grau de instrução de 11 funcionários da Empresa Alpha, conforme a idade de cada um. Figura0.1 Gráfico de colunas É o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico d e barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as designações das categorias são breves. Também para este tipo de gráfico deve ser preservada a distancia entre cada retângulo, de aproximadamente, 2/3 da largura da base de cada coluna. O número de colunas ou barras do gráficos não deve superior a doze(12). Figura 0.2 Ao se descrever simultaneamente duas ou mais categorias para uma variável, é conveniente fazer uso dos gráficos de barras ou colunas justapostas (ou sobrepostas) chamamos de gráficos comparativos. Este tipo de gráfico só deve ser utilizado quando apresentar até três elementos para uma série de no máximo quatro valores. Figura 0.3 Gráfico de setores Tipo de gráfico onde a favorável em estudo é projetada num círculo ,de raio arbitrário, dividido em setores com áreas proporcionais às freqüências das suas categorias. São indicados quando se deseja comparar cada valor o total. Recomenda-se uso para o caso em que o número de categorias não é grande e não obedecem a alguma ordem específica. A figura abaixo mostra um gráfico de setores para a variável local de moradia dos funcionários da Empresa Alpha. O procedimento para o cálculo do ângulo correspondente a cada categoria é feito por meio de simples proporções: 360° que correspondem ao círculo completo está para o total de funcionários, 30, assim com x° está para o total de funcionários que pertencem à categoria desejada. Por exemplo, os 54% dos funcionários que moram na capital corresponderá a um ângulo x resultante da expressão 360°22 =x°12 , cujo valor é aproximadamente 196°. Figura 0.4 – Local de moradia dos funcionários da Empresa Alpha da Cidade de São Paulo – 2001. Gráficos para Variáveis Qualitativas Contínuas Histograma É a representação gráfica através de retângulos adjacentes onde a base colocada no eixo das abscissas corresponde aos intervalos das classes, e a altura é dada pela freqüência absoluta das classes. Exemplo: De acordo com a tabela 1.9 Figura 0.5 Polígono de Freqüência É a representação gráfica de uma distribuição de freqüências por meio de um polígono, onde os pontos por perpendiculares traçadas a partir dos pontos médios das classes, e de altura proporcional à freqüência de cada uma das classes. No caso de freqüência acumulada, os segmentos perpendiculares são traçados a partir dos limites da classe. Em ambos os casos, o primeiro e o último pontos são colocados de modo a manter a proporcionalidade do gráfico. Figura 0.6 Medidas de tendência central A média Aritmética A média aritmética de uma distribuição de frequências por pontos ou valores ainda por classes ou intervalos é dada por: = (f1x1+ f2x2 +...+fnxn) / (f1 + f2 +...+fn) = fixin Assim, por exemplo: Tabela1.9 –Cálculo da média de uma distribuição por pontos ou valores Número de filhos (xi) Número de funcionários (fi) fixi 0 1 2 3 4 5 7 7 8 6 1 1 0 1 16 18 4 5 i=16fi=30 i=16fixin=1,47 Ou seja, o número médio de filhos dos funcionários da Empresa Alpha é 1,47. Já para a Tabela 1.7 é necessário primeiro obter os valores dos pontos médios de cada classe ou intervalo. Fazendo os cálculos na Tabela 1.7, vem: Tabela 1.10- Cálculo da média de uma distribuição por classes Idades Número de funcionários (fi) xi fixi 2630 3034 34 38 3842 4246 5 6 6 7 2 28 32 36 40 44 140 192 216 280 88 i=15fi=26 i=15fixi=916 Deste modo a média das idades será: i=15fixin=91626=35,2 anos Moda A moda de uma distribuição de valores ou pontos é obtida da mesma forma que para dados não agrupados, ou seja, observando o valor que mais se repetem.Tomando como exemplo os valores da Tabela 1.1 a moda é: mo = 2, pois este valor com uma freqüência de 8 é o que mais se repete. A moda de uma distribuição de frequências por classes ou intervalos é dada pelas seguintes expressões: mo = lii + hi [fi +1fi–1 + fi+1], denominada de moda de King, ou mo = lii + hi [fi – fi-1 2fi – fi -1 – fi +1], denominada da moda de Kzuber, onde: lii = limite inferior da classe modal, isto é, a classe de maior freqüência; hi = amplitude da classe modal; fi = freqüência simples da classe modal; fi-1 = freqüência simples da classe anterior à classe modal; fi +1 = freqüência simples da classe superior à classe modal. Considerando por exemplo que a classe de maior freqüência, a classe modal, Tabela 1.2, é a quarta vem: mo = li4 + h4[f2/f2] = 38 + 4 = 42 anos. mo = li4 + h4[f4/2f4 – f2] = 38 + 4[7 / (14 – 6) ] = 38 + 3,5 = 41,5 anos. Mediana Construído o Rol, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado: 1ª Situação: Dados não agrupados Sejam os elementos x1, x2, x3,...,xn de uma amostra, portanto "n" valores da variável x. A mediana da variável aleatória de x é definida por, Se n for par, então o valor da mediana será a média das duas observações adjacentes à posição n+12. Se for ímpar, então o valor da mediana será o valor localizado na posição n+12 Exemplo: Suponha o número de filhos dos funcionários da Empresa Alpha: 0, 1, 3, 4, 5. Determinar a mediana deste conjunto de dados. Como n = 5, então o valor da mediana estará localizado na posição 5+12 = 3. Portanto, Md= 3 2ª Situação: Dados agrupados em uma distribuição de freqüência por valores simples. Quando os dados estiverem agrupados numa distribuição de freqüência identificaremos a mediana dos valores x1, x2, x3,...xn pela posição da mediana POS(md) = n2 através da freqüência absoluta acumulada Fi: Tomemos com exemplo a tabela abaixo: Tabela 1.11 xi fi Fi Fac 0 1 2 3 4 5 7 7 8 6 1 1 7 14 22 28 29 30 7 21 43 71 100 130 i=16fi=30 POS(Md) = 302 = 15 Md = 2 3ª Situação: Dados agrupados em uma distribuição de freqüência por classes Procedimento: Calcula-se a posição da mediana: Md = n2 Pela Fac identifica-se a classe que contém o valor da mediana – CLASSE (Md) Utiliza-se a fórmula: Md = li + Md-facFi. h Onde: li = Limite inferior da classe mediana n = Tamanho da amostra ou número de elementos Fac = Freqüência acumulada anterior à classe mediana h = Amplitude da classe mediana Fi = Freqüência absoluta simples da classe mediana Considere a tabela abaixo: Tabela 1.12 Idades fi Fi Fac 2630 3034 3438 3842 4246 5 6 6 7 2 5 11 17 24 26 5 16 33 57 83 5 Σ fi = 26 i=1 POS(Md) = 832 = 41,5 CLASSE(Md) = 3842 3. Md = 38 + 41,5-3324 . 10 = 38 + 3,5 = 41,5 Quartis Um quartil divide um conjunto de dados em quatro partes iguais.Assim: Onde: Q1 = 1º quartil, deixa 25% dos elementos. Q2 = 2° quartil, coincide coma a mediana, deixa 50% dos elementos. Q3 = 3° quartil, deixa 75% dos elementos. Procedimento: Calcula-se a posição do quartil: POS(Qi) = n4 . i , onde i = 1, 2, 3 Pela Fac identifica-se classe que contém o valor do quartil – CLASSE(Qi) Utiliza-se a fórmula: Qi = li + POSQi- Fac Fi.h Tomemos como exemplo a tabela 1.9 para calcular o primeiro quartil: POS(Qi) = 834.1 = 20,75 CLASSE(Qi) = 3438 Qi = 34+ 20,75+1611.10 = 55,62 Decis São valores que dividem a série em dez partes. Procedimento: Calcula-se a posição da medida: POS(Di) = n10.1 onde, 1,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 Pela Fac identifica-se a classe que contém o valor do decil – CLASSE(Di) 3 Utiliza-se a fórmula: Di = li + POSDi- Fac Fi.h Tomemos com exemplo a tabela 1.9, Portanto, POS(Di) = 8310.1 = 8,3 CLASSE(Di) = 3034 Di = 30+ 8,3+517.10 = 37,8 Percentis São medidas que dividem a amostra em 100 partes iguais. A fórmula será: Procedimento: 1. Calcula-se a posição da medida: POS(Pi) = n100.1 onde, 1,2 ,3..., 98, 99 2. Pela Fac identifica-se a classe que contém o valor do percentil – CLASSE(Pi) 3. Utiliza-se a fórmula: Pi = li + POSPi- Fac Fi.h Por exemplo. Observe os dados da tabela 1.9 POS(P23) = 83100.23 = 19,09 2. CLASSE(P23) = 3438 3. P23 = 34+ 19,09+1617 = 36,06 MEDIDAS DE DISPERSÃO São medidas utilizadas para mensurar o quanto variam os valores em torno da média e, também, medem a representatividade da média. Ex.: Montando-se um grupo com os dez primeiros elementos da tabela dada como referência, e considerando-se suas respectivas idades, tem-se: IDADE 26 32 36 20 40 28 41 43 34 23 DISPERSÃO 6,3 0,3 3,7 12,3 7,7 4,3 8,7 10,7 1,7 9,3 A média das idades, considerando-se este grupo de funcionários da Empresa Alpha que foram submetidos à pesquisa é: μ=32310=32,3 dispersão _____________Ꞌ_____________ xi 32,3 Os valores da Dispersão encontram-se abaixo dos valores que representam as idades. Cada valor, portanto, representa a distância que cada idade se encontra da média. Medidas de Dispersão Absoluta Amplitude Total: A diferença entre o maior valor de uma série e o menor valor de tal série é denominada Amplitude Total. h = Xmáx. – Xmín. Ex.: Com a tabela que serve de base para a exemplificação dos conceitos em mãos, calcular a amplitude total do conjunto de valores que representam os salários (em mínimos) dos 30 funcionários que participaram da pesquisa: h = 9,2 – 1,00 = 8,20 Desvio Médio Absoluto: É uma medida de dispersão mais utilizada, pois, ao contrário da amplitude, faz uso de todas as informações que estão disponíveis. Daí tem-se que, em um conjunto de valores, a média das distâncias que os mesmos encontram-se da média constitui o dma. dma= xi - xn Ex.: Calcular o dma do conjunto que representa as idades dos funcionários da classe 10 à classe 20. Resolução: primeiro, efetua-se o cálculo da média: x=23+33+27+37+44+30+39+31+39+25+3711=33,2 dma=60,211=5,5 Ou, para distribuição de freqüência: NÚMERO DE FILHOS NÚMERO DE FUNCIONÁRIOS fixi fixi-x 0 7 0 70-1,67=11,69 1 7 7 71-1,67=4,69 2 8 16 82-1,67=2,64 3 6 18 63-1,67=7,68 4 1 4 14-1,67=2,33 5 1 5 15,-1,67=3,33 TOTAL 30 50 32,66 dma= fixi-xn=32,6630=1,1 Desvio Quartil: Medida de dispersão calculada pela média da diferença entre os quartis: Dq=Q3-Q12 Ex.: Calcular o Dq dos funcionários da Empresa Alpha: Resolução: primeiro calcula-se os quartis: Q3=3134=23,25 Q1=3114=7,75 Calculando-se o Dq: Dq=8,25-2,752=2,75 Variância: É caracterizada como sendo, em relação à média aritmética, a média dos quadrados dos desvios. s2= fixin- x2 Ex.: Arranjando-se as idades dos funcionários em uma distribuição por intervalos: A=46-20=26 K 30=5,5 h 265,5 5 Fazendo-se com h = 6, vem: i CLASSE N° DE FUNCIONÁRIOS xi fixi fixi2 1 20 26 3 23 69 1587 2 26 32 8 29 232 6728 3 32 38 10 35 350 12250 4 38 44 7 41 287 11767 5 44 50 2 47 94 4418 _ TOTAL 30 _ 1032 36750 Faz-se necessário o cálculo da média, então: x= fixin=103230=34,4 Portanto, a variância será: s2=3675030-(34,4)2=1225-1183=42 Desvio Padrão: Este tipo de medida de dispersão é obtido através do resultado da raiz quadrada da variância. s=s2=6,5 Medidas de Dispersão Relativa Coeficiente de Variação de Pearson: É obtido através do resultado da divisão entre o desvio padrão e a média, multiplicado por mil. CVP=sx Se CV < 15% há baixa dispersão Se 15% CV < 30% há média dispersão Se CV 30% há elevada dispersão Ex.: Calcular a dispersão relativa (CVP) dos salários dos funcionários da Empresa Alpha que residem na capital e na região do ABC. Qual apresenta maior dispersão relativa? Resolução: Residentes na capital Efetuando-se o cálculo da média, da variância e do desvio padrão, vem: x=62,4311=5,7 s2=59,70311=5,43 s=5,43=2,33 Logo, o CVP será: CVP=2,335,7×100=40,9% Residentes na região do ABC: x=55,0810=5,5 s2=53,3910=5,33 s=5,33=2,31 Portanto, o CVP será: CVP=2,315,5×100=42% Os salários dos residentes no ABC apresentam maior dispersão relativa e, ambos os grupos têm elevada dispersão (CV 30%). Coeficiente de Variação de Thorndike: É representado pela razão entre o desvio padrão e a madiana. CVT=smd×100 Ex.: Calcular o CVT dos salários dos funcionários da Empresa Alpha que possuem o ensino fundamental e os que possuem o ensino médio. Resolução: Os funcionários que possuem o ensino fundamental: x=29,37=4,2 s2=19,217=2,7 s=2,7=1,6 Faz-se necessário o cálculo da mediana dados os valores: 1,25 3,33 3,45 4,30 4,57 5,50 6,90 md=X(n+1) 2 Logo, a mediana é o valor de X4: md = 4,30 CVT=1,64,30×100=37,2% Os funcionários que possuem o ensino médio: x=44,468=5,5 s2=26,348=3,3 s=3,3=1,8 md=Xn2+Xn2+12 md=4,80+5,302=5,05 CVT=1,85,05×100=35,6% Coeficiente Quartílico de Variação: Simbolizado por CVQ pode ser definido como a razão entre a subtração dos quartis e a soma dos mesmos multiplicado por 100. CVq=Q3-Q1Q3-Q1×100 Ex.: Calcular o CVQ tendo como referência os 30 funcionários da Empresa Alpha que se encontram na tabela. Faz-se necessário o cálculo do primeiro e do terceiro quartil: Q3=3134=23,25 Q1=3114=7,75 Logo, o CVQ deve ser: CVQ=23,25-7,7523,25+7,75×100=50% Desvio Quartil Reduzido: Medida de dispersão relativa que resulta da divisão entre o desvio quartil reduzido e a mediana. Dqr=Q3-Q12md×100 Ex.: Calcular o desvio quartil reduzido com base em um grupo formado pelos dez últimos elementos da tabela e levar em consideração os seus salários. Resolução: 6,50 6,80 6,90 7,35 7,40 7,77 8,20 8,50 9,00 9,20 Faz-se necessário os cálculos da mediana e dos quartis: md=X102+X102+12 md=7,40+7,772=7,585 Q3=1134=8,25 Q1=1114=2,75 Logo, o Dqr deve ser: Dqr=8,25-2,7527,585×100=36,25% MEDIDAS DE ASSIMETRIA Ao nível de afastamento, da unidade de simetria, de uma distribuição dá-se o nome de Assimetria. Para uma distribuição simétrica, existe uma igualdade da média, moda e mediana no que se refere aos valores. Ex.: Na tabela abaixo, tem-se os salários (em mínimos) de dez funcionários da Empresa Alpha. SALÁRIOS 6,50 6,80 6,90 7,35 7,40 7,77 8,20 8,50 9,00 9,20 x=77,6210=7,762 O conjunto não possui moda, logo: mo = 0. A mediana será: md=X102+X102+12=7,585 s2=7,810=0,78 s=0,78=0,88 Relação de Karl Pearson: a1=3x-mes=37,762-7,5850,88=0,60 Para a1 = 0, conjunto simétrico. Para a1 > 0, assimetria positiva (direita). Para a1 < 0, assimetria (negativa). Como no exemplo a1 > 0, a assimetria é positiva, logo, a "cauda" do gráfico é alongada à direita. MEDIDAS DE CURTOSE Ao nível de achatamento de uma curva, com relação a uma distribuição padrão (de curva normal) dá-se o nome de Curtose. A fórmula para curtose é dada a seguir: C=Q3-Q12P90-P10 Para uma curva normal, C = 0,263, sendo então denominada Mesocúrtica. Ex.: Considerando-se o grupo formado pelos trinta elementos da tabela e levando em conta suas idades tem-se: Efetuando-se os cálculos dos quartis e percentis, respectivamente: Q1=3114=7,75 Q3=3134=23,25 P10=3110100=3,1 P90=3190100=27,9 Logo, o grau de curtose será: C=23,25-7,752(27,9-3,1)=0,3125 Como C > 0,263 a curva deve ser platicúrtica. Caso C < 0,263 ter-se-ia uma curva leptocúrtica. COVARIÂNCIA À medida de associação que relaciona duas variáveis distintas dá-se o nome de covariância. Para dados populacionais tem-se a seguinte fórmula: Ϭxy = XiYin - Xi Yin2 Para dados amostrais tem-se a seguinte fórmula: sxy = XiYin-1 - Xi Yin(n-1) Ex.: calcular a covariância existente entre os funcionários que possuem apenas o ensino fundamental incompleto os que possuem o ensino superior completo, levando-se em consideração os salários que tais empregados ganham, ou seja, como varia o grau de escolaridade de acordo com o grau de instrução. Resolução: montando-se uma tabela e chamando os salários dos funcionários que possuem o ensino fundamental incompleto de y e os que possuem o superior completo de x, tem-se: y x 1,00 5,75 2,00 7,35 2,77 8,50 3,67 9,20 sxy = 30,8 – 9,443 – 290,712 = -17,105 CORRELAÇÃO A Correlação verifica o grau de relação que há entre duas variáveis aleatórias através da avaliação de medidas: se P = 0 não há correlação; se P > 0 a correlação é positiva; se P < 0 a correlação é negativa. A correlação tem como fórmula: Pxy=n xiyi- xi yin xi2- xi2-[n y2-( yi)2] Ex.: Dado o exemplo para o cálculo da covariância, calcular, agora, a correlação. Resolução: montando-se uma tabela onde y corresponde aos salários dos funcionários que possuem o ensino fundamental incompleto e x aos que possuem o ensino superior completo, tem-se: y x x2 y2 x.y 1,00 5,75 33,1 1,00 5,75 2,00 7,35 54,0 4,00 14,7 2,77 8,50 72,3 7,7 23,5 3,67 9,20 13,4 13,5 33,8 Regressão Linear Consiste em uma medida que faz relação duas variáveis existentes, ou seja, estuda uma variável em função de outra. Ŷ = aX + b , onde a = n XiYi- Xi Yin x2i- ( xi)2) e b = ȳ - ax P 0,6 Pxy = ϬxyϬx.Ϭy Referências Bibliográficas 1 – DONAIRE, Denis, MARTINS, Gilberto de Andrade. Princípios de Estatística. 4ª ed, São Paulo: Editora Atlas .1979 2 – MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. 3ª edição. São Paulo: Atlas – 2008 3 – TOLEDO, Luciano Geraldo, OVALLE, Ivo Izidoro. Estatística Básica. 2ª ed., São Paulo: Atlas, 2008. N º de funcionários