Preview only show first 10 pages with watermark. For full document please download

Apostila Estatistica - Uepa

Apostila destinada a alunos do curso de matemática, elaborada por professoras da Universidade do Estado do Para - UEPA

   EMBED


Share

Transcript

UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS SOCIAIS E EDUCAÇÃO DEPARTAMENTO DE MATEMÁTICA, ESTATÍSTICA E INFORMÁTICA. LICENCIATURA PLENA EM MATEMÁTICA DISCIPLINA: Estatística Prof. Esp. Mauro Sérgio Santos de Oliveira UNIDADE I – CONCEITOS PRELIMINARES 1.1 – Conceitos Fundamentais 1.2 – Divisão da Estatística 1.3 – População 1.4 – Amostra 1.5 – Censo 1.6 – Variável 1.7 – Parâmetros 1.8 – Estimativas 1.9 – Atributo 1.10 - Amostragem UNIDADE II – METOLOGIA DA PESQUISA 2.1 – Definição dos Objetivos 2.2 – Planejamento 2.3 – Coleta ou levantamento dos dados 2.4 – Apuração dos Dados ou sumarização 2.5 – Apresentação dos dados 2.6 – Análise e interpretação dos dados UNIDADE III – REPRESENTAÇAO TABULAR 3.1 – Representação Esquemática 3.2 – Elementos de uma Tabela 3.3 – Séries Estatísticas 3.4 – Distribuição de Frequência UNIDADE IV – ESTATÍSTICA GRÁFICA 4.1 – Gráfico de Linhas 4.2 – Gráficos de colunas ou barras 4.3 – Gráfico Circulares ou de Setores (Pie Charts) 4.4 – Gráfico Pictorial – Pictograma 4.5 – Gráfico Polar 4.6 – Gráfico Cartograma 4.7 – Gráficos Utilizados Para a Análise de uma Distribuição de Freqüência UNIDADE V – MEDIDAS DE POSIÇÃO 5.1 – Medidas de Tendência Central 5.2 – Medidas Separatrizes 5.3 – Gráfico Circulares ou de Setores (Pie Charts) 5.4 – Gráfico Pictorial – Pictograma UNIDADE VI : MEDIDAS DE DISPERSÃO 6.1 – Amplitude Total 6.2 – Amplitude Interqualítica e Semi-Interqualítica 6.3 – Desvio Médio 6.4 – Variância e Desvio Padrão 6.5 – Coeficiente de Variação UNIDADE VII : MOMENTO, ASSIMETRIA, CURTOSE 7.1 – Momento 7.2 – Assimetria 7.3 – Curtose UNIDADE I : CONCEITOS PRELIMINARES 1.1 CONCEITOS FUNDAMENTAIS A Estatística pode ser encarada como uma ciência ou como um método de estudo. Duas concepções para a palavra ESTATÍSTICA: a) no plural (estatísticas), indica qualquer coleção consistente de dados numéricos, reunidos com a finalidade de fornecer informações acerca de uma atividade qualquer. Por exemplo, as características demográficas referem-se aos dados numéricos sobre nascimento, falecimento, matrimônios, desquites, etc. b) no singular (estatística), indica um corpo de técnicas, ou ainda uma metodologia técnica desenvolvida para a coleta, a classificação, a apresentação, a análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões. Qualquer ciência experimental não pode prescindir das técnicas proporcionadas pela Estatística, como por exemplo, a Física, a Biologia, a Administração, a Economia, etc.. Todos esses ramos de atividade profissional tem necessidade de um instrumental que se preocupa com o tratamento quantitativo dos fenômenos de massa ou coletivos, cuja mensuração e análise requerem um conjunto de observações de fenômeno ou particulares. OBSERVAÇÃO: USOS E ABUSOS DA ESTATÍSTICA a) USOS DA ESTATÍSTICA As aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo o campo de estudo se beneficia da utilização de métodos estatísticos. Os fabricantes fornecem melhores produtos a custos menores através de técnicas de controle de qualidade. Controlam-se doenças com o auxilia de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação de tamanho da população. Visando reduzir as taxas de casos fatais, os legisladores têm melhor justificativas para as leis como as que regem a poluição atmosférica, inspeções de automóveis, utilização de cinto de segurança, etc. b) ABUSOS DA ESTATÍSTICA Não é de hoje que ocorrem abusos com a estatística. Assim é que, há cerca de um século, o estadista Benjamin Disraeli disse: " Há três tipos de mentiras: as mentiras, as mentiras sérias e as estatísticas". Já se disse também que "os números não mentem; mas os mentirosos forjam os números" (Figures don't lie; liars figure) e que se torturarmos os dados por bastante tempo, eles acabam por admitir qualquer coisa". O historiador Andrew Lang disse que algumas pessoas usam a estatística "como um bêbado utiliza um poste de iluminação – para servir de apoio e não para iluminar". Todas essas afirmações se referem aos abusos da estatística quando os dados são apresentados de forma enganosa. Eis alguns exemplos das diversas maneiras como os dados podem ser distorcidos. DEFINIÇÃO DE ESTATÍSTICA Estatística é a ciência que se preocupa com a coleta, a organização, descrição (apresentação), análise e interpretação de dados experimentais e tem como objetivo fundamental o estudo de uma população. Este estudo pode ser feito de duas maneiras: Investigando todos os elementos da população ou Por amostragem, ou seja, selecionando alguns elementos da população 1.2 DIVISÃO DA ESTATÍSTICA Estatística Descritiva: é aquela que se preocupa com a coleta, organização, classificação, apresentação, interpretação e analise de dados referentes ao fenômeno através de gráficos e tabelas além de calcular medidas que permita descrever o fenômeno. A estatística descritiva pode ser resumida no diagrama a seguir: Estatística Indutiva (Amostral ou Inferencial): é aquela que partido de uma amostra, estabelece hipóteses, tira conclusões sobre a população de origem e que formula previsões fundamentando-se na teoria das probabilidades. A estatística indutiva cuida da análise e interpretação dos dados. O processo de generalização do método indutivo está associado a uma margem de incerteza. Isto se deve ao fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados quanto a determinadas características comuns baseia-se em uma parcela do total de observações. População? Envolve: Estimação Teste de Hipótese Propósito: Tomar decisões sobre as Características da população Estimativas População e Testes Estatística Amostral Amostra 1.3 POPULAÇÃO É o conjunto, finito ou infinito, de indivíduos ou objetos que apresentam em comum determinadas características definidas, cujo comportamento interessa analisar. A população é estudada em termos de observações de características nos indivíduos (animados ou inanimados) que sejam relevantes para o estudo, e não em termos de pessoas ou objetos em si. O objetivo é tirar conclusões sobre o fenômeno em estudo, a partir dos dados observados. Como em qualquer estudo estatístico temos em mente estudar uma ou mais características dos elementos de uma população, é importante definir bem essas características de interesse para que seja delimitado os elementos que pertencem à população e quais os que não pertencem. Exemplos: 1. Estudar os filhos tidos, tipo de moradia, condições de trabalho, tipo de sanitário. Números de quartos para dormir, estado civil, uso da terra, tempo de trabalho, local de nascimento, tipo de cultivo, etc., dos agricultores do Estado do Amazonas. População: Todos os agricultores (proprietários de terra ou não) plantadores das culturas existentes no Estado do Amazonas. 2. Estudar a precipitação pluviométrica anual (em mm) na cidade de Manaus. População: Conjunto das informações coletadas pela Estação Pluviométrica, durante o ano. 3. As alturas dos cidadãos do Amazonas constituem uma população ou a população dos pesos desses cidadãos. População Amostragem Dados Estatística Descritiva Estatística Inferencial (Probabilidade) Divisão Da População - População Finita: apresenta um número limitado de elementos. É possível enumerar todos os elementos componentes. Exemplos: 1. Idade dos universitários do Estado do Pará. População: Todos os universitários do Estado do Pará. - População Infinita: apresenta um número ilimitado de elementos. Não é possível enumerar todos os elementos componentes. Entretanto, tal definição existe apenas no campo teórico, uma vez que, na prática, nunca encontraremos populações com infinitos elementos, mas sim, populações com grande número de componentes; e nessas circunstâncias, tais populações são tratadas como se fossem infinitas. Exemplos: 1. Tipos de bactérias no corpo humano População: Todas as bactérias existentes no corpo humano. 2. Comportamento das formigas de certa área População: Todas as formigas da área em estudo. 1.4 AMOSTRA É uma parte (um subconjunto finito) representativa de uma população selecionada segundo métodos adequados. O objetivo é fazer inferências, tirar conclusões sobre populações com base nos resultados da amostra, para isso é necessário garantir que amostra seja representativa, ou seja, a amostra deve conter as mesmas características básicas da população, no que diz respeito ao fenômeno que desejamos pesquisar. O termo indução é um processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusões sobre a realidade no todo. Ao induzir estamos sujeitos a erros. Entretanto, a Estatística Indutiva, que obtém resultados sobre populações a partir das amostras, diz qual a precisão dos resultados e com que probabilidade se pode confiar nas conclusões obtidas. 1.5 CENSO É o exame completo de toda(ou parte), uma população. Quanto maior a amostra, mais precisa e confiáveis deverão ser a indução feitas sobre a população. Logo, os resultados mais perfeitos são obtidos pelo Censo. Na prática, esta conclusão muitas não acontece: o emprego de amostras, com certo rigor técnico, pode levar resultados mais confiáveis ou até mesmo melhores do que os que seriam obtidos através de um Censo. As razões de se recorrer a amostras são: menor custo e tempo para levantar dados; melhor investigação dos elementos observados. 1.6 VARIÁVEL É, convencionalmente, o conjunto de resultados possíveis de um fenômeno. 1.6.1 TIPOS DE VARIÁVEIS Variável Qualitativa : quando seus valores são expressos por atributos ou qualidade. Exemplos: 1. População: Estudantes universitários do Estado do Pará. Variáveis: sexo, profissão, escolaridade, religião, meio onde vivem (rural, urbano). 2. População: População dos bairros periféricos do município de Belém. Variáveis: tipo de casa, existência de água encanada ( sim, não), bairro de origem. Variáveis qualitativas que não são ordenáveis recebem o nome de nominais. Exemplo: religião, sexo, raça, cor. Raça do AM - 2005 ____________________________ ____________________________ Total Fonte: fictícia Variáveis qualitativas que são ordenáveis recebem o nome de ordinais. Exemplo: nível de instrução, classe social. Classe Social do AM - 2005 ____________________________ ____________________________ Total Fonte: fictícia Variável Quantitativa: Quando seus valores são expressos por números. Esses números podem ser obtidos por um processo de contagem ou medição. Exemplos: 1. População: Todos os agricultores do Estado do Pará. Variáveis: número de filhos tidos, extensão da área plantada, altura, idade. 2. População: População dos bairros periféricos do município de Belém Variáveis: número de quartos, área da casa em m2, número de moradores. A VARIÁVEL QUANTITATIVA DIVIDE-SE EM: a) Variável Discreta: são aquelas que podem assumir apenas valores inteiros em pontos da reta real. È possível enumerar todos os possíveis valores da variável. Exemplos: 1. População: Universitários do Estado do Pará. Variáveis: número de filhos, número de quartos da casa, número de moradores, número de irmãos. 2 . Nº de alunos presentes às aulas de introdução à estatística econômica, da USP, no 1º semestre de 1997: mar = 18, abr = 30 , mai = 35 , jun = 36. b) Variável Contínua: são aquelas que podem assumir qualquer valor num certo intervalo (contínuo) da reta real. Não é possível enumerar todos os possíveis valores. Exemplo: 1. População: Todos os agricultores do Estado do Pará. Variáveis: idade, renda familiar; extensão da área plantada (em m2 ) , peso e altura as crianças agricultoras. 2. Quando você vai medir a temperatura de seu corpo com um termômetro de mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se, passará por todas as temperaturas intermediárias até chegar na temperatura atual do seu corpo. 1.7 PARÂMETROS São valores singulares que existem na população e que servem para caracterizá-la. Para definirmos um parâmetro devemos examinar toda a população. 1.8 ESTIMATIVA É um valor aproximado do parâmetro e é calculado com o uso da amostra. 1.9 ATRIBUTO Quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo. 1.10 AMOSTRAGEM É a coleta das informações de parte da população, chamada amostra (representada pela letra "n"), mediante métodos adequados de seleção destas unidades, ou seja, é o processo que procura extrair da população elementos que através de cálculos probabilísticos ou não, consigam prover dados inferenciais da população-alvo. As regras de amostragem podem ser classificadas em duas categorias gerais: PROBABILISTICAS: São amostragens em que a seleção é aleatória de tal forma que cada elemento tem igual probabilidade de ser sorteado para a amostra. NÃO-PROBABILISTICAS OU INTENCIONADAS: São amostragens em que há uma escolha deliberada dos elementos da amostra. OBS: Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados observados na Amostra. 1.10.1 Plano de Amostragem 1°) Definir os Objetivos da Pesquisa 2°) População a ser Amostrada - Parâmetros a ser Estimados (Objetivos) 3°) Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra 4°) Forma de seleção dos elementos da população 5°) Tamanho da Amostra Ex.: Moradores de uma Cidade (população alvo) Unidade Amostral: Domicílios (residências) Elementos da População: Família por domicílio 1.10.2 Tipos de Amostragem 1.10.2.1 Amostragem Aleatória Simples Também conhecida por amostragem ocasional, acidental, casual, randônica, etc.. A amostragem simples ao acaso destaca-se por ser um processo de seleção bastante fácil e muito usado. Neste processo, todos os elementos da população têm igual probabilidade de serem escolhidos, desde o início até o completo processo de coleta. Procedimento: 1 – Devemos enumerar todos os elementos da população. 2 – Devemos efetuar sucessivos sorteios com reposição até completar o tamanho da amostra (n). Para realizarmos este sorteio devemos fazer uso das "tábuas de números aleatórios (veja página seguinte). Estas apresentam os dígitos de 0 a 9 distribuídos aleatoriamente. Exemplo: Supor que nós tenhamos uma população com 1000 elementos, que enumeramos de 000 a 999, para selecionarmos uma amostra aleatória, de 200 elementos, basta escolhermos uma posição de qualquer linha e extrairmos conjuntos de três algarismos, até completarmos os 200 elementos da amostra. O processo termina quando for sorteado o elemento 200. Se o número sorteado não existia na população simplesmente não o consideramos, e prosseguimos com o processo. 1.10.2.2 Amostragem Sistemática Trata-se de uma variação da amostragem simples ao acaso, muito conveniente quando a população está naturalmente ordenada, como fichas de um fichário, listas telefônicas etc. Requer uma lista dos itens da população, e, assim, padece das mesmas restrições já mencionadas na aleatória ao acaso. Se os itens da lista não se apresentarem numa ordem determinada à amostragem sistemática pode dar uma amostra realmente aleatória. Procedimento: Sejam os seguintes elementos: N : tamanho da população. n : tamanho da amostra. Então, calcula-se o intervalo de amostragem através da razão ( onde a é o inteiro mais próximo). Sorteia-se, utilizado a tábua de números aleatórios, um número x entre 1 e a formando-se a amostra dos elementos correspondentes ao conjunto de números: Exemplo: Seja N = 500, n = 50. Então Sorteia-se um número de 1 a 10. Seja 3 ( x = 3) o número sorteado. Logo, os elementos numerados por 3; 13; 23; 33; ...... serão componentes da amostra. 1.10.2.3 Amostragem Estratificada No caso de possuir uma população com uma certa característica heterogênea, na qual podemos distinguir subpopulações mais ou menos homogêneas, denominadas de estratos, podemos usar a amostragem estratificada. Estratifica-se cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre outros. Onde os estrato são mutuamente exclusivos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada sub-população. Se as diversas sub-amostras tiverem tamanhos proporcionais ao respectivo número de elemento nos estrato, teremos a estratificação proporcional. OBS: NÃO-PROBABILISTICA A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na amostra para o todo da população quando se opta por este método de amostragem. Acidental ou conveniência Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados para testar produtos. Intencional O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas oficinas. Quotas ou proporcional Na realidade trata-se de uma variação da amostragem intencional. Necessita- se ter um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta será a quota para o trabalho. Comumente também subestratifica-se uma quota obedecendo a uma segunda proporcionalidade. Desproporcional Muito utilizada quando a escolha da amostra for desproporcional à população. Atribuem-se pesos para os dados, e assim obtém-se resultados ponderados representativos para o estudo. UNIDADE II : METODOLOGIA DA PESQUISA FASES DO MÉTODO ESTATÍSTICO O método estatístico abrange as seguintes fases: 2.1 Definição do Problema Consiste na: - formulação correta do problema; - examinar outros levantamentos realizados no mesmo campo (revisão da literatura); - saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) Por exemplo: - os preços dos produtos agrícolas produzidos no Estado do Pará são menores do que àqueles originados de outros Estados? - qual a natureza e o grau de relação que existe entre a distribuição da pluviosidade e a colheita do produto x? - estudar uma população por sexo: dividi-se os dois grupos em masculino e feminino; - estudar a idade dos universitários, por grupo de idade: distribui-se o total de casos conhecidos pelos diversos grupos etários pré-estabelecidos; - Analisar a capacidade de germinação de certo tipo de cereal: Calcular a média, a mediana e a moda do número de sementes germinadas, ou seja, descrever com alguns valores resultados obtidos. Representar graficamente os resultados. Calcular a proporção de vasos com mais de três sementes germinadas. 2.2 Planejamento Determinar o procedimento necessário para resolver o problema: - Como levantar informações; - Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). - Cronograma, Custos, etc. 2.3 Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: Direta - diretamente da fonte; Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). 2.4 Apuração dos Dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. Apuração: manual, mecânica, eletrônica e eletromecânica. 2.5 Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica). 2.6 Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema. UNIDADE III : REPRESENTAÇAO TABULAR Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de Geografia e Estatística (IBGE). 3.1 Representação Esquemática Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto. 3.2 Elementos de uma Tabela Título: O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato)); - Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)). Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. Corpo: parte da tabela composta por linhas e colunas. Linhas: parte do corpo que contém uma seqüência horizontal de informações. Colunas: parte do corpo que contém uma seqüência vertical de informações. Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna. Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas). Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. Notas e Chamadas: são esclarecimentos contidos na tabela (nota - conceituação geral; chamada - esclarecer minúcias em relação a uma célula). 3.3 Séries Estatísticas Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências. OBS: Para diferenciar uma série estatística de outra, temos que levar em consideração três fatores: a) A ÉPOCA (fator temporal ou cronológico) a que se refere o fenômeno analisado; b) O LOCAL (fator espacial ou geográfico) onde o fenômeno acontece; c) O FENÔMENO (espécie do fator ou fator específico) que é descrito. Série Temporal ou Cronológica: É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, variam com o tempo ( varia o tempo e permanece constante o fato e o local) . Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³) Série Geográfica ou Territorial: É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanece constante a época e o fato (espécie). População Urbana do Brasil em 1980 (x 1000) Série Específica ou Qualitativa: É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanece constante a época e o local. População Urbana e Rural do Brasil em 1980 (x 1000) Série Mista ou Composta: A combinação entre duas ou mais séries constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos. Local + Época = Série Geográfica Temporal População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 3.4 Distribuição de Freqüência É uma ferramenta estatística apropriada para a apresentação de grandes massas de dados numa forma que torna mais clara a tendência central e a dispersão dos valores ao longo da escala de medição, bem como a freqüência relativa de ocorrência dos diferentes valores. Quando da análise de dados, é comum procurar conferir certa ordem aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes ou categorias, verificando-se o número de indivíduos pertencentes a cada classe. É um tipo de tabela que condensa uma coleção de dados conforme as frequências (repetições de seus valores). Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram numericamente organizados. É difícil formarmos uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados. Exemplo : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51 ROL: Tem-se um rol após a ordenação dos dados (crescente ou decrescente). Exemplo : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60 Elementos de uma Distribuição de Freqüências: Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno, ou seja, são os intervalos da variável simbolizada por i e o número total de classes simbolizada por k. Para determinar o número de classes a partir dos dados não tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de determinação do número de classes em uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos. K = Exemplo: Observe o rol apresentado abaixo: 21 21 21 22 22 23 23 23 24 24 25 25 25 25 26 26 26 28 30 31 31 32 33 33 33 34 34 35 35 36 K = 1 + 3,3 . log (30) = 5,9 k = 6 . Logo, a tabela terá 6 classes. Obs: Na prática, não há fórmula exata para o número de classes (sempre procure arredondar para o inteiro mais próximo Limites de Classe: são os extremos de cada classe. O menor número é o limite inferior de classe (li) e o maior número, limite superior de classe (Ls). Exemplo: em 49 "--- 53 (Tabela 2), = 49 e = 53. O símbolo "--- representa um intervalo fechado à esquerda e aberto à direita. O dado 53 não pertence à classe 3 e sim a classe 4 representada por 53 "--- 57. Amplitude total (H ou At) ou Range (R): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente. Exemplo: utilizando o os dados do rol anterior, temos que: H = 36 – 21 = 15. Já utilizando os dados da tabela 2, temos: At = Xmax - Xmin. Em nosso exemplo At = 60 - 41 = 19. Amplitude do Intervalo de Classe (h) : é obtida através da diferença entre o limite superior e inferior da classe simbolizada por A = Ls - li. Ex: na tabela anterior A = 53 - 49 = 4. Obs: Na distribuição de frequência c/ classe o A será igual em todas as classes. Para a construção de uma tabela a partir de um dado bruto temos: A = . Exemplo: novamente no rol apresentado acima, temos que: h = = 2,5 h = 3. Ponto Médio de Classe (Xi ): é o ponto que divide o intervalo de classe em duas partes iguais. Exemplo: em 49 "------- 53 o ponto médio = 51, ou seja, . Frequências simples ou absolutas (Fi): são os valores que realmente representam o número de dados de cada classe. A soma das frequências simples é igual ao número total dos dados da distribuição. Frequência Absoluta Acumulada ( Fac ) : é a soma das freqüências dos valores inferiores ou iguais ao valor dado. Exemplo: Frequência Relativa Simples ( fi ) : a freqüência relativa de uma valor é dada por: ou percentagem daquele valor da amostra caso multiplique por 100. Exemplo: Frequência Relativa Acumulada ( fac ): é a soma das frequências relativas dos valores inferiores ou iguais ao valor dado. Exemplo: UNIDADE IV : ESTATÍSTICA GRÁFICA (Representação Gráfica) Os gráficos são uma forma de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são de mais fácil leitura. O tipo de gráfico depende da variável em questão. A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais para ser realmente útil: a) Simplicidade – o gráfico deve ser destituído de detalhes de importância secundária, assim como de traços desnecessários que possam levar o observador a uma análise com erros. b) Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em estudo. c) Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo 4.1 Gráficos de Linhas São usados para representar séries temporais, principalmente quando a série pretende cobrir um grande número de períodos de tempo. Exemplo: Considere a série temporal: TABELA A 4.1.1 Gráfico de linhas comparativas População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 4.2 Gráficos de colunas ou barras Representação gráfica da distribuição de freqüências. Este gráfico é utilizado para variáveis nominais e ordinais, está representação de uma série estatística através de retângulos, dispostos em colunas (na vertical) ou em retângulos (na horizontal). Obs: na prática este tipo de gráfico representa praticamente qualquer série estatística. Características: - todas as barras devem ter a mesma largura - devem existir espaços entre as barras 4.2.1 Gráfico de Colunas Verticais Usado para ilustrar qualquer tipo de série. Exemplo 1: TABELA B Para cada ano é construída uma coluna, variando a altura (proporcional a cada quantidade). As colunas são separadas uma das outras. Observação: O espaço entre as colunas pode variar de 1/3 a 2/3 do tamanho da base da coluna. Exemplo 2 : Uso do gráfico em colunas para representar outras séries estatísticas TABELA C Observação: Na tabela as regiões são apresentadas em ordem geográficas. No gráfico as colunas são ordenadas pela altura, da maior para a menor, da esquerda para a direita. 4.2.1.1 Gráfico de colunas comparativas a) Colunas Múltiplas (Agrupadas - gráfico comparativo). É um tipo de gráfico útil para estabelecer comparações entre as grandezas de cada categoria dos fenômenos estudados. A modalidade de apresentação das colunas é chamado de Gráfico de Colunas Remontadas. Ele proporciona economia de espaços sendo mais indicado quando a série apresenta um número significativo de categorias. Exemplo 1: Tabela D : Entrada de migrantes em três Estados do Brasil - 1992- 1994 Exemplo 2 : População Urbana do Brasil por Região de 1940 a 1980 (x 1000) b) Colunas Sobrepostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 4.2.2 Gráfico de Barras Horizontais As regras usadas para o gráfico de barras são iguais as usadas para o gráfico de colunas. As alturas dos retângulos são iguais e arbitrárias e os comprimentos proporcionais aos respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espaço de forma que as inscrições identifiquem as diferentes barras. O espaço entre as barras pode ser a metade (½) ou dois terços(2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma decrescente para facilitar a comparação dos valores. A categoria "outros" (quando existir) são representadas na barra inferior, mesmo que o seu comprimento exceda o de alguma outra. Obs: na prática regras usadas para o gráfico de barras são iguais as usadas para o gráfico de colunas. Exemplo 1 : Outra representação gráfica da Tabela C: Exemplo 2 : TABELA E: Matrícula no Ensino Superior, segundo os ramos de ensino -Brasil - 1999 Fonte: IBGE Exemplo 3 : População Urbana do Brasil em 1980 (x 1000) Exemplo 4: GRÁFICO EM BARRAS MÚLTIPLAS (AGRUPADAS) Útil quando a variável for qualitativa ou os dizeres das categorias a serem escritos são extensos. TABELA F: Importação de vinho e champanhe (BR) proveniente de várias origens - 1994 Fonte: IBGE 4.3 Gráficos Circulares ou de Setores (Pie Charts) Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360°. Características: - A área do gráfico equivale à totalidade de casos (360° = 100%); - Cada "fatia" representa a percentagem de cada categoria Obs: As séries geográficas, específicas e as categorias em nível nominal são mais representadas em gráficos de setores, desde que não apresentem muitas parcelas (no máximo sete). Exemplo 1: Tabela G: Produção Agrícola do Estado A - 1995 Exemplo 2: TABELA H: Efetivo (valores absoluto e relativo) do CBMDF em Cinco Regiões Administrativas do DF – 1998. FONTE: Banco de Dados do Distrito Federal - 1998 NOTAS: Os efetivos especializados (emergência médica, incêndio florestal e guarda e segurança) estão alocados nas regiões administrativas. Gráfico H. a. Comparativo (percentual) do Efetivo do CBDMF em Cinco Regiões Administrativas do DF - 1998 FONTE: Tabela H Gráfico H. b. Comparativo (percentual) do Efetivo do CBDMF em Cinco Regiões Administrativas do DF - 1998 FONTE: Tabela H 4.4 Gráfico Pictorial – Pictograma Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Exemplo 1 : Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000) Exemplo 2: Evolução da frota nacional de carros à álcool de 1979 à 1987 Exemplo 3: Os métodos mais eficientes para deixar de fumar segundo 30.000 fumantes entrevistados no Canadá Exemplo 4: Devastação Selvagem: extração de madeiras no Brasil 4.5 Gráfico Polar É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que apresenta uma determinada periodicidade. 4.5.1 Como construir um gráfico polar 1) Traça-se uma circunferência de raio arbitrário (preferencialmente, a um raio de comprimento proporcional a média dos valores da série); 2) Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e com uma escala (eixo polar); 3) Divide-se a circunferência em tantos arcos forem as unidades temporais; 4) Traça -se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão; 5) Marca-se os valores correspondentes da variável, iniciando pela semi-reta horizontal (eixo polar); 6) Ligam-se os pontos encontrados com segmentos de reta; 7) Para fechar o polígono obtido, emprega-se uma linha interrompida. Exemplo 1 Exemplo 2 : Tabela I : População da RA XIV – São Sebastião – 1991 a 1995 Gráfico I. População da RA XIV – São Sebastião – 1991 a 1995. FONTE: Tabela I 4.6 Cartograma É a representação de uma carta geográfica. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas. Dados absolutos (população) – usa-se pontos proporcionais aos dados. Dados relativos (densidade) – usa-se hachaduras. Exemplo: População da Região Sul do Brasil - 1990 4.7 Gráficos utilizados para a análise de uma distribuição de freqüência 4.7.1 Histograma É um gráfico de colunas justapostas que representa uma distribuição de freqüência para dados contínuos ou uma variável discreta quando esta apresentar muitos valores distintos. No eixo horizontal são dispostos os limites das classes segundo as quais os dados foram agrupados enquanto que o eixo vertical corresponde às freqüências absolutas ou relativas das mesmas. Exemplo 1: Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 4.7.2 Polígono de Freqüências Polígono de freqüência é um gráfico de análise no qual as freqüências das classes são localizadas sobre perpendiculares levantadas nos ponto médios das classes. Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Exemplo 2 Exemplo 3: Histograma e Polígono de Frequência simples da Tabela abaixo Exemplo 4: Polígono de Frequência acumulada da Tabela anterior 4.7.3 Ogivas Ogiva é o nome dado a um polígono de freqüências acumuladas, nas quais as freqüências acumuladas são localizadas sobre perpendiculares levantadas nos limites inferiores ou superiores das classes, dependendo se a ogiva representar as freqüências acumuladas abaixo ou acima, respectivamente. Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 4.7.4 Gráfico em segmentos de reta vertical É utilizado para representar uma distribuição de freqüência pontual, onde os segmentos de reta são proporcionais às respectivas freqüências absolutas. Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 UNIDADE V : MEDIDAS DE POSIÇÃO ( TENDENCIA CENTRAL) 5.1 – Medida de Tendência Central As medidas de posição, também chamada de medidas de tendência central, possuem três formas diferentes para três situações distintas: 5.1.1 – Média Aritmética Existem duas médias: POPULACIONAL, representada pela letra grega . AMOSTRAL, representada por . 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , , , .............., de uma amostra, portanto "n" valores da variável X. A média aritmética da variável aleatória de X é definida por: Onde "n" é o número de elementos do conjunto. Exemplo: suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determine a média aritmética simples desse conjunto de dados. Interpretação: o tempo médio de serviço deste grupo de funcionários é de 7,8 anos. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por valores simples. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a média aritmética dos valores , , , .............., ponderados pelas respectivas freqüências absolutas: , , .......... . Assim: Exemplo: Em um determinado dia foi registrado o número de veículos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Portanto, . Interpretação: em média, cada vendedor negociou 2,6 veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por classes. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a média aritmética dos pontos médios , , , .............., ponderados pelas respectivas freqüências absolutas: , , .......... . Desta forma, o caçulo da média passa a ser igual ao da 2° situação. Assim: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Portanto, Interpretação: o desempenho médio deste grupo de alunos foi de 62,24 pontos nesta disciplina. Desvio em relação à média: é a diferença entre cada elemento de um conjunto de valores e a média aritmética, ou seja:.. di = Xi - . Exemplo: Os dados a seguir apresentam leituras de concentração de um processo químico feitas a cada duas horas 10, 14, 13, 15, 16, 18 e 12, temos, uma concentração média de: No exemplo anterior temos sete desvios:.d1 = 10 - 14 = - 4 ,. d2 = 14 - 14 = 0 , d3 = 13 - 14 = - 1 ,. d4 = 15 - 14 = 1 ,. d5 = 16 - 14 = 2 ,.. d6 = 18 - 14 = 4 e. d7 = 12 - 14 = - 2. Propriedades da média 1ª propriedade: A soma algébrica dos desvios em relação à média é nula. No exemplo anterior : d1 + d2 + d3+ d4 + d5 + d6 + d7 = 0. 2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante. Se no exemplo original somarmos a constante 2 a cada um dos valores da variável temos: Y = (12 + 16 + 15 + 17 + 18 + 20 + 14) / 7 = 16 ou Y = + 2 = 14 + 2 = 16. 3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa constante. Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável temos: Y = (30 + 42 + 39 + 45 + 48 + 54 + 36) / 7 = 42 ou Y = 3 = 14 3 = 42. Obs: Emprego da média 1) Deseja-se obter a medida de posição que possui a maior estabilidade; 2) Houver necessidade de um tratamento algébrico ulterior. 5.1.2 – Moda – Mo Dentre as principais medidas de posição, destaca-se a moda. É o valor mais freqüente da distribuição. 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , , , .............., de uma amostra, o valor da moda para este tipo de conjunto de dado é simplesmente o valor com maior frequência: Exemplo 1: suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. Interpretação: o tempo de serviço com maior freqüência é de 8 anos. Exemplo 2: suponha o conjunto de tempo de serviço de seis funcionários: 3, 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados. Interpretação: o tempo de serviço com maior freqüência foram de 3 e 8 anos Exemplo 3: suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a moda deste conjunto de dados. Interpretação: não existe tempo de serviço com maior freqüência. Obs: uma distribuição com 3 modas chamamos de trimodal. Acima de 3 modas usamos o termo multimodal. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por valores simples. Para este tipo de distribuição, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior freqüência. Exemplo : em um determinado dia foi registrado o número de veiculos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Portanto, se a maior freqüência é = 5, logo a Mo = 3. Interpretação: A quantidade de veículos comercializados no dia com maior freqüência foi de três veículos 3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por classes. Para dados agrupados em classes, temos diversas fórmulas para o cálculo da moda. A utilizada será: Fórmula de Czuber Procedimento: a) Identifica-se a classe modal (aquela que possuir maior freqüência) – CLASSE (Mo) b) Utiliza-se a fórmula: , onde: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Interpretação: o escore com maior freqüência entre o grupo de 58 alunos foi de 61 pontos. " " OBS: Emprego da moda 1) Quando se deseja obter uma medida rápida e aproximada de posição; 2) Quando a medida de posição deve ser o valor mais típico da distribuição 5.1.3 – Mediana – Md Construindo o ROL, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado: 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , , , .............., de uma amostra, portanto "n" valores da variável X. A mediana da variável aleatória de X é definida por: Exemplo 1: suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a mediana deste conjunto de dados. Como n = 5, então o valor da mediana estará localizado na posição = 3. Portanto, Md = 8. Interpretação: 50% dos funcionários possuem até oito anos de tempo serviço, ou, 50% dos funcionários possuem no mínimo oito anos de tempo de serviço. Exemplo 2: suponha o conjunto de tempo de serviço de seis funcionários: 3, 7, 8, 10, 11 e 13. Determinar a mediana deste conjunto de dados. Como n = 6, então o valor da mediana estará localizado na posição = 3,5. Portanto, Md = = 9. Interpretação: 50% dos funcionários possuem até nove anos de tempo serviço, ou, 50% dos funcionários possuem no mínimo nove anos de tempo de serviço. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por valores simples. Quando os dados estiverem agrupados numa distribuição de freqüência identificaremos a mediana dos valores , , , .............., pela posição da mediana através da frequência absoluta acumulada ( Fac) Exemplo : em um determinado dia foi registrado o número de veiculos negociados por uma amostra de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela: Portanto: Interpretação: 50% dos vendedores comercializaram no máximo três veículos, ou então, metade dos vendedores comercializou pelo menos três veículos. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por classes. Procedimento: a) Calcula-se a posição da mediana: . b) Pela Fac identifica-se a classe que contém o valor da mediana – CLASSE (Md). c) Utiliza-se a fórmula: Onde: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina: Portanto: Interpretação: 50% dos alunos obtiveram escore máximo de 61,67 pontos, ou então, metade dos alunos obtiveram escore maior que 61,67 pontos. OBS: Emprego da mediana 1) Quando se deseja obter um ponto que divide a distribuição em partes iguais; 2) Há valores extremos que afetam de uma maneira acentuada a média; 3) A variável em estudo é salário 5.2 – Medidas Separatrizes 5.2.1 – Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Onde: Q = 1° quartil, deixa 25% dos elementos. Q = 2° quartil, coincide com a mediana, deixa 50% dos elementos. Q = 3° quartil, deixa 75% dos elementos. Procedimento: a) Calcula-se a posição do quartil: POS ( Qi ). Onde : i = 1, 2 ,3 b) Pela Fac identifica-se a classe que contém o valor do quartil – CLASSE (Qi) c) Utiliza-se a fórmula: Q Onde: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o primeiro e terceiro quartil. Portanto: Interpretação: 25% dos alunos obtiveram escore máximo de 52,92 pontos, ou então, 75% dos alunos obtiveram escore maior que 52,92 pontos. Calculando o terceiro quartil: Interpretação: 75% dos alunos obtiveram escore menor de 71,07 pontos, ou então, 25% dos alunos obtiveram escore maior que 71,07 pontos. 5.2.2 – Decis São valores que divide a série em dez partes iguais. Procedimento: a) Calcula-se a posição da medida: POS ( Di ). Onde : i = 1, 2 ,3,4,5,6,7,8,9 b) Pela Fac identifica-se a classe que contém o valor do decil – CLASSE (Di) c) Utiliza-se a fórmula: D Onde: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o sexto decil. Portanto: Interpretação: 60% dos alunos obtiveram escore inferior 64,89 pontos, ou então, 40% dos alunos obtiveram escore mínimo de 64,89 pontos. 5.2.2 – Percentis São valores que divide a série em 100 partes iguais. Procedimento: a) Calcula-se a posição da medida: POS ( Pi ). Onde : i = 1, 2 ,3,....,98,99. b) Pela Fac identifica-se a classe que contém o valor do percentil – CLASSE (Pi) c) Utiliza-se a fórmula: P Onde: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule o percentil de ordem 23. Portanto: Interpretação: 23% dos alunos com os menores escores obtiveram pontuação inferior a 51,95 pontos, ou então, 77% dos alunos obtiveram escore maior que 51,95 pontos. UNIDADE VI : MEDIDAS DE DISPERSÃO As medidas de dispersão indicam se os valores estão relativamente próximos um dos outros, ou separados em torno de uma medida de posição: a média. 6.1 Amplitude Total A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A medida de dispersão não leva em consideração os valores intermediários perdendo a informação de como os dados estão distribuídos e/ou concentrados. Exemplo : Considere o rol da idade dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM: 18, 18, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22, 23, 24, 25, 25, 25, 26, 29, 30, 35, 37 A amplitude total da idade dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM é: Interpretação: as idades dos alunos diferem em 19 anos. 6.2 Amplitude Interquartílica A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é mais estável que a amplitude total por não considerar os valores mais extremos. Esta medida abrange 50% dos dados e é útil para detectar valores discrepantes. Por outro lado, a amplitude semi-interquartílica é definida como a média aritmética da diferença entre a mediana e os quartis: Exemplo 1: A amplitude interquartílica da idade dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM considerando-se a Tabela abaixo é: Interpretação: A amplitude entre o terceiro e primeiro quartil, que envolve 50% (centrais) dos alunos, é de 5,67 anos. Exemplo 2: Do exemplo 1, obtém-se a amplitude semi-interquartílica da idade dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM: Observa-se que a distância entre a mediana e o quartil 1 (22-20) é 2. Como 2 < 2,84, isto indica que há uma concentração de dados à esquerda da mediana., e que os dados localizados a direita da mediana são mais dispersos. 6.3 Desvio – Médio O desvio-médio analisa a média dos desvios em torno da média. 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , , , .............., de uma amostra, portanto "n" valores da variável X, com média igual a . O desvio-médio da variável aleatória de X é: , onde n é o número de elementos de um conjunto. Exemplo : suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-médio deste conjunto de dados. Como = 7,8, então D.M = Interpretação: em média, o tempo de serviço deste grupo de funcionários se desvia em 2,24 anos em torno dos 7,8 anos de tempo médio de serviço. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por valores simples. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos o desvio-médio dos valores , , , .............., ponderados pelas respectivas freqüências absolutas: , , .......... , como no cálculo da média aritmética. Assim: Exemplo : em um determinado dia foi registrado o número de veiculos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra tabela abaixo. O cálculo do desvio-médio será: . Interpretação: em média, a quantidade de veículos negociada de cada vendedor possui uma distância de 0,68 em torno dos 2,6 veiculos comercializados em média por vendedor. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por classes. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos o desvio-médio dos pontos médios , , , .............., de cada classe, ponderados pelas respectivas freqüências absolutas: , , .......... . Desta forma, o calculo do desvio-médio passa a ser igual ao da 2° situação. Assim: Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio- médio será: Portanto: Interpretação: em média, a nota de cada aluno deste grupo teve um distanciamento de 10,29 pontos em torno do desempenho médio deste grupo de alunos que foi de 62,24 pontos nesta disciplina. 6.4 Variância e Desvio-Padrão A variância de um conjunto de dados é a média dos quadrados dos desvios dos valores a contar da média. A fórmula da variância poderá ser calculada de duas formas: POPULACIONAL: representada pela letra grega . AMOSTRAL , representada por . 1ª SITUAÇÃO: Dados não agrupados Sejam os elementos , , , .............., , portanto "n" valores da variável X, com média igual a . A variância da variável aleatória de X é: Ou Obs: A segunda fórmula é chamada de "Fórmula Desenvolvida". (n - 1) é usado como um fator de correção, onde devemos considerar a variância amostral como uma estimativa da variância populacional Para calcularmos o Desvio-Padrão (DP), basta extrairmos a raiz quadrada da variância. Exemplo : suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10 e 11. Determinar o desvio-padrão deste conjunto de dados. Como = 7,8 Interpretação: encontramos então uma variância para o tempo de serviço de 9,7 anos². Para eliminarmos o quadrado da unidade, extraímos a raiz quadrada do resultado da variância, que chegamos ao DESVIO-PADRÃO: POPULACIONAL: representada pela letra grega . AMOSTRAL , representada por : . Portanto, o desvio-padrão do exemplo foi = 3,11 anos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média 7,8 , encontraremos a concentração na maioria dos dados. 2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por valores simples. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a variância dos valores , , , .............., ponderados pelas respectivas freqüências absolutas: , , .......... . Assim Ou Exemplo : em um determinado dia foi registrado o número de veiculos negociados por uma amostra de 10 vendedores de uma agência de automóveis como mostra tabela abaixo. O cálculo do desvio-médio será: Interpretação: Portanto, o desvio-padrão do exemplo foi de 0,84 veículos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno da média que foi 2,6 veículos, encontraremos a concentração da maioria dos veículos negociados por vendedor. 3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por classes. Quando os dados estiverem agrupados numa distribuição de freqüência usaremos a variância dos pontos médios , , , .............., de cada classe, ponderados pelas respectivas freqüências absolutas: , , .......... . Desta forma, o calculo da variância passa a ser igual ao da 2° situação. Assim: Ou Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. O cálculo do desvio- médio será: Interpretação: Portanto, o desvio-padrão do exemplo foi de 12,85 pontos. Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno do escore médio de 62,24 pontos, encontraremos a concentração da maioria dos alunos dentro deste intervalo de pontuação. 6.5 Coeficiente de Variação Trata-se de uma média relativa à dispersão, útil para a comparação e observação em termos relativos do grau de concentração em torno da média de séries distintas. È dado por: Classificação da distribuição quanto à dispersão: Exemplo : Numa empresa o salário médio dos funcionários do sexo masculino é de R$ 4.000,00, com um desvio padrão de R$ 1.500,00, e os funcionários do sexo feminino é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Então: Interpretação: Logo, podemos concluir que o salário das mulheres apresenta maior dispersão relativa que a dos homens. Para obtermos o resultado de C.V basta multiplicarmos por 100. UNIDADE VII : Momento, Assimetria, Curtose 7.1 Momentos São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas, como as de tendência central, dispersão, assimetria e curtose. Conforme a potência considerada tem-se a ordem ou o grau do momento calculado. Momentos simples ou centrados na origem (mr) O momento simples de ordem " r " é definido como: para dados não tabelados. para dados tabelados. Momentos centrados na média (Mr) O momento de ordem " r " centrado na média, é definido como: para dados não tabelados para dados tabelados. Momentos abstratos (αr) São definidos da seguinte forma: . Onde: S = desvio padrão. 7.2 Assimetria Uma distribuição de valores sempre poderá ser representada por uma curva (gráfico). Essa curva, conforme a distribuição, pode apresentar várias formas. Se considerarmos o valor da moda da distribuição como ponto de referência, vemos que esse ponto sempre corresponde ao valor de ordenada máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada, logo a curva será analisada quanto à sua assimetria. Distribuição Simétrica: É aquela que apresenta a e os quartis Q1 e Q3 eqüidistantes do Q2. Distribuição Assimétrica Quando a cauda da curva da distribuição declina para direita, temos uma distribuição com curva assimétrica positiva: Analogamente quando a cauda da curva da distribuição declina para esquerda, temos uma distribuição com curva assimétrica negativa: Podemos medir a assimetria de uma distribuição, calculando os coeficientes de assimetria. Sendo o mais utilizado o Coeficiente de Assimetria de Karl Pearson. Classificação do coeficiente de Pearson: Exemplo: determinar o coeficiente de assimetria para uma distribuição que apresentou moda igual a 15, média igual a 13 e desvio padrão igual a 5. Na impossibilidade de usar o desvio padrão como medida de dispersão, Pearson sugeriu outra medida de assimetria: é o "coeficiente quartil de assimetria", determinado pela fórmula: OBS: Podemos deduzir que se a distribuição dos dados: 1 - for aproximadamente simétrica, a média aproxima-se da mediana 2 - for enviesada para a direita, a média tende a ser maior que a mediana 3 - for enviesada para a esquerda, a média tende a ser inferior à mediana. São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas. Têm como características principais, o uso de escalas, a existência de um sistema de coordenadas, a simplicidade, clareza e veracidade de sua representação. 7.3 Curtose Já apreciamos as medidas de tendência central, de dispersão e de assimetria. Falta somente examinarmos mais uma das medidas de uso comum em Estatística, para se positivarem as características de uma distribuição de valores: são as chamadas Medidas de Curtose ou de Achatamento, que nos mostra até que ponto a curva representativa de uma distribuição é a mais aguda ou a mais achatada do que uma curva normal, de altura média. - Curva Mesocúrtica (Normal): É considerada a curva padrão. Os dados obtidos na pesquisa, nesse caso, estão "normalmente" distribuídos. - Curva Leptocúrtica: É uma curva mais alta do que a normal. Apresenta o topo relativamente alto, significando que os valores se acham mais agrupados em torno da média. Trata-se de um grupo bem homogêneo. - Curva Platicúrtica: É uma curva mais baixa do que a normal. Apresenta o topo achatado, significando que várias classes apresentam freqüências quase iguais. Então, os dados obtidos nessa pesquisa, nesse caso, estão bem dispersos em relação à média. Trata-se, portanto, de um grupo heterogêneo. - Coeficiente de Curtose: Exemplo: a tabela abaixo apresenta as faixas salariais, em números de salários mínimos, dos funcionários de determinada empresa de importação e exportação na cidade de Alegrete. Qual o coeficiente percentílico de curtose e o tipo curva de freqüências. ____________________________ Solução: ____________________________ 02 "---- 04 3 04 "---- 06 6 06 "---- 08 12 08 "---- 10 6 10 "---- 12 3 Agora, podemos calcular K Em função do resultado obtido, K = 0,25, verificamos que a curva é levemente leptocúrtica (K<0,263). BIBLIOGRAFIA FONSECA, Jairo Simon.; MARTINS, Gilberto de Almeida. "Curso de Estatística" 4ª Ed. São Paulo. Ed. Atlas. 1993. LIPSCHUTZ, Seymour. "Probabilidade" 4ª Ed. Revisada. São Paulo. Makron Books,1993. MEYER, Paul. L. " Probabilidade: Aplicação à Estatística" 2ª Ed. Rio de Janeiro; Livros Técnicos e Científicos Editora, 1983. SPIEGEL, Murray R. " Probabilidade e Estatística" São Paulo, Mc. Graw – Hill do Brasil, 1978. REIS GATTAS, Murray. Elementos de Probabilidade. São Paulo: Atlas, s1 SPIEGEL, Murray R. Estatística. 3~ cd. São Paulo: McGraw-Hill, s.d. SPIEGEL, Murray R. Probabilidade e Estatística. São Paulo: McGraw-Hill, s.d. STEVENSON, Willíam Y. Estatística Aplicada à Administração. HARBRA, s.d. ----------------------- limite inferior da classe do decil. n tamanho da amostra ou número de elementos. freqüência acumul摡 湡整楲牯 挠慬獳 搠 敤楣൬–䵅䕂 煅慵楴湯㌮ Ĕ愕灭楬畴敤搠 汣獡敳搠 敤楣൬ –䵅䕂 煅慵楴湯㌮ Ĕ―牦煥 据慩愠獢汯瑵 楳灭敬 慤挠慬獳 潤搠捥汩഍–䵅䕂 煅慵楴湯 ㌮ Ĕക㌍഍഍഍഍഍഍഍഍഍ada anterior à classe do decil amplitude da classe do decil freqüência absoluta simples da classe do decil 3 Salários Frequência (f) Cauda desviada para esquerda Eixo de Simetria Cauda desviada para direita Eixo de Simetria limite inferior da classe do percentil. n tamanho da amostra ou número de elementos. freqüência acumulada anterior à classe do percentil amplitude da classe do percentil freqüência absoluta simples da classe do percentil limite inferior da classe quartílica. n tamanho da amostra ou número de elementos. freqüência acumulada anterior à classe quartílica amplitude da classe quartílica. freqüência absoluta simples da classe quartílica limite inferior da classe mediana. n tamanho da amostra ou número de elementos. freqüência acumulada anterior da classe mediana amplitude da classe mediana. freqüência absoluta simples da classe mediana " limite inferior da classe modal. " " " " " " freqüência da classe modal. " " freqüência simples anterior da " "classe modal. " " freqüência simples posterior da " "classe modal. " "amplitude da classe. " Distribuição de frequência com intervalos de classe: Quando o tamanho da amostra é elevado é mais racional efetuar o agrupamento dos valores em vários intervalos de classe. Distribuição de frequência sem intervalos de classe: É a simples condensação dos dados conforme as repetições de seus valores. Para um tabela de tamanho razoável esta distribuição de frequência é inconveniente, já que exige muito espaço. Veja exemplo ao lado. Classe A Classe B Classe C Classe D Classe Social Frequência ( f ) Branca Negra Parda Outras Raça Frequência ( f )