Transcript
UNIVERSIDADE DO ESTADO DO PARÁ
CENTRO DE CIÊNCIAS SOCIAIS E EDUCAÇÃO
DEPARTAMENTO DE MATEMÁTICA, ESTATÍSTICA E INFORMÁTICA.
LICENCIATURA PLENA EM MATEMÁTICA
DISCIPLINA: Estatística
Prof. Esp. Mauro Sérgio Santos de Oliveira
UNIDADE I – CONCEITOS PRELIMINARES
1.1 – Conceitos Fundamentais
1.2 – Divisão da Estatística
1.3 – População
1.4 – Amostra
1.5 – Censo
1.6 – Variável
1.7 – Parâmetros
1.8 – Estimativas
1.9 – Atributo
1.10 - Amostragem
UNIDADE II – METOLOGIA DA PESQUISA
2.1 – Definição dos Objetivos
2.2 – Planejamento
2.3 – Coleta ou levantamento dos dados
2.4 – Apuração dos Dados ou sumarização
2.5 – Apresentação dos dados
2.6 – Análise e interpretação dos dados
UNIDADE III – REPRESENTAÇAO TABULAR
3.1 – Representação Esquemática
3.2 – Elementos de uma Tabela
3.3 – Séries Estatísticas
3.4 – Distribuição de Frequência
UNIDADE IV – ESTATÍSTICA GRÁFICA
4.1 – Gráfico de Linhas
4.2 – Gráficos de colunas ou barras
4.3 – Gráfico Circulares ou de Setores (Pie Charts)
4.4 – Gráfico Pictorial – Pictograma
4.5 – Gráfico Polar
4.6 – Gráfico Cartograma
4.7 – Gráficos Utilizados Para a Análise de uma Distribuição de Freqüência
UNIDADE V – MEDIDAS DE POSIÇÃO
5.1 – Medidas de Tendência Central
5.2 – Medidas Separatrizes
5.3 – Gráfico Circulares ou de Setores (Pie Charts)
5.4 – Gráfico Pictorial – Pictograma
UNIDADE VI : MEDIDAS DE DISPERSÃO
6.1 – Amplitude Total
6.2 – Amplitude Interqualítica e Semi-Interqualítica
6.3 – Desvio Médio
6.4 – Variância e Desvio Padrão
6.5 – Coeficiente de Variação
UNIDADE VII : MOMENTO, ASSIMETRIA, CURTOSE
7.1 – Momento
7.2 – Assimetria
7.3 – Curtose
UNIDADE I : CONCEITOS PRELIMINARES
1.1 CONCEITOS FUNDAMENTAIS
A Estatística pode ser encarada como uma ciência ou como um método de
estudo. Duas concepções para a palavra ESTATÍSTICA:
a) no plural (estatísticas), indica qualquer coleção
consistente de dados numéricos, reunidos com a finalidade de fornecer
informações acerca de uma atividade qualquer. Por exemplo, as
características demográficas referem-se aos dados numéricos sobre
nascimento, falecimento, matrimônios, desquites, etc.
b) no singular (estatística), indica um corpo de técnicas, ou
ainda uma
metodologia técnica desenvolvida para a coleta, a classificação, a
apresentação, a análise e a interpretação de dados quantitativos e
a
utilização desses dados para a tomada de decisões.
Qualquer ciência experimental não pode prescindir das técnicas
proporcionadas pela Estatística, como por exemplo, a Física, a Biologia, a
Administração, a Economia, etc.. Todos esses ramos de atividade
profissional tem necessidade de um instrumental que se preocupa com o
tratamento quantitativo dos fenômenos de massa ou coletivos, cuja
mensuração e análise requerem um conjunto de observações de fenômeno
ou particulares.
OBSERVAÇÃO:
USOS E ABUSOS DA ESTATÍSTICA
a) USOS DA ESTATÍSTICA
As aplicações da estatística se desenvolveram de tal forma que, hoje,
praticamente todo o campo de estudo se beneficia da utilização de métodos
estatísticos. Os fabricantes fornecem melhores produtos a custos menores
através de técnicas de controle de qualidade. Controlam-se doenças com o
auxilia de análises que antecipam epidemias. Espécies ameaçadas são
protegidas por regulamentos e leis que reagem a estimativas estatísticas de
modificação de tamanho da população. Visando reduzir as taxas de casos
fatais, os legisladores têm melhor justificativas para as leis como as que
regem a poluição atmosférica, inspeções de automóveis, utilização de cinto
de segurança, etc.
b) ABUSOS DA ESTATÍSTICA
Não é de hoje que ocorrem abusos com a estatística. Assim é que, há
cerca de um século, o estadista Benjamin Disraeli disse: " Há três tipos de
mentiras: as mentiras, as mentiras sérias e as estatísticas". Já se disse
também que "os números não mentem; mas os mentirosos forjam os números"
(Figures don't lie; liars figure) e que se torturarmos os dados por
bastante tempo, eles acabam por admitir qualquer coisa". O historiador
Andrew Lang disse que algumas pessoas usam a estatística "como um bêbado
utiliza um poste de iluminação – para servir de apoio e não para iluminar".
Todas essas afirmações se referem aos abusos da estatística quando os
dados são apresentados de forma enganosa. Eis alguns exemplos das diversas
maneiras como os dados podem ser distorcidos.
DEFINIÇÃO DE ESTATÍSTICA
Estatística é a ciência que se preocupa com a coleta, a organização,
descrição (apresentação), análise e interpretação de dados experimentais
e tem como objetivo fundamental o estudo de uma população.
Este estudo pode ser feito de duas maneiras:
Investigando todos os elementos da população ou
Por amostragem, ou seja, selecionando alguns elementos da população
1.2 DIVISÃO DA ESTATÍSTICA
Estatística Descritiva: é aquela que se preocupa com a coleta, organização,
classificação, apresentação, interpretação e analise de dados
referentes ao fenômeno através de gráficos e tabelas além de calcular
medidas que permita descrever o fenômeno.
A estatística descritiva pode ser resumida no diagrama a seguir:
Estatística Indutiva (Amostral ou Inferencial): é aquela que partido de
uma amostra, estabelece hipóteses, tira conclusões sobre a
população de origem e que formula previsões fundamentando-se na teoria das
probabilidades. A estatística indutiva cuida da análise e interpretação dos
dados.
O processo de generalização do método indutivo está associado a uma
margem de incerteza. Isto se deve ao fato de que a conclusão que se
pretende obter para o conjunto de todos os indivíduos analisados quanto a
determinadas características comuns baseia-se em uma parcela do total de
observações.
População?
Envolve:
Estimação
Teste de Hipótese
Propósito:
Tomar decisões sobre as
Características da população
Estimativas
População
e Testes
Estatística
Amostral
Amostra
1.3 POPULAÇÃO
É o conjunto, finito ou infinito, de indivíduos ou
objetos que apresentam em comum determinadas características
definidas, cujo comportamento interessa analisar.
A população é estudada em termos de observações de características nos
indivíduos (animados ou inanimados) que sejam relevantes para o estudo, e
não em termos de pessoas ou objetos em si. O objetivo é tirar conclusões
sobre o fenômeno em estudo, a partir dos dados observados.
Como em qualquer estudo estatístico temos em mente estudar uma ou mais
características dos elementos de uma população, é importante
definir bem essas características de interesse para que seja delimitado os
elementos que pertencem à população e quais os que não pertencem.
Exemplos:
1. Estudar os filhos tidos, tipo de moradia, condições de trabalho, tipo de
sanitário. Números de quartos para dormir, estado civil, uso da terra,
tempo de trabalho, local de nascimento, tipo de cultivo, etc., dos
agricultores do Estado do Amazonas.
População: Todos os agricultores (proprietários de terra ou não)
plantadores das culturas existentes no Estado do Amazonas.
2. Estudar a precipitação pluviométrica anual (em mm) na cidade de Manaus.
População: Conjunto das informações coletadas pela Estação
Pluviométrica, durante o ano.
3. As alturas dos cidadãos do Amazonas constituem uma população
ou a população dos pesos desses cidadãos.
População Amostragem
Dados
Estatística
Descritiva
Estatística Inferencial
(Probabilidade)
Divisão Da População
- População Finita: apresenta um número limitado de elementos. É
possível enumerar todos os elementos componentes.
Exemplos:
1. Idade dos universitários do Estado do Pará.
População: Todos os universitários do Estado do Pará.
- População Infinita: apresenta um número ilimitado de elementos.
Não é possível enumerar todos os elementos componentes. Entretanto, tal
definição existe apenas no campo teórico, uma vez que, na prática, nunca
encontraremos populações com infinitos elementos, mas sim, populações com
grande número de componentes; e nessas circunstâncias, tais
populações são tratadas como se fossem infinitas.
Exemplos:
1. Tipos de bactérias no corpo humano
População: Todas as bactérias existentes no corpo humano.
2. Comportamento das formigas de certa área
População: Todas as formigas da área em estudo.
1.4 AMOSTRA
É uma parte (um subconjunto finito) representativa de uma população
selecionada segundo métodos adequados.
O objetivo é fazer inferências, tirar conclusões sobre populações com
base nos resultados da amostra, para isso é necessário garantir
que amostra seja representativa, ou seja, a amostra deve conter as
mesmas características básicas da população, no que diz respeito
ao fenômeno que desejamos pesquisar. O termo indução é um processo de
raciocínio em que, partindo-se do conhecimento de uma parte, procura-se
tirar conclusões sobre a realidade no todo.
Ao induzir estamos sujeitos a erros. Entretanto, a Estatística
Indutiva, que obtém resultados sobre populações a partir das amostras, diz
qual a precisão dos resultados e com que probabilidade se pode confiar nas
conclusões obtidas.
1.5 CENSO
É o exame completo de toda(ou parte), uma população.
Quanto maior a amostra, mais precisa e confiáveis deverão ser a
indução feitas sobre a população. Logo, os resultados mais perfeitos são
obtidos pelo Censo. Na prática, esta conclusão muitas não acontece: o
emprego de amostras, com certo rigor técnico, pode levar resultados mais
confiáveis ou até mesmo melhores do que os que seriam obtidos através de um
Censo. As razões de se recorrer a amostras são: menor custo e tempo para
levantar dados; melhor investigação dos elementos observados.
1.6 VARIÁVEL
É, convencionalmente, o conjunto de resultados possíveis de um
fenômeno.
1.6.1 TIPOS DE VARIÁVEIS
Variável Qualitativa : quando seus valores são expressos por
atributos ou qualidade.
Exemplos:
1. População: Estudantes universitários do Estado do Pará.
Variáveis: sexo, profissão, escolaridade, religião, meio onde vivem
(rural, urbano).
2. População: População dos bairros periféricos do município de Belém.
Variáveis: tipo de casa, existência de água encanada ( sim, não), bairro de
origem.
Variáveis qualitativas que não são ordenáveis recebem o nome de nominais.
Exemplo: religião, sexo, raça, cor.
Raça do AM - 2005
____________________________
____________________________
Total
Fonte: fictícia
Variáveis qualitativas que são ordenáveis recebem o nome de ordinais.
Exemplo: nível de instrução, classe social.
Classe Social do AM - 2005
____________________________
____________________________
Total
Fonte: fictícia
Variável Quantitativa: Quando seus valores são expressos por
números. Esses números podem ser obtidos por um processo de contagem ou
medição.
Exemplos:
1. População: Todos os agricultores do Estado do Pará.
Variáveis: número de filhos tidos, extensão da área plantada, altura,
idade.
2. População: População dos bairros periféricos do município de Belém
Variáveis: número de quartos, área da casa em m2, número de moradores.
A VARIÁVEL QUANTITATIVA DIVIDE-SE EM:
a) Variável Discreta: são aquelas que podem assumir apenas valores inteiros
em pontos da reta real. È possível enumerar todos os possíveis valores da
variável.
Exemplos:
1. População: Universitários do Estado do Pará.
Variáveis: número de filhos, número de quartos da casa, número de
moradores, número de irmãos.
2 . Nº de alunos presentes às aulas de introdução à estatística econômica,
da USP, no 1º semestre de 1997: mar = 18, abr = 30 , mai = 35 , jun = 36.
b) Variável Contínua: são aquelas que podem assumir qualquer valor num
certo intervalo (contínuo) da reta real. Não é possível enumerar todos os
possíveis valores.
Exemplo:
1. População: Todos os agricultores do Estado do Pará.
Variáveis: idade, renda familiar; extensão da área plantada (em m2 ) , peso
e altura as crianças agricultoras.
2. Quando você vai medir a temperatura de seu corpo com um termômetro de
mercúrio o que ocorre é o seguinte: O filete de mercúrio, ao dilatar-se,
passará por todas as temperaturas intermediárias até chegar na temperatura
atual do seu corpo.
1.7 PARÂMETROS
São valores singulares que existem na população e que servem para
caracterizá-la. Para definirmos um parâmetro devemos examinar toda a
população.
1.8 ESTIMATIVA
É um valor aproximado do parâmetro e é calculado com o uso da
amostra.
1.9 ATRIBUTO
Quando os dados estatísticos apresentam um caráter qualitativo, o
levantamento e os estudos necessários ao tratamento desses dados são
designados genericamente de estatística de atributo.
1.10 AMOSTRAGEM
É a coleta das informações de parte da população, chamada amostra
(representada pela letra "n"), mediante métodos adequados de seleção
destas unidades, ou seja, é o processo que procura extrair da população
elementos que através de cálculos probabilísticos ou não, consigam prover
dados inferenciais da população-alvo.
As regras de amostragem podem ser classificadas em duas categorias
gerais:
PROBABILISTICAS: São amostragens em que a seleção é aleatória de tal
forma que cada elemento tem igual probabilidade de ser sorteado para a
amostra.
NÃO-PROBABILISTICAS OU INTENCIONADAS: São amostragens em que há uma
escolha deliberada dos elementos da amostra.
OBS: Inferência Estatística - é o processo de obter informações sobre uma
população a partir de resultados observados na Amostra.
1.10.1 Plano de Amostragem
1°) Definir os Objetivos da Pesquisa
2°) População a ser Amostrada
- Parâmetros a ser Estimados (Objetivos)
3°) Definição da Unidade Amostral
- Seleção dos Elementos que farão parte da amostra
4°) Forma de seleção dos elementos da população
5°) Tamanho da Amostra
Ex.: Moradores de uma Cidade (população alvo)
Unidade Amostral: Domicílios (residências)
Elementos da População: Família por domicílio
1.10.2 Tipos de Amostragem
1.10.2.1 Amostragem Aleatória Simples
Também conhecida por amostragem ocasional, acidental, casual,
randônica, etc.. A amostragem simples ao acaso destaca-se por ser um
processo de seleção bastante fácil e muito usado. Neste processo, todos os
elementos da população têm igual probabilidade de serem escolhidos, desde o
início até o completo processo de coleta.
Procedimento:
1 – Devemos enumerar todos os elementos da população.
2 – Devemos efetuar sucessivos sorteios com reposição até completar o
tamanho da amostra (n).
Para realizarmos este sorteio devemos fazer uso das "tábuas de
números aleatórios (veja página seguinte). Estas apresentam os dígitos de
0 a 9 distribuídos aleatoriamente.
Exemplo:
Supor que nós tenhamos uma população com 1000 elementos, que enumeramos de
000 a 999, para selecionarmos uma amostra aleatória, de 200 elementos,
basta escolhermos uma posição de qualquer linha e extrairmos conjuntos de
três algarismos, até completarmos os 200 elementos da amostra. O processo
termina quando for sorteado o elemento 200. Se o número sorteado não
existia na população simplesmente não o consideramos, e prosseguimos com o
processo.
1.10.2.2 Amostragem Sistemática
Trata-se de uma variação da amostragem simples ao acaso, muito
conveniente quando a população está naturalmente ordenada, como fichas de
um fichário, listas telefônicas etc. Requer uma lista dos itens da
população, e, assim, padece das mesmas restrições já mencionadas na
aleatória ao acaso. Se os itens da lista não se apresentarem numa ordem
determinada à amostragem sistemática pode dar uma amostra realmente
aleatória.
Procedimento:
Sejam os seguintes elementos:
N : tamanho da população.
n : tamanho da amostra.
Então, calcula-se o intervalo de amostragem através da razão (
onde a é o inteiro mais próximo). Sorteia-se, utilizado a tábua de números
aleatórios, um número x entre 1 e a formando-se a amostra dos elementos
correspondentes ao conjunto de números:
Exemplo: Seja N = 500, n = 50. Então
Sorteia-se um número de 1 a 10. Seja 3 ( x = 3) o número sorteado.
Logo, os elementos numerados por 3; 13; 23; 33; ...... serão componentes da
amostra.
1.10.2.3 Amostragem Estratificada
No caso de possuir uma população com uma certa característica
heterogênea, na qual podemos distinguir subpopulações mais ou menos
homogêneas, denominadas de estratos, podemos usar a amostragem
estratificada. Estratifica-se cada subpopulação por intermédio de critérios
como classe social, renda, idade, sexo, entre outros.
Onde os estrato são mutuamente exclusivos.
Após a determinação dos estratos, seleciona-se uma amostra aleatória
de cada sub-população.
Se as diversas sub-amostras tiverem tamanhos proporcionais ao
respectivo número de elemento nos estrato, teremos a estratificação
proporcional.
OBS: NÃO-PROBABILISTICA
A escolha de um método não probabilístico, via de regra, sempre encontrará
desvantagem
frente ao método probabilístico. No entanto, em alguns casos, se faz
necessário a opção por este método. Fonseca (1996), alerta que não há
formas de se generalizar os resultados obtidos na amostra para o todo da
população quando se opta por este método de amostragem.
Acidental ou conveniência
Indicada para estudos exploratórios. Freqüentemente utilizados em super
mercados para testar produtos.
Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião.
Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura
apenas oficinas.
Quotas ou proporcional
Na realidade trata-se de uma variação da amostragem intencional. Necessita-
se ter um prévio conhecimento da população e sua proporcionalidade. Por
exemplo, deseja-se entrevistar apenas indivíduos da classe A, que
representa 12% da população. Esta será a quota para o trabalho. Comumente
também subestratifica-se uma quota obedecendo a uma segunda
proporcionalidade.
Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à
população. Atribuem-se pesos para os dados, e assim obtém-se resultados
ponderados representativos para o estudo.
UNIDADE II : METODOLOGIA DA PESQUISA
FASES DO MÉTODO ESTATÍSTICO
O método estatístico abrange as seguintes fases:
2.1 Definição do Problema
Consiste na:
- formulação correta do problema;
- examinar outros levantamentos realizados no mesmo campo (revisão da
literatura);
- saber exatamente o que se pretende pesquisar definindo o problema
corretamente
(variáveis, população, hipóteses, etc.)
Por exemplo:
- os preços dos produtos agrícolas produzidos no Estado do Pará são menores
do que àqueles originados de outros Estados?
- qual a natureza e o grau de relação que existe entre a distribuição da
pluviosidade e a colheita do produto x?
- estudar uma população por sexo: dividi-se os dois grupos em masculino e
feminino;
- estudar a idade dos universitários, por grupo de idade: distribui-se o
total de casos conhecidos pelos diversos grupos etários pré-estabelecidos;
- Analisar a capacidade de germinação de certo tipo de cereal:
Calcular a média, a mediana e a moda do número de sementes
germinadas, ou seja, descrever com alguns valores resultados obtidos.
Representar graficamente os resultados.
Calcular a proporção de vasos com mais de três sementes germinadas.
2.2 Planejamento
Determinar o procedimento necessário para resolver o problema:
- Como levantar informações;
- Tipos de levantamentos: Por Censo (completo);
Por Amostragem (parcial).
- Cronograma, Custos, etc.
2.3 Coleta ou levantamento dos dados
Consiste na obtenção dos dados referentes ao trabalho que desejamos
fazer.
A coleta pode ser: Direta - diretamente da fonte;
Indireta - feita através de outras fontes.
Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no
registro de terceiros (secundários).
2.4 Apuração dos Dados ou sumarização
Consiste em resumir os dados, através de uma contagem e agrupamento. É
um trabalho de coordenação e de tabulação.
Apuração: manual, mecânica, eletrônica e eletromecânica.
2.5 Apresentação dos dados
É a fase em que vamos mostrar os resultados obtidos na coleta e na
organização.
Esta apresentação pode ser: Tabular (apresentação numérica)
Gráfica (apresentação
geométrica).
2.6 Análise e interpretação dos dados
É a fase mais importante e também a mais delicada. Tira conclusões que
auxiliam o pesquisador a resolver seu problema.
UNIDADE III : REPRESENTAÇAO TABULAR
Consiste em dispor os dados em linhas e colunas distribuídas de modo
ordenado. A elaboração de tabelas obedece à Resolução no 886, de 26 de
outubro de 1966, do Conselho Nacional de Estatística. As normas de
apresentação são editadas pela Fundação Brasileira de Geografia e
Estatística (IBGE).
3.1 Representação Esquemática
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.
3.2 Elementos de uma Tabela
Título: O título deve responder as seguintes questões:
- O que? (Assunto a ser representado (Fato));
- Onde? (O lugar onde ocorreu o fenômeno (local));
- Quando? (A época em que se verificou o fenômeno (tempo)).
Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de
cada coluna.
Corpo: parte da tabela composta por linhas e colunas.
Linhas: parte do corpo que contém uma seqüência horizontal de
informações.
Colunas: parte do corpo que contém uma seqüência vertical de
informações.
Coluna Indicadora: coluna que contém as discriminações correspondentes
aos valores
distribuídos pelas colunas numéricas.
Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com
uma coluna.
Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são
colocadas as
notas de natureza informativa (fonte, notas e chamadas).
Fonte: refere-se à entidade que organizou ou forneceu os dados expostos.
Notas e Chamadas: são esclarecimentos contidos na tabela (nota -
conceituação geral; chamada - esclarecer minúcias em relação a uma célula).
3.3 Séries Estatísticas
Uma série estatística é um conjunto de dados ordenados segundo uma
característica comum, as quais servirão posteriormente para se fazer
análises e inferências.
OBS: Para diferenciar uma série estatística de outra, temos que levar em
consideração três fatores:
a) A ÉPOCA (fator temporal ou cronológico) a que se refere o fenômeno
analisado;
b) O LOCAL (fator espacial ou geográfico) onde o fenômeno acontece;
c) O FENÔMENO (espécie do fator ou fator específico) que é descrito.
Série Temporal ou Cronológica: É a série cujos dados estão dispostos em
correspondência com o tempo, ou seja, variam com o tempo ( varia o tempo e
permanece constante o fato e o local) .
Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)
Série Geográfica ou Territorial: É a série cujos dados estão dispostos em
correspondência com o local, ou seja, varia o local e permanece constante a
época e o fato (espécie).
População Urbana do Brasil em 1980 (x 1000)
Série Específica ou Qualitativa: É a série cujos dados estão dispostos em
correspondência com a espécie ou qualidade, ou seja, varia o fato e
permanece constante a época e o local.
População Urbana e Rural do Brasil em 1980 (x 1000)
Série Mista ou Composta: A combinação entre duas ou mais séries
constituem novas séries denominadas compostas e apresentadas em tabelas de
dupla entrada. O nome da série mista surge de acordo com a combinação de
pelo menos dois elementos.
Local + Época = Série Geográfica Temporal
População Urbana do Brasil por Região de 1940 a 1980
(x 1000)
3.4 Distribuição de Freqüência
É uma ferramenta estatística apropriada para a apresentação de grandes
massas de dados numa forma que torna mais clara a tendência central e a
dispersão dos valores ao longo da
escala de medição, bem como a freqüência relativa de ocorrência dos
diferentes valores.
Quando da análise de dados, é comum procurar conferir certa ordem aos
números tornando-os visualmente mais amigáveis. O procedimento mais comum é
o de divisão por classes ou categorias, verificando-se o número de
indivíduos pertencentes a cada classe.
É um tipo de tabela que condensa uma coleção de dados conforme as
frequências (repetições de seus valores).
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que
não foram numericamente organizados. É difícil formarmos uma idéia exata do
comportamento do grupo como um todo, a partir de dados não ordenados.
Exemplo : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58,
57, 58, 60, 51
ROL: Tem-se um rol após a ordenação dos dados (crescente ou decrescente).
Exemplo : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57,
58, 58, 60, 60
Elementos de uma Distribuição de Freqüências:
Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual
dividimos o fenômeno, ou seja, são os intervalos da variável simbolizada
por i e o número total de classes simbolizada por k.
Para determinar o número de classes a partir dos dados não tabelados,
podemos usar a
Fórmula de Sturges, mas deve-se saber que existem outros métodos de
determinação do número de classes em uma tabela de freqüência. O que se
deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para
facilitar a visualização e interpretação dos mesmos.
K =
Exemplo: Observe o rol apresentado abaixo:
21 21 21 22 22
23 23 23 24 24
25 25 25 25 26 26
26 28 30 31
31 32 33 33 33 34
34 35 35 36
K = 1 + 3,3 . log (30) = 5,9 k = 6 . Logo, a tabela terá 6
classes.
Obs: Na prática, não há fórmula exata para o número de classes (sempre
procure arredondar para o inteiro mais próximo
Limites de Classe: são os extremos de cada classe.
O menor número é o limite inferior de classe (li) e o maior número,
limite superior de classe (Ls).
Exemplo: em 49 "--- 53 (Tabela 2), = 49 e = 53. O símbolo "---
representa um intervalo fechado à esquerda e aberto à direita. O dado 53
não pertence à classe 3 e sim a classe 4 representada por 53 "--- 57.
Amplitude total (H ou At) ou Range (R): É a diferença entre o limite
superior da última classe e o limite inferior da 1ª classe, ou a diferença
entre último e o primeiro elemento de um conjunto de dados postos em ordem
crescente.
Exemplo: utilizando o os dados do rol anterior, temos que: H = 36 – 21 =
15. Já utilizando os dados da tabela 2, temos: At = Xmax - Xmin. Em nosso
exemplo At = 60 - 41 = 19.
Amplitude do Intervalo de Classe (h) : é obtida através da diferença
entre o limite superior e inferior da classe simbolizada por A = Ls - li.
Ex: na tabela anterior A = 53 - 49 = 4.
Obs: Na distribuição de frequência c/ classe o A será igual em todas as
classes. Para a construção de uma tabela a partir de um dado bruto temos: A
= .
Exemplo: novamente no rol apresentado acima, temos que: h = = 2,5
h = 3.
Ponto Médio de Classe (Xi ): é o ponto que divide o intervalo de classe
em duas partes iguais.
Exemplo: em 49 "------- 53 o ponto médio = 51, ou seja, .
Frequências simples ou absolutas (Fi): são os valores que realmente
representam o número de dados de cada classe. A soma das frequências
simples é igual ao número total dos dados da distribuição.
Frequência Absoluta Acumulada ( Fac ) : é a soma das freqüências dos
valores inferiores ou iguais ao valor dado.
Exemplo:
Frequência Relativa Simples ( fi ) : a freqüência relativa de uma valor é
dada por: ou percentagem daquele valor da
amostra caso multiplique por 100.
Exemplo:
Frequência Relativa Acumulada ( fac ): é a soma das frequências relativas
dos valores inferiores ou iguais ao valor dado.
Exemplo:
UNIDADE IV : ESTATÍSTICA GRÁFICA (Representação Gráfica)
Os gráficos são uma forma de apresentação visual dos dados.
Normalmente, contém menos informações que as tabelas, mas são de mais fácil
leitura. O tipo de gráfico depende da
variável em questão.
A representação gráfica de um fenômeno deve obedecer a certos
requisitos fundamentais para ser realmente útil:
a) Simplicidade – o gráfico deve ser destituído de detalhes de importância
secundária, assim como de traços desnecessários que possam levar o
observador a uma análise com erros.
b) Clareza – o gráfico deve possibilitar uma correta interpretação dos
valores representativos do fenômeno em estudo.
c) Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em
estudo
4.1 Gráficos de Linhas
São usados para representar séries temporais, principalmente
quando a série pretende cobrir um grande número de períodos de tempo.
Exemplo: Considere a série temporal: TABELA A
4.1.1 Gráfico de linhas comparativas
População Urbana do Brasil por Região de 1940 a 1980 (x
1000)
4.2 Gráficos de colunas ou barras
Representação gráfica da distribuição de freqüências. Este gráfico é
utilizado para variáveis nominais e ordinais, está representação de uma
série estatística através de retângulos, dispostos em colunas (na
vertical) ou em retângulos (na horizontal).
Obs: na prática este tipo de gráfico representa praticamente qualquer série
estatística.
Características:
- todas as barras devem ter a mesma largura
- devem existir espaços entre as barras
4.2.1 Gráfico de Colunas Verticais
Usado para ilustrar qualquer tipo de série.
Exemplo 1: TABELA B
Para cada ano é construída uma coluna, variando a altura (proporcional a
cada quantidade). As colunas são separadas uma das outras.
Observação: O espaço entre as colunas pode variar de 1/3 a 2/3 do tamanho
da base da coluna.
Exemplo 2 : Uso do gráfico em colunas para representar outras séries
estatísticas
TABELA C
Observação: Na tabela as regiões são apresentadas em ordem geográficas. No
gráfico as colunas são ordenadas pela altura, da maior para a menor, da
esquerda para a direita.
4.2.1.1 Gráfico de colunas comparativas
a) Colunas Múltiplas (Agrupadas - gráfico comparativo).
É um tipo de gráfico útil para estabelecer comparações entre as
grandezas de cada categoria dos fenômenos estudados.
A modalidade de apresentação das colunas é chamado de Gráfico de
Colunas Remontadas. Ele proporciona economia de espaços sendo mais indicado
quando a série apresenta um número significativo de categorias.
Exemplo 1: Tabela D : Entrada de migrantes em três Estados do Brasil - 1992-
1994
Exemplo 2 : População Urbana do Brasil por Região de 1940 a 1980 (x 1000)
b) Colunas Sobrepostas (gráfico comparativo)
População Urbana do Brasil por Região de 1940 a 1980 (x
1000)
4.2.2 Gráfico de Barras Horizontais
As regras usadas para o gráfico de barras são iguais as usadas para o
gráfico de colunas.
As alturas dos retângulos são iguais e arbitrárias e os comprimentos
proporcionais aos respectivos dados.
As barras devem ser separadas uma das outras pelo mesmo espaço de
forma que as inscrições identifiquem as diferentes barras. O espaço entre
as barras pode ser a metade (½) ou dois terços(2/3) de suas larguras.
As barras devem ser colocadas em ordem de grandeza de forma
decrescente para facilitar a comparação dos valores. A categoria
"outros" (quando existir) são representadas na barra inferior, mesmo
que o seu comprimento exceda o de alguma outra.
Obs: na prática regras usadas para o gráfico de barras são iguais as usadas
para o gráfico de colunas.
Exemplo 1 : Outra representação gráfica da Tabela C:
Exemplo 2 : TABELA E: Matrícula no Ensino Superior, segundo os ramos de
ensino -Brasil - 1999
Fonte: IBGE
Exemplo 3 : População Urbana do Brasil em 1980 (x 1000)
Exemplo 4: GRÁFICO EM BARRAS MÚLTIPLAS (AGRUPADAS)
Útil quando a variável for qualitativa ou os dizeres das categorias a
serem escritos são extensos.
TABELA F: Importação de vinho e champanhe (BR) proveniente de várias
origens - 1994
Fonte: IBGE
4.3 Gráficos Circulares ou de Setores (Pie Charts)
Representação gráfica da freqüência relativa (percentagem) de cada
categoria da variável. Este gráfico é utilizado para variáveis nominais e
ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à
comparação das percentagens de cada categoria. A construção do gráfico de
setores segue uma regra de 3 simples, onde as freqüências de cada classe
correspondem ao ângulo que se deseja representar em relação a freqüência
total que representa o total de 360°.
Características:
- A área do gráfico equivale à totalidade de casos (360° =
100%);
- Cada "fatia" representa a percentagem de cada categoria
Obs: As séries geográficas, específicas e as categorias em nível nominal
são mais representadas em gráficos de setores, desde que não apresentem
muitas parcelas (no máximo sete).
Exemplo 1: Tabela G: Produção Agrícola do Estado A - 1995
Exemplo 2: TABELA H: Efetivo (valores absoluto e relativo) do CBMDF
em Cinco Regiões
Administrativas do DF – 1998.
FONTE: Banco de Dados do Distrito Federal - 1998
NOTAS: Os efetivos especializados (emergência médica, incêndio florestal e
guarda e segurança)
estão alocados nas regiões administrativas.
Gráfico H. a. Comparativo (percentual) do Efetivo do CBDMF em Cinco Regiões
Administrativas
do DF - 1998
FONTE: Tabela H
Gráfico H. b. Comparativo (percentual) do Efetivo do CBDMF em Cinco Regiões
Administrativas
do DF - 1998
FONTE: Tabela H
4.4 Gráfico Pictorial – Pictograma
Tem por objetivo despertar a atenção do público em geral, muito desses
gráficos apresentam grande dose de originalidade e de habilidade na arte de
apresentação dos dados.
Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas
é que apenas mostram uma visão geral do fenômeno, e não de detalhes
minuciosos.
Exemplo 1 : Evolução da matricula no Ensino Superior no Brasil de 1968 a
1994 (x 1000)
Exemplo 2: Evolução da frota nacional de carros à álcool de 1979 à 1987
Exemplo 3: Os métodos mais eficientes para deixar de fumar segundo 30.000
fumantes entrevistados no Canadá
Exemplo 4: Devastação Selvagem: extração de madeiras no Brasil
4.5 Gráfico Polar
É o tipo de gráfico ideal para representar séries temporais cíclicas,
ou seja, toda a série
que apresenta uma determinada periodicidade.
4.5.1 Como construir um gráfico polar
1) Traça-se uma circunferência de raio arbitrário (preferencialmente,
a um raio de comprimento proporcional a média dos valores da série);
2) Constrói-se uma semi-reta (de preferência horizontal) partindo do
ponto 0 (pólo) e com uma escala (eixo polar);
3) Divide-se a circunferência em tantos arcos forem as unidades
temporais;
4) Traça -se semi-retas a partir do ponto 0 (pólo) passando pelos
pontos de divisão;
5) Marca-se os valores correspondentes da variável, iniciando pela
semi-reta horizontal
(eixo polar);
6) Ligam-se os pontos encontrados com segmentos de reta;
7) Para fechar o polígono obtido, emprega-se uma linha interrompida.
Exemplo 1
Exemplo 2 : Tabela I : População da RA XIV – São Sebastião – 1991
a 1995
Gráfico I. População da RA XIV – São Sebastião – 1991 a 1995.
FONTE: Tabela I
4.6 Cartograma
É a representação de uma carta geográfica. Este tipo de gráfico é
empregado quando o objetivo é o de figurar os dados estatísticos
diretamente relacionados com as áreas geográficas
ou políticas.
Dados absolutos (população) – usa-se pontos proporcionais aos dados.
Dados relativos (densidade) – usa-se hachaduras.
Exemplo: População da Região Sul do Brasil - 1990
4.7 Gráficos utilizados para a análise de uma distribuição de freqüência
4.7.1 Histograma
É um gráfico de colunas justapostas que representa uma distribuição de
freqüência para dados contínuos ou uma variável discreta quando esta
apresentar muitos valores distintos.
No eixo horizontal são dispostos os limites das classes segundo as
quais os dados foram
agrupados enquanto que o eixo vertical corresponde às freqüências absolutas
ou relativas das mesmas.
Exemplo 1: Altura em centímetros de 160 alunos do Curso de Administração da
UFSM - 1990
4.7.2 Polígono de Freqüências
Polígono de freqüência é um gráfico de análise no qual as freqüências
das classes são localizadas sobre perpendiculares levantadas nos ponto
médios das classes.
Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração
da UFSM - 1990
Exemplo 2
Exemplo 3: Histograma e Polígono de Frequência simples da Tabela abaixo
Exemplo 4: Polígono de Frequência acumulada da Tabela anterior
4.7.3 Ogivas
Ogiva é o nome dado a um polígono de freqüências acumuladas, nas quais
as freqüências acumuladas são localizadas sobre perpendiculares levantadas
nos limites inferiores ou superiores das classes, dependendo se a ogiva
representar as freqüências acumuladas abaixo ou acima, respectivamente.
Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração
da UFSM - 1990
4.7.4 Gráfico em segmentos de reta vertical
É utilizado para representar uma distribuição de freqüência pontual,
onde os segmentos de reta são proporcionais às respectivas freqüências
absolutas.
Exemplo 1 : Altura em centímetros de 160 alunos do Curso de Administração
da UFSM - 1990
UNIDADE V : MEDIDAS DE POSIÇÃO ( TENDENCIA CENTRAL)
5.1 – Medida de Tendência Central
As medidas de posição, também chamada de medidas de tendência
central, possuem três formas diferentes para três situações distintas:
5.1.1 – Média Aritmética
Existem duas médias: POPULACIONAL, representada pela letra
grega .
AMOSTRAL,
representada por .
1ª SITUAÇÃO: Dados não agrupados
Sejam os elementos , , , .............., de uma
amostra, portanto "n" valores da variável X. A média aritmética da
variável aleatória de X é definida por:
Onde "n" é o número de elementos do conjunto.
Exemplo: suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 10 e 11. Determine a média aritmética simples desse conjunto de
dados.
Interpretação: o tempo médio de serviço deste grupo de funcionários é de
7,8 anos.
2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
valores simples.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos a média aritmética dos valores , , ,
.............., ponderados pelas respectivas freqüências absolutas:
, , .......... . Assim:
Exemplo: Em um determinado dia foi registrado o número de veículos
negociados por uma amostra de 10 vendedores de uma agência de automóveis
obtendo a seguinte tabela:
Portanto, .
Interpretação: em média, cada vendedor negociou 2,6 veículos.
3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
classes.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos a média aritmética dos pontos médios , , ,
.............., ponderados pelas respectivas freqüências absolutas:
, , .......... . Desta forma, o caçulo da média passa
a ser igual ao da 2° situação. Assim:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina:
Portanto,
Interpretação: o desempenho médio deste grupo de alunos foi de 62,24 pontos
nesta disciplina.
Desvio em relação à média: é a diferença entre cada elemento de um
conjunto de valores e a média aritmética, ou seja:.. di = Xi - .
Exemplo: Os dados a seguir apresentam leituras de concentração de um
processo químico feitas a cada duas horas 10, 14, 13, 15, 16, 18 e 12,
temos, uma concentração média de:
No exemplo anterior temos sete desvios:.d1 = 10 - 14 = - 4 ,. d2 = 14 -
14 = 0 ,
d3 = 13 - 14
= - 1 ,. d4 = 15 - 14 = 1 ,.
d5 = 16 - 14
= 2 ,.. d6 = 18 - 14 = 4 e.
d7 = 12 - 14
= - 2.
Propriedades da média
1ª propriedade: A soma algébrica dos desvios em relação à média é nula.
No exemplo anterior : d1 + d2 + d3+ d4 + d5 + d6 + d7 = 0.
2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os
valores de uma variável, a média do conjunto fica aumentada (ou diminuída)
dessa constante.
Se no exemplo original somarmos a constante 2 a cada um dos valores da
variável temos:
Y = (12 + 16 + 15 + 17 + 18 + 20 + 14) / 7 = 16 ou Y =
+ 2 = 14 + 2 = 16.
3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma
variável por uma constante (c), a média do conjunto fica multiplicada (ou
dividida) por essa constante.
Se no exemplo original multiplicarmos a constante 3 a cada um dos valores
da variável temos:
Y = (30 + 42 + 39 + 45 + 48 + 54 + 36) / 7 = 42 ou Y =
3 = 14 3 = 42.
Obs: Emprego da média
1) Deseja-se obter a medida de posição que possui a maior
estabilidade;
2) Houver necessidade de um tratamento algébrico ulterior.
5.1.2 – Moda – Mo
Dentre as principais medidas de posição, destaca-se a moda. É
o valor mais freqüente da distribuição.
1ª SITUAÇÃO: Dados não agrupados
Sejam os elementos , , , .............., de uma
amostra, o valor da moda para este tipo de conjunto de dado é simplesmente
o valor com maior frequência:
Exemplo 1: suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 8 e 11. Determinar a moda deste conjunto de dados.
Interpretação: o tempo de serviço com maior freqüência é de 8 anos.
Exemplo 2: suponha o conjunto de tempo de serviço de seis funcionários: 3,
3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados.
Interpretação: o tempo de serviço com maior freqüência foram de 3 e 8 anos
Exemplo 3: suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 10 e 11. Determinar a moda deste conjunto de dados.
Interpretação: não existe tempo de serviço com maior freqüência.
Obs: uma distribuição com 3 modas chamamos de trimodal. Acima de 3 modas
usamos o termo multimodal.
2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
valores simples.
Para este tipo de distribuição, a identificação da moda é facilitada
pela simples observação do elemento que apresenta maior freqüência.
Exemplo : em um determinado dia foi registrado o número de veiculos
negociados por uma amostra de 10 vendedores de uma agência de automóveis
obtendo a seguinte tabela:
Portanto, se a maior freqüência é = 5, logo a
Mo = 3.
Interpretação: A quantidade de veículos comercializados no dia com maior
freqüência foi de três veículos
3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
classes.
Para dados agrupados em classes, temos diversas fórmulas para o
cálculo da moda. A utilizada será:
Fórmula de Czuber
Procedimento:
a) Identifica-se a classe modal (aquela que possuir maior freqüência)
– CLASSE (Mo)
b) Utiliza-se a fórmula:
, onde:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina:
Interpretação: o escore com maior freqüência entre o grupo de 58 alunos foi
de 61 pontos.
" "
OBS: Emprego da moda
1) Quando se deseja obter uma medida rápida e aproximada de posição;
2) Quando a medida de posição deve ser o valor mais típico da
distribuição
5.1.3 – Mediana – Md
Construindo o ROL, o valor da mediana é o elemento que ocupa a
posição central, ou seja, é o elemento que divide a distribuição em 50% de
cada lado:
1ª SITUAÇÃO: Dados não agrupados
Sejam os elementos , , , .............., de uma
amostra, portanto "n" valores da variável X. A mediana da variável
aleatória de X é definida por:
Exemplo 1: suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 10 e 11. Determinar a mediana deste conjunto de dados.
Como n = 5, então o valor da mediana estará localizado na posição = 3.
Portanto, Md = 8.
Interpretação: 50% dos funcionários possuem até oito anos de tempo serviço,
ou, 50% dos funcionários possuem no mínimo oito anos de tempo de serviço.
Exemplo 2: suponha o conjunto de tempo de serviço de seis funcionários: 3,
7, 8, 10, 11 e 13. Determinar a mediana deste conjunto de dados.
Como n = 6, então o valor da mediana estará localizado na posição =
3,5. Portanto,
Md = =
9.
Interpretação: 50% dos funcionários possuem até nove anos de tempo serviço,
ou, 50% dos funcionários possuem no mínimo nove anos de tempo de serviço.
2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
valores simples.
Quando os dados estiverem agrupados numa distribuição de freqüência
identificaremos a mediana dos valores , , , ..............,
pela posição da mediana através da frequência absoluta
acumulada ( Fac)
Exemplo : em um determinado dia foi registrado o número de veiculos
negociados por uma amostra de 10 vendedores de uma agência de automóveis
obtendo a seguinte tabela:
Portanto:
Interpretação: 50% dos vendedores comercializaram no máximo três veículos,
ou então, metade dos vendedores comercializou pelo menos três veículos.
3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
classes.
Procedimento:
a) Calcula-se a posição da mediana: .
b) Pela Fac identifica-se a classe que contém o valor da mediana –
CLASSE (Md).
c) Utiliza-se a fórmula:
Onde:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina:
Portanto:
Interpretação: 50% dos alunos obtiveram escore máximo de 61,67 pontos, ou
então, metade dos alunos obtiveram escore maior que 61,67 pontos.
OBS: Emprego da mediana
1) Quando se deseja obter um ponto que divide a distribuição em partes
iguais;
2) Há valores extremos que afetam de uma maneira acentuada a média;
3) A variável em estudo é salário
5.2 – Medidas Separatrizes
5.2.1 – Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais.
Assim:
Onde:
Q = 1° quartil, deixa 25% dos elementos.
Q = 2° quartil, coincide com a mediana, deixa 50% dos elementos.
Q = 3° quartil, deixa 75% dos elementos.
Procedimento:
a) Calcula-se a posição do quartil: POS ( Qi ). Onde : i =
1, 2 ,3
b) Pela Fac identifica-se a classe que contém o valor do quartil –
CLASSE (Qi)
c) Utiliza-se a fórmula:
Q
Onde:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina. Calcule o primeiro e
terceiro quartil.
Portanto:
Interpretação: 25% dos alunos obtiveram escore máximo de 52,92 pontos, ou
então, 75% dos alunos obtiveram escore maior que 52,92 pontos.
Calculando o terceiro quartil:
Interpretação: 75% dos alunos obtiveram escore menor de 71,07 pontos, ou
então, 25% dos alunos obtiveram escore maior que 71,07 pontos.
5.2.2 – Decis
São valores que divide a série em dez partes iguais.
Procedimento:
a) Calcula-se a posição da medida: POS ( Di ). Onde : i = 1, 2
,3,4,5,6,7,8,9
b) Pela Fac identifica-se a classe que contém o valor do decil –
CLASSE (Di)
c) Utiliza-se a fórmula:
D
Onde:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina. Calcule o sexto decil.
Portanto:
Interpretação: 60% dos alunos obtiveram escore inferior 64,89 pontos, ou
então, 40% dos alunos obtiveram escore mínimo de 64,89 pontos.
5.2.2 – Percentis
São valores que divide a série em 100 partes iguais.
Procedimento:
a) Calcula-se a posição da medida: POS ( Pi ). Onde : i = 1, 2
,3,....,98,99.
b) Pela Fac identifica-se a classe que contém o valor do percentil –
CLASSE (Pi)
c) Utiliza-se a fórmula:
P
Onde:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina. Calcule o percentil de
ordem 23.
Portanto:
Interpretação: 23% dos alunos com os menores escores obtiveram pontuação
inferior a 51,95 pontos, ou então, 77% dos alunos obtiveram escore maior
que 51,95 pontos.
UNIDADE VI : MEDIDAS DE DISPERSÃO
As medidas de dispersão indicam se os valores estão relativamente
próximos um dos outros, ou separados em torno de uma medida de posição: a
média.
6.1 Amplitude Total
A amplitude total de um conjunto de dados é a diferença entre o maior
e o menor valor observado. A medida de dispersão não leva em consideração
os valores intermediários perdendo a informação de como os dados estão
distribuídos e/ou concentrados.
Exemplo : Considere o rol da idade dos alunos da disciplina Inferência
Estatística do curso de
Estatística da UEM:
18, 18, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22,
23, 24, 25, 25, 25, 26, 29, 30, 35, 37
A amplitude total da idade dos alunos que cursam a disciplina Inferência
Estatística do curso de Estatística da UEM é:
Interpretação: as idades dos alunos diferem em 19 anos.
6.2 Amplitude Interquartílica
A amplitude interquartílica é a diferença entre o terceiro e o
primeiro quartil. Esta medida é mais estável que a amplitude total por não
considerar os valores mais extremos. Esta medida abrange 50% dos dados e é
útil para detectar valores discrepantes.
Por outro lado, a amplitude semi-interquartílica é definida como a
média aritmética da diferença entre a mediana e os quartis:
Exemplo 1: A amplitude interquartílica da idade dos alunos que cursam a
disciplina Inferência Estatística do curso de Estatística da UEM
considerando-se a Tabela abaixo é:
Interpretação: A amplitude entre o terceiro e primeiro quartil, que envolve
50% (centrais) dos alunos, é de 5,67 anos.
Exemplo 2: Do exemplo 1, obtém-se a amplitude semi-interquartílica da idade
dos alunos que cursam a disciplina Inferência Estatística do curso de
Estatística da UEM:
Observa-se que a distância entre a mediana e o quartil 1 (22-20) é 2.
Como 2 < 2,84, isto indica que há uma concentração de dados à esquerda da
mediana., e que os dados localizados a direita da mediana são mais
dispersos.
6.3 Desvio – Médio
O desvio-médio analisa a média dos desvios em torno da média.
1ª SITUAÇÃO: Dados não agrupados
Sejam os elementos , , , .............., de uma
amostra, portanto "n" valores da variável X, com média igual a . O
desvio-médio da variável aleatória de X é:
, onde n é o número de elementos de um
conjunto.
Exemplo : suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 10 e 11. Determinar o desvio-médio deste conjunto de dados.
Como = 7,8, então D.M =
Interpretação: em média, o tempo de serviço deste grupo de funcionários se
desvia em 2,24 anos em torno dos 7,8 anos de tempo médio de serviço.
2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
valores simples.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos o desvio-médio dos valores , , , ..............,
ponderados pelas respectivas freqüências absolutas: ,
, .......... , como no cálculo da média aritmética. Assim:
Exemplo : em um determinado dia foi registrado o número de veiculos
negociados por uma amostra de 10 vendedores de uma agência de automóveis
como mostra tabela abaixo. O cálculo do desvio-médio será:
.
Interpretação: em média, a quantidade de veículos negociada de cada
vendedor possui uma distância de 0,68 em torno dos 2,6 veiculos
comercializados em média por vendedor.
3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
classes.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos o desvio-médio dos pontos médios , , ,
.............., de cada classe, ponderados pelas respectivas
freqüências absolutas: , , .......... . Desta forma, o
calculo do desvio-médio passa a ser igual ao da 2° situação. Assim:
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina. O cálculo do desvio-
médio será:
Portanto:
Interpretação: em média, a nota de cada aluno deste grupo teve um
distanciamento de 10,29 pontos em torno do desempenho médio deste grupo de
alunos que foi de 62,24 pontos nesta disciplina.
6.4 Variância e Desvio-Padrão
A variância de um conjunto de dados é a média dos quadrados dos
desvios dos valores a contar da média. A fórmula da variância poderá ser
calculada de duas formas:
POPULACIONAL: representada pela letra grega .
AMOSTRAL , representada por .
1ª SITUAÇÃO: Dados não agrupados
Sejam os elementos , , , .............., ,
portanto "n" valores da variável X, com média igual a . A variância
da variável aleatória de X é:
Ou
Obs: A segunda fórmula é chamada de "Fórmula Desenvolvida".
(n - 1) é usado como um fator de correção, onde devemos
considerar a variância amostral como uma estimativa da variância
populacional
Para calcularmos o Desvio-Padrão (DP), basta extrairmos a raiz quadrada
da variância.
Exemplo : suponha o conjunto de tempo de serviço de cinco funcionários: 3,
7, 8, 10 e 11. Determinar o desvio-padrão deste conjunto de dados.
Como = 7,8
Interpretação: encontramos então uma variância para o tempo de serviço de
9,7 anos². Para eliminarmos o quadrado da unidade, extraímos a raiz
quadrada do resultado da variância, que chegamos ao DESVIO-PADRÃO:
POPULACIONAL: representada pela letra grega .
AMOSTRAL , representada por : .
Portanto, o desvio-padrão do exemplo foi = 3,11 anos. Ou seja, se
calcularmos um intervalo utilizando um desvio-padrão em torno da média 7,8
, encontraremos a concentração na maioria dos dados.
2ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
valores simples.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos a variância dos valores , , , ..............,
ponderados pelas respectivas freqüências absolutas: , ,
.......... . Assim
Ou
Exemplo : em um determinado dia foi registrado o número de veiculos
negociados por uma amostra de 10 vendedores de uma agência de automóveis
como mostra tabela abaixo. O cálculo do desvio-médio será:
Interpretação: Portanto, o desvio-padrão do exemplo foi de 0,84 veículos.
Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno
da média que foi 2,6 veículos, encontraremos a concentração da maioria dos
veículos negociados por vendedor.
3ª SITUAÇÃO: Dados agrupados em uma distribuição de freqüência por
classes.
Quando os dados estiverem agrupados numa distribuição de freqüência
usaremos a variância dos pontos médios , , , ..............,
de cada classe, ponderados pelas respectivas freqüências absolutas:
, , .......... . Desta forma, o calculo da variância
passa a ser igual ao da 2° situação. Assim:
Ou
Exemplo: A tabela abaixo representa os escores obtidos por um grupo de 58
alunos matriculados em uma determinada disciplina. O cálculo do desvio-
médio será:
Interpretação: Portanto, o desvio-padrão do exemplo foi de 12,85 pontos.
Ou seja, se calcularmos um intervalo utilizando um desvio-padrão em torno
do escore médio de 62,24 pontos, encontraremos a concentração da maioria
dos alunos dentro deste intervalo de pontuação.
6.5 Coeficiente de Variação
Trata-se de uma média relativa à dispersão, útil para a comparação e
observação em termos relativos do grau de concentração em torno da média de
séries distintas. È dado por:
Classificação da distribuição quanto à dispersão:
Exemplo : Numa empresa o salário médio dos funcionários do sexo masculino é
de R$ 4.000,00, com um desvio padrão de R$ 1.500,00, e os funcionários do
sexo feminino é em média de R$ 3.000,00, com um desvio padrão de R$
1.200,00. Então:
Interpretação: Logo, podemos concluir que o salário das mulheres apresenta
maior dispersão relativa que a dos homens. Para obtermos o resultado de
C.V basta multiplicarmos por 100.
UNIDADE VII : Momento, Assimetria, Curtose
7.1 Momentos
São medidas descritivas de caráter mais geral e dão origem às demais
medidas descritivas, como as de tendência central, dispersão, assimetria e
curtose. Conforme a potência considerada tem-se a ordem ou o grau do
momento calculado.
Momentos simples ou centrados na origem (mr)
O momento simples de ordem " r " é definido como:
para dados não tabelados.
para dados tabelados.
Momentos centrados na média (Mr)
O momento de ordem " r " centrado na média, é definido como:
para dados não tabelados
para dados
tabelados.
Momentos abstratos (αr)
São definidos da seguinte forma: .
Onde: S = desvio padrão.
7.2 Assimetria
Uma distribuição de valores sempre poderá ser representada por uma
curva (gráfico). Essa curva, conforme a distribuição, pode apresentar
várias formas. Se considerarmos o valor da moda da distribuição como ponto
de referência, vemos que esse ponto sempre corresponde ao valor de ordenada
máxima, dando-nos o ponto mais alto da curva representativa da distribuição
considerada, logo a curva será analisada quanto à sua assimetria.
Distribuição Simétrica: É aquela que apresenta a e os quartis Q1 e
Q3 eqüidistantes do Q2.
Distribuição Assimétrica
Quando a cauda da curva da distribuição declina para direita, temos
uma distribuição com curva assimétrica positiva:
Analogamente quando a cauda da curva da distribuição declina para
esquerda, temos uma distribuição com curva assimétrica negativa:
Podemos medir a assimetria de uma distribuição, calculando os
coeficientes de assimetria. Sendo o mais utilizado o Coeficiente de
Assimetria de Karl Pearson.
Classificação do coeficiente de Pearson:
Exemplo: determinar o coeficiente de assimetria para uma distribuição que
apresentou moda igual a 15, média igual a 13 e desvio padrão igual a 5.
Na impossibilidade de usar o desvio padrão como medida de dispersão,
Pearson sugeriu outra medida de assimetria: é o "coeficiente quartil de
assimetria", determinado pela fórmula:
OBS: Podemos deduzir que se a distribuição dos dados:
1 - for aproximadamente simétrica, a média aproxima-se da mediana
2 - for enviesada para a direita, a média tende a ser maior que a mediana
3 - for enviesada para a esquerda, a média tende a ser inferior à mediana.
São representações visuais dos dados estatísticos que devem
corresponder, mas nunca substituir as tabelas estatísticas. Têm como
características principais, o uso de escalas, a existência de um sistema de
coordenadas, a simplicidade, clareza e veracidade de sua representação.
7.3 Curtose
Já apreciamos as medidas de tendência central, de dispersão e de
assimetria. Falta somente examinarmos mais uma das medidas de uso comum em
Estatística, para se positivarem as características de uma distribuição de
valores: são as chamadas Medidas de Curtose ou de Achatamento, que nos
mostra até que ponto a curva representativa de uma distribuição é a mais
aguda ou a mais achatada do que uma curva normal, de altura média.
- Curva Mesocúrtica (Normal): É considerada a curva padrão. Os dados
obtidos na pesquisa, nesse caso, estão "normalmente" distribuídos.
- Curva Leptocúrtica: É uma curva mais alta do que a normal. Apresenta o
topo relativamente alto, significando que os valores se acham mais
agrupados em torno da média. Trata-se de um grupo bem homogêneo.
- Curva Platicúrtica: É uma curva mais baixa do que a normal. Apresenta o
topo achatado, significando que várias classes apresentam freqüências quase
iguais. Então, os dados obtidos nessa pesquisa, nesse caso, estão bem
dispersos em relação à média. Trata-se, portanto, de um grupo heterogêneo.
- Coeficiente de Curtose:
Exemplo: a tabela abaixo apresenta as faixas salariais, em números de
salários mínimos, dos funcionários de determinada empresa de importação e
exportação na cidade de Alegrete. Qual o coeficiente percentílico de
curtose e o tipo curva de freqüências.
____________________________
Solução:
____________________________
02 "---- 04 3
04 "---- 06 6
06 "---- 08 12
08 "---- 10 6
10 "---- 12 3
Agora, podemos calcular K
Em função do resultado obtido, K = 0,25, verificamos que a curva é
levemente leptocúrtica (K<0,263).
BIBLIOGRAFIA
FONSECA, Jairo Simon.; MARTINS, Gilberto de Almeida. "Curso de Estatística"
4ª Ed. São Paulo. Ed. Atlas. 1993.
LIPSCHUTZ, Seymour. "Probabilidade" 4ª Ed. Revisada. São Paulo. Makron
Books,1993.
MEYER, Paul. L. " Probabilidade: Aplicação à Estatística" 2ª Ed. Rio de
Janeiro; Livros Técnicos e Científicos Editora, 1983.
SPIEGEL, Murray R. " Probabilidade e Estatística" São Paulo, Mc. Graw –
Hill do Brasil, 1978.
REIS GATTAS, Murray. Elementos de Probabilidade. São Paulo: Atlas, s1
SPIEGEL, Murray R. Estatística. 3~ cd. São Paulo: McGraw-Hill, s.d.
SPIEGEL, Murray R. Probabilidade e Estatística. São Paulo: McGraw-Hill,
s.d.
STEVENSON, Willíam Y. Estatística Aplicada à Administração. HARBRA, s.d.
-----------------------
limite inferior da classe do decil.
n tamanho da amostra ou número de elementos.
freqüência
acumul摡 湡整楲牯 挠慬獳 搠 敤楣൬–䵅䕂 煅慵楴湯㌮ Ĕ愕灭楬畴敤搠 汣獡敳搠 敤楣൬
–䵅䕂 煅慵楴湯㌮ Ĕ―牦煥 据慩愠獢汯瑵 楳灭敬 慤挠慬獳 潤搠捥汩–䵅䕂 煅慵楴湯
㌮ Ĕക㌍ada anterior à classe do decil
amplitude da classe do decil
freqüência absoluta simples da classe do decil
3
Salários Frequência (f)
Cauda
desviada
para esquerda
Eixo
de
Simetria
Cauda
desviada
para direita
Eixo
de
Simetria
limite inferior da classe do percentil.
n tamanho da amostra ou número de elementos.
freqüência acumulada anterior à classe do percentil
amplitude da classe do percentil
freqüência absoluta simples da classe do percentil
limite inferior da classe quartílica.
n tamanho da amostra ou número de elementos.
freqüência acumulada anterior à classe quartílica
amplitude da classe quartílica.
freqüência absoluta simples da classe quartílica
limite inferior da classe mediana.
n tamanho da amostra ou número de elementos.
freqüência acumulada anterior da classe mediana
amplitude da classe mediana.
freqüência absoluta simples da classe mediana
" limite inferior da classe modal. "
" "
" "
" freqüência da classe modal. "
" freqüência simples anterior da "
"classe modal. "
" freqüência simples posterior da "
"classe modal. "
"amplitude da classe. "
Distribuição de frequência com intervalos de classe:
Quando o tamanho da amostra é elevado é mais racional efetuar o
agrupamento dos valores em vários intervalos de classe.
Distribuição de frequência sem intervalos de classe:
É a simples condensação dos dados conforme as repetições de seus
valores. Para um tabela de tamanho razoável esta distribuição de frequência
é inconveniente, já que exige muito espaço. Veja exemplo ao lado.
Classe A
Classe B
Classe C
Classe D
Classe Social Frequência ( f )
Branca
Negra
Parda
Outras
Raça Frequência ( f )