Preview only show first 10 pages with watermark. For full document please download

Apostila De Estatística

Material básico voltado para o curso de engenharia.

   EMBED


Share

Transcript

APOSTILA DE ESTATÍSTICA Aluno: ______________________________________ A arte de descobrir novos horizontes Cristiane Sander * Se todos nós temos perguntas/problemas e buscamos alternativas para os mesmos e, se a pesquisa nos leva a desenvolver o conhecimento, criar alternativas para problemas e a descobrir novos horizontes, então todos podemos ser pesquisadores. Geralmente, quando ouvimos falar em pesquisa, nos reportamos a laboratórios cheios de aparelhos sofisticados, tubos de ensaio, produtos químicos etc, ou então a números, dados, porcentagem, ou ainda, a pessoas importantes, cientistas, doutores, professores e outros. No entanto, a pesquisa não tem endereço certo, quer dizer, não é só em laboratórios que ela se encontra. A pesquisa está próxima de nós, ela faz parte do nosso dia-a-dia. Para pesquisar é necessário, em primeiro lugar, ter um problema ou uma pergunta a resolver. Ou seja, quando nos dispomos conscientemente a resolver um problema, estamos dando início a uma pesquisa. Passos para a pesquisa Para realizar uma pesquisa não há uma receita pronta para seguir. Há, no entanto, alguns elementos importantes a observar, dos quais destacamos: Problema: Na vida, no dia-a-dia, nos deparamos com vários problemas, somos desafiados sempre a tomar decisões e definir rumos. Por exemplo, se estamos desempregados, vamos fazer o levantamento de quais são as qualificações, capacidades, habilidades que possuímos e onde podemos ir buscar trabalho dentro dessas condições. Mas buscamos também saber por que estamos desempregados, se este é um problema que apenas nós estamos enfrentando ou se mais pessoas estão nesta situação. A partir disto, levantamos várias hipóteses, respostas, alternativas para resolver nosso problema. Temos que ter presente que problema na pesquisa não se refere a uma coisa negativa e sim a algo que nos ajuda a construir e encontrar saídas. A forma de levantar um problema, de fazer a pergunta, define de certa maneira a perspectiva que daremos à pesquisa. Por isso é importante saber fazer as perguntas, ver quem faz as perguntas e para quem e por que estas perguntas/problemas são considerados importantes. Ou seja, quais são os objetivos que pretendemos atingir com a pesquisa. Hipóteses: São as várias possibilidades de solução que levantamos para responder o problema, ou seja, são respostas antecipadas que imaginamos a partir do conhecimento que já possuímos acerca do objeto a ser investigado. No entanto precisamos comprovar ou refutar nossas hipóteses para ter um resultado da pesquisa, pois não podemos ficar no “achismo”, em opiniões, precisamos ter bases concretas, “provas” para realizar nossas pesquisas. Para tanto, precisamos buscar dados, o que implica em ver onde podemos buscá-los, o que precisamos para comprovar nossas hipóteses e qual será o método que vamos usar. Podemos buscar dados, respostas para nossas pesquisas em vários lugares: em livros, revistas, jornais(dados bibliográficos); em arquivos; em fotografias, objetos, ou junto às pessoas, através de entrevistas, questionários etc. Ou seja, às vezes as respostas podem estar onde menos esperamos. Podemos, por exemplo, chegar ao término da pesquisa e concluir que as hipóteses que levantamos no início da pesquisa não eram verdadeiras. Isso não quer dizer que a pesquisa não tenha sido válida, ao contrário, ela pode nos mostrar justamente por onde não devemos andar, ou ainda, nos mostrar caminhos que antes não havíamos pensado em seguir. Por que é importante pesquisar? Quando realizamos qualquer pesquisa, precisamos sempre ter presente por que vamos fazê-la, em que ela vai contribuir para melhorar a vida das pessoas na sociedade. A pesquisa, antes de tudo, gera conhecimento, pois leva-nos a refletir, pensar, ler, escrever e descobrir novos horizontes. É importante que tornemos públicos os resultados aos quais chegamos, pois se guardamos o conhecimento adquirido para nós, ele não terá importância nenhuma para a sociedade. A pesquisa nos possibilita também a olhar de forma crítica a realidade, na medida em que ela nos instiga à busca do novo, para a formulação de novas perguntas e para a produção própria e criativa do conhecimento. Poderíamos iniciar a pesquisa nas escolas e também fora dela, para torná-la mais presente em nossa vida. No entanto, a proposta da pesquisa quebra com a lógica pedagógica de muitas escolas, que se preocupam somente em dar respostas aos alunos. Pois, a pesquisa preocupa-se em fazer perguntas e levar os próprios alunos a buscar soluções, instigando sua criatividade que leva a questionar aquilo que muitos não querem que seja questionado. * Cristiane Sander, licenciada em história-UNIJUÍ, mestranda em Serviço Social-PUCRS. Abril/2000 3 Introdução PROBABILIDADE A história da teoria das probabilidades teve início com os jogos de cartas, dados e de roleta. Esse é o motivo da grande existência de exemplos de jogos de azar no estudo da probabilidade. A teoria da probabilidade permite que se calcule a chance de ocorrência de um número em um experimento aleatório. A estatística surgiu muito antes da probabilidade e tratava principalmente da coleta, organização e apresentação de dados por meio de tabelas e cartas. Com o advento da probabilidade, foi constatado que a estatística poderia ser utilizada para extrair conclusões válidas e tomar decisões razoáveis com base na análise de dados, como em teoria da amostragem e previsões. Experimento Aleatório É aquele experimento que quando repetido em iguais condições, podem fornecer resultados diferentes, ou seja, são resultados explicados ao acaso. Quando se fala de tempo e possibilidades de ganho na loteria, a abordagem envolve cálculo de experimento aleatório Exemplos : - Retirar uma carta de um baralho com 52 cartas e observar seu naipe, sua cor ou seu número / letra. - Jogar uma moeda 50 vezes e observar o número de caras ou coroas obtidas - Retirar com ou sem reposição, bolas de uma caixa que contenha determinadas quantidades de bolas pretas e brancas - Arremessar um dado e observar o número da face de cima. Espaço Amostral É o conjunto de todos os resultados possíveis de um experimento aleatório. A letra que representa o espaço amostral, é S. Exemplo: Lançando uma moeda e um dado, simultaneamente, sendo S o espaço amostral, constituído pelos 12 elementos: S = {K1, K2, K3, K4, K5, K6, R1, R2, R3, R4, R5, R6} 1. Escreva explicitamente os seguintes eventos: A = {caras e um número par aparece}, B = {um número primo aparece}, C = {coroas e um número ímpar aparecem}. 2. Idem, o evento em que: a) A ou B ocorrem; b) B e C ocorrem; c) Somente B ocorre. 3. Quais dos eventos A, B e C são mutuamente exclusivos Resolução: 4 1. Para obter A, escolhemos os elementos de S constituídos de um K e um número par: A={K2, K4, K6}; Para obter B, escolhemos os pontos de S constituídos de números primos: B={K2,K3,K5,R2,R3,R5} Para obter C, escolhemos os pontos de S constituídos de um R e um número ímpar: C={R1,R3,R5}. 2. (a) A ou B = AUB = {K2,K4,K6,K3,K5,R2,R3,R5} (b) B e C = B ∩ C = {R3,R5} (c) Escolhemos os elementos de B que não estão em A ou C; c c B ∩ A ∩ C = {K3,K5,R2} 3. A e C são mutuamente exclusivos, porque A ∩ C = ∅ Conceito de probabilidade Se num fenômeno aleatório as possibilidades são igualmente prováveis, então a probabilidade de ocorrer um evento A é: Por, exemplo, no lançamento de um dado, um número par pode ocorrer de 3 maneiras diferentes dentre 6 igualmente prováveis, portanto, P = 3/6= 1/2 = 50% Dizemos que um espaço amostral S (finito) é equiprovável quando seus eventos elementares têm probabilidades iguais de ocorrência. Num espaço amostral equiprovável S (finito), a probabilidade de ocorrência de um evento A é sempre: Propriedades Importantes: 1. Se A e A’ são eventos complementares, então: P( A ) + P( A' ) = 1 2. A probabilidade de um evento é sempre um número entre ∅ (probabilidade de evento impossível) e 1 (probabilidade do evento certo). 5 Probabilidade Condicional Antes da realização de um experimento, é necessário que já tenha alguma informação sobre o evento que se deseja observar. Nesse caso, o espaço amostral se modifica e o evento tem a sua probabilidade de ocorrência alterada. Exemplo: Uma caixa tem 30 bolas, sendo 10 vermelhas e 20 azuis. Se ocorrer um sorteio de 2 bolas, uma de cada vez e sem reposição, qual será a probabilidade de a primeira ser vermelha e a segunda ser azul? Resolução: Seja o espaço amostral S=30 bolas, bolinhas e considerarmos os seguintes eventos: A: vermelha na primeira retirada e P(A) = 10/30 B: azul na segunda retirada e P(B) = 20/29 Assim: P(A e B) = P(A).(B/A) = 10/30.20/29 = 20/87 Eventos independentes Dizemos que E1 e E2 e ...En-1, En são eventos independentes quando a probabilidade de ocorrer um deles não depende do fato de os outros terem ou não terem ocorrido. Exemplo: Uma caixa tem 30 bolas, sendo 10 vermelhas e 20 azuis. Se sortearmos 2 bolas, 1 de cada vez e respondo a sorteada na urna, qual será a probabilidade de a primeira ser vermelha e a segunda ser azul? Resolução: Como os eventos são independentes, a probabilidade de sair vermelha na primeira retirada e azul na segunda retirada é igual ao produto das probabilidades de cada condição, ou seja, P(A e B) = P(A).P(B). Ora, a probabilidade de sair vermelha na primeira retirada é 10/30 e a de sair azul na segunda retirada 20/30. Daí, usando a regra do produto, temos: 10/30.20/30=2/9. Observe que na segunda retirada foram consideradas todas as bolas, pois houve reposição. Assim, P(B/A) =P(B), porque o fato de sair bola vermelha na primeira retirada não influenciou a segunda retirada, já que ela foi reposta na urna. Probabilidade de ocorrer a união de eventos Exemplo: Se dois dados, azul e branco, forem lançados, qual a probabilidade de sair 5 no azul e 3 no branco? Considerando os eventos: A: Tirar 5 no dado azul e P(A) = 1/6 B: Tirar 3 no dado branco e P(B) = 1/6 Sendo S o espaço amostral de todos os possíveis resultados, temos: n(S) = 6.6 = 36 possibilidades. Daí, temos:P(A ou B) = 1/6 + 1/6 – 1/36 = 11/36 Exemplo: Se retirarmos aleatoriamente uma carta de baralho com 52 cartas, qual a probabilidade de ser um 8 ou um Rei? Sendo S o espaço amostral de todos os resultados possíveis, temos: n(S) = 52 cartas. Considere os eventos: A: sair 8 e P(A) = 4/52 6 B: sair um rei e P(B) = 4/52 Assim, P(A ou B) = 4/52 + 4/52 – 0 = 8/52 = 2/13. Note que P(A e B) = 0, pois uma carta não pode ser 8 e rei ao mesmo tempo. Quando isso ocorre dizemos que os eventos A e B são mutuamente exclusivos. Porque a estatística é importante? Os métodos estatísticos são usados hoje em quase todos os campos de investigação científica, já que eles nos capacitam a responder a um vasto número de questões, tais como: 1) Como os cientistas avaliam a validade de novas teorias? 2) Como os pesquisadores médicos testam a eficiência de novas drogas? 3) Como os demógrafos prevêem o tamanho da população do mundo em qualquer tempo futuro? 4) Como pode um economista verificar se a mudança atual no Índice de Preços ao Consumidor é a continuação de uma tendência secular, ou simplesmente um desvio aleatório? 5) Como é possível para alguém predizer o resultado de uma eleição entrevistando apenas algumas centenas de eleitores? Estes são poucos exemplos nos quais a aplicação da estatística é necessária. Por isso, a estatística tornou-se uma ferramenta cotidiana para todos os tipos de profissionais que entram em contato com dados quantitativos ou tiram conclusões a partir destes. Definição de Estatística “Estatística” é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados. Ela é dividida em: Estatística Descritiva: parte da Estatística que apenas coleta, descreve, organiza e apresenta os dados. Nela não são tiradas conclusões. Estatística Indutiva ou Inferência: analisa os dados e obtêm-se as conclusões. Estatística Descritiva Fases do Método Estatístico Tabelas Coleta de dados Crítica dos dados Apresentação dos dados Análises Gráficos Coleta de Dados Após a definição do problema a ser estudado e o estabelecimento do planejamento da pesquisa (forma pela qual os dados serão coletados; cronograma das atividades, custos envolvidos; exame das informações disponíveis; delineamento da amostra etc.), o passo seguinte é a coleta de dados, que consiste na busca ou compilação dos dados das variáveis, componentes do fenômeno a ser estudado. A coleta de dados pode ser direta ou indireta. 7 - coleta direta: quando os dados são obtidos na fonte originária. Os valores assim compilados são chamados de dados primários, como, por exemplo, nascimentos, casamentos e óbitos, registrados no Cartório de Registro Civil; opiniões obtidas em pesquisas de opinião pública; ou ainda, quando os dados são coletados pelo próprio pesquisador. A coleta direta pode ser classificada relativamente ao fator tempo em: • contínua – quando feita continuamente, como por exemplo, nascimentos e óbitos, freqüência dos alunos às aulas; • periódica – quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos); • ocasional – quando feita sem época preestabelecida. - coleta indireta: quando os dados obtidos provêm da coleta direta. Os valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo do tempo de vida média, obtido pela pesquisa, nas tabelas demográficas publicadas pela Fundação Instituto Brasileiro de Geografia e Estatística, se constitui em uma coleta indireta. Crítica dos Dados Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, eliminando os erros capazes de provocar futuros enganos de apresentação e análise. Apresentação dos Dados Após a crítica, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos), para o melhor entendimento do fenômeno que está sendo estudado. Características Importantes dos Dados 1- A natureza ou forma de distribuição dos dados como forma de sino, uniforme ou assimétrica. 2- Um valor representativo como uma média 3- Uma medida de dispersão ou variação. Podemos conhecer alguma coisa da natureza ou forma da distribuição organizando os dados e construindo gráficos. Estatística Descritiva: Tabelas, Séries Estatísticas e Gráficos Estatísticos Tabelas Tabela é um quadro que resume um conjunto de observações. Ela é composta de: - título: conjunto de informações, as mais completas possíveis, respondendo às perguntas: O que? (referente ao fato), Quando? (relativo ao lugar), Onde? (correspondente à época); - corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo; - cabeçalho: parte superior da tabela que especifica o conteúdo das colunas; 8 - rodapé: reservado pare as observações pertinentes, bem como a identificação da fonte dos dados . Séries Estatísticas É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie. Conforme o critério de agrupamento as séries classificam-se em: a) Série Cronológica, Temporal, Evolutiva ou Histórica: É a série estatística em que os dados são observados segundo a época de ocorrência. Exemplo: Vendas da Companhia Alfa - 1990-1994 Ano Vendas (em R$ 1.000,00) 1990 2.181 1991 3.948 1992 5.642 1993 7.550 1994 10.009 Fonte: Departamento de Marketing da Companhia Alfa. b) Série Geográfica ou de Localização: É a série estatística em que os dados são observados segundo a localidade de ocorrência. Exemplo: INAMPS - Empresas fiscalizadas em 1998 Regiões Norte Empresas fiscalizadas 7.495 Nordeste 107.783 Sudeste 281.207 Sul 53.661 Centro-Oeste 15.776 Fonte: Mensário Estatístico do IBGE c) Série Específica: É a série estatística em que os dados são agrupados segundo a modalidade de ocorrência. Exemplo: Matriculas no Ensino de Terceiro Grau Brasil—1995 (ciclo básico) Áreas de ensino Matrículas Ciências Biológicas 62.109 Ciências Exatas e Tecnologia 95.949 Ciências Agrárias 32.419 Ciências Humanas 178.842 Letras 39.883 Artes 37.464 9 Duas ou mais áreas 46.323 Fonte: Serviço de Estatística do Ministério da Educação e Cultura. d) Distribuição de Freqüências. É a série estatística em que os dados são agrupados com suas respectivas freqüências. Será vista com mais detalhes a seguir. Exemplo: Número de Acidentes por Dia na Rodovia X em Janeiro de 2003 Número de acidentes por dia Número de dias 0 10 1 7 2 4 3 5 4 3 5 2 Fonte: DNER. Gráficos Estatísticos A representação gráfica das séries estatísticas tem por finalidade dar uma idéia, a mais imediata possível, dos resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série. Não há apenas uma maneira de representar graficamente uma série estatística. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico. Os principais tipos de gráficos. a) Gráfico em Colunas População Brasileira Gráfico em Colunas 1940 – 1970 100 90 População População do Brasil (milhões) Ano 80 1940 41 236 315 70 1950 51 944 397 60 1960 70 119 071 50 1970 93 139 037 40 Fonte: Anuário Estatístico - 1974 - 30 20 10 0 1940 1950 1960 Ano 1970 População 10 b) Gráfico em Barras: É semelhante ao gráfico em colunas, porém os retângulos são dispostos horizontalmente. Eis a configuração do mesmo gráfico anterior: Gráfico em Barras 1970 Ano 1960 1950 1940 0 10 20 30 40 50 60 70 80 90 100 População População do Brasil (milhões) Esses dois tipos de gráficos são geralmente utilizados para comparar diferentes variáveis ou diferentes valores da mesma variável. b) Gráficos em Setores: É a representação gráfica de uma série estatística, em um círculo, por meio de setores. É utilizado principalmente quando se pretende comparar cada valor da série com o total. Para construí-lo, divide-se o círculo em setores, cujas áreas serão proporcionais aos valores da série. Essa divisão poderá ser obtida pela solução da regra de três. Gráfico em Setores Total _____ 360 o Parte _____ x o (1996), 90,0 (1998), 150,0 (1997), 120,0 RECEITA DO MUNICÍPIO X DE 1996 a 1998 (milhões) 11 Gráfico em Curvas ou Linear: é utilizado para representar o crescimento ou o c) decrescimento da variável. Exemplo: Vendas da Companhia Gráfico Linear 500 Beta 1991 a 1997 400 Ano Vendas R$ 1.000,00) 230 1992 260 1993 380 1994 300 1995 350 1996 400 1997 4500 VENDAS 1991 300 200 100 0 1991 1992 1993 1994 1995 Anos Fonte: Departamento de Marketing Companhia Beta Dicas para a Apresentação dos Dados Dados Dados Quantitativos Dados Qualitativos Métodos Tabulares Distribuições de freqüências Métodos Gráficos Gráficos de barras e pizza Métodos Tabulares Distribuições de freqüências Métodos Gráficos Histograma 1996 1997 12 Tabela de Dados Relaciona TODOS os dados levantados na pesquisa, independentemente de ordem. Tabela de Dados Ordenados (Rol) Relaciona TODOS os dados levantados na pesquisa, ordenados de alguma forma. Tabela de Freqüência Relaciona classes e freqüência do número de valores que se enquadram em cada categoria. Amplitude de Amostra ( Amplitude Total) (Range) Diferença entre o maior e o menor valores encontrados na Tabela de dados. Amplitude de Classe Diferença entre os limites superior e inferior de cada classe. Freqüência Absoluta É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. Freqüência Relativa freqüência relativa = freqüência absoluta freqüência de classe ou freqüência total freqüência total As freqüências relativas também podem ser apresentadas como porcentagens. Quando calculada corretamente e, a menos dos erros de arredondamento, a soma das freqüências relativas deve ser igual a 1 (ou 100%). Freqüência Acumulada A freqüência acumulada de uma classe é a soma das freqüências daquela classe e de todas as classes que a antecedem. Freqüência Absoluta Acumulada É a soma da freqüência absoluta do elemento ou da classe com a freqüência absoluta dos elementos anteriores ou das classes anteriores. Freqüência Relativa A freqüência relativa é o valor da freqüência absoluta dividido pelo número total de observações: fr = fi . n Freqüência Acumulada Relativa ou Freqüência Relativa Acumulada A freqüência acumulada relativa é o valor da freqüência acumulada dividido pelo número total de observações: far = f ac . n Análise dos Resultados 13 Realizadas as fases anteriores, faz-se uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferência, e tiram-se as conclusões e previsões. Tipos de Variáveis Variável é o conjunto de resultados possíveis de um fenômeno. Por exemplo: - Para o fenômeno “sexo” são dois os resultados possíveis: sexo masculino e sexo feminino; - Para o fenômeno “número de filhos” há um número de resultados possíveis expressos através dos números naturais: 0, 1, 2, 3, ... n; - Para o fenômeno “estatura” temos uma situação diferente, pois os resultados podem tomar um número infinito de valores numéricos dentro de um determinado intervalo. As variáveis, desta forma, podem ser: Variáveis quantitativas - referem-se a quantidades e podem ser medidas em uma escala numérica. Exemplos: idade de pessoas, preço de produtos, peso de recém nascidos. Elas subdividem-se em dois grupos: - Variáveis quantitativas discretas: são aquelas que assumem apenas determinados valores tais como 0,1,2,3,4,5,6 dando saltos de descontinuidade entre seus valores. Normalmente referem-se a contagens. Por exemplo: número de ovos produzidos por uma granja, número de pessoas por família, quantidade de doentes por hospital. - Variáveis quantitativas contínuas: são aquelas cujos valores assumem uma faixa contínua e não apresentam saltos de descontinuidade. Exemplos dessas variáveis são o peso de pessoas, a renda familiar, o consumo mensal de energia elétrica, o preço de um produto agrícola, a produção de leite de uma fazenda. Variáveis Qualitativas - refere-se a dados não numéricos. Exemplos dessas variáveis são o sexo das pessoas, a cor, o grau de instrução. Elas subdividem-se também em dois grupos: - Variáveis qualitativas ordinais: são aquelas que definem um ordenamento ou uma hierarquia. Exemplos são o grau de instrução, a classificação de um estudante no curso de estatística, as posições das 100 empresas mais lucrativas, etc. - Variáveis qualitativas nominais: por sua vez não definem qualquer ordenamento ou hierarquia. São exemplos destas a cor, o sexo, o local de nascimento, etc. População É o conjunto de elementos a serem observados. Exemplo: alunos de uma escola. Amostra É uma pequena parte selecionada de uma população que se pretende estudar. Fazemos uma amostragem quando: 14 - o número de elementos da população é muito grande; - queremos economizar tempo e dinheiro. Distribuição de Freqüências e Histograma para Dados sem Intervalo de Classe Utilizamos esse tipo de distribuição quando o número de elementos distintos da amostra for pequeno. Exemplo: Considere o seguinte conjunto de dados: 21, 21, 21, 22, 22, 23, 23, 24, 25, 25, 25, 25, 26, 26, 26, 28, 30. Construa uma distribuição com todas as freqüências. X fi fac fr far 21 3 3 3/17 3/17 22 2 23 2 24 1 25 4 26 3 28 1 30 1 ∑ 17 |||||||||||||||||||||| ||||||||||||||||||||||| fr % far % ||||||||||||||||||||| Histograma Histograma é uma representação gráfica de uma tabela de distribuição de freqüências. Desenhamos um par de eixos cartesianos e no eixo horizontal (abcissas) colocamos os valores da variável em estudo e no eixo vertical (ordenadas) colocamos os valores das freqüências. O histograma tanto pode ser representado para as freqüências absolutas como para as freqüências relativas. No caso do exemplo anterior, o histograma seria: 15 Freqüência Absoluta Histograma 5 4 3 2 1 0 21 22 23 24 25 26 28 30 Mais valores Ogiva Ogiva é uma representação gráfica de uma tabela de distribuição de freqüências acumuladas. No caso exemplo anterior, a ogiva seria: Ogiva Frequencias Acumuladas 18 16 14 12 10 8 6 4 2 0 21 22 23 24 25 Valores de x 26 28 30 16 Distribuição de Freqüência e Histograma para Dados com Intervalo de Classe Quando o número de elementos distintos da amostra for grande, os dados devem ser tabulados em intervalos de classes. Para a determinação dessas classes não existe uma regra préestabelecida, sendo necessário um pouco de tentativa e erro para a solução mais adequada. Suponhamos que as safras agrícolas de um determinado produto, em uma determinada região sejam dadas pela tabela a seguir: Ano Safra (1000 t) Ano Safra (1000 t) 1 280 10 365 2 305 11 280 3 320 12 375 4 330 13 380 5 310 14 400 6 340 15 371 7 310 16 390 8 340 17 430 9 369 18 370 Lembrando os passos que devem ser seguidos para a tabulação de freqüências de dados. - Sempre começar por ordenar os dados. Obter o Rol(Tabela de dados ordenados) antes de começar a construir as Tabela de Freqüências - Definir o número de classes. O número de classes não deve ser muito baixo nem muito alto. Um número de classes pequeno gera amplitudes de classes grandes o que pode causar distorções na visualização do histograma. Um número de classes grande gera amplitude de classes muito reduzidas. Foram definidas regras práticas para a determinação do número de classes, sendo que este deve variar entre 5 e 20 (5 para um número muito reduzido de observações e 20 para um número muito elevado). Se n representa o número de observações (na amostra ou na população, conforme for o caso) o número aproximado de classes pode ser calculado por Número de Classes(k), k = k= n , arredondando os resultados. No caso do exemplo anterior temos n = 18 e 18 = 4,24 e podemos adotar um número de 5 classes, que será razoável. Lembrar que o valor adotado para k deve ser SEMPRE INTEIRO - Calcular a amplitude das classes(h). A amplitude será obtida conhecendo-se o número de classes(k) e amplitude total(AT) dos dados. A amplitude total dos dados é o resultado da subtração valor máximo - valor mínimo da série de dados. A amplitude de classe será: h = AT k O valor do resultado também poderá ser arredondado para um número inteiro mais adequado. No nosso exemplo temos: h= 430 - 280 = 30 5 17 Preparar a tabela de seleção com os limites de cada classe. Na tabela abaixo apresentamos para os dados do nosso exemplo os limites inferior(Linf) e superior (Lsup) de cada uma das 5 classes de freqüência. Classe Limite inferior Limite Superior 1 280 310 2 310 340 3 340 370 4 370 400 5 400 430 Observa-se na tabela acima que o limite superior de cada classe coincide com o limite inferior da classe seguinte. Prevendo-se que pode ocorrer que o valor de uma observação seja exatamente igual ao valor do limite de classe deve-se estabelecer um critério de inclusão. Para evitar esse tipo de dificuldade normalmente se estabelece que o limite superior de cada classe é aberto (e consequentemente, o limite inferior de cada classe é fechado), ou seja, cada intervalo de classe não inclui o valor de seu limite superior, com exceção da última classe. Tabular os dados por classe de freqüência. A partir da listagem de dados seleciona-se para cada um deles qual é a sua classe de freqüência e acumula-se o total de freqüência de cada classe. De acordo com nosso exemplo, teremos: Classe 280 |--- 310 fi 3 310 |--- 340 4 340 |--- 370 4 370 |--- 400 5 400 |---| 430 2 Total 18 fac fr far fr % far % 18 Histograma 6 Freqüência 5 4 3 2 1 0 280 - 310 310 - 340 340 - 370 classes 370 - 400 400 - 430 Polígono de Freqüência 6 Freqüência 5 4 3 2 1 0 280 - 310 310 - 340 340 - 370 370 - 400 400 - 430 classes Estatística Descritiva: Medidas de Tendência Central (ou de Posição) As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de dados. Geralmente localizam-se em torno do meio ou do centro de uma distribuição, onde a maior parte dos dados tende a se concentrar. As principais medidas de tendência central são: média, mediana e moda. Média Aritmética ( X ), ou simplesmente Média A média é definida como a soma das observações dividida pelo número de observações. ∑x Se tivermos, por exemplo, n valores, temos: X= i n Exemplo: Calcule a média da variável x: 3, 5, 8, 12, 7, 12, 15, 18, 20, 20. 19 X = 3 + 5 + 8 + .............................. ..... .......... ....... = = ............... 10 10 Média para Dados Agrupados sem Intervalos de Classe ( X ) A média para dados agrupados sem intervalo de classe é obtida por: X = ∑x f ∑f i i i onde fi é a freqüência absoluta Exemplo: Determinar a média da distribuição: xi fi 2 1 5 4 6 3 8 2 xifi ∑ fi = 10 X= Então: ∑x f ∑f i i = i ∑ xifi = ................... = .................. 10 Média para Dados Agrupados com Intervalos de Classe ( X ) Para o cálculo da média para dados agrupados com intervalos de classe, é necessário calcular o ponto médio de cada classe. A média é obtida por: X= ∑P f ∑f m i i onde: Pm é o ponto médio de cada classe. O ponto médio de cada classe é definido por: Pm = L inf + L sup 2 Exemplo: Calcular a média da distribuição: classes fi 2 |------ 5 1 5 |------ 8 10 8 |------ 11 6 11 |------ 14 1 14 |------17 2 ∑ fi = 20 Pm Pmfi ∑ Pmfi = ........ 20 X= Então: ∑P f ∑f m i i = .......... ...... = .......... ...... ........... Média Geométrica (G) A média geométrica de uma amostra é definida como a raiz enésima do produto dos n valores amostrais. G = n ( x1 )( x2 )...( xn ) Por exemplo, a média geométrica de 5, 9 e 13 é: G = .... (.......)(.......)(........) = ........... Média Harmônica (H) A média harmônica é o inverso da média aritmética dos inversos dos valores observados. Simbolicamente, para uma amostra, temos: 1 H= 1 1 1 x1 + x2 +...+ xn = n 1 ∑ (1 / x) = n n ∑ (1 / x) Exemplo: A média harmônica dos três valores 2, 5 e 10 é: H= ......... ......... .......... = = = ......... ....... ....... ....... ........ + ........ + ........ ......... + + ...... ...... ....... Média Quadrática (Q) E a raiz quadrada da média dos quadrados dos valores observados n ∑x Q= 2 i i =1 n Exemplo: a média quadrática dos três valores 2 , 5 e Q= 10 é : ...... 2 + ...... 2 + .....2 ....... + ....... + ....... ........ = = = ....... = ........ ...... ....... ...... Média Ponderada Tomemos um conjunto de n dados... x1 , x 2 , x3 ,......... .., x n 21 Se, para cada dado xi associarmos respectivamente um peso pi , a média ponderada será dada n ∑ x .p i por : P= i i =1 n ∑p i i =1 Exemplo : A média ponderada dos valores 5, 7, 9, 11sabendo-se que têm, respectivamente, pesos 2, 3, 3 e 4 é : P= 5 x 2 + 7 x3 + 9 x3 + 11x 4 .......... ...... = = ................. 2+3+3+ 4 .......... ..... Mediana (Md) A mediana é um valor real que separa o rol em duas partes deixando à sua esquerda o mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que ocupa a posição central em uma série. Ela é denotada por: Md. Inicialmente devemos ordenar os elementos, em seguida determinamos o número n de elementos. Se n é ímpar: a mediana é o termo central, aquele que divide o rol em duas partes iguais. Exemplo: Determinar a mediana do conjunto: x: 2, 20, 12, 23, 20, 8, 12. Ordenando os termos: 2, 8, 12, 12, 20, 20 ,23. A mediana será o número 12, pois ele divide o conjunto em duas partes iguais. Portanto, Md = 12. Se n é par: a mediana será a média aritmética dos dois termos centrais. Exemplo: Determinar a mediana da série: x: 7, 21, 13, 15, 10, 8, 9, 13. Ordenando os termos: 7, 8, 9, 10, 13, 13, 15, 21. A mediana será: Md = 10 + 13 = 11,5 2 Moda (Mo) É o valor de maior freqüência em um conjunto de dados. Ela é denotada por Mo. Exemplos: Determinar a moda dos conjuntos de dados: a) x: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1. O elemento de maior freqüência é 5. Portanto, Mo = 5. É uma seqüência unimodal, pois só temos uma moda. b) X: 6, 10, 5, 6, 10, 2. Este conjunto de dados apresenta o elemento 6 e 10 como elementos de maior freqüência. Portanto, Mo = 6 e Mo = 10. Por isso é chamada de bimodal. Quando não houver elementos que se destaque pela maior freqüência, dizemos que a série é amodal. Exemplo: x: 3, 3, 3, 4, 4, 4. 22 Não há moda, pois os elementos têm a mesma freqüência. Utilização das Medidas de Tendência Central Na maioria das situações, não necessitamos calcular as três medidas de tendência central. Normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando houver forte concentração de dados na área central da série, devemos optar pela Média. Quando houver forte concentração de dados no início e no final da série, devemos optar pela Mediana. A Moda deve ser a opção como medida de tendência central apenas em séries que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à freqüência dos outros elementos da série. Estatística Descritiva: Medidas de Dispersão As medidas de dispersão são medidas que mostram o grau de dispersão ou de concentração em torno da média. As principais medidas de dispersão são: variância, desvio padrão e coeficiente de variação. Variância e Desvio Padrão para Dados Agrupados sem Intervalos de Classe A variância é uma média aritmética calculada a partir dos quadrados dos desvios obtidos entre os elementos da série e a sua média. O desvio padrão é a raiz quadrada positiva da variância. S = S 2 , para a amostra; σ = σ 2 , para a população. O desvio-padrão de um conjunto de valores amostrais é uma medida de variação dos valores em relação à média. Fórmulas : desvio-padrão populacional σ= n desvio-padrão amostral s= ∑ i =1 n ( x i − x )2 i =1 n ∑ ( x i − x )2 n −1 Notação s = desvio-padrão de um conjunto de dados amostrais σ = desvio-padrão de um conjunto de dados populacionais s² = variância de um conjunto de dados amostrais σ2 = variância de um conjunto de dados populacionais 23 OBS : Em artigos de revistas e relatórios profissionais costuma-se indicar o desvio-padrão por SD(Standard Deviation) e a variância por Var. Maneira de se calcular o desvio-padrão Eemplo : Calcule a variância e o desvio padrão da série abaixo, representativa de uma população. xi fi 2 3 3 5 4 8 5 4 ∑ 20 xi fi (xi - Primeiro, calculamos a média: µ= µ )2 ∑x f ∑f i fi(xi - i i = µ )2 ......... = .......... ......... Como estamos trabalhando com uma população a variância é dada por: σ 2 ∑ f (x = i − µ)2 i N = .............. = .............. .......... σ = .......... ..... = .......... ...... O desvio padrão será: Variância e Desvio Padrão para Dados Agrupados com Intervalos de Classe A variância para dados agrupados com intervalos de classe é dada por: S2 = σ 2 ∑ f (P i m − X )2 n −1 ∑ f (P = i m − µ)2 N , para a amostra; , para a população. O desvio padrão é dado por: S = S 2 , para a amostra; σ = σ 2 , para a população. Exemplo: Calcule a variância e o desvio padrão da série abaixo, representativa de uma população: 24 classes fi Pm 2 |------ 5 1 3,5 5 |------ 8 10 8 |------ 11 6 11 |------ 14 2 14 | ------ | 17 1 ∑ 20 Pmfi ( Pm − µ ) 2 f i ( Pm − µ ) 2 Primeiramente calculamos o ponto médio de cada classe e em seguida a média: µ= ∑P f ∑f m i = i ........... = .......... ..... Como estamos trabalhando com uma população a variância é dada por: σ2 = ∑ f (P i m N − µ)2 = .......... .... = ............ ..... O desvio padrão será: σ = ............ = ............. Coeficiente de Variação (CV) É uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média. CV = Se: CV ≤ 15% desvio padrão ⋅ 100 média ⇒ Baixa dispersão – Homogênea, estável, regular. 15% < CV< 30% ⇒ Média dispersão. CV > 30% ⇒ Alta dispersão – Heterogênea. Exemplo: Determine o coeficiente de variação para o exemplo anterior: 25 CV = ............ ⋅ 100 = ...........% ...... Quartis, Decis e Percentis(ou Centis) Assim como a mediana divide os dados em duas partes iguais, os três quartis, denotados por Q1 , Q2 e Q 3 , dividem as observações ordenadas(dispostas em ordem crescente) em quatro partes iguais. Grosso modo, mediana e Q1 Q3 separa os 25% inferiores dos 75% superiores dos valores ordenados ; iguais a éa separa os 75% inferiores dos 25% superiores dos dados. Mais precisamente, ao menos 25% dos dados serão no máximo iguais a Q1 . Q2 Q1 e, ao menos 75% dos dados serão no mínimo Da mesma forma, 75% dos dados serão no máximo iguais a serão, no mínimo, iguais a Q3 Q3 , enquanto ao menos 25% . Analogamente há nove decis, denotados por D1 , D2 , D3 ,......., D9 , que dividem os dados em 10 grupos com cerca de 10% deles em cada grupo. Há, finalmente, 99 percentis(ou centis), que dividem os dados em 100 grupos com cerca de 1% em cada grupo. Os quartis, decis e percentis(centis) são exemplos de fractis, que dividem os dados em partes aproximadamente iguais. Exemplo : Um estudante que se submeteu ao vestibular para ingresso em uma faculdade é informado que está no 92º percentil. Isso não significa, entretanto, que ele tenha obtido 92% no exame; indica apenas que, qualquer que tenha sido a nota obtida, ela foi superior a 92%(e inferior a 8%) das notas de toda a turma. O 92º percentil é, portanto, uma excelente classificação em relação aos outros que fizeram o exame. O processo de determinação do percentil Pk , correspondente a um determinado valor x é bastante simples, como pode ser visto na expressão seguinte : Índice do percentil do valor x = k = k= Lx100 n número de valores inferiores a x • 100 número total de valores  k  ou L =  .n  100  Onde L = número de valores inferiores a x ( O “endereço” do percentil na tabela) k = índice do percentil Pk n = número total de valores ( número de elementos da tabela) Fluxograma para determinação do k-ésimo percentil 26 Início Ordenar os dados, do menor para o maior. Calcular L = (k/100).n , n = número de valores k = percentil desejado Sim L é um número inteiro? O valor do k-ésimo percentil está a meio caminho entre o L-ésimo valor e o próximo valor mais alto no conjunto original de dados. Obtém-se Pk , somando-se o L-ésimo valor ao próximo valor mais alto e dividindo-se o resultado por 2. Não Modificar L, arredondando seu valor para o maior inteiro mais próximo Exemplo : Determine o 40º percentil ( O valor de Pk é o L-ésimo valor a contar do mais baixo P40 ) dos valores da tabela de dados ordenados abaixo : TABELA DE DADOS ORDENADOS (Rol) 01 02 03 04 05 06 07 08 09 10 11 200 208 225 242 254 259 262 263 267 268 270 201 209 228 248 256 259 262 264 268 268 270 204 215 230 250 256 260 263 265 268 268 270 204 217 234 251 256 261 263 265 268 269 270 206 218 236 251 257 262 263 265 268 269 270 206 220 241 252 257 262 263 266 268 269 270 208 223 242 252 258 262 263 267 268 269 270 27 12 13 14 15 16 17 18 19 20 21 22 23 24 25 270 272 274 275 277 278 279 281 282 283 285 287 290 292 271 273 274 276 277 278 279 281 282 283 285 288 290 293 271 273 274 276 277 278 279 281 282 284 286 289 290 293 272 273 274 276 277 278 280 281 282 284 286 289 291 294 272 273 275 276 277 278 280 282 283 284 286 289 291 295 272 273 275 276 277 278 280 282 283 284 286 289 292 295 272 273 275 277 277 278 281 282 283 285 287 289 292 297  k   40  L= n =   • 175 = 70 100 100     Solução : Acompanhando o fluxograma, calculamos : P Sendo 70 um número inteiro , segundo o fluxograma, 40 está a meio caminho entre o 70º e o 71º valores. E como esses valores são, respectivamente, 269 e 270, concluímos que o 40º percentil é (269 + 270) / 2 = 269,5. Exemplo 2 : Determine o 71º Percentil. Solução :  k   71  L= n =   • 175 = 124,25 (valor não inteiro).  100   100  Neste caso, simplesmente se arredonda para o número inteiro superior mais próximo, ou seja, L = 125. E, assim, o número que está no espaço 125 é o 280 e, portanto, P71 = 280 Treino : Determine todos os Quartis Determine todos os Decis pares Descubra qual o Percentil dos dados : 208, 252, 278, 287 e 294 Escores z Quase todos nós estamos familiarizados com a sigla QI(coeficiente de inteligência) e reconhecemos que um QI de 102 é bastante comum enquanto um QI de 170 é raro. Esse QI de 102 é bastante comum porque está próximo da média de 100, mas o QI de 170 é raro porque está bem acima de 100. Esta circunstância pode sugerir uma diferença entre os valores típicos e os valores raros, com base em sua (x − x ) diferença em relação à média . Mas o tamanho dessa diferença depende da escala que estamos utilizando. Com os valores de QI, uma diferença de 2 pontos é insignificante mas, para médias de notas de uma faculdade, uma diferença de 2 pontos, entre 2,00 e 4,00, é altamente significativa. Seria muito melhor se dispuséssemos de um padrão que não levasse em conta a escala utilizada. Com o valor, ou escore padronizado, dividimos a diferença chegarmos a esse resultado. (x − x ) ou (x - µ ) pelo desvio-padrão para DEFINIÇÃO : O escore padronizado, ou escore z , é o número de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos) . Obtém-se como se segue : Amostra População 28 z= x−x s z= x−µ σ NOTA : Arredondar z para duas casas decimais Exemplo : As alturas da população de homens adultos têm média µ = 1,75 m, desvio-padrão σ = 0,07 m e distribuição em forma de sino. Um jogador de basquete com 1,98 m pode ser considerado excepcionalmente alto, comparado com a população geral de homens adultos ? Determine o escore z para a altura de 1,98 m. Solução : Como estamos lidando com parâmetros populacionais, o escore z se calcula como segue : z= x−µ σ = 1,98 − 1,75 = 3,29 0,07 . Podemos interpretar este resultado dizendo que a altura do jogador de basquete está 3,29 desviospadrão acima da média. A importância dos escores z na estatística reside no fato de que eles permitem distinguir entre valores usuais e valores raros, ou incomuns. Consideramos usuais os valores cujos escores padronizados estejam entre –2,00 e 2,00 e incomuns os valores com escore z inferior a –2,00 ou superior a 2,00 . Assim, a altura do jogador de basquete do exercício anterior corresponde a um escore z de 3,29, que consideramos incomum por ser superior a 2,00. Em comparação com a população geral, o jogador pode ser considerado, excepcionalmente alto. Valores Incomuns Valores Incomuns Valores usuais -3 -2 -1 0 1 2 3 Fig 01 - Interpretação do escore z Testes de Hipóteses e Significância Decisões Estatísticas Quando somos levados a tomar decisões com base em informações sobre amostras elas são chamadas de decisões estatísticas. Hipóteses Estatísticas e Hipóteses Nulas. Na tentativa de se chegar a decisões, é conveniente fazer suposições ou conjeturas sobre as populações envolvidas. Estas suposições, que podem ser verdadeiras ou não, são chamadas de hipóteses estatísticas e, em geral, são afirmações sobre as distribuições de probabilidade das populações. Por exemplo : a) Se queremos decidir se uma moeda é viciada, formulamos a hipótese de que a moeda é honesta, ou seja, p=0,5 onde p é a probabilidade de dar cara no lançamento da moeda. b) Se queremos decidir se um procedimento é melhor do que outro, formulamos a hipótese de que não há diferença entre os procedimentos( i.e., quaisquer diferenças observadas são meramente devido a flutuações na amostragem de uma mesma população). Tais hipóteses, muitas vezes chamadas de hipóteses nulas ou simplesmente hipóteses, são 29 denotadas H0 . Quaisquer outras hipóteses que difiram de uma dada hipótese nula são chamadas de hipóteses alternativas e são denotadas por H 1 . Por exemplo : Se a hipótese nula é p = 0,5, hipóteses alternativas podem ser p = 0,7 , p ≠ 0,5 , p > 0,5 . Testes de Hipóteses e Significância Se, sob a suposição de uma hipótese particular ser verdadeira, concluirmos que os resultados observados em uma amostra aleatória diferem muito daqueles esperados, diríamos que as diferenças observadas são significantes e estaríamos inclinados a rejeitar a hipótese. Por exemplo : Se 20 lançamentos de uma moeda dão 16 caras, estaríamos inclinados a rejeitar a hipótese de que a moeda é honesta, apesar de admitirmos que podemos estar equivocados. Os procedimentos que nos capacitam a decidir se aceitamos ou rejeitamos uma hipótese ou a determinar se a amostra observada difere significativamente dos resultados esperados são chamados de testes de hipóteses, testes de significância ou regras de decisão. Erros do Tipo I e Do Tipo II Se rejeitamos uma hipótese quando ela é de fato verdadeira, dizemos que foi cometido um erro do Tipo I . Se aceitamos uma hipótese quando ela deveria ser rejeitada, dizemos que foi cometido um erro do Tipo II . Em ambos os casos ocorreu uma decisão errada ou um erro no julgamento. Para que um Teste de hipóteses (ou uma regra de decisão) seja bom, precisa ser construído de modo a minimizar erros de decisão. Este não é um problema simples pois, em geral, para um dado tamanho de amostra, a tentativa de diminuir um tipo de erro é acompanhada por um aumento no outro tipo de erro. Na prática, um tipo de erro pode ser mais sério do que o outro e então deveria ser assumido um compromisso em favor de uma limitação no erro mais sério. A única maneira de reduzir ambos os tipos de erros, é aumentar o tamanho da amostra, o que nem sempre é possível. Nível de Significância Ao testar uma dada hipótese, a probabilidade máxima com a qual queremos arriscar cometer erro do Tipo I é chamada de nível de significância do teste. Esta probabilidade em geral é especificada antes de qualquer amostra ser extraída para que os resultados obtidos não venham a influenciar nossa decisão. Na prática são usuais níveis de significância de 0,05 ou 0,01 , apesar de outros valores também serem usados. Se, por exemplo, um nível de significância de 0,05 (ou 5%) for escolhido na construção de um teste de hipóteses, então há em torno de 5 chances em 100, da hipótese ser rejeitada quando ela deveria ter sido aceita, isto é, sempre que a hipótese nula for verdadeira, estaremos em torno de 95% confiantes de que tomamos a decisão correta. Em tais ocasiões dizemos que a hipótese foi rejeitada ao nível de significância de 0,05, o que significa que podemos estar errados com probabilidade de 5%. 30 Testes envolvendo a Distribuição Normal Para ilustrar as idéias recém apresentadas, suponhamos que sob uma dada hipótese, a distribuição amostral de uma estatística S é uma distribuição normal com média µ s e desviopadrão σs . Além disso, suponhamos que decidimos rejeitar a hipótese de S se for muito pequena ou muito grande. A distribuição da variável padronizada Z= (S − µ s ) σs é a distribuição normal padrão (média 0, variância 1) mostrada na figura abaixo e valores extremos de Z nos levariam à rejeição da hipótese. Região crítica 0,025 Região crítica 0,025 0,95 z = - 1,96 z = 1,96 Como está indicado na figura, podemos estar 95% confiantes de que, se a hipótese for verdadeira, o escore z de uma estatística amostral verdadeira S estará entre –1,96 e 1,96 (pois a área sob a curva normal entre estes valores é 0,95). Entretanto, se ao escolher uma única amostra aleatoriamente encontramos o escore z desta estatística fora do intervalo de –1,96 a 1,96, concluiríamos que tal evento aconteceria somente com probabilidade de 0,05(área sombreada total na figura) se a hipótese fosse verdadeira. Diríamos então que este escore z difere significativamente do que seria esperado sob a hipótese e estaríamos inclinados a rejeitar a hipótese. A área 0,05 da região sombreada total é o nível de significância do teste. Este nível representa a probabilidade de estarmos errados em rejeitar a hipótese, isto é, a probabilidade de cometer o erro do Tipo I. Portanto dizemos que uma hipótese é rejeitada ao nível de significância de 0,05 ou que o escore z de uma dada estatística amostral é significante ao nível de significância de 0,05. O conjunto de escores z fora do intervalo de –1,96 a 1,96 constitui o que é chamado de região crítica ou região de rejeição da hipótese ou região de significância. O conjunto dos escores z dentro do intervalo de –1,96 a 1,96 pode ser chamado de região de aceitação da hipótese ou região de não-significância. Com base nestas observações podemos formular as seguintes regras de decisão : a) Rejeito a hipótese ao nível de significância de 0,05 se o escore z da estatística S estiver fora do intervalo de –1,96 a 1,96 (isto é, z > 1,96 ou z < -1,96 ). Isto equivale dizer que a estatística amostral observada é significante ao nível de 0,05. b) Aceito a hipótese( ou, se desejado, não tomo qualquer decisão) em caso contrário. IMPORTANTE : Deve-se destacar que outros níveis de significância poderiam ter sido usados. Por exemplo : se um nível de 0,01 fosse usado, substituiríamos 1,96 por 2,58 em todos os lugares acima. Vide as Tabelas abaixo. Cálculo do Desvio-Padrão A média pode ser encontrada fazendo-se µ = np 31 O desvio-padrão pode ser encontrado aplicando-se a fórmula σ = n. p.q onde : n = quantidade de dados utilizados na pesquisa p = probabilidade de sucesso do evento analisado q = probabilidade de fracasso do evento analisado Observe-se que, SEMPRE, p + q = 1 Exemplos : Moedas.... p = 0,5 = ½ q = 0,5 = ½ Dados ..... p = 1/6 q = 5/6 Tabelas de valores críticos de Escore Z Nível de Confiança 99,73 % 99 % 98 % 96 % 95,45 % 95 % 90 % 80 % 68,27 % 50 % 3,00 2,58 2,33 2,05 2,00 1,96 1,645 1,28 1,00 0,6745 Valores críticos zc Nível de significância 0,10 0,05 0,01 0,005 0,002 -1,28 ou 1,28 -1,645 e 1,645 -1,645 ou 1,645 -1,96 e 1,96 -2,33 ou 2,33 -2,58 e 2,58 -2,58 ou 2,58 -2,81 e 2,81 -2,88 ou 2,88 -3,08 e 3,08 α Valores críticos de z para testes unilaterais Valores críticos de z para testes bilaterais Teste do Qui Quadrado Este teste objetiva verificar se a freqüência absoluta observada de uma variável é significativamente diferente da distribuição de freqüência absoluta esperada. Aplica-se o teste do qui quadrado para uma amostra quando se quer estudar a dependência entre duas variáveis através de uma tabela de dupla entrada, também conhecida como tabela de contingência. Para que se possa executar o teste do qui quadrado há de se observar algumas condições como : a) Exclusivamente para variáveis nominais e ordinais b) Somente para observações independentes c) Não se aplica se 20% das observações forem inferiores a 5.(Amostras muito pequenas) d) Não pode haver freqüências inferiores a 1 32 e) Nos dois últimos casos, caso haja incidência, aconselha-se agrupar os dados segundo algum critério específico. Passo-a-Passo para a Execução do Teste Qui Quadrado Passo 01 : Determinar a hipótese nula H 0 que deverá ser a negativa da existência de diferenças entre a distribuição de freqüência observada e a esperada. Passo 02 : Estabelecer o nível de significância (µ ) Passo 03 : Determinar a região de rejeição da hipótese nula H 0 através da determinação dos ( ) graus de liberdade ϕ sendo ϕ = k − 1 onde k é o número de classes(categorias). A determinação é feita através da tabela de contingência onde se localiza o valor do qui quadrado tabelado (x ). 2 t Passo 04 : Determinar o valor do qui quadrado calculado xc2 = ∑ (x ) através da fórmula : (oi − ei )2 ei (x ) e do qui quadrado calculado (x ) o valor do segundo maior do que o primeiro, isto é, (x ) > (x ) , rejeita-se a hipótese Passo 05 : Comparar os valores do qui quadrado tabelado . Sendo 2 c 2 t 2 c 2 c nula H 0 em favor da hipótese alternativa 2 t H1 . Exemplo : Um vendedor trabalhou comercializando um produto em cinco bairros residenciais de uma mesma cidade, num mesmo período do ano. O gerente decidiu verificar se o desempenho do vendedor oscilava em virtude do bairro trabalhado, ou seja, se as diferenças eram significativas entre os bairros trabalhados. A partir deste estudo o gerente pretendia elaborar uma estratégia comercial específica para cada bairro ou manter uma mesma estratégia para todos. Bairro Valores Observados 1 2 3 4 5 Total 9 11 25 20 15 80 Valores Esperados 16 16 16 16 16 80 Solução : Passo 01 : A hipótese nula H 0 será : “Não há diferenças significativas entre os 5 bairros estudados” e, assim, uma hipótese alternativa H 1 poderá ser “As diferenças observadas entre os bairros mais discrepantes ( 3 e 4) são significativamente diferentes para melhor em relação aos demais bairros” 33 Passo 02 : Nível de significância escolhido µ = 0,05 = 5% Passo 03 : Sendo k = 5 ( número de bairros estudados, classes, categorias), teremos ϕ = k −1 = 5 −1 = 4 e a tabela de contingência nos oferece (x ) =9,488 ≅ 9,49 2 t (x ) = [(..... − .....) + (..... − .....) + (..... − .....) + (..... − .....) 2 2 2 2 c Passo 04 : 2 + ..(... − .....) ]= .......... . 2 ( .....) + (.....) + ..... + ..... + (.....) ..... + ..... + ..... + ..... + ..... ......... = = = = ........... .......... ........ ........ 2 2 2 Passo 05 : Observa-se que, de fato, favor de 2 2 (x ) > (x ) pois 2 c 2 t 10,75 > 9,49 e, assim, rejeita-se H 0 em H 1 . Desta forma a conclusão final é a de que há diferença significativa, ao nível de 5% de significância para os bairros 3 e 4 e o gerente deverá mesmo elaborar uma estratégia comercial para cada bairro. Teste do Qui Quadrado para Independência (Duas Amostras) A utilização do presente teste em pesquisa visa verificar se as distribuições de duas ou mais amostras não relacionadas diferem significativamente em relação à determinada variável. CONDIÇÕES PARA A EXECUÇÃO DO TESTE a)Exclusivamente para variáveis nominais e ordinais; b)Preferencialmente para amostras grandes, n <30; c)Observações independentes; d)Não se aplica se 20% das observações forem inferiores a 5 e)Não pode haver freqüências inferiores a 1; f)Nos dois últimos casos, se houver incidências desta ordem, aconselha-se agrupar os dados segundo um critério em específico. Passo-a-Passo para a Execução do Teste Passo 01: Determinar H0. “As variáveis são independentes, ou as variáveis não estão associadas” Passo 02 : Estabelecer o nível de significância (µ ); Passo 03 : Determinar a região de rejeição de H0. Determinar o valor dos graus de liberdade (φ), 34 sendo φ = (L – 1) (C – 1), onde L = números de linhas da tabela e C = ao número de colunas.. Encontrar portanto, o valor do qui-quadrado tabelado; Passo 04 : Para encontrar o valor esperado (E), utilizar a fórmula a seguir: E= (Soma da linha i )(Soma da coluna i ) Total das observações Passo 05 : Sendo o qui quadrado calculado, maior do que o tabelado, rejeita-se H0 em favor de H1. Há dependência ou as variáveis não estão associadas. Exemplo: Um pesquisador deseja identificar se há dependência no consumo de seus chocolates e as cidades de sua região. Sabor do chocolate Chocolate com caju Chocolate com amendoim Chocolate com flocos Chocolate com passas ∑ Cidades do Vale do Taquari Lajeado Santa Cruz Estrela 60 30 20 45 35 20 55 25 47 70 35 25 230 125 112 Taquari 40 10 13 20 83 ∑ 150 110 140 150 550 Passo 01 : H0: A preferência pelos sabores independe da cidade H1: A preferência pelos sabores depende da cidade. Passo 02 : µ = 0,05 = 5% Passo 03 : φ = (4 – 1) (4 – 1) = 9, onde qui quadrado tabelado é igual a 16,919.(Vide Tabela A-4) Passo 04 : Calculo dos valores esperados (E) Sabor do chocolate Chocolate com caju Chocolate com amendoim Chocolate com flocos Chocolate com passas Cidades do Vale do Taquari Lajeado 62,7 46,0 58,5 62,7 Santa Cruz Estrela Taquari Passo 05 : -qui quadrado para a linha “Chocolate com caju” X2 = (...... − ......)2 + (...... − ......)2 + (...... − ......)2 + (...... − ......)2 ......... ......... ......... ......... = .......... . - qui quadrado para a linha “Chocolate com amendoim” X2 = (...... − .....)2 + (...... − .....)2 + (...... − ......)2 + (...... − ......)2 ........ ........ ......... ......... = .......... 35 - qui quadrado para a linha “Chocolate com flocos” X 2 2 2 2 ( ...... − ......) ( ...... − ......) ( ..... − ......) (...... − ....)..2 = + + + ......... ......... ......... ......... = ........ -qui quadrado para a linha “Chocolate com passas” X 2 2 2 2 2 ( ( ( ( ...... − ......) ...... − ......) ...... − ......) ...... − ......) = + + + ......... ......... ......... ......... = .......... . -qui quadrado total calculado = ............. + ............. + ............. + ............. = ................ Conclui-se que o qui quadrado calculado (..............) é maior do que o tabelado (.............) e, assim, rejeita-se H0 em favor de H1. CONCLUSÃO : Portanto ............... diferença significativa, ao nível de 0,05 ou (5%), entre as cidades. Correlação Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra. O coeficiente de correlação linear r mede o grau de relacionamento linear entre os valores emparelhados x e y em uma amostra. O coeficiente de correlação linear é chamado às vezes de coeficiente momento-produto de Pearson. TABELA PARA CÁLCULO DE r x - ∑x y - ∑y Fórmula para cálculo de r r= x.y ∑ x. y X² ∑ x2 Y² ∑ y2 n∑ xy − (∑ x )(∑ y ) [ n(∑ x 2 ) − (∑ x )2 ][ n (∑ y ) − (∑ y ) ] 2 2 36 Deveremos arredondar o coeficiente de correlação linear r para três casas decimais, a fim de que seu valor possa ser comparado com os valores críticos da Tabela de Valores Críticos do Coeficiente de Correlação r de Pearson, encontrada na maioria dos livros de Estatística. Interpretação do Coeficiente de Correlação Linear Se o valor de r está próximo de 0, concluímos que não há correlação linear significativa entre x e y, mas se r está próximo de –1 ou +1, concluímos pela existência de correlação linear significativa entre x e y . Como a interpretação da expressão “próximo” de 0, ou –1, ou +1 é vaga, adota-se o critério de decisão seguinte, bastante específico : Se o módulo do valor calculado de r excede o valor na Tabela A-6, concluímos que há correlação linear significativa. Em caso contrário, não há evidência suficiente para apoiar a existência de uma correlação linear significativa. Regressão Linear A expressão y = b0 + b1 x é chamada de : Equação da Regressão ou, Reta de Regressão ou, Regra de melhor ajuste ou, Reta de mínimos quadrados Onde x = variável independente ou variável preditora y = variável dependente ou variável resposta b0 = intercepto y b1 = coeficiente angular OBS : 1)- Os valores b0 e b1 são estatísticas amostrais usadas para estimar os parâmetros populacionais β 0 e β1 . 2)- A Equação da Regressão só poderá ser usada para relações lineares 3)- A Equação da regressão só poderá ser usada para variáveis aleatórias de distribuição normal(em forma de sino) Objetivo O objetivo é utilizar dados amostrais emparelhados para estimar a equação de regressão. Dispondo apenas de dados amostrais, não poderemos achar os valores exatos dos parâmetros populacionais β 0 e β 1 mas, com os dados amostrais, podemos estimá-los com b0 e b1 , que se obtêm com as fórmulas : Regras de Arredondamento : 1) - De modo geral, para arredondar, utilize um decimal a mais do que os que aparecem nos dados originais. 2) - Arredondar apenas a resposta final e não os valores intermediários. Exemplos : 1)- A média de (2), (3) e (5) é 3,33333333............. , que pode ser 37 (∑y)(∑x ) − (∑x)(∑xy) = n(∑x ) − (∑x) 2 b0 2 2 b1 = n(∑ xy ) − (∑ x )(∑ y ) ( ) n ∑ x 2 − (∑ x ) TABELA DE 2 DISTRIBUIÇÃO QUI QUADRADO (x²) Área à direita do valor crítico Graus de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 0,995 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,005 ---0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 ---0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,042 14,848 15,659 16,473 17,292 18,114 18,939 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 3,841 5,991 7,815 9,488 11,071 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,194 44,461 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 7,879 10,597 12,838 14,860 16,750 18,548 20,578 21,955 23,589 25,188 26,757 28,299 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 38 29 30 40 50 60 70 80 90 100 13,121 13,787 20,707 27,991 35,534 43,275 51,172 59,196 67,328 14,257 14,954 22,164 29,707 37,485 45,442 53,540 61,754 70,065 16,047 16,791 24,433 32,357 40,482 48,758 57,153 65,647 74,222 17,708 18,493 26,509 34,764 43,188 51,739 60,391 69,126 77,929 19,768 20,599 29,051 37,689 46,459 55,329 64,278 73,291 82,358 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498 42,557 43,773 55,758 67,505 79,082 90,531 45,722 46,979 59,342 71,420 83,298 95,023 101,879 113,145 124,342 106,629 118,136 129,561 De Donald B. Owen, Hanbook of Statistical Tables, @ 1962 Addison-Wesley Publishing Co. , Reading, MA TABELA Valores Críticos do Coeficiente de Correlação r de Pearson n α = 0,05 α = 0,01 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 0,950 0,878 0,811 0,754 0,707 0,666 0,632 0,602 0,576 0,553 0,532 0,514 0,497 0,482 0,468 0,456 0,444 0,396 0,361 0,335 0,312 0,294 0,279 0,254 0,236 0,220 0,999 0,959 0,917 0,875 0,834 0,798 0,765 0,735 0,708 0,684 0,661 0,641 0,623 0,606 0,590 0,575 0,561 0,505 0,463 0,430 0,402 0,378 0,361 0,330 0,305 0,286 49,588 50,892 63,691 76,154 88,379 52,336 53,672 66,766 79,490 91,952 100,425 112,329 124,116 135,807 104,215 116,321 128,299 140,169 39 90 100 0,207 0,196 0,269 0,256 NOTA : Para testar Ho : p = 0 contra H1 : p ≠ 0 , rejeite Ho se o valor absoluto de r for maior do que o valor crítico da tabela y (a) Correlação positiva entre x e y *** *** *** **** *** **** *** *** **** *** **** x ** y * ** *** * ** * ** ** *** * ** * * ** * **** * * * * * ** ****** * * * * ** x * * * * * * * * * * x * * (b) Forte Correlação positiva entre x e * ** * * * * * * * * * ** ** ** * * ** *** * * * ** *** * * ** * ** * * ** * y (c) Correlação positiva perfeita entre x e y * *** ** *** ** ** * * * * * * *** ** *** * * * * * *** Correlação (d) Correlação negativa entre x e y Forte (e) negativa entre x e y * (f) Correlação negativa perfeita entre x e y 40 * * * * *** *** * * * * * * ** * * * * * * y * * * * ** *** *** * ** ** * * * * * * * (g) Não há correlação entre x e y * * (i) Gráfico da Equação de Regressão entre x e y (h) Correlação não linear entre x e y Exercícios sobre Séries e Gráficos 1. Montar uma série cronológica para representar os valores das exportações de açúcar, fornecidas pelo Instituto do Açúcar e do Álcool nos anos de 1965 a 1971 em milhares de dólares: 60193 – 80114 – 812826 – 106879 – 112064 – 126740 – 149548. 2. Idealizar uma série geográfica para representar o seguinte fato: população da região Norte do Brasil em 1970, sabendo-se que em Rondônia, Acre, Amazonas, Roraima, Pará e Amapá temos, respectivamente, 116620 – 218006 – 960934 – 41638 – 2197072 e 116480 habitantes, segundo dados da Fundação IBGE. 3. Fazer uma tabela estatística para representar o movimento religioso de certo município no período 1975-1977, que apresentou os seguintes dados: em 1975 houve 56738 habitantes batizados (dos quais 26914 do sexo feminino), 15884 casamentos e 13678 extremasunções. Em 1976, houve 33915 batizados do sexo masculino e 29568 do sexo feminino; os casamentos foram em número de 17032 e as extremas-unções, 14328. Em 1977, em um total de 71232 batizados, 34127 eram do sexo masculino; as extremas-unções foram 16107 e os casamentos 16774. 4. A tabela a seguir mostra as áreas, em milhões de km², dos oceanos. Representar graficamente os dados, usando: a) um gráfico de colunas ; b) um gráfico de setores. Oceano Antártico Ártico Atlântico Índico Pacífico x 41 Área (milhões km²) 36,8 23,2 199,4 137,9 342,7 Exercício de Estatística Completar as Tabelas de Distribuição de Freqüências abaixo. Xi Fa 21 22 23 24 25 26 28 30 31 32 33 34 35 36 3 2 2 1 4 3 1 1 3 1 3 3 2 1 ∑ Fa a Fr Fr a ||||||||||||||||||||||||||| Classe Fa 45 |--- 55 55 |--- 65 65 |--- 75 15 20 35 Fa a |||||||||||||||||||||||||||| Fr Fr a 42 75 |--- 85 85 |--- 95 20 10 ∑ ||||||||||||||||||||||| ||||||||||||||||||||||| EXERCÍCIO DE ESTATÍSTICA - Médias Um levantamento feito nas idades dos atletas participantes de um determinado torneio de futebol produziu a tabela abaixo. 21 32 23 21 26 40 22 31 19 21 19 16 21 20 22 23 24 21 26 19 21 30 18 22 20 21 20 22 21 24 26 21 27 20 20 19 30 21 17 27 34 23 20 26 27 21 28 21 26 23 30 23 25 27 23 21 23 23 28 22 29 23 27 24 18 25 26 28 30 27 23 21 23 22 32 26 29 25 19 18 40 24 25 26 23 32 25 24 31 23 22 26 27 28 29 30 30 29 19 35 24 23 29 22 21 21 21 20 19 20 23 24 30 21 42 28 18 28 22 21 21 23 24 25 28 26 25 21 28 29 17 19 18 19 21 20 20 21 27 24 23 20 28 29 30 23 22 23 22 23 23 24 25 25 25 21 29 30 31 32 33 34 21 23 22 22 22 25 23 24 22 23 24 22 21 23 28 23 21 20 17 34 34 25 17 21 24 23 18 24 25 27 24 28 29 28 Pede-se : Calcular a média de idade dos jogadores utilizando-se uma Tabela de Freqüências com intervalo de Classes em uma das seguintes situações : 1) – Descartando a menor idade encontrada 2) – Descartando a maior idade encontrada 3) – Descartando a maior e a menor idade encontradas 4) – Considerando todas as idades encontradas 43 Utilizar K = K / Situação 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 3 4 EXERCÍCIOS SOBRE VARIÂNCIA E DESVIO PADRÃO 1 – A tabela abaixo representa os dados coletados de uma amostra. 20 23 29 25 26 25 20 20 1111111111- 26 28 27 25 22 21 28 28 26 28 22 25 29 29 26 29 27 20 28 25 26 27 23 27 21 29 20 30 29 25 23 29 23 29 27 27 27 20 24 28 30 23 25 26 28 25 26 28 a – Qual a Amplitude desta amostra? b – Qual é o valor da Mediana? c – Qual é a sua Moda? d – Calcule a Média da terceira coluna. e – Calcule a Média Geométrica da quarta coluna f – Calcule a Média Harmônica da sexta coluna g – Calcule a Média Quadrática da última coluna h – Qual é a Variância da amostra? i – Qual é o Desvio Padrão da amostra? j – Qual é o Coeficiente de Variação da amostra? 2 – A tabela abaixo representa o Rol de uma População. 200 208 225 242 254 259 262 263 267 268 269 270 201 209 228 248 256 259 262 264 268 268 270 271 204 215 230 250 256 260 263 265 268 268 270 271 204 217 234 251 256 261 263 265 268 269 270 272 206 218 236 251 257 262 263 265 268 269 270 272 206 220 241 252 257 262 263 266 268 269 270 272 208 223 242 252 258 262 263 267 268 269 270 272 208 224 242 253 259 262 263 267 268 269 270 272 208 225 242 254 259 262 263 267 268 269 270 272 208 225 242 254 259 262 263 267 268 269 270 272 28 20 25 30 44 272 273 273 273 273 273 273 274 274 274 274 275 275 275 275 276 276 276 276 276 277 277 277 277 277 277 277 277 278 278 278 278 278 278 278 279 279 279 280 280 280 281 282 283 283 284 284 284 285 286 286 287 287 288 288 288 2 – a – Transforme este Rol numa Tabela com dados agrupados com Intervalos de classe 2 – b – Calcule a Variância desta População 2 – c – Calcule o Desvio-Padrão desta População 2 – d – Calcule o Coeficiente de Variação (CV ) desta pesquisa. 273 275 277 277 279 281 285 289 274 275 277 278 279 281 286 289 274 275 277 278 279 282 286 290 208 224 242 253 259 262 263 267 268 269 270 272 273 275 277 277 279 280 282 283 285 287 289 292 297 208 225 242 254 259 262 263 267 268 269 270 272 274 275 277 278 279 281 282 283 285 287 290 292 297 208 225 242 254 259 262 263 267 268 269 270 272 274 275 277 278 279 281 282 283 285 287 290 292 300 Exercícios sobre FRACTIS 200 208 225 242 254 259 262 263 267 268 269 270 272 274 275 277 278 279 281 282 283 285 287 290 292 201 209 228 248 256 259 262 264 268 268 270 271 273 274 276 277 278 279 281 282 283 285 288 290 293 204 215 230 250 256 260 263 265 268 268 270 271 273 274 276 277 278 279 281 282 284 286 289 290 293 204 217 234 251 256 261 263 265 268 269 270 272 273 274 276 277 278 280 281 282 284 286 289 291 294 206 218 236 251 257 262 263 265 268 269 270 272 273 275 276 277 278 280 282 283 284 286 289 291 295 206 220 241 252 257 262 263 266 268 269 270 272 273 275 276 277 278 280 282 283 284 286 289 292 295 208 223 242 252 258 262 263 267 268 269 270 272 273 275 277 277 278 280 282 283 285 287 289 292 297 Com base na Tabela de Dados Ordenados(Rol) Acima, pede-se: 208 225 242 254 259 262 263 267 268 269 270 272 274 275 277 278 279 281 282 283 285 287 290 292 300 45 a) Os Percentis b) Os Quartis P37 , P48 , P77 Q1 , Q 2 , Q 3 c) Os Decis D3 , D 5 , D 7 d) Determine o Percentil correspondente a 252 , 279 , 287 e) Qual a diferença entre D2 e P20 ? f) g) h) i) Qual o Percentil correspondente a Q1 , Q 2 e Q 3 ? Qual a Amplitude da Amostra ? Como faria para escolher o número de classes ? Adotado um número de classes, qual seria a amplitude de classe ? Exercícios de Estatística – Médias 01 – Determine as médias aritmética, geométrica, harmônica e quadrática das seguintes séries : a) 3, 4, 1, 3, 6, 5, 6 b) 7, 8, 8, 10, 12 c) 3,2; 4; 0,75; 5; 2,13; 4,75 d) 70, 75, 76, 80, 82, 83, 90 02 – A média mínima para aprovação em determinada disciplina é 5,0. Se um estudante obtém as notas 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5; 4,0 nos trabalhos mensais da disciplina em questão, pergunta-se se ele foi ou não aprovado. 03 – Calcule para cada uma das distribuições abaixo, sua respectiva média. a) xi | 3 4 7 8 12 b) fi | 2 5 8 4 3 c) xi | f ac 2 3 4 5 6 3 9 19 25 28 | | | | | xi | 10 11 12 13 f i | 5 8 10 6 d) xi | 7 8 9 10 11 | | | | | fi 1/16 5/18 1/3 2/9 5/48 e) xi | 85 87 88 89 90 | | | | | fi 5 1 10 3 5 46 04 – Dadas as estaturas, em cm, de 140 alunos, conseguiu-se a distribuição abaixo. Calcular a média. Estat.| 145|---150 | 150|---155 | 155|---160 | 160|---165 | 165|---170 | 170|---175 | 175|---180 | 180|---185 Nº | 2 | 10 | 27 | 38 | 27 | 21 | 8 | 7 05 – Turmas que possuem determinada disciplina em comum apresentam, nessa disciplina: Turma A (40 alunos) - média 6,5 Turma B (35 alunos) - média 6,0 Turma C (35 alunos) - média 4,0 Turma D (20 alunos) - média 7,5 Determine a média geral. Exercícios sobre ESCORE Z 01 – Os carros dos estudantes de uma faculdade têm idade média de 7,93 anos, com desviopadrão de 3,68 anos. Determine o escore z para os seguintes carros : a) Um GM Corsa 1994 b) Um FIAT Pálio 2003 c) Um FORD Focus 0 Km 02 – Uma pesquisa realizada no Japão detectou que o número de horas que os estudantes universitários passam estudando fora da escola, cada semana, têm média de 8,03 h e desviopadrão 4,97 h. Determine o escore z para um aluno que estuda 20 horas por semana. 03 – Uma mulher alegou ter dado à luz uma criança, 305 dias após a visita de seu marido, que estava servindo na Marinha em missão no exterior. Os tempos de duração da gravidez, acusam uma média de 269 dias, com desvio-padrão de 15,5 dias. Determine o escore z correspondente aos 305 dias e comente: a) Esse prazo pode ser considerado fora do comum ? b)Que se pode concluir ? 04 – Certa máquina automática aceita moedas de 50 centavos que não fujam ao padrão comum. Ache o escore z para uma moeda de 50 centavos que pesa 7,37 g. Sabe-se que os pesos das moedas de 50 centavos têm média de 7,60 g com desvio-padrão de 0,009 g e pergunta-se : a) Qual o escore z desta moeda b) Esta moeda será aceita pela máquina ? 05 – Para os homens com idade entre 18 e 24 anos, os níveis de colesterol ( em mg / ml ) têm média de 178,1 e desvio-padrão de 40,7. 47 a) Determine o escore z para um homem de 22 anos de idade, que tem um índice de colesterol de 274,9 mg / ml. b) Esse nível pode ser considerado muito elevado ? 06 ) Três candidatos a um emprego fazem testes equivalentes de desempenho em pensamento crítico e você é o encarregado de decidir qual deles contratar. A. da Silva acertou 38 questões em um teste onde a média era de 29 e o desvio-padrão, 6. B. dos Santos acertou 399 questões no teste de média 313 e desvio-padrão, 56 C. Oliveira teve nota 4,11 em teste de média 2,76 e desvio-padrão 0,91. a) Qual deles seria o seu escolhido ? b) Por que ? 07) Em exame de estatística a média foi de 78 e o desvio-padrão foi 10. a) Determine os escores z de dois alunos cujas notas foram 93 e 62, respectivamente. b) Determine as notas de dois alunos cujos escores z foram -0,6 e 1,2, respectivamente 08) Encontre a média e o desvio-padrão em um exame onde as notas 70 e 88 correspondem a escores z de -0,6 e 1,4, respectivamente. Exercícios de fixação sobre TESTES DE HIPÓTESE E SIGNIFICÂNCIA 01 ) Para testar uma hipótese de que uma moeda é honesta, a seguinte regra de decisão é tomada: (1) – Aceito a hipótese se o número de caras em uma única amostra de 100 lançamentos está entre 40 e 60 inclusive (2) – Rejeito a hipótese caso contrário. a)- Encontre a probabilidade de rejeitar a hipótese quando ela, de fato, é correta b)- Interprete graficamente a regra de decisão e o resultado da pergunta anterior c)- Que conclusões você tiraria se a amostra de 100 fornecesse 53 caras ? d)- E se fornecesse 60 caras ? e)- Você poderia estar errado em suas conclusões da pergunta c) ? 02) Crie uma regra de decisão para testar a hipótese de que uma moeda é honesta se uma amostra de 64 lançamentos da moeda é obtida e se um nível de (a) 0,05, (b) 0,01 é usado. 03) Em um experimento sobre percepção extra sensorial (PES), uma pessoa em uma sala é questionada sobre a cor(vermelha ou azul) de uma carta escolhida de um baralho de 50 cartas embaralhadas por um indivíduo em outra sala. A pessoa desconhece quantas cartas vermelhas ou azuis têm no baralho. Se a pessoa identifica 32 cartas corretamente, determine se os resultados são significantes ao nível de (a) 0,05 de significância (b) 0,01 de significância. 04) Em 200 lançamentos de uma moeda, 115 caras e 85 coroas foram observadas. Teste a hipótese de que a moeda é honesta usando um nível de significância de: (a) 0,05 (b) 0,01 05) A tabela abaixo mostra as freqüências observadas e esperadas no lançamento de um dado 120 vezes. (a) Teste a hipótese de que o dado é honesto, usando um nível de significância de 0,05. Face Freqüência Observada Freqüência Esperada 1 2 3 4 5 6 25 17 15 23 24 16 20 20 20 20 20 20 48 06) Considere dois grupos, A e B, cada um consistindo de 100 pessoas portadoras de uma doença. Um soro é dado ao Grupo A, mas não ao Grupo B(o qual é chamado grupo de controle); caso contrário, os dois grupos são tratados identicamente. É constatado que nos Grupos A e B, 75 e 65 pessoas, respectivamente, se recuperaram da doença. Teste a hipótese de que o soro ajudou a curar a doença usando um nível de significância de: (a) 0,01 (b) 0,05 (c) 0,10. 07) Em 60 lançamentos de uma moeda, 37 caras e 23 coroas foram observadas. Teste a hipótese da moeda ser honesta usando um nível de significância de : (a) 0,05 (b) 0,01. 08) Em um longo período de tempo as notas atribuídas por um grupo de instrutores em determinado curso têm sido em média, 12% As, 18% Bs, 40% Cs, 18% Ds e 12% Es. Um novo instrutor atribuiu 22 As, 34 Bs, 66 Cs, 16 Ds e 12 Es durante dois semestres. Determine, ao nível de significância de 0,05, se o novo instrutor está seguindo o padrão de notas dos outros instrutores. 09) O número de livros emprestados por uma biblioteca pública durante uma certa semana é dado pela tabela abaixo. Teste a hipótese de que o número de livros emprestados não depende do dia da semana, usando um nível de significância de (a) 0,05 (b) 0,01. Segunda Terça Quarta Quinta Sexta Nº de livros emprestados 135 108 120 114 146 10) Duzentos parafusos de porca foram selecionados aleatoriamente da produção de cada uma de 4 máquinas. O número de parafusos defeituosos encontrados foram, 2, 9, 10, 3. Determine se existe uma diferença significante entre as máquinas usando um nível de significância de 0,05. Exercícios sobre Correlação e Regressão Linear 01 – Duas variáveis aleatórias X e Y, apresentam certo grau de correlação conforme a tabela abaixo. X 1 3 4 6 8 9 11 14 Y 1 2 4 4 5 7 8 9 a) Determine se há, ou não, forte correlação entre as variáveis b) Apresente a Equação de Regressão 02 – A tabela abaixo apresenta as respectivas alturas de uma amostra de 12 pais e seus filhos mais velhos. Altura do pai (polegadas) 65 63 67 64 68 62 70 66 68 67 69 71 Altura do filho (polegadas) 68 66 68 65 69 66 68 65 71 67 68 70 a) Qual o grau de correlação entre as alturas de pai e primogênito ? b) Qual a Regra de melhor ajuste entre as variáveis ? 03 – A tabela abaixo fornece valores experimentais da pressão P de uma dada massa de gás correspondendo a vários valores do volume V. De acordo com os princípios da Termodinâmica, deve haver um relacionamento entre as variáveis. Volume V ( in³) Pressão P ( lb/in²) 54,3 61,2 61,8 49,5 72,4 37,6 88,7 28,4 118,6 19,2 a) Encontre a equação que estabelece este relacionamento b) Pela equação encontrada, qual seria o valor de P para V=100 in³ ? 194,0 10,1 49 04 – Verifique se há correlação entre as variáveis abaixo e, se houver, determine a equação de sua regressão linear. x y 1,2 4,5 1,8 5,9 3,1 7,0 4,9 7,8 5,7 7,2 7,1 6,8 8,6 4,5 9,8 2,7 05 – A tabela apresentada a seguir apresenta pesos, alturas e idades de 12 meninos de uma escola norte americana. Peso Z (libras) 64 Altura X (polegadas) 57 Idade Y (anos) 8 Verifique se há Correlação e, a) Peso e Altura b) Peso e Idade c) Altura e Idade 71 53 59 49 10 6 havendo, 67 55 62 51 11 8 apresente 58 77 57 56 51 50 55 48 52 42 7 10 9 10 6 a Equação de Regressão 76 68 61 57 12 9 para :