Preview only show first 10 pages with watermark. For full document please download

Estatística Descritiva

Estatística básica

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    359.5KB
  • Views

    2,616
  • Categories


Share

Transcript

1 1.1 Estat´ıstica Descritiva O Que ´ e Estat´ıstica? Entendemos a Estat´ıstica como um conjunto de t´ ecnicas que permite, de forma sistem´ atica, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer ´ area do conhecimento. Estamos denominando por dados um (ou mais) conjunto de valores, num´ericos ou n˜ao. A aplicabilidade das t´ecnicas a serem discutidas se d´a nas mais variadas ´areas da atividade humana. A grosso modo podemos dividir a Estat´ıstica em trˆes ´areas: 1) Estat´ıstica Descritiva; 2) Probabilidade e 3) Inferˆencia Estat´ıstica. Estat´ıstica Descritiva ´ e, em geral, utilizada na etapa inicial da an´ alise, quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclus˜oes de modo informal e direto, a maneira mais simples seria a observa¸c˜ao dos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, percebemos, imediatamente, que a tarefa pode n˜ao ser simples. Para tentar depreender dos dados informa¸c˜oes a respeito do fenˆomeno sob estudo, ´e preciso aplicar alguma t´ecnica que nos permita resumir a informa¸c˜ao daquele particular conjunto de valores. Em outras palavras, a estat´ıstica descritiva pode ser definida como um conjunto de t´ ecnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclus˜ oes a respeito das caracter´ısticas de interesse. Probabilidade pode ser pensada como teoria matem´ atica utilizada para se estudar a incerteza oriunda de fenˆ omenos de car´ ater aleat´ orio. Inferˆencia Estat´ıstica ´ e o estudo de t´ ecnicas que possibilitam a extrapola¸ c˜ ao, a um grande conjunto de dados, das informa¸c˜ oes e conclus˜ oes obtidas a partir de subconjuntos de valores, usualmente de dimens˜ ao muito menor. Deve ser notado que se tivermos acesso a todos os elementos que desejamos estudar, n˜ao ´e necess´ario o uso das t´ecnicas de inferˆencia estat´ıstica, entretanto, elas s˜ao indispens´aveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por raz˜oes de natureza econˆomica, ´etica ou f´ısica. 1.2 Popula¸ c˜ ao e Amostra Na terminologia estat´ıstica, o grande conjunto de dados que cont´em a caracter´ıstica que temos interesse recebe o nome de popula¸c˜ ao. Esse termo refere-se n˜ao somente a uma cole¸c˜ao de indiv´ıduos, mas tamb´em ao alvo sobre o qual reside nosso interesse. Assim, nossa popula¸c˜ao pode ser todos os habitantes de Maring´a, como todas as lˆampadas produzidas por uma f´abrica em um certo per´ıodo de tempo, ou todo o sangue no corpo de uma pessoa. Algumas vezes podemos acessar toda a popula¸c˜ao para estudarmos caracter´ısticas de interesse, mas, em muitas situa¸c˜oes, tal procedimento n˜ao pode ser realizado. Em geral, raz˜oes econˆomicas s˜ao as mais determinantes dessas situa¸c˜oes. Por exemplo, uma empresa, usualmente, n˜ao disp˜oe de verba suficiente para saber o que pensam todos os consumidores de seus produtos. H´a ainda raz˜oes ´eticas, quando, por exemplo, os experimentos de laborat´orio envolvem o uso de seres vivos. Al´em disso, existem casos em que a impossibilidade de se acessar toda a popula¸c˜ao de interesse ´e incontorn´avel. Na an´alise do sangue de uma pessoa ou em um experimento para determinar o tempo de funcionamento das lˆampadas produzidas por uma ind´ ustria, n˜ao podemos observar toda popula¸c˜ao de interesse. Tendo em vista as dificuldades de v´arias naturezas para se observar todos os elementos da popula¸c˜ao, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da popula¸c˜ao, em geral com dimens˜ao sensivelmente menor, ´e denominado amostra. 1 Portanto, em termos estat´ısticos, defini-se popula¸ c˜ ao, ou universo de dados, como sendo o conjunto dos elementos que tem alguma caracter´ıstica em comum que possa ser contada, medida, pesada ou ordenada de algum modo e que sirva de base para as propriedades que se quer investigar. A amostra, por sua vez, ´ e um subconjunto, representativo, da popula¸c˜ ao em estudo. Figura 1: Popula¸c˜ao e Amostra. A sele¸c˜ao da amostra pode ser feita de v´arias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da popula¸c˜ao, da quantidade de recursos dispon´ıveis e assim por diante. Devemos ressaltar que, em princ´ıpio, a sele¸c˜ao da amostra tenta fornecer um subconjunto de valores o mais parecido poss´ıvel com a popula¸c˜ao que lhe d´a origem. O uso de esquemas de amostragem elaborados pode levar a uma diminui¸c˜ao no tamanho de amostra necess´ario para uma dada precis˜ao. 1.3 No¸ c˜ oes de Amostragem Amostragem Aleat´ oria Simples: Em uma amostragem aleat´oria simples, os elementos da popula¸c˜ ao s˜ ao escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra. Amostragem Aleat´ oria Estratificada: Subdividimos a popula¸ c˜ ao em, no m´ınimo, duas subpopula¸ c˜ oes (ou estratos) e, em seguida, extra´ımos uma amostra de cada estrato. A amostragem aleat´oria estratificada tem as seguintes caracter´ısticas: 1) dentro de cada estrato h´a uma grande homogeneidade, ou ent˜ao uma pequena variabilidade; 2) entre os estratos h´a uma grande heterogeneidade, ou ent˜ao uma grande variabilidade. Amostragem Aleat´ oria Sistem´ atica: Consideramos uma popula¸c˜ao de tamanho N e dela retiramos umero entre 1 uma amostra de tamanho n. Definimos k = Nn como fator de sistematiza¸c˜ao. Sortamos um n´ e k. Seja m esse n´ umero, ent˜ao o primeiro elemento da amostra ser´a m, o segudo m + k, o terceiro m + 2k, e assim por diante, at´e coletarmos o n-´esimo elemento. Amostragem Aleat´ oria por Conglomerado: Come¸ camos dividindo a ´ area da popula¸c˜ ao em se¸c˜ oes (ou conglomerados), em seguida, escolhemos algumas dessas se¸ c˜ oes e, finalmente, tomamos todos os elementos das se¸c˜ oes escolhidas. A amostragem aleat´oria por conglomerado tem as seguintes caracter´ısticas: 1) dentro de cada conglomerado h´a uma grande heterogeneidade, ou ent˜ao uma grande variabilidade; 2) entre os conglomerados h´a uma pequena variabilidade, ou ent˜ao uma grande homogeneidade. Amostragem por Conveniˆ encia: Simplesmente utilizamos resultados de f´ acil acesso, ou que j´a est˜ao dispon´ıveis. 2 1.4 Classifica¸ c˜ ao de Vari´ aveis O conjunto de informa¸c˜oes dispon´ıveis, ap´os a tabula¸c˜ao do question´ario ou pesquisa de campo, ´e denominado de tabela de dados brutos e cont´em os dados da maneira que foram coletados inicialmente. Cada uma das caracter´ısticas perguntadas aos entrevistados, tais como peso, altura, sexo, fuma, idade, entre outras, ´e denominada de vari´avel. Claramente tais vari´aveis tˆem naturezas diferentes no que tange aos poss´ıveis valores que podem assumir. Tal fato deve ser levado em conta nas an´alises e, para fixar id´eias, vamos considerar dois grandes tipos de vari´aveis: Qualitativas e Quantitativas. A vari´avel ´e qualitativa quando os poss´ıveis valores que assume representam atributo e/ou qualidades. Se tais vari´aveis tˆem uma ordena¸c˜ao natural, indicando intensidades crescentes de realiza¸c˜ao, ent˜ao elas ser˜ao classificadas como qualitativas ordinais. Caso contr´ario, quando n˜ao ´e poss´ıvel estabelecer uma ordem natural entre seus valores, elas s˜ao classificadas como qualitativas nominais. Vari´aveis quantitativas, isto ´e, vari´aveis de natureza num´erica, podem ser subdivididas em discretas e cont´ınuas. A grosso modo, vari´aveis quantitativas discretas podem ser vistas como resultantes de contagens, assumindo assim, em geral, valores inteiros. De uma maneira mais formal, o conjunto de valores assumidos ´e finito ou enumer´avel. J´a as vari´aveis quantitativas cont´ınuas assumem valores nos intervalos dos n´ umeros reais e, geralmente, s˜ao provenientes de uma mensura¸c˜ao. Qualitativa Nominal : Sexo, Profiss˜ao, Curso. Qualitativa Ordinal : Grau de Instru¸c˜ao, Classe Social. Quantitativa Discreta: N´ umero de filhos, N´ umero de carros. Quantitativa Cont´ınua: Peso, Altura. Tabela 1: Rol de dados brutos. Var 1 Var 2 Var 3 · · · Var k Caso 1 Caso 2 Caso 3 .. . Caso n 1.5 Organiza¸ c˜ ao de Dados: Tabelas e Gr´ aficos Veremos a seguir alguns procedimentos que podem ser utilizados para organizar e descrever um conjunto de dados, seja em uma popula¸c˜ao ou em uma amostra. Tabela 2: Pesquisa sobre a ind´ ustria do cigarro - Dados Brutos Filtro Marca Peso do Cigarro (g) ´Indice de Nicotina (mg) Cigarro 1 Sim A 0, 80 24, 2 Cigarro 2 Sim C 0, 74 22, 1 Cigarro 3 N˜ao B 0, 85 26, 6 .. .. .. .. .. . . . . . Cigarro 80 Sim F 0, 72 3 25, 9 Vari´ avel Qualitativa: Tabela 3: Distribui¸c˜ao de frequˆencia considerando a vari´avel filtro dos cigarros. Filtro Frequˆencia Frequˆencia Relativa Sim 56 0,70 24 0,30 N˜ao Total 80 1,00 A Tabela 3 apresenta a distribui¸c˜ao de frequˆencia considerando a vari´avel filtro dos cigarros, onde 70% dos cigarros possuem filtro, enquanto que 30% n˜ao possuem. Figura 2: Gr´afico de setores para vari´avel filtro dos cigarros. A Figura 2 apresenta o gr´afico de setores para vari´avel filtro dos cigarros, onde 70% dos cigarros possuem filtro, enquanto que 30% n˜ao possuem. Tabela 4: Distribui¸c˜ao de frequˆencia considerando a vari´avel marca dos cigarros. Marca Frequˆencia Frequˆencia Relativa A 8 0, 10 B 16 0, 20 20 0, 25 C D 4 0, 05 E 10 0, 125 F 22 0, 275 Total 80 1, 00 A Tabela 4 apresenta a distribui¸c˜ao de frequˆencia considerando a vari´avel marca dos cigarros, onde 27, 5% dos cigarros s˜ao da marca F, enquanto que 5% s˜ao da marca D. A Figura 3 apresenta o gr´afico de setores para vari´avel marca dos cigarros, onde 27, 5% dos cigarros s˜ao da marca F, enquanto que 5% s˜ao da marca D. 4 Figura 3: Gr´afico de barras para vari´avel marca dos cigarros. Tabela 5: Distribui¸c˜ao de frequˆencia considerando as vari´aveis Marca/Filtro Sim N˜ao A 5 (6, 25%) 3 (3, 75%) 10 (12, 5%) 6 (7, 5%) B C 16 (20%) 4 (5%) 3 (3, 75%) 1 (1, 25%) D 4 (5%) 6 (7, 5%) E F 18 (22, 5%) 4 (5%) Total 56 24 filtro e marca dos cigarros. Total 8 16 20 4 10 22 80 A Tabela 5 apresenta a distribui¸c˜ao de frequˆencia considerando as vari´aveis filtro e marca dos cigarros, onde 3, 75% s˜ao da marca D e possuem filtro, enquanto que 22, 5% s˜ao da marca F e possuem filtro. Figura 4: Gr´afico de barras considerando as vari´aveis filtro e marca dos cigarros. 5 Vari´ avel Quantitativa: Tabela 6: Distribui¸c˜ao de frequˆencia considerando a vari´avel ´ındice de nicotina dos cigarros. ´Indice de Nicotina (mg) Frequˆencia Frequˆencia Acumulada Freq. Relativa Freq. Relativa Acum. 20 ` 21 14 14 0, 175 0, 175 16 30 0, 20 0, 375 21 ` 22 22 ` 23 22 52 0, 275 0, 65 23 ` 24 8 60 0, 10 0, 75 24 ` 25 12 72 0, 15 0, 90 8 80 0, 10 1, 00 25 ` 26 Total 80 − 1, 00 − A Tabela 6 apresenta a distribui¸c˜ao de frequˆencia considerando a vari´avel ´ındice de nicotina dos cigarros, onde 27, 5% dos cigarros tˆem entre 22 e 23mg de nicotina, enquanto que 10% dos cigarros tˆem entre 25 e 26mg de nicotina. Obs: O pesquisador pode definir o n´ umero de classes (k), baseando-se em sua experiˆencia. A amplitude AT de classe (h) ´e definida por: h = k , onde AT ´e a amplitude total dos dados. Figura 5: Histograma para vari´avel ´ındice de nicotina dos cigarros. A Figura 5 apresenta o histograma considerando a vari´avel ´ındice de nicotina dos cigarros, onde 22 cigarros tˆem entre 22 e 23mg de nicotina, enquanto que 8 cigarros tˆem entre 25 e 26mg de nicotina. 2 Medidas de Posi¸ c˜ ao Uma medida de posi¸c˜ao de um conjunto de dados mostra o valor em torno do qual se agrupam as observa¸c˜oes. 2.1 M´ edia Aritm´ etica Considere uma vari´avel X com observa¸c˜oes representadas por (x1 , x2 , x3 , ..., xn ). A m´edia aritm´etica desse conjunto ´e, por defini¸c˜ao, o valor n X x= i=1 n 6 xi . Se os dados estiverem classificados em uma distribui¸c˜ao de frequˆencias, com k classes, a m´edia aritm´etica ´e definida como k X x= xj × fj j=1 n onde xj ´e o ponto m´edio da j − e´sima classe e fj ´e a frequˆencia da j − e´sima classe. 1. Foi realizada uma avalia¸c˜ao com 594 pessoas. Sabe-se que a nota m´edia dos homens foi de 40, enquanto que a nota m´edia das mulheres foi de 70. Sabe-se ainda que a soma das notas dos homens ´e igual ao dobro da soma das notas das mulheres. Qual o n´ umero de homens que realizaram a prova? 2. O ´ındice de germina¸c˜ao ´e um dos principais fatores para definir a qualidade de sementes. Ele ´e determinado em experimento cient´ıfico conduzido pelo fabricante e regulamentado pelos org˜aos fiscalizadores. Um fabricante afirma que o ´ındice de germina¸c˜ao de suas sementes de milho ´e de 72%. Para verificar tal afirma¸c˜ao, uma cooperativa de agricultores sorteou 90 amostras com 100 sementes em cada uma e anotou a porcentagem de germina¸c˜ao em cada amostra. Tabela 7: Distribui¸c˜ao de frequˆencia da vari´avel porcentagem de germina¸c˜ao. Germina¸c˜ao (%) Frequˆencia 60 ` 65 8 28 65 ` 70 21 70 ` 75 75 ` 80 14 80 ` 85 12 7 85 ` 90 Total 90 Determine o ´ındice de germina¸c˜ao m´edio. 2.2 Mediana A mediana de um conjunto de dados ´e o valor que ocupa a posi¸c˜ao central dos dados ordenados. Assim, se o n´ umero de dados de um conjunto ordenado ´e ´ımpar, a mediana ´e o valor central e se o n´ umero de dados ´e par, a mediana ´e, por conven¸c˜ao, a m´edia aritm´etica dos dois valores centrais. O elemento mediano, ou seja, a posi¸c˜ao onde se encontra a mediana ´e dado por EM d = 0, 50 × (n + 1) . Se os dados estiverem classificados em uma distribui¸c˜ao de frequˆencias, com k classes, a mediana ´e definida como  Md = l + h × EM d − Fant fM d  onde, l ´e o limite inferior da classe mediana, h ´e a amplitude da classe mediana, EM d representa o elemento mediano, que tratando-se de distribui¸c˜ao de frequˆencias ´e sempre igual a n2 , Fant ´e a frequˆencia acumulada at´e a classe anterior `a classe mediana e fM d ´e a frequˆencia da classe mediana. 7 Obs: Para chegar a f´ormula da mediana para os dados classificados em uma distribui¸c˜ao de frequˆencias, com k classes, basta fazer a interpola¸c˜ao de pontos no histograma, ou seja Md − l h = . EM d − Fant f 1. Foram retiradas amostras de materiais expelidos por erup¸c˜oes vulcˆanicas e determinou-se a massa de enxofre (Kg). A1 = {0, 98; 0, 74; 0, 67; 0, 68; 0, 59}. A2 = {0, 98; 0, 74; 0, 67; 0, 68; 0, 59; 0, 66}. Qual ´e a massa mediana para A1 ? E para A2 ? 2. Considere a distribui¸c˜ao de frequˆencia apresentada na Tabela 8 para a vari´avel consumo de energia el´etrica (Kw × h), de 80 residˆencias. Tabela 8: Distribui¸c˜ao de frequˆencia para vari´avel consumo de energia. Consumo de Energia (Kw × h) Frequˆencia Relativa 5 ` 25 0, 05 0, 075 25 ` 45 45 ` 65 0, 175 0, 325 65 ` 85 85 ` 105 0, 175 0, 10 105 ` 125 125 ` 145 0, 075 145 ` 165 0, 025 Total 1, 00 Calcule o consumo mediano de energia el´etrica. 2.3 Moda A moda de um conjunto de dados ´e o valor que ocorre com maior frequˆencia, isto ´e, ´e o valor mais comum no conjunto de informa¸c˜oes. Um conjunto de informa¸c˜oes pode n˜ao ter moda, pode ter uma u ´nica moda (unimodal), duas modas (bimodal) ou mais de duas modas (multimodal). Se os dados estiverem classificados em uma distribui¸c˜ao de frequˆencias, com k classes, a moda ´e definida como  Mo = l + h × (fmo (fmo − fant ) − fant ) + (fmo − fpost )  onde, l ´e o limite inferior da classe modal, h ´e a amplitude da classe modal, fmo representa a frequˆencia da classe modal, fpost ´e a frequˆencia da classe posterior `a classe modal e fant ´e a frequˆencia da classe anterior `a classe modal. Obs: Para chegar a f´ormula da moda para os dados classificados em uma distribui¸c˜ao de frequˆencias, com k classes, basta fazer a interpola¸c˜ao de pontos no histograma, ou seja h Mo − l = . fmo − fant (fmo − fant ) + (fmo − fpost ) 8 1. Considere os seguintes conjuntos de resistˆencias (Kg) de cabos de a¸co: A = {2, 3, 5, 6, 7, 10} B = {1, 2, 2, 3, 4, 5} C = {1, 1, 2, 3, 4, 4} D = {1, 1, 1, 2, 2, 2, 3, 4, 4, 4}. Determine a moda em cada um dos conjuntos. 2. Considere a distribui¸c˜ao de frequˆencia apresentada na Tabela 9 para a quantidade de ´acido sulf´ urico na fabrica¸c˜ao de fertilizantes. Tabela 9: Distribui¸c˜ao de frequˆencia para vari´avel quantidade de ´acido sulf´ urico (ml). Quantidade de ´acido sulf´ urico (ml) Frequˆencia Acumulada 5 ` 10 2 10 ` 15 6 11 15 ` 20 20 ` 25 19 20 25 ` 30 Determine a quantidade modal (mais frequente) de ´acido sulf´ urico. 2.4 Percentil Para determinar o ordem ou posi¸c˜ao do percentil a ser calculado, usaremos a seguinte express˜ao: EPx = x × (n + 1) p/ x = 1, 2, 3, 4, ..., 99 100 Os percentis tamb´em podem ser calculados quando os dados est˜ao dispostos em uma distribui¸c˜ao de frequˆencias com k classes. Para tanto, primeiro localizamos a classe em que se encontra o elemento percentil (EPx ). Obtemos ent˜ao o valor do percentil por interpola¸c˜ao, usando a f´ormula:  Px = l + h × EPx − Fant fPx  p/ x = 1, 2, 3, 4, ..., 99 onde, EPx ´e o elemento percentil, que tratando-se de distribui¸c˜ao de frequˆencias ´e sempre igual a x×n ,l 100 ´e o limite inferior da classe do percentil, h ´e a amplitude da classe do percentil, Fant representa a frequˆencia acumulada at´e a classe anterior a do percentil e fPX ´e a frequˆencia da classe do percentil. Obs: Existem trˆes percentis em particular que s˜ao chamados de quartis: P25 = Q1 ; P50 = Q2 e P75 = Q3 . 1. Doze amostras tiveram o seu n´ıvel de pot´assio (mmol/L) medido. Os resultados s˜ao apresentados na Tabela 10. Tabela 10: N´ıvel de pot´assio em 12 amostras. 2, 45 2, 33 1, 47 1, 78 2, 88 2, 92 2, 33 1, 99 1, 98 2, 64 2, 54 2, 78 Determine P90 e Q1 . 9 2. Considere os dados referentes ao consumo de ´agua, em m3 , de 75 contas residˆenciais. Figura 6: Histograma considerando a vari´avel consumo de ´agua. Determine o 120 percentil e o 950 percentil. 2.5 Box Plot O Box Plot ´e um gr´afico que apresenta o m´aximo (max), min´ımo (min), 25o (P25 ) , 50o (P50 ) e o 75o (P75 ) percentil. De maneira geral, s˜ao considerados outliers (dados discrepantes) todos os valores inferiores a Li = P25 − 1, 5 × (P75 − P25 ) ou superiores a Ls = P75 + 1, 5 × (P75 − P25 ) . Caso min < Li = Li (outliers) ou min > Li = min. Caso max < LS = max ou max > LS = Ls (outliers) . Figura 7: Box Plot para variavel Z. 10 1. Trezentas baterias para autom´oveis de uma certa marca foram testadas quanto `a sua vida u ´til. O teste simula a utiliza¸c˜ao da bateria, acelerando seu desgaste de modo a criar uma r´eplica da situa¸c˜ao real. Os resultados das durabilidades s˜ao apresentados na Tabela 11. Tabela 11: Distribui¸c˜ao de frequˆencia para a durabilidade das baterias. Durabilidade (meses) Frequˆencia Relativa 0`3 0, 02 3`6 0, 05 0, 15 6`9 0, 25 9 ` 12 12 ` 15 0, 30 0, 23 15 ` 18 Total 1 Obtenha o Box Plot. 2.6 Assimetria ´ um indicador da forma da distribui¸c˜ao dos dados. Tratando-se de distribui¸c˜oes unimodais, se x = E Md = Mo temos uma curva sim´etrica, caso x < Md < Mo temos uma curva assim´etrica negativa (esquerda), ou ainda, caso Mo < Md < x temos uma curva assim´etrica positiva (direita). 1. Alunos foram submetidos a um teste de resistˆencia quanto ao n´ umero de quilˆometros que conseguiram correr sem parar. Os dados s˜ao apresentados na Tabela 12. Tabela 12: Distribui¸c˜ao de frequˆencia para a resistˆencia dos alunos. Resistˆencia (km) Frequˆencia Acumulada 0`4 206 4`8 644 8 ` 12 769 791 12 ` 16 16 ` 20 800 Estude a assimetria dos dados. 3 Medidas de Dispers˜ ao As medidas de posi¸c˜ao fornecem uma id´eia do comportamento das vari´aveis, mas elas podem esconder valiosas informa¸c˜oes, tais como a variabilidade dos valores da vari´avel. Portanto, as medidas de dispers˜ao auxiliam as medidas de posi¸c˜ao a descrever o conjunto de dados adequadamente. 3.1 Variˆ ancia Considere uma vari´avel X com observa¸c˜oes representadas por (x1 , x2 , x3 , ..., xn ). A variˆancia amostral ´e definida por: n X (xi − x¯)2 S2 = i=1 n−1 11 . No caso dos dados estarem dispostos em uma distribui¸c˜ao de frequˆencias, com k classes, a variˆancia ´e dada por: n X (xj − x¯)2 × fj S2 = i=1 n−1 onde xj ´e o ponto m´edio da j − e´sima classe e fj ´e a frequˆencia da j − e´sima classe. 3.2 Desvio padr˜ ao Para manter a mesma unidade dos dados originais, ´e conveniente definirmos o desvio padr˜ao amostral como sendo: √ S = s2 . 3.3 Coeficiente de Varia¸ c˜ ao O coeficiente de varia¸c˜ao ´e uma medida de dispers˜ao relativa definida como a raz˜ao entre o desvio padr˜ao e a m´edia, ou seja, cv = s × 100. x¯ A partir do coeficiente de varia¸c˜ao pode-se avaliar a homogeneidade do conjunto de dados e, consequentemente, se a m´edia ´e uma boa medida para representar estes dados. Quanto maior for este valor, menos representativa ser´a a m´edia. O coeficiente de varia¸c˜ao ´e utilizado, tamb´em, para comparar conjuntos com unidades de medidas distintas. 1. O tempo de combust˜ao, em minutos, de uma amostra de 8 palitos de f´osforo est˜ao dispostos na Tabela 13. Tabela 13: Tempo de combust˜ao, em minutos. 1, 96 2, 34 2, 88 1, 22 2, 68 2, 33 2, 98 1, 23 Determine o desvio padr˜ao e o coeficiente de varia¸c˜ao. 2. A Tabela 14 apresenta a distribui¸c˜ao de frequˆencia para a vari´avel consumo de etanol, em gramas, de 290 indiv´ıduos. Tabela 14: Distribui¸c˜ao de frequˆencia para o consumo de etanol, em gramas. Consumo de Etanol (gramas) Frequˆencia 0 ` 28 37 28 ` 56 33 48 56 ` 84 84 ` 112 83 112 ` 140 89 Total 290 Determine o desvio padr˜ao e o coeficiente de varia¸c˜ao. 12 3.4 Rela¸ c˜ ao Emp´ırica Tratando-se de distribui¸c˜oes sim´etricas, sabemos que (¯ x ± s) ' 68, 3% dos dados, (¯ x ± 2s) ' 95, 5% dos dados e (¯ x ± 3s) ' 99, 7% dos dados. 1. A durabilidade das lˆampadas da marca X est´a sendo estudada. Sorteou-se aleatoriamente 300 lˆampadas e anotou-se a durabilidade, atrav´es de testes acelerados. Tabela 15: Distribui¸c˜ao de frequˆencia para a durabilidade das lˆampadas da marca X. Durabilidade (horas) Frequˆencia Acumulada 0 ` 300 6 300 ` 600 21 66 600 ` 900 900 ` 1200 141 231 1200 ` 1500 300 1500 ` 1800 Verifique se a rela¸c˜ao (¯ x ± s) ' 68, 3% dos dados ´e satisfeita. 4 Livro Texto ˜ MAGALHAES, M. N. e LIMA, A. C. P. No¸c˜oes de Probabilidade e Estat´ıstica. 6a Edi¸c˜ao. EDUSP, 2008. 13