Preview only show first 10 pages with watermark. For full document please download

01-estatística Descritiva

Curso de Estatística Descritiva

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    2MB
  • Views

    2,829
  • Categories


Share

Transcript

Cap´ıtulo 1 Estat´ıstica Descritiva 1.1 Introdu¸c˜ ao 1.1.1 Estat´ıstica A palavra estat´ıstica deriva do latim ”status”e tem dois significados dis- tintos. Frequentemente usado no plural, o termo estat´ıstica designa todo conjunto coerente de dados num´ericos relativos a um grupo de indiv´ıduos. Assim, por exemplo, pode-se falar em estat´ısticas de produ¸c˜ao industrial ou agr´ıcola (quantidades produzidas, custos de produ¸c˜ao, pre¸cos de venda, etc), de estat´ısticas demogr´aficas (natalidade, mortalidade), de estat´ısticas de desemprego, de acidentes de estrada, etc. Por outro lado, a palavra estat´ıstica designa tamb´em, o conjunto de m´etodos que permitem reunir e analisar dados de observa¸c˜ao. De acordo com Fisher -“A Estat´ıstica ´e a matem´atica aplicada a dados de observa¸c˜ao”. Ela tem por objetivo o uso de m´etodos cient´ıficos para coleta, organiza¸c˜ao, resumo, apresenta¸c˜ao e an´alise de dados, bem como a obten¸c˜ao de conclus˜oes v´alidas a serem utilizadas nas tomadas de decis˜oes. Assim todo estudo estat´ıstico pode ser decomposto em pelo menos duas fases: - a reuni˜ao ou coleta dos dados estat´ısticos - sua an´alise e interpreta¸c˜ao. A coleta de dados pode ser realizada de duas formas: 1 2 - por simples observa¸c˜ao dos fenˆomenos em que se tem interesse - estudo observacional e - por experimenta¸c˜ao, ou seja, provocando-se voluntariamente a apari¸c˜ao de certos fenˆomenos controlados. A an´alise estat´ıstica pode ser decomposta em duas etapas, uma dedutiva ou descritiva e a outra indutiva. A Estat´ıstica Descritiva tem por objetivo resumir e apresentar os dados observados sob a forma de: tabelas (descri¸c˜ao tabular), gr´aficos (descri¸c˜ao gr´afica) e parˆametros e suas estimativas (descri¸c˜ao param´etrica). A Inferˆencia Estat´ıstica permite estender ou generalizar dentro de certas condi¸c˜oes as conclus˜oes obtidas. Frequentemente, a observa¸c˜ao ou a experimenta¸c˜ao ´e relativa a apenas uma fra¸c˜ao dos indiv´ıduos em que se tem interesse. As conclus˜oes relativas a essa fra¸c˜ao, chamada amostra, devem, ent˜ao, ser estendidas tanto quanto poss´ıvel ao conjunto de indiv´ıduos que formam a “popula¸c˜ao”. Essa fase indutiva comporta evidentemente certos riscos de erro, que podem ser medidos, usando-se a teoria das probabilidades. Quando em um estudo trabalha-se com amostras, tem-se uma pesquisa por amostragem. Quando se utiliza a popula¸c˜ao toda tem-se o censo. As diferentes etapas de todo estudo estat´ıstico n˜ao s˜ao, entretanto, independentes. 1.1.2 Vari´ aveis Vari´avel ´e uma medida ou classifica¸c˜ao obtida de cada elemento da popula¸c˜ao ou amostra. A representa¸c˜ao de dados torna-se mais f´acil por meio da utiliza¸c˜ao ´ importante notar que a vari´avel aleat´oria ´e representada por letra de vari´aveis. E mai´ uscula e o valor observado pela mesma letra, por´em min´ uscula. Assim, por exemplo, os dados apresentados na Tabela 1.1, a vari´avel X refere-se ao peso de 24 animais do Cerrado brasileiro, em kg. Tem-se ainda que xi , i = 1, ..., 24, representa o peso observado de um determinado animal i, por exemplo, x1 = 250, x2 = 20, x3 = 10, ..., x24 = 60. Outro exemplo pode ser 3 Tabela 1.1: Peso de 24 animais do Cerrado brasileiro, em kg. Animal X Animal X Anta 250 Gato-do-mato 3 Cateto 20 Ariranha 20 Gato-maracaj´a 6 Pre´a 1 Bugio-preto 10 Gato-mourisco 10 Quati 5 Cachorro-do-mato 8 Jaguatirica 15 Raposa-do-campo 8 Capivara 70 Lobo-guar´a 20 Su¸cuarana 60 Cervo 100 Lontra 10 Tamandu´a-bandeira 30 Cotia 3 On¸ca-pintada 100 Tatu-bola 3 Gamb´a 1 Paca Veado-do-campo 60 8 Animal X Y : tipos de fam´ılias de algumas esp´ecies de plantas encontradas no Parque Nacional da Serra da Canastra yj : Asteraceae, Bignoniaceae, Melastomataceae, j = 1, 2, 3 (fam´ılias). Os tipos de vari´aveis mais comumente utilizadas na descri¸c˜ao de dados s˜ao:    discretas     Quantitativas    cont´ınuas     Vari´aveis       nominais    Qualitativas     ordinais a) Vari´aveis quantitativas representam quantidades. Podem ser de natureza discreta ou cont´ınua. S˜ao de natureza discreta as vari´aveis que podem assumir apenas valores dentro do conjunto dos n´ umeros naturais. Exemplo: n´ umero de frutos por ramo, n´ umero de parasitas por hospedeiro, n´ umero de ovos por ninho, n´ umero de sementes germinadas, n´ umero de insetos coletados em armadilhas, n´ umero de brotos em estudos de cultura de tecidos, etc. 4 S˜ao de natureza cont´ınua as vari´aveis que podem assumir qualquer valor em um intervalo. Exemplo: alturas de plantas, pesos de animais, velocidade de animais, concentra¸c˜ao de uma solu¸c˜ao, biomassa de plantas ou animais, etc. b) Vari´aveis qualitativas descrevem categorias, qualidades. S˜ao relativas a dados categorizados. Exemplo: ra¸ca, sexo, cor da pele, t´axon, grau de infec¸c˜ao, etc. ´ poss´ıvel, `as vezes, estabelecer uma correspondˆencia dessas vari´aveis com E ´ o caso, por exemplo, de: vari´aveis quantitativas discretas. E sexo: masculino, feminino ⇒ xi = 0, 1, 1.1.3 i = 1, 2 condi¸c˜ao: morto, vivo ⇒ xi = 0, 1, i = 1, 2 graus de infec¸c˜ao: ⇒ xi = 0, 1, 2, 3, i = 1, 2, 3, 4. Somat´ orio ´ uma nota¸c˜ao bastante utilizada dentro da estat´ıstica. Considere, por E exemplo, a vari´avel aleat´oria X, que representa o n´ umero de esp´ecimes de zarroamericano (Aythya affinis) coletados ao longo dos anos de 1965 a 1980, conforme a Tabela 1.2. Tabela 1.2: N´ umero de esp´ecimes de zarro-americano (Aythya affinis) coletados ao longo dos anos de 1965 a 1980. Ano 1965 1966 1967 1968 1969 1970 1971 1972 N´ umeros 19 28 4 13 28 36 17 30 Ano 1973 1974 1975 1976 1977 1978 1979 1980 N´ umeros 21 32 34 16 22 16 23 31 Tem-se, ent˜ao, que x1 = 19, x2 = 28, ..., x16 = 31. Logo, o total de zarrosamericanos coletados de 1965 a 1980 ´e dado por T = x1 + x2 + ... + x16 = 16 ∑ i=1 xi = x. = 370 5 Figura 1.1: Zarro americano. Podem ser obtidas, ainda, a soma dos quadrados e o quadrado da soma 16 ∑ x2i = x21 + x22 + ... + x216 = 9706 i=1 e ( 16 ∑ )2 xi = (x1 + x2 + ... + x16 )2 = 3702 = 136900. i=1 Outro exemplo, seria o da Tabela 1.3 que mostra o n´ umero m´edio de camar˜oes-espinho coletados na ba´ıa de Ubatuba de acordo com o local no qual o transecto foi feito e com o est´agio reprodutivo do camar˜ao. Tabela 1.3: N´ umeros m´edios de camar˜oes-espinho coletados na ba´ıa de Ubatuba de acordo com o local no qual o transecto foi feito e com o est´agio reprodutivo do camar˜ao. Transecto Est´agio Ov´ıgero j=1 j=2 j=3 j=4 j=5 j=6 Totais y11 = 4,0 y12 = 7,0 y13 = 4,5 y14 = 1,0 y15 = 5,5 y16 = 3,5 y1. = 25,5 N˜ao-ov´ıgero y21 = 3,0 y22 = 6,5 y23 = 5,0 y24 = 2,0 y25 = 5,0 y26 = 3,5 y2. = 25,0 Totais y.1 = 7,0 y.2 = 13,5 y.3 = 9,5 y.4 = 3,0 y.5 = 10,5 y.6 = 7,0 y.. = 50,5 6 Pode-se representar cada valor observado por yij , isto ´e, yij ´e o n´ umero de camar˜oes-espinho referente ao i-´esimo est´agio reprodutivo e j-´esimo transecto. Assim, tem-se, por exemplo 2 ∑ 6 ∑ y.. = yij = y11 + · · · + y16 + y21 + · · · + y26 = 50, 5 y1. = y.2 = i=1 j=1 6 ∑ y1j = y11 + · · · + y16 = 25, 5 j=1 2 ∑ yi2 = y12 + y22 = 13, 5 i=1 Propriedades do somat´orio: n ∑ a) k = nk i=1 b) c) n ∑ i=1 n ∑ kxi = k n ∑ i=1 (xi ± yi ) = i=1 d) n ∑ n ∑ xi ± i=1 (xi ± k) = i=1 1.2 xi n ∑ n ∑ yi i=1 xi ± nk. i=1 Estat´ıstica Descritiva Tem por objetivo resumir e apresentar dados de observa¸c˜ao (popula¸c˜ao ou amostra), de modo a simplificar sua interpreta¸c˜ao por meio de descri¸c˜ao tabular, gr´afica ou param´etrica. 1.2.1 Vari´ avel Qualitativa – Descri¸c˜ ao Tabular e Gr´ afica Primeiro caso: Uma s´o vari´avel Seja o exemplo que se segue. Os alunos da sexta turma de Ciˆencias Biol´ogicas da ESALQ/USP observaram durante dois dias o n´ umero de visitas de polinizadores a um esp´ecime de Heliconia rostrata. Obtiveram os resultados: das 8h `as 10h, 10h 7 `as 12h, 12h `as 14h e das 14h `as 16h, respectivamente, 17, 28, 18 e 19 polinizadores visitaram a planta. Figura 1.2: Heliconia rostrata. A representa¸c˜ao tabular ´e feita por meio de tabelas de mono-entrada ou de classifica¸c˜ao simples ou tabelas de frequˆencias. As frequˆencias podem ser absolutas simples, absolutas acumuladas, relativas simples, relativas acumuladas, dependendo do interesse do pesquisador. Uma tabela e mesmo um gr´afico deve apresentar: cabe¸calho, corpo e rodap´e. O cabe¸calho deve conter o suficiente para que sejam respondidas as quest˜oes: o quˆe? (fato), onde? (lugar) e quando? (´epoca). O corpo ´e apresentado por colunas e sub-colunas dentro das quais ser˜ao registrados os dados. O rodap´e ´e reservado para as observa¸c˜oes pertinentes, bem como para a identifica¸c˜ao da fonte dos dados. Assim, para o exemplo dado, tem-se a Tabela 1.4. A descri¸c˜ao gr´afica, dentre outras, pode ser feita de trˆes formas: gr´afico de colunas (ou barras), de linhas e de setores circulares. Esses gr´aficos podem ser obtidos considerando-se frequˆencia absoluta, frequˆencia relativa, frequˆencia absoluta acumulada e frequˆencia relativa acumulada. a) Gr´afico de colunas e de linhas Os resultados da Tabela 1.4 podem ser representados graficamente como mostra a Figura 1.3. 8 Tabela 1.4: N´ umero de visitas de polinizadores a um esp´ecime de Heliconia rostrata observados por alunos da sexta turma de Ciˆencias Biol´ogicas da ESALQ-USP no ano de 2009, em dois dias de observa¸c˜ao. Intervalo Frequˆencia Frequˆencia Freq. abs. Freq. rel. absoluta (fi ) relativa (fi′ ) acumulada acumulada (xi ) 17 0,207 17 0,207 10:00-12:00 28 0,341 45 0,548 12:00-14:00 18 0,220 63 0,768 14:00-16:00 19 0,232 82 1,000 82 1,000 - - 20 15 Número de visitas 10 15 0 0 5 5 10 Número de visitas 20 25 25 30 30 08:00-10:00 08:00−10:00 10:00−12:00 12:00−14:00 14:00−16:00 Horário 08:00−10:00 10:00−12:00 12:00−14:00 14:00−16:00 Horário Figura 1.3: Gr´aficos de colunas e de linhas para o n´ umero de polinizadores observados. b) Gr´afico de setores circulares ´ a representa¸c˜ao gr´afica, em um c´ırculo, por meio de setores. E ´ utilizado, E principalmente, quando se pretende uma visualiza¸c˜ao em rela¸c˜ao ao total. Para cons- 9 tru´ı-lo, divide-se o c´ırculo em setores, cujas ´areas ser˜ao proporcionais `as frequˆencias. Essa divis˜ao pode ser feita por regra de trˆes. Assim, no exemplo dado    82 visitas − 360o       17 visitas − x 1 x1 = 74o 37′ 48′′    82 visitas − 360o       28 visitas − x 2 x2 = 122o 58′ 48′′ x3 = 79o 01′ 12′′ , x4 = 83o 24′ 36′′ . 10:00−12:00 08:00−10:00 34,1% 20,7% 22,0% 23,2% 14:00−16:00 12:00−14:00 Figura 1.4: Gr´afico de setores circulares para o n´ umero de polinizadores observados. Segundo caso: duas vari´aveis Se no exemplo de visitas de polinizadores a um esp´ecime de Heliconia rostrata, al´em da vari´avel “n´ıvel”, tamb´em, for considerada a vari´avel “dia de coleta”, os resultados obtidos podem ser representados em uma tabela de dupla-entrada, como a Tabela 1.5. A descri¸c˜ao gr´afica pode ser feita por meio dos gr´aficos de colunas e de linhas, dentre outras, agrupando-se as colunas por dia de coleta ou por intervalos de coletas, conforme ´e mostrado na Figura 1.5. 10 Tabela 1.5: N´ umero de visitas de polinizadores a um esp´ecime de Heliconia rostrata observados por alunos da sexta turma de Ciˆencias Biol´ogicas da ESALQ-USP no ano de 2009, em dois dias de observa¸c˜ao. Hora Primeiro dia Segundo dia Total 08:00-10:00 9 8 17 10:00-12:00 13 15 28 12:00-14:00 9 9 18 14:00-16:00 10 9 19 Total 41 41 82 2 15 15 10−12 10−12 1 1 10 10 14−16 8−10 12−14 12−14 14−16 1 8−10 1 2 2 5 0 0 5 2 Primeiro dia Segundo dia 08:00−10:00 10:00−12:00 12:00−14:00 14:00−16:00 Figura 1.5: Gr´aficos de colunas para o n´ umero de polinizadores observados. 1.2.2 Vari´ avel Quantitativa Discreta – Descri¸c˜ ao Tabular e Gr´ afica Primeiro caso: Uma s´o vari´avel ´ a tabela inicial dos a) Tabela Primitiva ou Tabela de Dados Brutos – E dados, geralmente, sem qualquer crit´erio que permita informa¸c˜oes “estat´ısticas”. Assim, por exemplo, em uma pesquisa em sala de aula pode-se solicitar a quinze alunos que digam o n´ umero de pessoas que moram em suas casas, enfatizando que a 11 Tabela 1.6: Um exemplo de tabela de frequˆencias. xi fi x1 n1 x2 n2 ··· ··· xV nV ∑ Total N = i fi “honestidade”moral cient´ıfica da coleta de dados pode ser mais importante do que ` medida que os o pr´oprio m´etodo estat´ıstico adotado na an´alise desses dados. A alunos v˜ao dando a informa¸c˜ao solicitada, os dados v˜ao “entrando”, sem um crit´erio espec´ıfico. Outro exemplos seriam dados coletados no campo, como, por exemplo, n´ umero de sementes germinadas, n´ umero de plantas doentes, etc. ´ a tabela de dados dispostos em ordem, geralmente, crescente (ou b) Rol – E decrescente) Apesar de pouco informativa apresenta algumas vantagens sobre a tabela primitiva, pois facilmente se obtˆem os valores de - limite inferior: l ou LI - limite superior: L ou LS - amplitude total: A = L − l ou A = LS − LI Apresenta desvantagens quando o conjunto de dados ´e grande. c) Tabela de Frequˆencias – As duas tabelas anteriores s˜ao usadas, em geral, apenas para “controle”do pesquisador. Quando a pesquisa ´e publicada, a tabela de frequˆencias ´e a que deve ser apresentada: espa¸co de publica¸c˜ao, quantidade de informa¸c˜ao, etc. Esse tipo de tabela cont´em, no caso mais simples duas colunas, uma com os valores observados (xi ) e a outra com as frequˆencias absolutas (fi ), como mostrado na Tabela 1.6. Podem tamb´em, ser inclu´ıdas colunas com frequˆencias 12 Tabela 1.7: N´ umero de pessoas que moram nas casas de 15 alunos amostrados. xi fi ai a′i pi Fi 3 3 3 15 0,2 0,2 4 4 7 12 0,27 0,47 . 5 5 12 8 0,33 0,80 6 1 13 3 0,07 0,87 7 1 14 2 0,07 0,94 8 1 15 1 0,07 1,00 absolutas acumuladas, frequˆencias relativas, frequˆencias relativas acumuladas. Suponha que na pesquisa com os quinze alunos sobre o n´ umero de pessoas que moram em suas casas, os resultados obtidos foram aqueles apresentados na Tabela 1.7 em que ai ´e a frequˆencia acumulada direta do valor xi , a′i ´e a frequˆencia fi acumulada inversa do valor xi , pi ´e a frequˆencia relativa do valor xi e Fi ´e a N frequˆencia relativa acumulada direta do valor xi . Ser´a visto, posteriormente, que a frequˆencia relativa ´e um “bom”estimador de probabilidade e que Fi ´e um “bom”estimador da fun¸c˜ao acumulada de probabilidade. Graficamente as vari´aveis quantitativas discretas s˜ao descritas por meio de gr´aficos de linhas e de barras. Segundo caso: Duas ou mais vari´aveis Exemplo: Na mesma pesquisa com os 15 alunos, pode-se solicitar para informarem dentre os moradores quantos s˜ao “assalariados”, obtendo-se os dados brutos, o rol das n-uplas, ordenando-se por uma das vari´aveis e uma tabela de dupla-entrada, em que a vari´avel aleat´oria X representa o n´ umero de moradores por residˆencia e a vari´avel aleat´oria Y representa o n´ umero de assalariados, conforme mostrado na Tabela 1.8. 13 Tabela 1.8: Tabela de frequˆencias, classificada de acordo com o n´ umero de pessoas que moram nas casas de 15 alunos amostrados e n´ umero de assalariados. X Y 2 3 4 5 6 Totais (f.j ) 1 1 1 1 1 0 4 2 0 1 3 2 1 7 3 0 1 2 1 0 4 Totais (fi. ) 1 3 6 4 1 15 Note que as frequˆencias marginais de X reproduzem a tabela j´a constru´ıda quando se considerou apenas a vari´avel X. De modo an´alogo pode ser feito para a vari´avel Y . Al´em disso, ∑ fij = ij ∑ fi = ∑ i fj = N = n´ umero de dados j A tabela de dupla entrada pode ser constru´ıda com frequˆencias relativas. 1.2.3 Vari´ avel Quantitativa Cont´ınua – Descri¸c˜ ao Tabular e Gr´ afica Primeiro caso: Uma s´o vari´avel a) Tabela primitiva ou tabela de dados brutos Exemplo: Os dados da Tabela 1.9 referem-se a peso de 50 colmos de canade-a¸cu ´car (em g). b) Rol – Ordenando-se os dados obtˆem-se os limites inferior e superior e a amplitude total. l = LI = 10, 20 L = LS = 22, 10 A = 22, 10 − 10, 20 = 11, 90. 14 Tabela 1.9: Peso de 50 colmos de cana-de-a¸cu ´car (em g). 14,11 16,12 17,78 13,54 17,59 17,09 17,26 20,35 13,34 20,08 14,77 13,61 14,85 17,76 17,46 16,08 14,14 15,06 20,67 17,60 15,26 14,17 16,39 12,00 15,55 14,78 20,48 20,04 16,78 13,59 19,70 19,56 19,18 19,21 15,94 19,12 20,90 17,11 14,06 19,38 19,36 16,07 22,10 14,62 18,05 10,20 16,51 20,39 15,63 14,30 c) Tabela de classes Note que ao contr´ario das vari´aveis discretas, as vari´aveis cont´ınuas apresentam muitos valores diferentes. Desse modo, uma tabela de frequˆencias teria muitas linhas e seria, portanto, pouco explicativa. Para contornar esse problema, usam-se, para descrever as vari´aveis cont´ınuas, tabelas de classes ou tabelas de intervalos. Faz-se, ent˜ao, a parti¸c˜ao do rol em intervalos de amplitude, geralmente, iguais denominadas classes. O n´ umero ideal de classes de uma tabela depende, muitas vezes, mais do bom senso do pesquisador do que de regras r´ıgidas pr´e-estabelecidas. N˜ao h´a uma f´ormula exata. Boas aproxima¸c˜oes podem ser obtidas por: (i)   ≤ 5 se N ≤ 25 k=  ≃ √N se N > 25 (ii) Sturges k ≃ 1 + 3, 22 log(N ). A A amplitude de cada classe ´e obtida por n = . No exemplo dado, tem-se k √ 22, 10 − 10, 20 k = 50 ≈ 7 e h = = 1, 7 7 Os gr´aficos mais comumente usados para descrever as vari´aveis quantitativas cont´ınuas, s˜ao histograma e pol´ıgono de frequˆencia, usando-se frequˆencias absolutas, e ogivas de Galton crescente ou decrescente, usando-se frequˆencias acumuladas. O histograma ´e constitu´ıdo de uma sequˆencia de retˆangulos justapostos em 15 Tabela 1.10: Tabela de frequˆencias simples (fi ), simples acumuladas crescentes (ai ), simples acumuladas decrescentes (a′i ), relativas simples (Pˆi ), relativas acumuladas (Fi ) para os dados da Tabela 1.9, mi representa o ponto m´edio do intervalo. Peso mi fi ai a′i Pˆi Fi 10,0 ⊢ 12,0 11,0 1 1 50 0,02 0,02 12,0 ⊢ 14,0 13,0 5 6 49 0,10 0,12 14,0 ⊢ 16,0 15,0 14 20 44 0,28 0,40 16,0 ⊢ 18,0 17,0 14 34 30 0,28 0,68 18,0 ⊢ 20,0 19,0 8 42 16 0,16 0,84 20,0 ⊢ 22,0 21,0 7 49 8 0,14 0,98 22,0 ⊢ 24,0 23,0 1 50 1 0,02 1,00 que cada retˆangulo tem como base a amplitude de classe e como altura a freq¨ uˆencia da classe que descreve. O pol´ıgono de frequˆencias consiste de uma linha poligonal fechada que une os pontos Pi (mi , fi ), i = 1 · · · , k. Para “fechar”o pol´ıgono de frequˆencias, sup˜oe-se uma classe imediatamente anterior e outra imediatamente 0 0 1 5 2 Frequências 10 3 15 4 posterior, ambas com frequˆencias nulas e procede-se de modo an´alogo. 0 10 20 30 40 4 12 20 28 36 Pesos de colmos de cana−de−açúcar Figura 1.6: Histograma e ogivas de Galton para os dados de pesos de colmos de cana-de-a¸cu ´car. 16 A ogiva de Galton crescente consiste de uma linha poligonal que une os pontos Pi (Li , ai ), enquanto que a ogiva de Galton decrescente consiste de uma linha poligonal que une os pontos Pi (li , a′i ). O histograma e as ogivas de Galton para os dados de pesos de colmos de cana-de-a¸cu ´car, est˜ao representados na Figura 1.6. 1.3 1.3.1 Descri¸c˜ ao param´ etrica Introdu¸c˜ ao Os dados relativos a uma vari´avel quantitativa, apresentados em uma tabela, d˜ao vis˜ao geral do problema em estudo. Entretanto, ´e extremamente conveniente proceder a uma descri¸c˜ao dos dados usando-se medidas que mostrem, de maneira bastante concisa, certas caracter´ısticas da amostra. As medidas de tendˆencia central, tamb´em chamadas medidas de posi¸c˜ao, estabelecem o valor em torno do qual os dados se distribuem. Est˜ao entre elas: m´edia aritm´etica, m´edia geom´etrica, m´edia harmˆonica, m´edia quadr´atica, mediana, quartis, decis, percentis e moda. As medidas de dispers˜ao permitem quantificar a variabilidade dos valores observados, ao redor de um parˆametro de posi¸c˜ao. Est˜ao entre elas: amplitude total, variˆancia, desvio-padr˜ao, erro-padr˜ao da m´edia, coeficiente de varia¸c˜ao (medida de dispers˜ao relativa), desvio-quartil, desvio semi-quart´ılico e desvio quartil reduzido. As medidas de assimetria medem o grau de simetria de uma distribui¸c˜ao enquanto que as medidas de curtose medem o grau de achatamento de uma distribui¸c˜ao. Est˜ao entre elas: coeficientes de Pearson e coeficientes de Fisher. Uma distribui¸c˜ao pode ser: sim´etrica, assim´etrica positiva ou assim´etrica negativa e, ainda, leptoc´ urtica, mesoc´ urtica ou platic´ urtica. Existem, ainda, as medidas de associa¸c˜ao que envolvem a dispers˜ao de pontos referentes a duas vari´aveis, e podem ser citadas: covariˆancia e coeficiente de correla¸c˜ao. 17 Resta lembrar que para a maioria dos parˆametros, deve-se considerar, separadamente, o caso de s´eries estat´ısticas (uma simples enumera¸c˜ao das observa¸c˜oes) e aquele das distribui¸c˜oes de frequˆencias considerando-se tabelas de frequˆencias e de classes de frequˆencias. ´ prefer´ıvel, geralmente, proceder `a redu¸c˜ao param´etrica dos dados, direE tamente, a partir dos valores observados, mesmo se as distribui¸c˜oes de frequˆencias foram estabelecidas, por exemplo, em vista da representa¸c˜ao gr´afica dos resultados. Em particular, ´e preciso evitar efetuar a redu¸c˜ao dos dados a partir de distribui¸c˜oes grupadas em classes. 1.3.2 Medidas de tendˆ encia central ou de posi¸c˜ ao Estabelecem o valor em torno do qual os dados se distribuem. 1.3.2.1 M´edia aritm´etica Primeiro caso: Dados n˜ao agrupados Dado um conjunto de N valores ΩX = {x1 , x2 , . . . , xN } define-se a m´edia aritm´etica como x¯ = x 1 + x2 + . . . + xN . N Os s´ımbolos x¯, m ˆ ou µ ˆ representam estimativas da m´edia m ou µ da popula¸c˜ao. Os s´ımbolos m e µ representam os parˆametros da popula¸c˜ao. Como exemplo, sejam os dados de produ¸c˜ao de cana-de a¸cu ´car da Tabela 1.9. Tem-se: 50 ∑ i=1 xi = 839, 69 N = 50 x¯ = 16, 8g. 18 Segundo caso: Dados colocados sob a forma de tabelas de frequˆencias Seja a Tabela 1.11 de frequˆencias. Tabela 1.11: Tabela de frequˆencias xi fi xi fi x1 f1 x1 f1 ··· ··· ··· xk fk xk fk k k ∑ ∑ Totais N = fi xi fi i=1 i=1 A m´edia aritm´etica ´e obtida por k ∑ m ˆ = x¯ = xi fi i=1 k ∑ . fi i=1 Tabela 1.12: N´ umero de moradores por residˆencia, de 15 alunos amostrados. xi fi xi fi 3 3 9 4 4 16 5 5 25 6 1 6 7 1 7 8 1 8 Totais 15 71 Exemplo: Considerando-se o exemplo do n´ umero de moradores por residˆencia, de 15 alunos amostrados, pode-se construir a Tabela 1.12, a partir da 19 qual se obt´em a m´edia aritm´etica x¯ = 71 = 4, 7 moradores por residˆencia. 15 Terceiro caso: Dados colocados sob a forma de tabelas de classes de frequˆencias Seja a Tabela 1.13 de classes de frequˆencias. A m´edia aritm´etica ´e obtida Tabela 1.13: Tabela de classes de frequˆencias. Classes mi fi mi fi c1 ⊢ c2 m1 f1 m1 f1 c2 ⊢ c3 m2 f2 m2 f2 ··· ··· ··· ··· ck ⊢ ck+1 mk Totais fk mk fk k k ∑ ∑ N= fi mi fi i=1 por k ∑ x¯ = i=1 mi fi i=1 , N em que mi ´e o ponto m´edio da classe e N = k ∑ fi . i=1 Propriedades da m´ edia aritm´ etica: N ∑ 1) (xi − x¯) = 0 i=1 As diferen¸cas di = xi −¯ x s˜ao chamadas desvios, discrepˆancias ou afastamento de cada xi em rela¸c˜ao a x¯. ∑ ¯)2 = 0 ´e m´ınima, isto ´e, a soma dos quadrados dos desvios 2) N i=1 (xi − x de cada observa¸c˜ao xi em rela¸c˜ao a uma medida de posi¸c˜ao k ´e a menor poss´ıvel quando k ´e a m´edia aritm´etica. 20 Exemplo: Considere os dados de peso de 50 colmos de cana-de-a¸cu ´car da Tabela 1.9 com a Tabela 1.14 de classes de frequˆencias. A m´edia aritm´etica ´e obtida Tabela 1.14: Tabela de classes de frequˆencias para os dados da Tabela 1.9. Peso mi fi mi fi 10,0 ⊢ 12,0 11,0 1 11,0 12,0 ⊢ 14,0 13,0 5 65,0 14,0 ⊢ 16,0 15,0 14 210,0 16,0 ⊢ 18,0 17,0 14 238.0 18,0 ⊢ 20,0 19,0 8 152,0 20,0 ⊢ 22,0 21,0 7 147,0 22,0 ⊢ 24,0 23,0 1 23,00 Totais 50 846 por x¯ = 846 = 17g. 50 1.3.2.2 Mediana ´ um parˆametro de posi¸c˜ao tal que a metade das observa¸c˜oes lhe s˜ao infeE riores (ou iguais) e a outra metade superiores (ou iguais). Primeiro caso: dados n˜ao-agrupados Feita a ordena¸c˜ao dos n dados a mediana ´e dada por md = x n+1 2 md = se n ´e ´ımpar, e x n2 + x n2 +1 2 se n ´e par. Exemplo: Um estudo foi conduzido com adolescentes mulheres que sofriam de bulimia e os resultados das medidas de entrada cal´orica di´aria (kcal/kg) est˜ao na 21 Tabela 1.15. A mediana ´e dada por md = x12 + x13 21, 6 + 22, 9 = = 22, 25 2 2 Tabela 1.15: Medidas de entrada cal´orica di´aria (kcal/kg) de 24 adolescentes mulheres. 15,9 18,9 25,1 16,0 19,6 25,2 16,5 21,5 25,6 17,0 21,6 28,0 17,6 22,9 28,7 18,1 23,6 29,2 18,4 24,1 30,9 18,9 24,5 30,6 Outro exemplo: As alturas (cm) de nove alunos do terceiro ano do curso de Ciˆencias Biol´ogicas da ESALQ/USP, 2009 foram X: { 172; 180; 183; 183; 185; 187; 189; 189; 191}. A mediana ´e dada por md = x5 = 185. Segundo caso: dados colocados sob a forma de tabelas de frequˆencias Distribui¸c˜ao do n´ umero de moradores por residˆencia, de 15 alunos sorteados no terceiro ano de Ciˆencias Biol´ogicas, 2009 xi fi a′i 3 3 3 4 4 7 5 5 12 6 1 13 7 1 14 8 1 15 md = x 15+1 = x8 = 5 2 22 Terceiro caso: dados colocados em uma tabela de classes de frequˆencias Um modo de se obter a mediana ´e por meio de um processo gr´afico, utilizando-se a Ogiva de Galton. No exemplo de dados de bulimia tem-se a Ogiva de Galton. Figura 1.7: Ogiva de Galton crescente para os dados de bulimia Tabela 1.16: Tabela de classes de frequˆencias para os dados da Tabela 1.15. Peso mi fi 15,9 ⊢ 18,9 17,4 7 18,9 ⊢ 21,9 20,4 5 21,9 ⊢ 24,9 23,4 4 24,9 ⊢ 27,9 23,4 3 27,9 ⊢ 30,9 26,4 4 30,9 ⊢ 33,9 29,4 1 Totais 24 Outro modo de se obter a mediana ´e usando-se a f´ormula ∑ ( N2 − fi )h md = lmd + fmd 23 em que lmd ´e o limite inferior da classe mediana, ∑ fi ´e a soma das frequˆencias anteriores `a classe mediana, h ´e a amplitude da classe mediana e fmd ´e frequˆencia da classe mediana. Para os dados de bulimia da Tabela 1.15, com tabela de classes de frequˆencias na Tabela 1.16, tem-se md = 20, 4 + 24 2 −7 · 3 = 23, 4. 5 1.3.2.3 Moda ´ o elemento de uma s´erie de dados que ocorre com maior frequˆencia. E Primeiro caso: dados n˜ao-agrupados No exemplo de dados n˜ao agrupados de bulimia (Tabela 1.15), a moda ´e igual a 18,9, pois aparece duas vezes enquanto que as outras observa¸c˜oes aparecem apenas uma vez. Para o exemplo de alturas de alunos, as modas s˜ao 183 e 189cm. Segundo caso: dados agrupados em uma tabela de frequˆencias Para o exemplo de n´ umero de moradores por residˆencia, de 15 alunos do terceiro ano de Ciˆencias Biol´ogicas, 2009, a moda ´e Mo = 5 (´e o valor xi correspondente `a maior frequˆencia fi ) xi 3 4 5 6 7 8 fi 3 4 5 1 1 1 Terceiro caso: dados agrupados em uma tabela de classes de frequˆencias Uma maneira de se obter a moda ´e por meio de um processo gr´afico, utilizando-se o histograma de frequˆencias simples. No exemplo de cana-de-a¸cu ´car, tem-se M o = 18, 23, conforme Figura 1.8. Outro modo de se obter a moda ´e usando-se a f´ormula de Czuber Mo = l + ∆1 .h ∆1 + ∆2 24 Figura 1.8: Histograma dos pesos de colmo de a¸cu ´car com c´alculo da moda. em que l ´e o limite inferior da classe modal, ∆1 ´e a diferen¸ca entre a frequˆencia da classe modal e a imediatamente anterior, ∆2 ´e a diferen¸ca entre a frequˆencia da classe modal e a imediatamente posterior e h ´e a amplitude da classe. Para os dados da Tabela 1.15 com Tabela 1.16 de classes de frequˆencias, tem-se Mo = 15, 9 + 7 .3 = 18, 23. 7+2 1.3.2.4 M´edia geom´etrica Dado o conjunto de N valores ΩX = {x1 , x2 , . . . , xN }, se os dados forem n˜ao agrupados, a m´edia geom´etrica ´e obtida por v uN u∏ √ n x¯g = n x1 .x2 . . . xN = t xi . i=1 Se os dados estiverem em uma tabela de classes de frequˆencias, ent˜ao, v uN u∏ f n x¯ = t xi g i i=1 sendo xi a m´edia da classe i com frequˆencia fi . Exemplo: Durante o primeiro semestre do ano de 1970 a rela¸c˜ao x= pre¸co de gasolina pre¸co do ´oleo diesel 25 foi x1 = 2, 50 e no segundo semestre foi x2 = 2, 00. Ent˜ao, mgx = Note que se y = 1 x ⇒ y1 = 1 2,5 e y2 = 21 . Logo, √ mgy = √ √ 2 × 2, 5 = 5 = 2, 236 1 1 × = 2, 5 2 √ 1 1 . = 0, 447 = 5 mgx Se fosse utilizada a m´edia aritm´etica, ter-se-ia 1 x¯ ̸= . y¯ 1.3.2.5 M´edia harmˆonica ´ utilizada no c´alculo de velocidades m´edias e custo m´edio de bens comprados com E uma quantia fixa. Dado o conjunto de N valores ΩX = {x1 , x2 , . . . , xN }, para dados n˜ao agrupados, a m´edia harmˆonica ´e x¯h = 1 x1 + 1 x2 N + ... + N = ∑N 1 xN 1 i=1 xi isto ´e, ´e o inverso da m´edia aritm´etica dos inversos dos valores. Para dados em tabelas de frequˆencias N x¯h = ∑k fi i=1 xi . Exemplo: As cidades A, B e C s˜ao equidistantes umas das outras. Um motorista viaja de A para B a 30km/h de B para C a 60 km/h e de C para A a 120 km/h. Qual a velocidade m´edia desenvolvida no percurso? x¯h = 3 1 30 + 1 60 + 1 120 = 51, 428km/h. 26 1.3.2.6 M´edia quadr´atica ´ utilizada, principalmente, na determina¸c˜ao de diˆametro de ´arvores de sec¸c˜ao ou E ´area m´edia. Dado o conjunto de valores ΩX = {x1 , x2 , . . . , xN }, para dados n˜aoagrupados, a m´edia quadr´atica ´e √ x¯q = x21 + x22 + . . . + x2N = N √∑ x2i . N Para dados em tabelas de frequˆencias, √ x¯q = 1 ∑ 2 fi xi . N 1.3.2.7 Separatrizes: Decis, Quartis e Percentis Quartis dividem um conjunto de dados ordenados em quatro partes iguais, enquanto que os decis em dez partes iguais e os percentis em cem partes iguais. Assim, tˆem-se trˆes quartis (Q1 , Q2 , Q3 ), nove decis (D1 , D2 , ...,D9 ) e noventa e nove percentis (P1 , P2 ,...,P9 9). Tem-se, ainda, que Md = Q2 = D5 = P5 0. O processo gr´afico utilizado para a determina¸c˜ao dessas separatrizes ´e semelhante ao utilizado para a mediana, a partir da Ogiva de Galton. Quanto `as f´ormulas tem-se: lQ1 + ( N4 − Q1 = fQ1 .h ∑ 1.3.2.8 Rela¸c˜ao entre m´edia, mediana e moda Em uma distribui¸c˜ao sim´etrica observa-se que x¯ = md = mo . fi ) . 27 Figura 1.9: Exemplo de uma distribui¸c˜ao sim´etrica Em uma distribui¸c˜ao assim´etrica positiva observa-se que x¯ > md > mo enquanto que na assim´etrica negativa x¯ < md < mo . 1.3.3 Medidas de dispers˜ ao 1.3.3.1 Introdu¸c˜ao As medidas de tendˆencia central, embora de extrema importˆancia, n˜ao s˜ao suficientes para o estudo completo das distribui¸c˜oes. Exemplo inicial: Em um ensaio de cana-de-a¸cu ´car em que se testaram trˆes variedades foram obtidas as produ¸c˜oes: variedade A: 86,0 87,0 88,0 88,0 88,0 89,0 90,0 variedade B: 84,0 86,0 88,0 88,0 88,0 90,0 92,0 variedade C: 87,0 87,0 88,0 88,0 88,0 89,0 89,0. Verifica-se que: mdA = mdB = mdC moA = moB = moC ∑ x2 = 54218 s2 = 1, 67 ∑ 2 = 88, 0 x = 54248 s2 = 6, 67 ∑ 2 = 88, 0 x = 54212 s2 = 0, 67. x¯A = x¯B = x¯C = 88, 0 28 Tornam-se necess´arias, portanto, outras medidas para se fazer a escolha de uma determinada variedade. Um novo crit´erio, ent˜ao, poderia ser: a variedade mais regular, isto ´e, a variedade cujas produ¸c˜oes apresentam menor dispers˜ao. 1.3.3.2 Amplitude total ´ a mais rudimentar das medidas de dispers˜ao. E ´ a diferen¸ca entre o maior e o E menor dos valores de uma s´erie de dados. A = xmax − xmin No exemplo dado: AA = 4, 0 AB = 8, 0 AC = 2, 0 Tem a desvantagem de levar em considera¸c˜ao apenas os valores extremos. 1.3.3.3 Desvio (di ) em rela¸c˜ao `a m´edia Primeiro caso: dados n˜ao agrupados di = xi − x¯ na amostra e di = xi − µ na popula¸c˜ao Segundo caso: dados em tabelas de classes de frequˆencias di = mi − x¯ Fato: ∑ di = ∑ ∑ (xi − x¯) = xi − n¯ x=0 1.3.3.4 Variˆancia ´ a mais importante das medidas de varia¸c˜ao e ´e definida como a m´edia dos E quadrados dos desvios. 29 Primeiro caso: dados n˜ao agrupados ∑ 2] ∑ [∑ 2 (x − µ) 1 ( x) i 2 Popula¸c˜ao: σ 2 = = x − n n n ∑ ∑ [∑ ] (xi − x¯)2 1 ( x)2 2 2 Amostra: s = = x − n−1 n−1 n Nota: Perde-se um grau de liberdade ao estimar-se σ 2 com base na estimativa da m´edia. No exemplo de peso das trˆes variedades de cana-de-a¸cu ´car: s2A = 1, 67 s2B = 6, 67 s2C = 0, 67 Poder-se-ia, portanto, nesse caso escolher a variedade C. No exemplo de dados de produ¸c˜ao de cana-de-a¸cu ´car (t/ha), da Tabela 1.9, tem-se ∑ x2 = 14445, 64 s2 = ∑ x = 839, 69 1 ( 839, 692 ) 14445, 64 − = 7, 02g 2 50 − 1 50 Segundo caso: dados em tabelas de frequˆencias ∑ [ ] 1∑ 1 ∑ 2 ( fi xi )2 2 2 σ = fi (xi − µ) = fi xi − n n n 2 s = 1 n−1 ∑ ∑ [∑ ] 1 ( fi xi )2 2 fi (xi − x¯) = fi xi − n−1 n 2 Exemplo: Distribui¸c˜ao do n´ umero de moradores por residˆencia 30 xi fi fi xi fi x2i 3 3 9 27 4 4 16 64 5 5 25 125 6 1 6 36 7 1 7 49 8 1 8 64 15 71 365 s2 = 1[ 712 ] 365 − = 2, 07 14 15 Terceiro caso: dados em tabelas de classes de frequˆencias ∑ [∑ ] k 1 ∑ 1 ( fi mi )2 2 2 s = fi (mi − x¯) = fi mi − n − 1 i=1 n−1 n 2 sendo mi ´e o ponto m´edio da classe i e n = ∑ fi Em outro exemplo de dados de produ¸c˜ao de cana-de-a¸cu ´car (t/ha) tem-se: mi fi mi fi m2i fi 74,0 ⊢ 79,2 76,6 4 306,4 23470,24 79,2 ⊢ 84,4 81,8 5 409,0 33456,20 84,4 ⊢ 89,6 87,05 14 1218,0 105966,00 89,6 ⊢ 94,8 92,2 7 645,4 59505,88 94,8 ⊢ 100,0 97,4 2 194,8 18973,52 100,0 ⊢ 105,2 102,6 4 410,4 42107,04 3184,0 283478,88 [ ] 1 3184, 02 1871, 7689 = 53, 4791 ≃ 53, 48t/ha s = 283478, 88 − = 35 36 35 2 31 1.3.3.5 Desvio-padr˜ao Observando-se a f´ormula para o c´alculo da variˆancia, vˆe-se que o numerador ´e uma soma de quadrados. Assim, se a unidade foi, por exemplo, metro (m), tem-se que a variˆancia ser´a dada em m2 . Para se voltar `a vari´avel original, necessita-se, ent˜ao, extrair a raiz quadrada da variˆancia que ´e o desvio-padr˜ao. Assim, tem-se: √ Popula¸c˜ao: σ = σ 2 √ Amostra: s = s2 √ s = 53, 48 = 7, 32 dados de cana-de-a¸cu ´car agrupados √ s = 2, 07 = 1, 44 dados de habitantes por residˆencia 1.3.3.6 Coeficiente de varia¸c˜ao Trata-se de uma medida relativa de dispers˜ao, u ´til para a compara¸c˜ao em termos ´ dado por: relativos do grau de concentra¸c˜ao em torno da m´edia de s´eries distintas. E σ σ Popula¸c˜ao: CV = ou CV (%) = 100 · µ µ s s Amostra: CV = ou CV (%) = 100 · x¯ x¯ Para efeitos pr´aticos, costuma-se considerar que CV superior a 50% indica alto grau de dispers˜ao e, consequentemente, pequena representabilidade da m´edia. Enquanto que para valores inferiores a 50% a m´edia ser´a tanto mais representativa do fato quanto menor for o seu CV. O coeficiente de varia¸c˜ao mede o desvio-padr˜ao em unidades da m´edia. Assim se temos duas amostras de peso (em kg) de gado Canchim aos 8 meses Amostra A: 347, 380, 328, 410, 380, 348, 329, 320, 330, 305 Amostra B: 350, 343, 325, 348, 334, 327, 317, 342, 341, 330 x¯A = 347, 7 s2A = 1067, 79 sA = 32, 68 CVA = 0, 094 x¯B = 335, 7 s2B = 116, 9 sB = 10, 81 CVB = 0, 032 32 Portanto, vˆe-se que a dispers˜ao relativa da amostra B ´e menor do que a da amostra A. 1.3.3.7 Erro-padr˜ao da m´edia Obtido por σ σ(¯ x) = √ para popula¸c˜ao n s s(¯ x) = √ para amostra n Pode ser verificado que m´edias e desvios-padr˜ao s˜ao por si mesmos sujeitos `a varia¸c˜ao e formam popula¸c˜oes de m´edias e de desvios-padr˜ao. Espera-se que m´edias sejam menos vari´aveis que observa¸c˜oes individuais. Assim, o erro-padr˜ao da m´edia ´e uma medida de dispers˜ao de um conjunto de m´edias, utilizando-se apenas uma m´edia. Nos exemplos dados, tem-se: 7, 09 s(¯ x) = √ = 1, 182 para dados de cana-de-a¸cu ´car n˜ao-agrupados 36 3, 31 s(¯ x) = √ = 0, 552 para dados de cana-de-a¸cu ´car agrupados 36 1, 44 s(¯ x) = √ = 0, 372 para dados de habitantes por residˆencia 15 Cap´ıtulo 2 PROBABILIDADES 2.1 2.1.1 Conceitua¸c˜ ao Experimento Aleat´ orio (E) ´ aquele que repetido sob as mesmas condi¸c˜oes pode levar a resultados E diferentes, isto ´e, n˜ao se pode prever seu resultado, em raz˜ao do fato de que todos os fatores que determinam o resultado n˜ao podem ser medidos ou controlados. Exemplos: E1 : Lan¸car uma moeda e observar o resultado da face voltada para cima. E2 : Lan¸car duas moedas e observar o resultado das faces voltadas para cima. E3 : Lan¸car dez moedas e observar o n´ umero de caras. E4 : Lan¸car um dado e observar o n´ umero mostrado na face de cima. E5 : Lan¸car dois dados e observar o n´ umero mostrado na face de cima. E6 : Lan¸car dois dados e observar a soma dos n´ umeros mostrados na face de cima. E7 : Plantar 10 sementes de feij˜ao e observar o n´ umero de sementes germinadas. E8 : Fazer o cruzamento de dois animais e observar o sexo do animal que nasceu. Analisando esses experimentos verifica-se: a) Cada experimento poder´a ser repetido sob as mesmas condi¸c˜oes indefinidamente. 33 34 b) N˜ao se conhece um particular valor do experimento “a priori”, por´em, podem-se descrever todos os poss´ıveis resultados - as possibilidades. c) Quando o experimento for repetido um grande n´ umero de vezes, surgir´a s uma regularidade, isto ´e, haver´a uma estabilidade da fra¸c˜ao f = (frequˆencia ren lativa), em que o n´ umero n ´e o n´ umero de repeti¸c˜oes e s ´e o n´ umero de sucessos de um particular resultado estabelecido antes da realiza¸c˜ao. Essa caracter´ıstica ´e f fundamental para o c´alculo da probabilidade de um certo evento. Assim, n 2.1.2 Espa¸co Amostral ´ o conjunto de todos os resultados poss´ıveis associados a um experimento, E representado por S. Sendo S um conjunto, ele poder´a ser finito ou infinito. Nos exemplos dados a) E1 : S1 = {k, c} em que c = cara, k = coroa b) E2 : S2 = {(c, c), (c, k), (k, c), (k, k)} c) E3 : S3 = {0, 1, 2, ..., 10} d) E4 : S4 = {1, 2, 3, 4, 5, 6} e) E5 : S5 = {(1, 1), (1, 2), (1, 3), ..., (6, 6)} f) E6 : S6 = {2, 3, 4, ..., 12} g) E7 : S7 = {0, 1, 2, ..., 10} h) E8 : S8 ={fˆemea, macho} 35 2.1.3 Evento ´ um subconjunto de S, ou seja, um conjunto de resultados de um experiE mento. Nos exemplos dados a) A1 : sair cara ⇒ A1 = {c} b) B1 : sair pelo menos uma cara ⇒ B1 = {(c, c), (k, c), (c, k)} c) C1 : n˜ao sair cara ⇒ C1 = {0} d) D1 : sair o trˆes ⇒ D1 = {3} e) X1 : sair o par (5, 6) ⇒ X1 = {(5, 6)} f) F1 : sair soma onze ⇒ F1 = {(5, 6), (6, 5)} g) G1 : pelo menos 8 sementes germinaram ⇒ G1 = {1, 2, 3, ..., 8} h) H1 : nascer macho ⇒ H1 ={macho}. Tipos de Eventos Evento Imposs´ıvel – aquele que nunca ocorre. Representado por ∅. Por exemplo, no jogo de dois dados sair soma 13. ∅ = {13} Evento Simples ou Elementar – ´e aquele que cont´em apenas um dos elementos do espa¸co amostral. Exemplos: A1 , C1 , D1 , H1 . Evento Certo – ´e o pr´oprio espa¸co amostral S. A=S Evento Complementar – Dado um evento A de um espa¸co amostral S, define-se o evento complementar de A, como o subconjunto de todos os elementos de S que n˜ao est˜ao em A, isto ´e, / A} A¯ = {x : x ∈ S e ∈ 36 Propriedades a) A ∪ A¯ = S b) A ∩ A¯ = ∅ Exemplo: Em E4 = {1, 2, 3, 4, 5, 6}, podem-se definir os eventos complementares A: sair face par ⇒ A = {2, 4, 6} ¯ sair face ´ımpar ⇒ A¯ = {1, 3, 5}. A: Eventos Mutuamente Exclusivos Dois eventos A1 e A2 s˜ao mutuamente exclusivos, se eles n˜ao podem ocorrer simultaneamente, isto ´e, A1 ∩ A2 = ∅. Exemplo: Em E4 , podem-se definir os eventos mutuamente exclusivos A1 : sair o n´ umero 2, A1 = {2} A2 : sair n´ umero ´ımpar, A2 = {1, 3, 5} A1 ∩ A2 = ∅. Eventos Independentes Dois eventos A1 e A2 s˜ao dependentes, se a ocorrˆencia de um deles depende de que o outro tenha ocorrido, ou n˜ao. Dois eventos A1 e A2 s˜ao independentes, se a ocorrˆencia de um deles independe de que o outro tenha ocorrido, ou n˜ao. Exemplo: Seja 37 E: Retirar 2 bolas de uma urna com 2 bolas brancas e uma preta, sem reposi¸c˜ao. Os eventos A1 : A primeira bola ´e branca e A2 : A segunda bola ´e branca s˜ao dependentes, pois a chance de ocorrˆencia da segunda bola branca muda, dependendo da cor da primeira bola. 2.2 Defini¸c˜ ao de Probabilidade Dado um espa¸co amostral S, a probabilidade de um evento A, representada por P (A), ´e uma fun¸c˜ao definida em S, que associa um valor num´erico ao evento A, satisfazendo os axiomas: a) 0 ≤ P (A) ≤ 1 b) P (S) = 1 c) Se A e B s˜ao eventos mutuamente exclusivos (A ∩ B = ∅), ent˜ao: P (A ∪ B) = P (A) + P (B). Nos problemas pr´aticos o valor P (A) pode ser obtido por P (A) = tamanho de A . tamanho de S Exemplos 1) Joga-se um dado. Qual a probabilidade de sair pelo menos 3? Solu¸c˜ao: Dado que S = {1, 2, 3, 4, 5, 6} e A = {3, 4, 5, 6}, ent˜ao 2 4 P (A) = = . 6 3 2) Uma urna cont´em 5 bolas brancas, 7 pretas e 3 vermelhas. Tiram-se 5 bolas de uma vez. Calcule as probabilidades dos eventos que se seguem. a) Sa´ırem 3 bolas brancas e 2 vermelhas. 38 p1 = C53 C32 10 = . 5 C15 1001 b) N˜ao sair nenhuma bola branca. C5 12 p2 = 10 = . 5 C15 143 c) Sair pelo menos uma preta. p3 = 1 − P (nenhuma bola preta) = 1 − 2.3 C85 421 = . 5 C15 429 Teoremas 1. Se ∅ ´e o conjunto vazio, ent˜ao P (∅) = 0. Prova: A e ∅ s˜ao disjuntos, pois A ∩ ∅ = ∅ P (A ∪ ∅) = P (A) + P (∅) P (A) = P (A) + P (∅), pois A ∪ ∅ = A Logo, P (∅) = 0. ¯ = 1 − P (A). 2. Se A¯ ´e o complemento de A, ent˜ao P (A) Prova: Como A ∪ A¯ = S e A ∩ A¯ = ∅, ent˜ao ¯ = P (A) + P (A) ¯ por (c), P (A ∪ A) ¯ e por (b) P (S) = P (A) + P (A) ¯ ⇒ P (A) ¯ = 1 − P (A). 1 = P (A) + P (A) 39 3. Se A ⊂ B,ent˜ao P (A) ≤ P (B). Prova: ¯ e, portanto, Pelo Diagrama de Venn, B = A ∪ (B ∩ A) ¯ por (c), mas P (B) = P (A) + P (B ∩ A) ¯ ≥ 0 por (a), ent˜ao, P (B ∩ A) P (B) ≥ P (A) ou P (A) ≤ P (B). 4. Se A e B s˜ao dois eventos quaisquer, ent˜ao: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) i) Se A e B s˜ao mutuamente exclusivos, P (A ∩ B) = 0 e decorre imediatamente pelo axioma (c) P (A ∪ B) = P (A) + P (B) ii) Se A ∩ B ̸= ∅ Pelo diagrama de Venn, A ∪ B = A ∪ (A¯ ∩ B). Logo, como A e A¯ ∩ B s˜ao mutuamente exclusivos P (A ∪ B) = P (A) + P (A¯ ∩ B), mas 40 ¯ B = (B ∩ A) ∪ (B ∩ A). ¯ pois (B ∩ A) e (B ∩ A) ¯ s˜ao mutuamente Logo, P (B) = P (B ∩ A) + P (B ∩ A), exclusivos. Ent˜ao, ¯ = P (B) − P (B ∩ A) e, portanto, P (B ∩ A) P (A ∪ B) = P (A) + P (B) − P (B ∩ A). 5. Se A e B s˜ao dois eventos quaisquer, ent˜ao: ¯ e P (A ∪ B) = P (A¯ ∩ B) ¯ P (A ∩ B) = P (A¯ ∪ B) 2.4 Espa¸cos amostrais finitos equiprov´ aveis Quando a cada ponto amostral de um espa¸co amostral est´a associada a mesma probabilidade, o espa¸co amostral chama-se equiprov´avel ou uniforme. Em 1 particular, se S cont´em n pontos, a probabilidade de cada ponto ser´a igual a . n Por outro lado, se um evento A cont´em r pontos, ent˜ao, 1 r P (A) = r = . n n Esse m´etodo de avaliar P (A) ´e frequentemente colocado da seguinte forma P (A) = n´ umero de elementos de A n´ umero de elementos do espa¸co amostral ou P (A) = n´ umero de casos favor´aveis n(A) = . n´ umero total de casos n(S) 41 2.5 Probabilidade Condicional, Teorema do Produto, Eventos Independentes Exemplo inicial: Uma urna cont´em duas bolas brancas e trˆes bolas verdes. Retiram-se duas bolas 1 a 1. Sejam os seguintes eventos: A: a primeira bola ´e branca B: a segunda bola ´e branca Considere o experimento: 1) Com reposi¸c˜ao da primeira bola  2   P (B|A) =   5  2 P (A) = e P (B) =  5    ¯ =2  P (B|A) 5 2) Sem reposi¸c˜ao da primeira bola  1   P (B|A) =   4  2 P (A) = e P (B) =  5    ¯ =2=1  P (B|A) 4 2 Observa¸c˜ oes: i) P (B|A) ´e a probabilidade de B dado que ocorreu A. ¯ ´e a probabilidade de B dado que n˜ao ocorreu A. ii) P (B|A) iii) Note que no primeiro caso (com reposi¸c˜ao) a ocorrˆencia do evento B n˜ao depende de que A tenha, ou n˜ao, ocorrido. ¯ = 2 = P (B). P (B|A) = P (B|A) 5 iv) Note que no segundo caso (sem reposi¸c˜ao) a ocorrˆencia do evento B depende de que A tenha, ou n˜ao, ocorrido. 1 ¯ = 1. P (B|A) = ̸= P (B|A) 4 2 42 Outro exemplo: Considere o experimento E e os eventos A e B E: lan¸car um dado honesto A: ocorrer face par B: ocorrer face 2 1 1 e P (B) = . 2 6 Suponha que o dado tenha sido lan¸cado e que j´a tenha ocorrido face par. Ent˜ao, sem d´ uvida P (A) = Nessas condi¸c˜oes, qual a probabilidade de ocorrer face 2, isto ´e, P (B|A) =? ′ O espa¸co amostral S agora est´a reduzido de S para A. ′ S = {2, 4, 6} = A n(B) n(B) 1 P (B|A) = = = . ′ n(S ) n(A) 3 Defini¸c˜ ao: Dados os eventos A e B de um espa¸co amostral S, define-se a probabilidade condicional de B dado que ocorreu A, por P (B|A) = P (A ∩ B) com P (A) ̸= 0, pois A j´a ocorreu. P (A) n(A ∩ B) n(A ∩ B) n(S) P (B|A) = = . n(A) n(A) n(S) No exemplo, A = {2, 4, 6} e B = {2}, e, portanto, A ∩ B = {2} ⇒ m(A ∩ B) = 1 1 m(A) = 3 ⇒ P (B|A) = . 3 Dessa defini¸c˜ao decorre o Teorema do Produto: “A probabilidade de ocorrˆencia de dois eventos A e B, do mesmo espa¸co amostral ´e igual ao produto da probabilidade de um deles pela probabilidade condicional do outro, dado o primeiro.” 43 P (B|A) = P (A ∩ B) ⇒ P (A ∩ B) = P (A)P (B|A) P (A) P (A|B) = P (A ∩ B) ⇒ P (A ∩ B) = P (B)P (A|B). P (B) ou No exemplo da urna, considere o evento C: ambas as bolas s˜ao brancas. Ent˜ao, P (C) = P (A ∩ B) = P (A) · P (B|A) Note que: 1) Com reposi¸c˜ao da primeira bola P (A ∩ B) = P (B)P (B|A), em que P (B|A) = P (B) 2 2 4 P (A ∩ B) = P (A) · P (B) = · = 5 5 25 2) Sem reposi¸c˜ao da segunda bola P (B|A) ̸= P (B) P (A ∩ B) = P (A) · P (B|A) = 2 1 1 · = 5 4 10 Defini¸c˜ ao: Um evento A ´e independente de um evento B se a probabilidade de A ocorrer n˜ao ´e influenciada pelo fato de B ter ocorrido, ou n˜ao, ou seja, se P (A) = P (A|B). ´ evidente que, se A ´e independente de B, B ´e independente de A. Assim E P (B) = P (B|A). Considerando o teorema do produto, se A e B s˜ao independentes, ent˜ao P (A ∩ B) = P (A) · P (B). Observa¸c˜ ao: Dados k eventos A1 , A2 , ..., Ak diz-se que eles s˜ao independentes se eles forem independentes 2 a 2, 3 a 3,..., k a k. 44 Exemplos: 1) Em um lote de 12 pe¸cas, 4 s˜ao defeituosas; 2 pe¸cas s˜ao retiradas uma ap´os a outra, sem reposi¸c˜ao. Qual a probabilidade de que ambas sejam boas? Solu¸c˜ ao: A: a primeira pe¸ca ´e boa B: a segunda pe¸ca ´e boa P (A ∩ B) = P (A) · P (B|A) = 8 7 14 = 12 11 33 2) Em um certo col´egio, 25% dos estudantes foram reprovados em matem´atica, 15% em qu´ımica e 10% em matem´atica e qu´ımica ao mesmo tempo, isto ´e, 1 15 3 1 P (A) = , P (B) = = e P (A ∩ B) = . 4 100 20 10 Um estudante ´e aleatoriamente escolhido. a) Se ele foi reprovado em qu´ımica, qual ´e a probabilidade de ele ter sido reprovado em matem´atica? 1 2 P (A|B) = 10 = . 3 3 20 b) Se ele foi reprovado em matem´atica qual ´e a probabilidade de ele ter sido reprovado em qu´ımica? 1 4 2 P (B|A) = 10 = = . 1 10 5 4 c) Qual a probabilidade de ele ter sido reprovado em qu´ımica ou matem´atica? P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 25 + 0, 15 − 0, 10 = 0, 30. 45 Um outro exemplo do Teorema da Soma Lan¸ca-se um dado honesto. Qual a probabilidade de ocorrer a) Face menor do que 5 ou face par? A = {1, 2, 3, 4} ⇒ P (A) = B = {2, 4, 6} ⇒ P (B) = 4 6 3 6 A ∪ B = {1, 2, 3, 4, 6} A ∩ B = {2, 4} ⇒ P (A ∩ B) = 2 6 P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 5 6 b) Face menor do que 5 ou face maior que 5? A = {1, 2, 3, 4} ⇒ P (A) = 4 6 1 6 A ∪ C = {1, 2, 3, 4, 6} C = {6} ⇒ P (C) = A ∩ C = ∅ ⇒ P (A ∩ C) = 0 4 1 5 P (A ∪ C) = + = 6 6 6 c) Face par ou face ´ımpar? 3 6 3 D = {1, 3, 5} ⇒ P (D) = 6 B ∪ D = S ⇒ P (S) = 1 B = {2, 4, 6} ⇒ P (B) = B∩D =∅ P (B ∪ D) = 1 46 2.6 Teorema de Bayes ou das probabilidades conhecidas “a priori” Defini¸c˜ ao: Sejam A1 , A2 , ..., An , n eventos mutuamente exclusivos, tais que A1 ∪ A2 ∪ ... ∪ An = S Sejam P (Ai ) as probabilidades conhecidas dos v´arios eventos e B um evento qualquer de S tal que conhecemos todas as probabilidades condicionais P (B|Ai ). Ent˜ao, para cada i, tem-se: P (Ai |B) = P (Ai ∩ B) P (Ai ∩ B) P (Ai )P (B|Ai ) = = P (B) P (A1 ∩ B) + ... + P (An ∩ B) P (A1 )P (B|A1 ) + ... + P (An )P (B|An ) Exemplos 1) Em uma gaiola met´alica 4% dos coelhos machos e 1% das fˆemeas pesam mais do que 1,8 kg. Por outro lado, 60% dos coelhos s˜ao fˆemeas. Se um coelho escolhido aleatoriamente pesa mais de 1,8 kg, qual a probabilidade de ser fˆemea? Solu¸c˜ ao: Logo, podem-se considerar os eventos: A1 : coelho fˆemea A2 : coelho macho B : coelho pesa mais de 1,8 kg 47 e as probabilidades P (A1 ) = 0, 6, P (B|A1 ) = 0, 01 P (A2 ) = 0, 4, P (B|A2 ) = 0, 04 P (A1 |B) = 0, 6 · 0, 01 0, 006 3 = = . 0, 6 · 0, 01 + 0, 4 · 0, 04 0, 022 11 2) Uma cl´ınica envia amostras de equinos para 3 laborat´orios de an´alises A, B e C nas seguintes propor¸c˜oes 0,2; 0,3 e 0,5, respectivamente. A probabilidade de 1 1 cada um dos laborat´orios elaborar uma an´alise errada ´e de, respectivamente, , e 2 3 1 . 6 Logo, podem-se considerar os eventos: A1 : an´alise feita pelo laborat´orio A A2 : an´alise feita pelo laborat´orio B A3 : an´alise feita pelo laborat´orio C B : realizar uma an´alise errada e as probabilidades P (A1 ) = 0, 2 P (A2 ) = 0, 3 P (A3 ) = 0, 5 1 2 1 P (B|A2 ) = 3 1 P (B|A3 ) = . 6 P (B|A1 ) = a) Uma an´alise resultou errada, qual a probabilidade de ter sido feita pelo laborat´orio A? Pelo B? Pelo C? 1 0, 1 2 P (A1 |B) = = = 0, 3529 1 1 1 1, 7 0, 2 · + 0, 3 · + 0, 5 · 2 3 6 6 0, 2 · P (A2 |B) = 0, 3529 P (A3 |B) = 0, 2941 b) Qual a probabilidade de um exame executado resultar errado? 48 P (B) = P (A ∩ B1 ) + P (A ∩ B2 ) + P (A ∩ B3 ) = P (A1 ) · P (B|A1 ) + P (A2 ) · P (B|A2 ) + P (A3 ) · P (B|A3 ) = 1, 7 = 0, 2833. 6 3) Uma urna A cont´em 1 bola preta e 1 vermelha. Uma urna B cont´em 2 bolas pretas e 3 vermelhas. Uma bola ´e escolhida ao acaso na urna A e colocada na urna B. Uma bola ´e, ent˜ao, extra´ıda, ao acaso, da urna B. Qual a probablidade de que a primeira bola seja vermelha, sabendo-se que a segunda foi preta? Solu¸c˜ ao: Sejam os eventos e as respectivas probabilidades 1 A1 : a bola de A para B foi preta ∴ P (A1 ) = 2 A2 : a bola de A para B foi vermelha ∴ P (A2 ) = 1 2 X: a bola tirada de B ´e preta 3 1 2 ∴ P (X|A1 ) = = e P (X|A2 ) = . 6 2 6 Logo, 1 2 · 2 2 6 P (A2 |X) = = . 1 2 1 3 5 · + · 2 6 2 6 4) O car´ater pesco¸co pelado das galinhas ´e dado por um fator gen´etico dominante N a. Um animal de constitui¸c˜ao gen´etica N aN a ou N ana, tem pesco¸co pelado, mas ter´a pesco¸co coberto se tiver a constitui¸c˜ao nana. Tendo um galo de pesco¸co pelado sido cruzado com galinhas de pesco¸co coberto, foram obtidos 5 pintos, todos de pesco¸co pelado. Qual a probabilidade de que o galo seja puro para o fator N a? 49 Solu¸c˜ ao: Sejam os eventos: A1 : galo puro N aN a A2 : galo de constitui¸c˜ao gen´etica N ana B : 5 pintos Nana e as probabilidades 1 P (A1 ) = , 2 1 P (A2 ) = , 2 P (B|A1 ) = 1 ( )5 1 P (B|A2 ) = . 2 Logo, 1 ·1 32 2 P (A1 |B) = = = 0, 97. 1 1 1 33 ·1+ · 2 2 32 2.7 Exerc´ıcios 1) Considere o experimento E: Lan¸car um dado e uma moeda. Pede-se: a) Construa o espa¸co amostral b) Enumere os seguintes eventos A = {coroa, marcado por n´ umero ´ımpar} B = {cara, marcado por n´ umero ´ımpar} C = {m´ ultiplos de 3} c) Expresse os eventos I) B II) A ou B ocorrerem III) B e C ocorrerem ∪ IV) A B d) Quais dos eventos A, B e C s˜ao mutuamente exclusivos? 50 2) Determine a probabilidade de: a) Sair um n´ umero par no lan¸camento de um dado n˜ao-viciado. b) Sair um rei ao se extrair uma carta de um baralho. c) Sair soma 5 no lan¸camento de dois dados. 3) Um grupo de 15 elementos apresenta a seguinte composi¸c˜ao: Homens Mulheres Menores 5 3 Adultos 5 2 Um elemento ´e escolhido ao acaso. Pergunta-se: a) Qual a probabilidade de ser homem? b) Qual a probabilidade de ser adulto? c) Qual a probabilidade de ser menor e mulher? d) Sabendo-se que o elemento escolhido ´e adulto, qual a probabilidade de ser homem? e) Dado que a escolha ´e mulher, qual a probabilidade de ser menor? 4) Considere que existam numa popula¸c˜ao animais de gen´otipos dos tipos BB, Bb e bb, sendo os indiv´ıduos BB e Bb pretos e os do tipo bb brancos. As probabilidades dos 6 tipos de acasalamento est˜ao resumidas na tabela a seguir: BB Bb bb 4 5 6 BB 25 25 25 3 4 Bb 25 25 3 bb - 25 51 Dado que um descendente ´e branco, quais as probabilidades dos diversos cruzamentos? 5) Denomina-se “screening program” a avalia¸c˜ao total de uma popula¸c˜ao sobre determinada doen¸ca. Para se ter essa avalia¸c˜ao, cada indiv´ıduo ´e submetido ao mesmo teste cl´ınico. Em um destes programas foram apurados os resultados que se seguem: Doen¸ca Positivo (A) Negativo (B) Total Presente (B) 950 50 1000 Ausente (B) 10 990 1000 Total 960 1040 2000 Calcular as probabilidades condicionais apropriadas e responder se este teste cl´ınico ´e apropriado e se o programa deve ou n˜ao ser executado. Informa-se que: a) P (A|B): quanto maior, mais sens´ıvel ser´a o teste b) P (A|B): quanto menor, mais espec´ıfico ser´a o teste c) P (B|A): falsos positivos d) P (B|A): falsos negativos Observa¸c˜ao: Por (a) e (b) ter-se-´a a resposta `a primeira pergunta e por (c) e (d) a resposta `a segunda pergunta. Num laborat´orio, ap´os um experimento com rea¸c˜ao em cadeia de polimerase (PCR), foram obtidos dez tubos de ensaio, numerados de 1 a 10. Sabe-se que em trˆes deles a rea¸c˜ao n˜ao ocorreu como o esperado. 1) Considerando o experimento com reposi¸c˜ao, e os evendos: A = o primeiro tubo cont´em rea¸c˜ao que n˜ao ocorreu como o esperado B = o segundo tubo cont´em rea¸c˜ao que n˜ao ocorreu como o esperado 52 1.1. A e B s˜ao independentes? 1.2. A e B s˜ao mutuamente exclusivos? ∩ ∪ 1.2. Determine P (A), P (B), P (A B) e P (A B) 2) Refa¸ca o item (1) considerando o experimento com reposi¸c˜ao. Cap´ıtulo 3 Vari´ aveis Aleat´ orias 3.1 Defini¸c˜ ao Define-se uma vari´avel aleat´oria como uma fun¸c˜ao X, que associa a cada ele- umero real X(s), ou seja, associa valores num´ericos aos resultados mento s ∈ S um n´ de um experimento. Exemplo 1: E: lan¸camento de duas moedas X: n´ umeros de caras obtidos nas duas moedas S = {(c, c); (c, k); (k, c); (k, k)} X = {0, 1, 2} 53 54 Assim, uma vari´avel aleat´oria tem dom´ınio em S e contradom´ınio em ℜ. Uma vari´avel aleat´oria pode ser: discreta ou cont´ınua. Ser´a discreta se o n´ umero poss´ıvel de valores de X (seu contradom´ınio) for finito ou infinito numer´avel. Ser´a cont´ınua se o seu contradom´ınio for um intervalo ou uma cole¸c˜ao de intervalos. No exemplo, X ´e uma vari´avel discreta. 3.2 3.2.1 Vari´ aveis Aleat´ orias Discretas Fun¸ c˜ ao de Probabilidade A probabilidade de que a vari´avel aleat´oria X assuma o valor x, ´e a fun¸c˜ao de probabilidade de X representada por P (X = x) ou simplesmente P (x). A fun¸c˜ao P (X = x) determina a distribui¸c˜ao de probabilidades da vari´avel aleat´oria e deve satisfazer os axiomas: a) 0 6 P (xi ) 6 1 ∑ b) i P (xi ) = 1 No exemplo 1, tem-se a distribui¸c˜ao de probabilidade de X: X=x 0 1 2 P(X = x) 1 4 1 2 1 4 1/4 P(x) 1/2 Graficamente 0 1 2 x Exemplo 2: E2 : lan¸car dois dados e observar a soma dos n´ umeros obtidos. X=x 2 3 4 5 6 7 8 9 10 11 12 P(X = x) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 55 4/36 1/36 2/36 3/36 P(x) 5/36 6/36 Graficamente 2 3 4 5 6 7 8 9 10 11 12 x 3.2.2 Fun¸ c˜ ao de Distribui¸c˜ ao Acumulada Define-se Fun¸c˜ao de Distribui¸c˜ao Acumulada da vari´avel aleat´oria X, no ponto x, como sendo a probabilidade de que X assuma um valor menor do que ou igual a x, isto ´e, F (x) = P (X 6 x) Propriedades: ∑ a) F (x) = xi 6x P (xi ) b) F (−∞) = 0 c) F (∞) = 1 d) P (a < X 6 b) = F (b) − F (a) e) P (a 6 X 6 b) = F (b) − F (a) + F (X = a) f) P (a < X < b) = F (b) − F (a) − F (X = b) No exemplo 1: X=x 0 1 2 P(X = x) 1 4 1 2 1 4 F(x) 1 4 3 4 1 Exemplo 3: E3 : lan¸car um dado e observar o n´ umero da face superior X=x 1 2 3 4 5 6 P(X = x) 1 6 1 6 1 6 1 6 1 6 1 6 F(x) 1 6 2 6 3 6 4 6 5 6 6 6 1/4 F(x) 3/4 1 56 1 2 3/6 1/6 1/6 2/6 F(x) P(x) 4/6 5/6 1 x 1 2 3 4 5 6 1 2 3 x 3.3 4 5 6 x Vari´ avel Aleat´ oria Cont´ınua Fun¸c˜ ao Densidade de Probabilidade Seja X uma v.a. cont´ınua. A fun¸c˜ao densidade de probabilidade f (x) ´e uma fun¸c˜ao que satisfaz `as seguintes condi¸c˜oes: a) f (x) ≥ 0 ∫ b) R f (x)dx = 1 Al´em disso, P (a < X < b) = Propriedades: a) P (X = x0 ) = ∫b a f (x)dx ∫ x0 x0 f (x)dx = 0 b) P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b) ∫ b = f (x)dx a 57 Verifica-se que f (x), densidade de probabilidade, n˜ao ´e probabilidade. Somente quando a fun¸c˜ao for integrada entre dois limites, ela produzir´a uma probabilidade que ser´a a ´area sob a curva da fun¸c˜ao entre x = a e x = b, para a < b. Exemplo 4 Seja X uma v.a.c. com fun¸c˜ao densidade de probabilidade (f.d.p)   2x se 0 < x < 1 f (x) =  0 para outros valores f(x) ´e f.d.p., pois a) f (x) ≥ 0 ∫∞ ∫1 b) −∞ f (x)dx = 0 2xdx = [x2 ]10 = 1 Exemplo 5 Uma v.a. tem a seguinte fun¸c˜ao densidade de probabilidade    0 se x < 0   f (x) = kx2 se 0 < x < 1     0 se x ≥ 1 Pede-se: a) Determinar k b) Fazer o gr´afico de f (x) c) Obter P (0 < X < 12 ) Solu¸c˜ ao: a) ∫ 1 [ x3 x dx = k 3 ]1 2 k 0 = 0 k =1⇒k=3 3 ∴ f (x) = 3x2 para 0 < x < 1 58 b) c) 1 P (0 < X < ) = 3 2 3.4 ∫ 0 1 2 [ x3 x dx = 3 3 ]1/2 2 0 [ ]3 1 1 = = 2 8 Parˆ ametros De uma maneira geral, as distribui¸c˜oes te´oricas podem ser caracterizadas por parˆametros an´alogos `aqueles da estat´ıstica descritiva. 3.4.1 Esperan¸ca Matem´ atica, Valor Esperado ou M´ edia de uma vari´ avel aleat´ oria Define-se esperan¸ca matem´atica de uma v.a.d. X, como µx = E(X) = Σxi P (xi ) e de uma v.a.c., como ∫ µx = E(X) = ∞ xf (x)dx. −∞ Exemplo 6: E1 : lan¸car duas moedas X: n´ umero de caras xi 0 1 2 1 1 1 P (xi ) 4 2 4 1 1 1 µx = 0 · + 1 · + 2 · = 1 4 2 4 Espera-se que para um n´ umero grande de jogadas ocorra em m´edia uma cara. Exemplo 7: E1 : lan¸car dois dados 59 X: soma dos n´ umeros mostrados na face de cima xi 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 5 4 3 2 1 P (xi ) 36 36 36 36 36 36 36 36 36 36 36 252 1 µx = [2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12] = =7 36 36 Exemplo 8:   2x, f (x) =  0, µx = E(X) = ∫1 0 [ 2x3 2x dx = 3 para 0 < x < 1 para outros valores ]1 2 = 0 2 3 Exemplo 9:   3x2 , f (x) =  0, µx = E(X) = ∫1 0 [ 3x4 3x dx = 4 para 0 < x < 1 para outros valores ]1 3 = 0 3 4 Propriedades da M´ edia (Esperan¸ca): 1. A m´edia de uma constante ´e a pr´opria constante. E(K) = ∫ ∞ E(K) = ∑ KP (xi ) = K i ∫ ∑ ∞ Kf (x)dx = K −∞ P (xi ) = K f (x)dx = K −∞ 2. Multiplicando-se uma v.a. X por uma constante, sua m´edia fica multiplicada por essa constante. ∑ ∑ E(KX) = Kxi P (xi ) = K xi P (xi ) = KE(X) ∫ ∞ ∫ ∞ E(KX) = Kxf (x)dx = K xf (x)dx = KE(X) −∞ −∞ 60 3. E(X ± Y ) = E(X) ± E(Y ) 4. E(X ± K) = E(X) ± K 5. E(X − µx ) = E(X) − µx = 0 6. E(XY ) = E(X) · E(Y ) se X e Y forem independentes 3.4.2 Variˆ ancia Define-se variˆancia de uma v.a., como: σx2 = Var(X) = E[X − E(X)]2 logo σx2 = Var(X) = Σ(xi − µx )2 P (xi ) se X v.a.d. e ∫ σx2 ∞ = Var(X) = −∞ (x − µx )2 f (x)dx se X v.a.c. Exemplo 10: E: Lan¸car duas moedas X: N´ umero de caras E(X) = 1 Var(X) = (0 − 1)2 · 14 + (1 − 1)2 · 21 + (2 − 1)2 · 1 4 = Exemplo 11:   2x, f (x) =  0, para 0 < x < 1 para outros valores 1 2 61 E(X) = 2 3 ) ) ∫ 1( 4 4 4 2 4 3 Var(X) = 2 xdx = 2 x − x+ xdx = 2 x − x + x dx 3 9 3 9 0 0 0 ( 4 ) ( ) 3 2 1 x 4 x 4 x 1 4 4 = 2 − · + · =2 − + 4 3 3 9 2 0 4 9 18 ) ( 1 9 − 16 + 8 = 2 = 36 18 ∫ 1 ( 2 x− 3 )2 ∫ 1 ( 2 Propriedades da Variˆ ancia: 1) A variˆancia de uma constante ´e zero. Var(K) = E{(K − E(K))2 } = E[K − K] = 0 2) Multiplicando-se uma v.a por uma constante, sua variˆancia fica multiplicada pelo quadrado da constante. Var(KX) = E{[KX − E(KX)]2 } = K 2 E{X − E(X)}2 = K 2 Var(X) 3) Somando-se ou subtraindo-se uma constante K a uma v.a., sua variˆancia n˜ao se altera. Var(X ± K) = E{[(X ± K) − E(X ± K)]2 } = E{[X ± K − E(X) ± K]2 } = E{[X − E(X)]2 } = Var(X) 4) Var(X) = E{[X − E(X)]2 } = E{X 2 − 2XE(X) + [E(X)]2 } = E(X 2 ) − 2[E(X)]2 + [E(X)]2 = E(X 2 ) − [E(X)]2 Obs.: Em muitos casos essa propriedade facilita grandemente o c´alculo da variˆancia. Exerc´ıcios 62 1) Seja X uma v.a.c. com f.d.p   k(x + 3), para 1 ≤ x ≤ 8 f (x) =  0, para outros valores de x Pede-se: a) Determinar k b) P (2 < X < 6) c) P (X ≤ 3) d) P (X ≥ 3) e) E(X) f) E(X 2 ) g) σx2 2) Considere a distribui¸c˜ao de probabilidade da v.a.d. X, em que X= n´ umero de pontos obtidos quando se lan¸ca um dado uma s´o vez. Pede-se: a) Gr´afico da fun¸c˜ao de probabilidade b) E(X) = µx c) E(X 2 ) d) σx2 = E(X 2 ) − [E(X)]2 3) Sejam as vari´aveis aleat´orias discretas: X = n´ umero de tubos cuja rea¸c˜ao n˜ao ocorreu como o esperado na amostra escolhida Y = n´ umero de tubos cuja rea¸c˜ao ocorreu com sucesso na amostra escolhida 3.1. Determine as distribui¸c˜oes de probabilidade de X e Y, considerando o experimento com reposi¸c˜ao e, em seguida, sem reposi¸c˜ao. 3.2. Compare E[X] nos casos com e sem reposi¸c˜ao. 3.3. Idem (3.2) para E[Y ], Var[X] e Var[Y ]. 63 3.4. Compare E[X] + E[Y ] com o tamanho da amostra retirada. (n = 2) 4) Sabendo-se que sob certas condi¸c˜oes, o ciclo vital da praga A, que atua na cana-de-a¸cu ´car, pode ser descrito por:   6(x − x2 ), se x ∈ [0; 1] f (x) =  0, caso contr´ario 4.1. Verifique se f (x) pode ser estudada como uma fun¸c˜ao densidade de probabilidades. 4.2. Esboce um gr´afico para f (x). 4.3. Determine E[X] e Var[X]. 4.4. Determine e identifique no gr´afico da fun¸c˜ao: a) P (0 < x < 1/4) b) P (1/4 < x < 3/4) c) P (x > 3/4). Cap´ıtulo 4 Distribui¸c˜ oes de probabilidade 4.1 Defini¸c˜ ao Entre as vari´aveis aleat´orias existem algumas que se destacam por sua im- portˆancia quanto `a representatividade de grande parte de fenˆomenos biol´ogicos. Assim, por exemplo, sabe-se que vari´aveis como peso, altura, idade, etc tˆem distribui¸c˜ao normal de probabilidade enquanto que o n´ umero de sementes germinadas pode ter distribui¸c˜ao binomial; o n´ umero de insetos presos em uma armadilha luminosa e o n´ umero de rea¸c˜oes nocivas motivadas pela inje¸c˜ao de certo soro podem ter a distribui¸c˜ao de Poisson. S˜ao estudadas, a seguir, algumas distribui¸c˜oes de v.a. mais utilizadas. Dentre as v.a.d., ser˜ao vistas: - Distribui¸c˜ao de Bernoulli - Distribui¸c˜ao Binomial - Distribui¸c˜ao Poisson Dentre as de v.a.c, podem ser consideradas: - Distribui¸c˜ao Normal - Distribui¸c˜ao de χ2 -quadrado - Distribui¸c˜ao t de Student - Distribui¸c˜ao F de Snedecor 65 66 4.2 4.2.1 Distribui¸c˜ ao de Bernoulli Defini¸c˜ ao Um experimento de Bernoulli ´e aquele ao qual podem ser associados apenas dois resultados: sucesso (se acontecer o evento de interesse) ou fracasso (se n˜ao acontecer o evento de interesse). Tem-se, ent˜ao, uma v.a.d. X que assume valor 1 caso ocorra o evento A (sucesso) e o valor 0 caso n˜ao ocorra (insucesso ou fracasso), com probabilidades, respectivamente, p = P (X = 1) e q = 1 − p = P (X = 0), isto ´e, a distribui¸c˜ao de probabilidade de X ´e X=x x1 = 0 x2 = 1 P (X = x) q = 1 − p p sendo que q + p = 1 − p − p = 1. Exemplos: E1 : Planta-se uma semente de feij˜ao A: a semente germina com probabilidade p ¯ a semente n˜ao germina com probabilidade 1 − p A: E2 : Lan¸ca-se um dado honesto e observa-se o valor da face voltada para cima 1 6 ¯ virar face diferente de 3, x1 = 0 e P(X = x1 ) = 5 . A: 6 A: virar face 3, x2 = 1 e P(X = x2 ) = Observa-se que no experimento E1 a probabilidade “p” n˜ao ´e conhecida “a priori”. Em alguns casos desse tipo, obtˆem-se informa¸c˜oes sobre estimativas de “p” em revis˜oes de bibliografia ou estima-se “p” experimentalmente. 4.2.2 M´ edia, Variˆ ancia e Desvio-Padr˜ ao S˜ao obtidos por 67 µx = µ = E(X) = Σ2i=1 xi P (xi ) = 0 · q + 1 · p = p σ 2 = Var(X) = E[X − E(X)]2 = E(X 2 ) − [E(X)]2 E(X 2 ) = Σ2i=1 x2i P (xi ) = 02 · q + 12 · p = p σ 2 = p − p2 = p(1 − p) = p · q √ √ σx = σx2 = pq. Em E2 tem-se 5 1 1 µx = 0. + 1. = )62 6 ( )2 ( )2 (6 5 1 1 5 1 1 1 2 σx = 0 − . + 1− . = 1− = 6 √6 6 6 6 6 36 √ 5 5 σx = = 36 6 4.3 Distribui¸c˜ ao Binomial 4.3.1 Defini¸c˜ ao Seja uma sequˆencia de n ensaios independentes e repetidos de Bernoulli. umero de sucessos nesses n ensaios, diz-se que X Ent˜ao se a v.a. X representa o n´ tem distribui¸c˜ao binomial de probabilidades com parˆametros n e p e com fun¸c˜ao de probabilidade dada por: P (X = x) = Cnx px q n−x Vˆe-se que P (X = x) ´e f.d.p., pois a) P (X = x) ≥ 0, ∀x b) ∑ P (X = x) = n ∑ Cnx px q n−x = Cn0 p0 q n + Cn1 p1 q n−1 + . . . + Cnn pn q 0 x=0 = (p + q)n = 1 Exemplo: Um recipiente cont´em um grande n´ umero de sementes de feij˜ao para as quais o fornecedor garante um poder de germina¸c˜ao de 0,8. Se 5 dessas sementes s˜ao plantadas, determine: 68 a) A distribui¸c˜ao de probabilidades para a vari´avel X: n´ umeros de sementes germinadas. Distribui¸c˜ao de Probabilidade de X X = xi P (X = xi ) P (X = xi ) 0 0,00032 P (0) = C05 (0, 8)0 (0, 2)5 1 0,00640 P (1) = C15 (0, 8)1 (0, 2)4 2 0,05120 P (2) = C25 (0, 8)2 (0, 2)3 3 0,20480 P (3) = C35 (0, 8)3 (0, 2)2 4 0,40960 P (4) = C45 (0, 8)4 (0, 2)1 5 0,32768 P (5) = C55 (0, 8)5 (0, 2)0 b) A probabilidade de que germinem no m´aximo 4 sementes. P [X ≤ 4] = P (0) + P (1) + P (2) + P (3) + P (4) = 0, 67232 ou P [X ≤ 4] = 1 − P (X = 5) = 1 − 0, 32768 = 0, 67232. 4.3.2 M´ edia, Variˆ ancia e Desvio-Padr˜ ao Como X v.a.d. binomial nada mais ´e do que a soma de n vari´aveis indepen- dentes do tipo Bernoulli, tem-se: µx = µ = E(X) = ΣxP (X = x) = np σ 2 = E[X − E(X)]2 = E(X 2 ) − [E(X)]2 = npq σx = √ σx2 = √ npq No exemplo dado µx = 5 · 0, 8 = 4 germina¸c˜oes σx2 = 5 · 0, 8 · 0, 2 = 0, 8 germina¸c˜oes ao quadrado √ σx = 0, 8 = 0, 894 germina¸c˜oes. 69 No mesmo exemplo, ainda suponha que o agricultor precisa obter 100 mudas. Qual o n´ umero m´ınimo de sementes que ele deve plantar? Qual a variabilidade do n´ umero de sementes germinadas? µ = np ⇒ 100 = n · 0, 8 ⇒ n = 125 σx2 = npq = 125 · 0, 8 · 0, 2 = 20 σx = 4, 47 ≃ 5 Exerc´ıcios 1) Certo tratamento quando aplicado a bovinos com certa enfermidade cura 60% dos casos. Tendo dois bovinos sob esse tratamento, qual a probabilidade: a) de que os dois morram b) de que os dois sejam curados c) de que um seja curado e o outro n˜ao. Qual o n´ umero m´edio de curas e qual sua variabilidade? Distribui¸c˜ao de Probabilidade de X X = xi 0 1 2 P (X = xi ) 0,16 0,48 0,36 em que X: n´ umero de sobreviventes, p = 0, 6, q = 1 − 0, 6 = 0, 4 e n = 2. Solu¸c˜ ao: a) P (X = 0) = C20 (0, 6)0 (0, 4)2 = 0, 16 b) P (X = 2) = C22 (0, 6)2 (0, 4)1 = 0, 48 c) P (X = 1) = C21 (0, 6)1 (0, 4)1 = 0, 36 µ = np = 2 · 0, 6 = 1, 2 curas σ 2 = npq = 2 · 0, 6 · 0, 4 = 0, 48 curas2 √ σ = 0, 48 = 0, 6928 curas. 70 2) Certa doen¸ca dada em pintos tem uma fatalidade de 30%. Em 6 casos dessa doen¸ca, estabele¸ca a distribui¸c˜ao de probabilidade da v.a X: n´ umero de sobreviventes Baseado nessa distribui¸c˜ao, calcule: a) a probabilidade de que todos sobrevivam b) a probabilidade de que nenhum sobreviva c) a probabilidade de que os dois sobrevivam d) a probabilidade de que pelo menos dois sobrevivam e) a probabilidade de que no m´ınimo quatro morram f) o n´ umero m´edio de sobreviventes g) a variˆancia e o desvio-padr˜ao do n´ umero de sobreviventes. h) Se um produtor de frangos quer obter no final de um determinado per´ıodo 150 frangos, baseado na incidˆencia dessa doen¸ca, qual o n´ umero m´ınimo de pintos que ele deve comprar? Qual a variabilidade desse n´ umero? Distribui¸c˜ao de Probabilidade de X X = xi 0 1 2 3 4 5 6 P (X = xi ) 0,00073 0,01021 0,05954 0,18522 0,32414 0,30253 0,11764 p = 0, 7 q = 0, 3 n=6 Solu¸c˜ ao: a) P (X = 6) = 0, 11764 b) P (X = 0) = 0, 00073 c) P (X = 2) = 0, 05954 d) P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) = 0, 98906 e) P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0, 07048 f) µ = np = 6 · 0, 7 = 4, 2 g) σ 2 = npq = 6 · 0, 7 · 0, 3 = 1, 26 σ= √ h) 150 = n · 0, 7 ⇒ n = 214 frangos σ 2 = npq = 214 · 0, 7 · 0, 3 = 45 ⇒ σ = 6, 7. 1, 26 = 1, 12 71 4.4 Distribui¸c˜ ao de Poisson 4.4.1 Defini¸c˜ ao Existem experimentos, nos quais o n´ umero de sucessos ´e conhecido ou facil- ´ o que mente determin´avel mas o n´ umero de insucessos n˜ao pode ser determinado. E acontece quando se tem interesse no n´ umero de insetos presos em uma armadilha luminosa ou no n´ umero de ´acaros que atacam determinada cultura ou no n´ umero de brotos por explante. Se X ´e a vari´avel aleat´oria discreta tal que sua distribui¸c˜ao de probabilidades ´e do tipo P (X = x) = λx e−λ , x! x = 0, 1, 2, . . . , λ > 0 ent˜ao, X tem distribui¸c˜ao de Poisson com parˆametro λ (λ ´e o n´ umero m´edio de sucessos). Verifica-se que P (X = x) representa uma leg´ıtima distribui¸c˜ao de probabilidade, pois: a) P (X = x) ≥ 0, ∀x ∞ ∑ [ ] ∑∞ λx e−λ λx 1 1 1 −λ b) x=0 =e = e−λ 1+ λ+ λ2 + λ3 +. . . = e−λ eλ = 1. x! x! 1! 2! 3! x=0 4.4.2 M´ edia, Variˆ ancia e Desvio-padr˜ ao S˜ao obtidos por: µX = E(X) = ∞ ∞ ∞ ∑ ∑ ∑ λx e−λ λx−1 λ λx−1 x = e−λ x = e−λ .λ = e−λ .eλ .λ = λ x! x(x − 1)! (x − 1)! x=0 x=1 x=1 2 σX = E(X 2 ) − [E(X)]2 2 E(X ) = = ∞ ∑ x=0 ∞ ∑ x=1 x −λ x λ 2e x! = ∞ ∑ x=1 ∞ ∑ x 2e ∑ e−λ λx ∑ e−λ λx λ = x = (x − 1 + 1) x! (x − 1)! x=1 (x − 1)! x=1 −λ x ∞ ∞ ∞ ∑ e−λ λx e−λ λx e−λ λx + (x − 1) =λ+ x = λ + λ2 (x − 1)! x=1 (x − 1)! (x − 2)! x=2 2 σX = λ + λ2 − λ2 = λ √ √ 2 σX = σX = λ. 72 Exemplo: Em um determinado hospital veterin´ario existem em m´edia 3 diagn´osticos de c˜aes raivosos. Qual a probabilidade de que ocorram 2 diagn´osticos no pr´oximo mˆes? P (X = 2) = 4.4.3 32 .e−3 = 0, 2240. 2! Rela¸c˜ ao entre as distribui¸c˜ oes Binomial e de Poisson Na distribui¸c˜ao Binomial se n ´e grande, mas a probabilidade p de ocorrˆencia de um evento ´e proxima de zero, de modo que q = 1 − p, ´e pr´oximo de 1, o evento se diz um evento raro. Na pr´atica, considera-se como raro um evento em que o n´ umero de provas ´e no m´ınimo 50 e np ´e menor do que 5. Em tais casos, a distribui¸c˜ao binomial ´e muito bem aproximada pela distribui¸c˜ao de Poisson com λ = np. Tal λ resultado j´a era de se esperar pois, fazendo λ = npn tem-se pn = e se λ ´e pequeno n e n tende para infinito, ent˜ao, p → 0 e q → 1. Considerando-se a fun¸c˜ao de distribui¸c˜ao de probabilidade da vari´avel aleat´oria discreta X binomial n! px (1 − p)n−x x!(n − x)! n(n − 1)(n − 2) . . . (n − x + 1) x = p (1 − p)n−x x! P (X = x) = Cnx px q n−x = e, fazendo-se p = λ , tem-se: n ( )x ( )n−x n(n − 1)(n − 2) . . . (n − x + 1) λ λ 1− P (X = x) = x! n n ( )n ( )−x x n(n − 1)(n − 2) . . . (n − x + 1) λ λ λ = 1− 1− nx x! n n ( )( ) ( ) x( )n ( )−x 1 2 x−1 λ λ λ = 1 1− 1− ... 1 − 1− 1− n n n x! n n Quando n(→ ∞,)( enquanto)x e ( λ permanecem ) constantes, tem-se: 1 2 x−1 limn→∞ 1 1 − 1− ... 1 − = 1, n n n 73 ( limn→∞ 1 − λ x )n ( = 1 e limn→∞ 1 − λ n )n = e−λ . Portanto, sob as condi¸c˜oes limites dadas, tem-se: B(X; n, p) ⇒ e−λ λx , x! para X = 0, 1, 2, . . ., isto ´e, lim P (x = x) = n→∞ e−λ λx x! que ´e a fun¸c˜ao densidade de probabilidade de uma vari´avel aleat´oria discreta com distribui¸c˜ao de Poisson. Exemplo: A probabilidade de um indiv´ıduo sofrer uma rea¸c˜ao nociva resultante da aplica¸c˜ao de uma determinada vacina ´e 0,001. Determinar a probabilidade de entre 2000 indiv´ıduos: a)Nenhum sofrer rea¸c˜ao b) Mais do que 2 sofrerem a rea¸c˜ao Solu¸c˜ ao a) Por Poisson λ = np = 2000.0, 001 = 2 20 1 P (X = 0) = e−2 = 2 = 0, 1353 0! e Pela Binomial 0 (0, 001)0 (0.999)2000 = 0, 1353 P (X = 0) = C2000 b) Por Poisson 20 21 22 − e−2 − e−2 0! 1! 2! = 1 − 0, 1353 − 0, 2706 = 0, 3235 P (X > 2) = 1 − e−2 Pela Binomial 74 1 P (X = 1) = C2000 (0, 001)1 (0.999)1999 = 0, 2707 2 P (X = 2) = C2000 (0, 001)1 (0.999)1998 = 0, 2708 P (X > 2) = 1 − 0, 1352 − 0, 2707 − 0, 2708 = 0, 3233. 4.5 4.5.1 Distribui¸c˜ ao Normal Introdu¸c˜ ao A distribui¸c˜ao normal tem sido considerada como a mais importante das distribui¸c˜oes de vari´avel aleat´oria cont´ınua e, ´e b´asica para o desenvolvimento de testes estat´ısticos tais como, o teste “t”, o teste “F” e o teste “χ2 ” e outros. Dentro do campo de Ciˆencias s˜ao consideradas vari´aveis normalmente distribu´ıdas as vari´aveis: altura, peso, idade, produ¸c˜ao, total de leite, quantidade de ra¸c˜ao consumida, diˆametro `a altura do peito, biomassa, etc. A equa¸c˜ao matem´atica da curva normal foi desenvolvida por De Moivre em 1773 e, posteriormente, Gauss (1775-1855) tamb´em obteve a equa¸c˜ao de um estudo de erros em medidas repetidas da mesma vari´avel, e devido a ele, ela ´e chamada tamb´em distribui¸c˜ao de Gauss. 4.5.2 Defini¸c˜ ao Uma vari´avel aleat´oria cont´ınua X tem distribui¸c˜ao normal se sua fun¸c˜ao densidade de probabilidade for dada por: − 1 f (x) = √ e σ 2π (x − µ)2 2σ 2 , −∞ < x < ∞ em que µ e σ s˜ao parˆametros que devem satisfazer `as condi¸c˜oes −∞ < x < ∞ e σ > 0. Al´em disso, ser´a provado que µ e σ correspondem, respectivamente, `a m´edia e ao desvio-padr˜ao da distribui¸c˜ao, e ent˜ao, representa-se X ∼ N(µ, σ 2 ). Como f(x) ´e uma fun¸c˜ao densidade de probabilidade, ent˜ao, (x − µ)2 − 1 2σ 2 > 0 √ >0 e e a)f (x) ≥ 0, ∀x, pois σ 2π 75 ∫∞ b) −∞ f (x)dx = 1 Prova: ∫ ∞ 1 f (x)dx = √ σ 2π −∞ fazendo-se −∞. ∫ ∞ (x − µ)2 2σ 2 dx, e − −∞ x−µ = z ⇒ dx = σdz, quando x → ∞ ⇒ z → ∞ e x → −∞ ⇒ z → σ Logo, ∫ ∞ 1 f (x)dx = √ σ 2π −∞ ∫ z2 ∫ ∞ z2 − 1 e 2 σdz = √ e 2 dz 2π −∞ −∞ ∞ − z2 e como g(z) = e 2 ´e uma fun¸c˜ao par, pois g(z) = g(−z), − tem-se: ∫ ∞ 1 f (x)dx = √ 2 2π −∞ Fazendo-se z → ∞ ⇒ t → ∞. ∫ ∞ z2 e− 2 dz. 0 z2 2zdz t−1/2 =t⇒ = dt ⇒ dz = √ dt, quando z = 0 ⇒ t = 0 e 2 2 2 Logo, ∫ ∫ ∞ ∫ ∞ 1 1 2 1 1 1 √ −1/2 −t f (x)dx = √ √ t e dt = √ t−1/2 e−t dt = √ Γ( ) = √ π=1 π 0 π 2 π 2π 2 0 −∞ ∫∞ pois Γ(α + 1) = 0 xα e−x dx. Portanto, ∞ ∫ ∞ f (x)dx = 1. −∞ 4.5.3 Parˆ ametros: m´ edia, variˆ ancia e desvio-padr˜ ao Se X ´e uma v.a.c. com distribui¸c˜ao normal de parˆametros µ e σ, isto ´e, X ∼ N(µ, σ 2 ), ent˜ao, X tem como m´edia µ e como variˆancia σ 2 . Demonstra¸c˜ao: 1 a) E(X) = √ σ 2π ∫ ∞ −∞ (x − µ)2 2σ 2 dx xe − 76 x−µ = z ⇒ x = σz + µ σ z → ∞ e x → −∞ ⇒ z → −∞. Ent˜ao, ⇒ dx = σdz, quando x → ∞ ⇒ Fazendo-se E(X) = 1 √ σ 2π 1 = σ√ 2π ∫ ∞ z2 (σz + µ)e 2 σdz − −∞ ∫ z2 ∫ ∞ z2 − 1 ze 2 dz + µ √ e 2 dz. 2π −∞ −∞ ∞ − z2 z2 − Mas, −∞ ze 2 dz = 0, pois g(z) = ze 2 ´e fun¸c˜ao ´ımpar, isto ´e, g(z) = ∫ ∞ z2 − 1 −g(−z) e √ e 2 dz = 1. Logo, 2π −∞ ∫∞ − E(X) = µ. ∫ ∞ (x − µ)2 − 2σ 2 dx (x − µ)2 e 1 b) µ2 = E[(X − µ)2 ] = √ σ 2π −∞ x−µ Fazendo-se = z ⇒ x − µ = σz ⇒ dx = σdz, quando x → ∞ ⇒ z → σ ∞ e x → −∞ ⇒ z → −∞. Logo, z2 ∫ ∞ − 1 √ E[(X − µ)2 ] = σ 2 z 2 e 2 σdz σ 2π −∞ z2 ∫ ∞ − σ2 = √ z 2 e 2 dz 2π −∞ z2 2 ∫ ∞ − 2σ = √ z 2 e 2 dz 2π 0 z2 pois, g(z) = z 2 e 2 ´e fun¸c˜ao par, isto ´e, g(z) = g(−z). √ √ 1 1 z2 = t ⇒ z = 2t1/2 ⇒ dz = 2 t−1/2 dt = √ t−1/2 dt, quando Fazendo-se 2 2 2 z = 0 ⇒ t = 0 e z → ∞ ⇒ t → ∞. Logo, ∫ ∫ ∞ 2σ 2 2σ 2 ∞ 1/2 −t 2 −t 1 −1/2 t e dt E[(X − µ) ] = √ 2te √ t dt = √ π 0 2π 0 2 2σ 2 1 2σ 2 1 √ = √ Γ( + 1) = √ π = σ2. π 2 π2 − 77 Portanto, Var(X) = E[(X − µ)2 ] = σ 2 . 4.5.4 Caracter´ısticas da distribui¸c˜ ao normal a) Simetria – A curva de frequˆencias da distribui¸c˜ao normal ´e sim´etrica em rela¸c˜ao `a m´edia, isto ´e, f (u + c) = f (u − c). b) Mediana – Sendo a curva de frequˆencias sim´etrica em rela¸c˜ao `a m´edia, ent˜ao M d = µ. c) Moda – A moda que ´e o ponto sobre o eixo horizontal onde a curva tem 1 seu m´aximo ´e M o = µ e f (µ) = √ . σ 2π d) Pontos de inflex˜ao – A curva de frequˆencias da distribui¸c˜ao normal tem seus pontos de inflex˜ao em x = µ + σ e x = µ − σ. e) A curva Normal aproxima-se, assintoticamente, do eixo normal `a medida que se afasta da m´edia em um ou outro sentido, isto ´e, (x − µ) − (x−µ) 1 limx→∞ √ e 2σ 2 = 0 e limx→−∞ σ√12π e− 2σ2 = 0 σ 2π f) Gr´afico 78 Nota-se que a varia¸c˜ao de µ n˜ao afeta a aparˆencia da curva, ela apenas desloca o gr´afico para a direita ou para a esquerda. A varia¸c˜ao de σ, por´em, tem consider´avel influˆencia sobre seu aspecto. Assim, considerando-se seu m´aximo 1 f (µ) = √ , σ 2π quanto maior for σ, mais “achatada” ser´a a curva e quanto menor, mais “ponti∫∞ aguda”. A ´area total sob a curva ´e igual a 1, pois −∞ f (x)dx = 1. 4.5.5 Distribui¸c˜ ao Normal Reduzida Apesar de extremamente u ´til, a distribui¸c˜ao normal apresenta o incon- veniente de depender dos parˆametros µ e σ 2 . Assim, ao se definir a vari´avel X ∼ N(µ, σ 2 ), tem-se uma fam´ılia de distribui¸c˜oes normais em que para cada par de valores bem determinados µ0 e σ02 , existe uma curva correspondente, gerando assim uma infinidade de curvas normais. Esse fato, que `a primeira vista parece irrelevante implica em s´erias dificuldades quando no c´alculo das probabilidades. Esses problemas foram solucionados por meio de uma mudan¸ca de vari´avel obtendo-se, assim, a distribui¸c˜ao normal padronizada ou reduzida. Seja X uma v.a.c. com distribui¸c˜ao normal de m´edia µ e variˆancia σ 2 . Definido-se: z= x−µ , σ tem-se, ent˜ao, uma v.a.c. Z com fun¸c˜ao densidade z2 1 − f (z) = √ e 2 2π com m´edia e variˆa[ncia dadas ] por: 1 X −µ 1 E(Z) = E = {E(X) − E(µ)} = (µ − µ) = 0 σ σ [ ]σ X −µ 1 1 1 Var(Z) = Var = 2 Var[X − µ] = 2 Var(X) = 2 σ 2 = 1. σ σ σ σ Logo 79 Z= X ∼ N(µ, σ 2 ) X −µ σ −→ Z ∼ N(0, 1) As propriedades da distribui¸c˜ao normal reduzida s˜ao semelhantes `as vistas para a normal. Assim, ela tem µ = M o = M d = 0, sendo que a curva ´e sim´etrica em rela¸c˜ao a esse valor. Os pontos de inflex˜ao tˆem abscissas ±σ = ±1. O gr´afico ´e Cap´ıtulo 5 Inferˆ encia Estat´ıstica 5.1 Introdu¸c˜ ao 5.2 Amostragem Quando se deseja informa¸c˜ao sobre uma dada situa¸c˜ao, o que vem `a mente da maioria das pessoas ´e obter a informa¸c˜ao de toda a popula¸c˜ao de interesse. Quando se observam ou se medem todos os indiv´ıduos da popula¸c˜ao de interesse, realiza-se um CENSO. Limita¸c˜oes do Censo Ineficaz: maior possibilidade de erro dada a quantidade de ob- serva¸c˜oes/medi¸c˜oes. Imposs´ıvel: no diagn´ostico e monitoramento de popula¸c˜oes extremamante dinˆamicas. Impratic´avel: custo e tempo de execu¸c˜ao em geral s˜ao excessivos. 5.3 M´ etodos de Amostragem Amostragem Aleat´ oria Simples (AAS) – Uma amostra de um dado tamanho tem a mesma chance de ser selecionada que qualquer outra amostra poss´ıvel de mesmo tamanho. Amostras de tamanhos diferentes podem ter chances diferentes. Amostragem Aleat´ oria Estratificada (AAE) – A popula¸c˜ao ´e subdividida em grupos mutuamente exclusivos chamados ESTRATOS. Uma AAS ´e 81 82 tomada dentro de cada estrato, e as estimativas dos estratos s˜ao combinadas. Amostragem Sistem´ atica (AS) – Inicialmente, as unidades da popula¸c˜ao s˜ao colocadas numa certa ordem. Para uma amostra sistem´atica de “1-em-cada-k-unidades”, primeiro seleciona-se, aleatoriamente, uma das k primeiras unidades. A partir da unidade selecionada toma-se sempre a k-´esima unidade. NOTE: somente a primeira unidade ´e selecionada aleatoriamente, todas as demais s˜ao tomadas sistematicamente. Amostragem em M´ ultiplos Est´ agios (AME) – Como o nome sugere, na amostragem em m´ ultiplos est´agios o processo de amostragem aleat´oria ´e repetido em v´arios est´agios hierarquizados. Em cada est´agio, qualquer um dos m´etodos de amostragem discutidos pode ser utilizado.