Transcript
6
Probabilidade
6.1 Introdução
A teoria da probabilidade é a parte da matemática que estuda os
fenômenos aleatórios. Todo fato ou acontecimento passível de observação é
chamado de fenômeno, e os seus possíveis resultados são determinísticos ou
aleatórios. Qualquer ensaio ou experiência destinado à verificação de um
fenômeno é chamado de experimento. Diz-se que um fenômeno é determinístico
quando apresenta um só resultado sob as mesmas condições de experimentação,
isto é, se a experiência não se altera o seu resultado é sempre o mesmo. Já
os fenômenos aleatórios, ainda que repetidos sob as mesmas condições
iniciais, apresentam resultados distintos ou incertos, porque estão
sujeitos às leis do acaso.
Tanto que quando se atira uma moeda para o alto a força da gravidade
faz com que a sua queda seja certa, a velocidade da queda da moeda, desde
que lançada sob as mesmas condições, será uma constante que se pode chamar
de fenômeno determinístico. Mas a ocorrência de cara ou de coroa é
imprevisível, pois alguém pode apostar em cara e dar coroa, ou vice-versa.
É essa incerteza quanto aos resultados do acontecimento que denota o que se
chama de fenômeno aleatório.
Neste contexto, a probabilidade é um número real que exprime quão
provável é a chance de ocorrer um particular resultado do acontecimento
aleatório.
De início a teoria da probabilidade era utilizada para prever
resultados de jogos de azar, e daí a razão de tal vertente ser bastante
explorada no estudo introdutório da matéria. Porém, com o passar do tempo,
as aplicações de probabilidade se expandiram notavelmente, sobretudo em
processos de tomada de decisão ligados a acontecimentos sujeitos aos
efeitos do acaso, tais como: previsão meteorológica e de safras agrícolas;
risco de apólices de seguro; cotação de ações em bolsa de valores; controle
de qualidade; marketing, etc.
6.2 Experimento aleatório
Designa uma experiência em que os seus resultados são imprevisíveis,
mesmo que seja repetida indefinidamente sob condições semelhantes, e é
simbolizado pela letra E latina. Eis alguns exemplos de experimento
aleatório:
E1: arremessar um dado e anotar o número do lado que cai para cima;
E2: lançar uma moeda e verificar a seqüência de cara e coroa;
E3: retirar cartas de um baralho e verificar as figuras;
E4: Conferir o número de peças defeituosas produzidas diariamente por
uma máquina;
E5: Verificar a execução de uma tarefa e anotar o tempo gasto por cada
trabalhador.
Embora os resultados dos experimentos retromencionados se pareçam
absolutamente acidentais, verifica-se que na realidade eles tendem para uma
estabilidade estatística quando a experiência é repetida um número
relativamente grande de vezes. Esta regularidade é fundamental porque
facilita a construção de modelos matemáticos para descrever o comportamento
do fenômeno, possibilitando à previsibilidade de cada valor em particular,
como se verá mais adiante.
6.3 Espaço amostral
O conjunto de todos os resultados possíveis de um experimento
aleatório é chamado de espaço amostral. Este é um conjunto S em que cada um
de seus elementos está associado a um e somente um resultado possível do
experimento. Eis, então, os seguintes exemplos:
a) lançamento de um dado: S1 = {1, 2, 3, 4, 5, 6};
b) lançamento de uma moeda: S2 = {cara, coroa};
c) retirada de uma carta de um baralho: S3 = {as 52 cartas};
d) Contagem diária das peças defeituosas produzidas por uma máquina,
para controle do processo: ;
e) tempo que um grupo de trabalhadores gasta para executar uma tarefa
que está a ser implantada: }.
Os exemplos vistos nas letras a, b, c e d são de espaços amostrais
finitos numeráveis e o da letra e de espaço amostral infinito não-
enumerável, cujo estudo será abstraído neste capítulo, por exigir aplicação
de matemática avançada, em face de maior complexidade teórica.
6.4 Eventos
Qualquer subconjunto do espaço amostral S é chamado de evento. Se um
evento tem apenas um elemento é chamado de evento simples, e de evento
composto se tem mais de um elemento. Um evento é definido por uma sentença
e tem como símbolo as letras maiúsculas do alfabeto. Os seus elementos são
descritos por números arábicos, ou letras minúsculas quando não têm
expressão numérica.
Eis que quando se lança uma moeda o espaço amostral é formado por
dois eventos simples cara (c) e coroa (k), tal que S = {c, k}.
Agora quando se lançam duas moedas o espaço amostral corresponde a
quatro seqüências de coroa/coroa (kk), coroa/cara (kc), cara/coroa (ck) e
cara/cara (cc), de modo que se tem S = {kk, kc, ck, cc}, onde cada
seqüência é um evento composto de S. E o evento relativo a pelo menos uma
cara é definido pelo subconjunto A = {kc, ck, cc}.
Veja-se ainda, neste caso, que os elementos de S podem ser definidos
como pontos de uma variável aleatória, quando se enuncia, por exemplo, que
x é igual ao número de caras. Isso permite descrever o mesmo espaço
amostral através de números, tal que S = {0, 1, 2} e o referido evento A
pelo subconjunto numérico A = {1, 2}, como se vê no quadro abaixo.
"Quadro 6.1 – Eventos "
"relativos ao lançamento "
"de duas moedas "
"Seqüência"x = número de "
"s "caras "
"kk "0 "
"kc, ck "1 "
"cc "2 "
Outrossim, quando o experimento consiste no lançamento de um dado o
número de casos possíveis é igual a seis, que corresponde à freqüência de
cada uma das seis faces que pode cair voltada para cima, e é representado
pelo conjunto S = {1, 2, 3, 4, 5, 6}.
Para um S finito ou infinito numerável, constituído de n elementos,
existem subconjuntos ou eventos possíveis.
a) Evento impossível: É uma situação impossível de acontecer na
realização de determinado experimento e se representa pelo símbolo.
Eis que é impossível obter uma seqüência de três caras num único lançamento
de duas moedas, ou dar número menor que a unidade no lançamento de um dado.
Os conceitos de evento impossível e de conjunto vazio são equivalentes.
b) Evento certo: Quando envolve todos os resultados do experimento.
Seja, por exemplo, o lançamento de um dado. O evento A = {ocorrer número
natural entre 1 e 6} é um evento certo, pois os seus resultados possíveis
coincidem com o do conjunto S = {1, 2, 3, 4, 5, 6}.
6.4.1 Operações com eventos
Já é sabido que o espaço amostral S abrange todos os resultados
possíveis do experimento aleatório ou todos os elementos de uma população
de interesse. Isto equivale à noção de conjunto universo ou conjunto
fundamental estudado na teoria dos conjuntos. Aqui a notação x(A significa
número x de elementos de S pertencentes ao evento A, ou x(A número x de
elementos de S não pertencentes a A.
Dados os eventos A e B, definidos em S, é possível obter novos
eventos através das operações de união e interseção, ou complementação, da
teoria dos conjuntos, como se vê a seguir:
a) União de eventos: Sejam os eventos A e B contidos em S. A união de
A com B é dada pelos elementos de S que pertencem a A ou B (ou ambos), que
se identifica pela notação (lê-se A união B), ou em símbolos A(B =
{x(S/x(A ou x(B (ou ambos)}.
b) Interseção de eventos: Sejam A e B dois eventos definidos em S. A
interseção de A com B é formada pelos x elementos de S que pertencem
simultaneamente a A e B, que se representa pela notação (lê-se A inter
B), ou pelo símbolo e .
c) Complementação de eventos: Seja um evento A contido em S ().
O complemento de A em relação S, é formado pelos x elementos de S que não
pertencem a A, que se identifica pela notação ou (lê-se
complemento de A), cujo símbolo é .
d) Inclusão de eventos: Sejam A e B dois eventos associados ao espaço
amostral S. Diz-se que A está contido (ou incluído) em B, se todo elemento
de A é também elemento de B, cuja notação é , ou ainda melhor .
O diagrama de Venn-Euller dá uma boa idéia dessa combinação de
eventos, como se verifica nas áreas sombreadas da figura abaixo.
Figura 6.1 Diagramas de Venn-Euller
Se os eventos A e B não têm qualquer elemento em comum a união é
formada pela soma dos seus elementos , e a interseção é um evento
impossível tal que , como se nota na figura abaixo:
Figura 6.2 Diagrama de Venn para
Apresentam-se abaixo algumas propriedades decorrentes de
complementação, união e interseção de eventos, úteis no estudo de
probabilidade.
a) Absorção: e .
b) Associativa: e .
c) Complementares: ; ; ; e .
d) Comutativa: e .
e) Distributiva: e .
f) Idempotente: e .
g) Identidade: ; ; e .
h) Leis de Morgan: e .
Exemplo: É possível simular os eventos abaixo, com os números
referentes ao jogo de um dado, cujo espaço amostral é S = {1, 2, 3, 4, 5,
6}:
a) A = {número par} = {2, 4, 6};
b) B = {número primo} = {2, 3, 5};
b) C = {número ímpar} = {1, 3, 5};
c) D = {n° inteiro positivo} = {1, 2, 3, 4, 5, 6} D = S (evento
certo);
d) E = {número menor que a unidade} (evento impossível);
e) {número par ou primo} = {2, 3, 4, 5, 6};
f) {número par e primo} = {2};
g) {número não par}= {1, 3, 5};
i) {nem par nem primo} = {1};
j) {n° que não seja par ou não primo} = {1, 3, 4, 5, 6};
l) {1, 3, 5}.
m) {número não ímpar} = {2, 4, 6};
n) ={inverso de um n° não ímpar}={número ímpar} = {1, 3, 5}.
6.5 Cálculo de probabilidades
6.5.1 "Definição" clássica
Se o espaço amostral S é finito e os seus elementos são igualmente
prováveis, a probabilidade do evento A, definido em S, é calculada da
seguinte maneira:
Esta "definição" é muito simples e intuitiva, e por isso é bastante
utilizada para calcular probabilidades de eventos associados a sorteios e
jogos de azar (lançar moeda ou dado, extrair cartas de baralho, etc.). Com
ela se calcula probabilidades a priori, isto é, antes de ser observada
qualquer amostra de eventos.
Porém, o conceito clássico não é considerado definição geral de
probabilidade, pois só se aplica a conjuntos com número finito de
resultados, e exige que estes sejam igualmente prováveis, ou seja, o
conceito a definir está contido na própria definição.
Veja-se que quando duas moedas honestas são lançadas é possível
antecipar a probabilidade do evento duas caras (cc), pois cara (c) e coroa
(k) são igualmente prováveis, considerando o espaço amostral S = {cc, ck,
kc, kk}. Definindo-se o evento A = {cc}, em que duas caras ocorrem, a sua
probabilidade é calculada do seguinte modo:
, ou seja, .
No caso de duas moedas viciadas, a fórmula clássica não se aplica,
pois as probabilidades correspondentes aos pontos de S passam a ser
diferentes e desconhecidas. E só poderão ser avaliadas mediante observação
da freqüência relativa numa experimentação repetida um número grande de
vezes.
6.5.2 Definição freqüêncial
Esta definição propõe que a probabilidade de um evento seja avaliada
com base na regularidade das freqüências relativas, em repetições do
experimento, sob iguais condições, um número muito grande de vezes ou
mediante verificações em séries históricas.
Teoricamente, a probabilidade de um evento A é o limite da freqüência
relativa quando o número n de observações tende para infinito, tal que
.
Onde é a freqüência relativa e fi a freqüência absoluta
simples.
Quando n é grande, o ponto de estabilização da freqüência relativa
funciona como aproximação de P(A), o que é expresso pela fórmula:
O gráfico abaixo dá idéia da regularidade da freqüência relativa,
quando o experimento é repetido um número grande de vezes.
Figura 6.3 Regularidade da freqüência relativa
Como se observa na figura anterior, a probabilidade de um evento é um
número positivo e menor ou igual a unidade, representado pela freqüência
relativa do acontecimento, numa série de observações relativamente grande.
Observe-se que se o experimento consiste no lançamento de duas moedas
viciadas, não há como antecipar a probabilidade do evento referente a duas
caras (cc), porque a probabilidade elementar de cara (ou de coroa) é, por
enquanto, desconhecida. Significa que só será possível avaliá-la mediante a
observação empírica das freqüências de cara num grande número de
lançamentos.
Se o resultado da experimentação revelar que a freqüência de cara c é
duas vezes mais que a de coroa k, aí sim será possível calcular a
probabilidade de cada ponto de S.
Com efeito, faz-se e P(k) = p, tal que p é uma probabilidade por
enquanto desconhecida de coroa. E, por substituição, acha-se P(c) = 2p.
E lembrando que, por definição, (p = 1, pode obter-se o valor de p do
seguinte modo:
.
Com isso as probabilidades de cara e de coroa, obtidas por
substituição, serão iguais a e .
E, por fim, a probabilidade do evento duas caras é .
Apesar de ser muito útil na prática, a definição de probabilidade com
base nas freqüências relativas apresenta restrições do ponto de vista
matemático, uma vez que o limite pode não existir.
6.5.3 Definição axiomática
Para contornar as dificuldades encontradas nas definições anteriores,
a definição moderna de probabilidade foi desenvolvida com fundamento em
axiomas, a fim de deixar a definição a mais abrangente possível.
Seja, por conseguinte, um experimento aleatório descrito pelo espaço
amostral S. Seja A um evento associado a S. Então, a probabilidade de A é
uma função definida em S, que atribui um número real a cada evento simples
de S, nas seguintes condições:
a) ;
b) P(S) = 1;
c), se A e B são mutuamente exclusivos (disjuntos).
Note-se que esta definição não ensina como avaliar objetivamente uma
P(A), no entanto ela é fundamental pela abrangência, pois as suas
propriedades possibilitam operar até em espaços amostrais infinitos não-
enumeráveis, típicos de variáveis contínuas. Neste aspecto, a definição se
completa com os teoremas fundamentais, cujos mais importantes se apresentam
adiante.
6.5.4 Definição subjetiva
Aqui a probabilidade de um evento depende de avaliação pessoal,
contando com o conhecimento ou a intuição do pesquisador. Com efeito, a
probabilidade da cotação de uma ação a ser lançada na bolsa de valores
subir em médio prazo, devido a inexistência de dados preliminares, só
poderá ser estimada pelo grau de crença ou expectativa que o especialista
tenha sobre o assunto, quer dizer, de modo meramente subjetivo.
6.6 Teoremas básicos
I - Se é um evento impossível, então .
Para demonstrar este teorema basta escrever e aplicar a
propriedade c do item 6.5.3, pois A e são disjuntos, a saber:
.
II - Se é o complemento de A, então .
Eis que o evento A e o seu complemento são mutuamente
excludentes, pois , como se nota na figura abaixo:
Figura 6.4 Complementaridade de eventos
Para demonstrar o teorema escreve-se .
Lembrando que P(S) = 1 e que A e são disjuntos, segue-se que:
P(A) + P() = 1, permitindo comprovar que de fato .
III - Se A e B são eventos quaisquer, então: .
O teorema é demonstrado expondo os eventos A(B e B da seguinte
maneira:
(i)
(ii)
A figura abaixo dá idéia de como se efetiva esse tipo de exposição.
Figura 6.5 Diagrama de Venn para união de eventos
Como os eventos de (i) e (ii) são mutuamente excludentes, as
respectivas probabilidades podem ser escritas da seguinte forma:
(i)
(ii)
Para comprovar o teorema basta subtrair (i) de (ii), como se faz a
seguir:
Com a eliminação de , comprova-se que:
.
A generalização do teorema para três eventos A, B e C, é representada
pela fórmula abaixo:
P(A(B(C) = P(A) + P(B) + P(C) – P(A(B) – P(A(C) – P(B(C) + P(A(B(C).
IV - Se A ( B, então P(A) P(B).
Demonstra-se o teorema partindo da expressão , cuja ilustração se
observa na figura adiante:
Figura 6.6 Inclusão de eventos tipo A(B
Como A e são eventos mutuamente exclusivos, escreve-se:
Como, resta .
Multiplicando a inequação acima por (-1), o sinal se inverte, tal que
6.7 Análise combinatória
É uma técnica de contagem que se aplica para resolver problemas onde é
necessário levar em conta agrupamentos de elementos ou objetos. Esse
recurso é utilizado em probabilidade para determinar o número possível de
resultados de um experimento, sem precisar de enumeração direta, tal como o
número possível de amostras de tamanho n que pode ser extraído de um lote
de N peças (), ou o número possível de maneiras pelas quais se pode
retirar n bolas vermelhas de uma urna onde estão guardadas N bolas de cores
azuis, brancas e vermelhas.
6.7.1 Fatorial
Fatorial de um número n é definido como o produto de todos os números
naturais de n até 1. É representado pela notação n! (lê-se n fatorial) e
pela fórmula:
, para .
Conseqüentemente:
, por convenção;
, por convenção;
2! = 2×1 = 2;
3! = 3×2×1 = 6;
4! = 4×3×2×1 = 24.
Exemplo: Do conjunto formado pelas letras A, B, C e D, obtém-se 24
agrupamentos de quatro letras, conforme cálculos a seguir:
4! = 4×3×2×1 = 24 agrupamentos, que são:
{ABCD, ACBD, ADCB, ACDB, ABDC, ADCB, BACD, BADC, BCAD, BDCA, BCDA,
BDAC, CABD, CABD, CBAD, CBDA, CDAB, CDBA, DABC, DACB, DBAC, DBCA,
DCBA, DCAB}.
Significa que caso fossem reservadas quatro cadeiras num recinto para
as quatro pessoas identificadas pelas letras A, B, C e D, elas poderiam
ocupar os quatro assentos de 24 maneiras distintas.
6.7.2 Arranjo simples
É um tipo de agrupamento em que um grupo se distingue de outro pela
natureza e pela ordem dos elementos. Logo, o número de arranjos simples de
n elementos agrupados de k maneiras é definido por:
, para k ( n.
Por conseguinte:
, para ;
, para;
arranjos;
arranjos;
arranjos.
Observe-se que .
Exemplo: De quantas maneiras as letras A, B, C e D podem ser
arranjadas duas a duas?
arranjos, conforme relação abaixo:
{AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC}.
Eis que no arranjo AB os elementos se distinguem pela natureza (A (
B), enquanto que os arranjos AB e BA, constituídos dos mesmos elementos,
diferem quanto à ordem (AB ( BA).
O número de arranjos de n elementos k a k é também calculado através
da fórmula:
, para k ( n, tal que .
6.7.3 Permutação simples
Permutação Simples é um caso particular de arranjo simples, em que
cada arranjo é constituído por todos os elementos do conjunto. A formação
de cada arranjo difere apenas quanto à disposição dos elementos. Trata-se,
portanto, de um arranjo de n elementos tomados n a n, cuja fórmula é a
seguinte:
, para n > 1
Exemplo: Quantas permutações podem ser formadas com as letras A, B, C
e D?
P4 = 4! = 4×3×2×1 = 24 permutações, que correspondem ao número de
agrupamentos encontrados no exemplo do subitem 6.7.1.
6.7.4 Combinação simples
É um tipo de agrupamento sem repetição, no qual uma combinação difere
da outra somente pela natureza dos elementos e a ordem dos elementos não
importa. Aqui o grupo AB = BA, e constitui uma só combinação. A combinação
de n elementos tomados k a k é dada através da fórmula:
, para k ( n.
É também muito comum o emprego da notação .
Por definição, e
Exemplo 1: Quantas combinações de dois elementos são obtidas com as
letras A, B, C e D?
combinações, que são: {AB, AC, AD, BC, BD, CD}.
Esse conjunto é a metade do número de arranjos tomados 2 a 2,
encontrado no exemplo do subitem 6.7.2, pelo fato de descartar os grupos
formados por elementos dispostos em ordem diferente, isto é: BA, CA, DA,
CB, DB e DC.
Exemplo 2: Se numa sala existem 10 alunos, quantas comissões de três
alunos podem ser formadas? Este é um tipo de problema no qual a ordem dos
indivíduos não tem importância, e que se resolve por combinação simples.
= 120 comissões.
Exercícios Resolvidos
01. Dois dados honestos são lançados simultaneamente. Construa o espaço
amostral e defina as probabilidades com relação aos seguintes eventos: a)
de a soma de pontos ser um número par; b) de ocorrer número igual de
pontos em ambos os dados; c) de a soma de pontos ser um número ímpar ou
primo; d) de a soma de pontos ser menor ou igual a 8.
Solução: O espaço amostral relativo ao jogo de dois dados é:
"1;1 "2;1 "3;1 "4;1 "5;1 "6;1 "
"1;2 "2;2 "3;2 "4;2 "5;2 "6;2 "
"1;3 "2;3 "3;3 "4;3 "5;3 "6;3 "
"1;4 "2;4 "3;4 "4;4 "5;4 "6;4 "
"1;5 "2;5 "3;5 "4;5 "5;5 "6;5 "
"1;6 "2;6 "3;6 "4;6 "5;6 "6;6 "
a) A = {(1;1), (1;3), (1;5), (2;2), (2;4), (2;6), (3;1), (3;3), (3;5),
(4;2), (4;4), (4;6), (5;1), (5;3), (5;5), (6;2), (6;4), (6;6)}:
.
b) B ={números iguais} = {(1;1), (2;2), (3;3), (4;4), (5;5), (6;6)}:
.
c) I = {nº ímpar}= {(1;2), (1;4), (1;6), (2;1), (2;3), (2;5), (3;2),
(3;4), (3;6), (4;1), (4;3), (4;5), (5;2), (5;4), (5;6), (6;1), (6;3),
(6;5)}: .
P = {nº primo} = {(1;1), (1;2), (2;1), (1;4), (4;1), (1;6), (6;1),
(2;5), (5;2), (3;4), (4;3), (5;6), (6;5)}: .
I(P ={nº impar e primo}= {(1,2), (2,1), (1;4), (4;1),(1;6), (6;1),
(2;5), (5;2), (3;4), (4;3), (5;6), (6;5)}: .
.
d) D = {número ( 8} = {(1;1),.., (6;2)}: .
02. Dentro de um saco há 12 bolas: 5 azuis, 4 brancas e 3 verdes. Se uma
bola é retirada ao acaso, calcule a probabilidade de ela ser de cor: a)
azul; b) branca; c) azul ou branca. Eis a solução:
a) A = {a bola é de cor azul}: .
b) B = {a bola é de cor branca}: .
c) A(B) = {a bola é azul ou branca}:
03. Na mesma situação da questão 04, duas bolas são retiradas sem
reposição. Calcule a probabilidade de ambas serem: a) da mesma cor; b)
verdes; c) de cores diferentes; d) uma azul e a outra branca; e) a
primeira azul e a segunda branca; f) pelo menos uma branca.
Solução: Como as bolas são sorteadas sem reposição, o número de
elementos de cada evento pode ser determinado através de combinação e de
arranjo simples.
a) As duas bolas podem ser azuis, ou brancas, ou verdes;
b) .
c) P(ambas de cores diferentes) = .
d) (não há especificação da ordem).
e) (há especificação da ordem).
f) P(pelo menos uma branca) .
É preciso calcular , pois os demais termos já são conhecidos.
.
04. Um dado é viciado tal que a probabilidade de dar um dos números de cada
face é proporcional ao seu valor, isto é, 6 é duas vezes mais provável
que 3. Determine:
a) a probabilidade de cada ponto amostral;
b) a probabilidade de ocorrer a face 3 ou a face 5 num único lançamento.
Solução: Sejam e Eis que por
definição p + 2p + 3p + 4p +5p + 6p = 1 . Por
conseguinte, substituindo-se o valor de p nas expressões acima definidas
se obtém:
a) e .
b) .
05. Os atletas A, B e C disputarão uma prova de atletismo. Sabe-se que o
atleta A tem 2 vezes mais probabilidade de ganhar que B, e que B tem 2
vezes mais probabilidade de ganhar que C. Calcule: a) as probabilidades
de vitória de cada um; b) a probabilidade de B ou C ganhar a prova.
Solução: Sejam ; e .
Eis que. Logo, substituindo, vem:
a) e
b)
6.8 Probabilidade condicional
Se A e B são eventos associados ao espaço amostral S, então a
probabilidade de B dado que A tenha acontecido é definida pela fórmula:
, para P(A) > 0.
A probabilidade P(B/A) mede a probabilidade relativa dos elementos
comuns aos eventos A e B em relação ao espaço amostral reduzido A, como se
vê na área colorida da figura adiante:
Figura 6.7 Diagrama para a condição B/A
Alternativamente, , para .
Sendo S um espaço amostral equiprovável, a probabilidade de B dado A
pode ser calculada diretamente por meio da fórmula:
, para n(A) ( 0.
6.9 Teorema do produto
Este teorema decorre da definição de probabilidade condicional e
serve para calcular probabilidades referentes a um produto de eventos. A
sua correta aplicação depende da identificação de dependência ou
independência entre eventos.
6.9.1 Eventos dependentes
Sejam dois eventos A e B associados a um experimento. Se a ocorrência
de A influencia B, ou vice-versa, haverá então dependência entre eles. São
exemplos típicos de eventos dependentes os casos de sorteios ou amostragem
sem reposição. A fórmula do produto para dois ou mais eventos é:
,
ou, .
Genericamente, se A1, A2, ..., An , forem eventos dependentes, então:
6.9.2 Eventos independentes
Um evento é independente quando a sua ocorrência não afeta a de outro
ou vice-versa. A independência acontece em sorteios ou processos de
amostragem com reposição. Nesse caso, a regra do produto para dois ou mais
eventos é mais simples:
.
.
Em geral, se A1, A2, ..., An , forem eventos dependentes, então:
Se A e B são eventos independentes, valem as relações: e .
Exercícios resolvidos
01. Um par de dados é lançado. Se alguém informa que ocorreu soma igual a
8, qual a probabilidade haver ocorrido a face 3 em um deles?
Solução: Definem-se os eventos A e B da seguinte forma:
A = {soma de pontos igual a 8) A = {(2;6), (3;5), (4;4), (5;3), (6;2)}
B = {dar a face 3} = {(1;3), (2;3), (3;3), (4;3), (5;3), (6;3), (3;1),
(3;2), (3;4), (3;5), (3;6)}.
A(B = {soma igual a 8 e dando a face 3} = {(3;5); (5;3)}
02. Dois dígitos são selecionados aleatoriamente de 1 a 9. Se a soma deles
é par, qual a probabilidade de ambos os números serem primos?
Solução: Sejam os eventos A = {soma dos números é par} e B = {ambos são
primos}.
A soma de dois números é par se ambos forem impares ou ambos forem
pares, logo o total de somas com os dígitos 1, 3, 5, 7 e 9 é .
Enquanto que com os dígitos 2, 4, 6 e 8 é somas. Portanto,
somas pares.
Por sua vez, com relação ao evento B, o total de somas com os números
2, 3, 5 e 7, dois a dois, será somas. Veja que = {soma dois a
dois de 3, 5 e 7}, e o total de soma desses números é somas.
Por conseguinte, .
03. Na biblioteca de uma universidade, em dado momento, 20% dos alunos e
15% das alunas estão estudando Estatística. As alunas representam 60% dos
estudantes presentes. Se um estudante é escolhido aleatoriamente e está
estudando Estatística, qual a probabilidade de ser uma aluna?
Solução: Sejam 100 estudantes, onde 40 são alunos e 60 são alunas,
logo:
A = {estudando estatística} = 0,20 ( 40 + 0,15( 60 = 8 + 9 = 17 alunos.
B = {alunas} = {60% do total de estudantes}= 60 alunas.
A(B ={é aluna e está estudando estatística} = {15%} = 9 alunas.
.
04. Sabe-se que dentro de uma sacola existem 12 bolas. Sendo 5 azuis, 4
brancas e 3 verdes. Se forem retiradas duas bolas, sem reposição,
determine as probabilidades de: a) ambas serem da mesma cor; b) ambas
serem verdes; c) ambas serem de cores diferentes; d) uma bola azul e a
outra branca; e) a primeira azul e a segunda branca; f) pelo menos uma
bola branca.
Solução: Este problema já foi feito por análise combinatória, agora ele
será resolvido pela regra do produto, para eventos dependentes.
a)
b)
c) C = {ambas são de cores diferentes}
.
d) (a ordem é especificada).
e) E = {pelo menos uma branca}:
.
05. Resolva os itens a, b, e c, do problema 04, admitindo que as bolas são
extraídas com reposição.
Solução: Aplica-se a regra do produto para eventos independentes.
a)
b) .
c) C = {ambas de cores diferentes}
.
06. Uma urna A contém 5 fichas verdes e 3 pretas. Outra urna B contém 3
fichas verdes e 2 pretas. Sorteia-se uma ficha em cada urna. Calcule,
então a probabilidade de: a) As 2 fichas serem pretas; b) ambas de cores
diferentes; c) ambas da mesma cor; d) pelo menos uma de cor verde; e)
agora, uma ficha é sorteada aleatoriamente na urna A e posta na urna B.
Depois, sorteia-se uma ficha em B, qual a probabilidade de ela ser verde?
Solução: Aqui o sorteio pode ser feito com ou sem reposição de fichas,
sem prejudicar o conceito de independência, pois os eventos ocorrem em
urnas diferentes.
a) .
b)
c) .
d) P(pelo menos uma verde) = .
e)
08. A probabilidade de um atirador A acertar um alvo é igual a ½. A
probabilidade de outro atirador B acertar o mesmo alvo é de . Se
ambos atiram 4 vezes, qual a probabilidade de:
a) nenhum atirador acertar o alvo?
b) pelo menos um dos atiradores acertar o alvo?
Solução: Aqui o desempenho de um atirador não influi no desempenho do
outro, portanto, os eventos A e B são independentes. Sendo assim, tem-se:
a) .
b) B = {pelo menos um deles acertar o alvo}: .
6.10 Teorema da probabilidade total
Sejam A1, A2 ... An, eventos que formam uma partição do espaço
amostral S, isto é, os eventos Ai são, dois a dois, mutuamente exclusivos,
tal que a união de todos eles é igual a S. E seja B um evento qualquer de
S, quando já se conhecem todos os eventos da família Ai, e com estes se
intercepta, na forma da figura abaixo:
Figura 6.8 Partição de eventos Ai e interseções com o evento B
Então, a probabilidade de B, dado que um dos eventos Ai tenha
ocorrido, é expressa pela união das interseções de todos os eventos Ai com
B, tal que:
.
Pelo teorema do produto para eventos dependentes, deduz-se que:
, ou, ainda:
.
6.11 Teorema de Bayes
O teorema de Bayes serve para calcular a probabilidade de um
particular evento Ai dado que B aconteceu, por meio da fórmula:
, onde P(B) 0.
Como , segue a fórmula geral .
Exemplo: Numa pequena fábrica de garrafas térmicas a máquina A, mais
moderna, responde por 70% das unidades produzidas. A máquina B, mais
antiga, responde pelas 30% restantes. Os percentuais de unidades
defeituosas são de 1,5% na máquina A e 5% na B. Se uma garrafa for retirada
casualmente para teste de qualidade, calcule: a) a probabilidade de ela ser
defeituosa; b) Se ela é defeituosa, qual a probabilidade de ter sido
produzida pela máquina A?
Solução: Seja o evento D = {a garrafa é defeituosa}.
a) .
b)
Exercícios Propostos
(ver lista de exercícios já distribuída)
7
Variáveis Aleatórias unidimensionais
7.1 Definição
Variável aleatória (va) é uma função real definida sobre os eventos do
espaço amostral S. Neste particular, é uma função que tem domínio em S e
contradomínio em R (a reta dos números reais), tal que .
O estudo de variáveis aleatórias é importante porque nem sempre os
pontos do espaço amostral são numéricos, sendo então necessário descobrir
um meio de transformá-los em números, através de uma função chamada de
variável aleatória, que facilita o cálculo de medidas estatísticas.
7.2. Variável aleatória discreta
Variável aleatória discreta (vad) é uma função que associa um único
número real a cada evento de uma partição do espaço amostral S. São
variáveis que resultam de processos aleatórios em que os possíveis
resultados são casuais e formam um conjunto enumerável, a exemplo do número
de pacientes atendidos num hospital, ou de furtos de veículos numa cidade.
Já se viu que quando se lançam duas moedas o conjunto de resultados
possíveis do experimento é de quatro seqüências de dois elementos (cara e
coroa), representadas pelo espaço amostral S = {kk, kc, ck, cc}. Mas essa
representação de S não é das mais adequadas para operações matemáticas,
ensejando que a expressão qualitativa de cada evento de S seja definida
como um ponto de uma variável aleatória, fazendo-se, por exemplo, x =
número de caras. Assim o mesmo espaço amostral se transforma no conjunto
numérico S = {0, 1, 2}, em que o ponto zero corresponde ao evento duas
corroas (kk), um aos eventos cara e coroa e vice-versa (ck e kc) e dois ao
evento duas caras (cc), conforme se observa no quadro adiante.
"Quadro 7.1 – Variável aleatória"
"relativa ao lançamento de duas "
"moedas "
" Eventos "x = número de "
" "caras "
"A1 = {kk} "0 "
"A2 = {kc, ck}"1 "
"A3 ={cc} "2 "
Seja ainda uma amostra ao acaso de uma peça de um lote produzido em
certo dia. A peça pode ser classificada em defeituosa (d) ou perfeita (p),
tal que S = {d, p}. Eis que essa classificação pode ser expressa através de
números, tal como zero para peça defeituosa e um para peça perfeita, de
modo que S = {0, 1}. Aí os pontos do espaço amostral representam uma
variável aleatória do tipo x = peça defeituosa, como exposto na tabela
abaixo.
"Quadro 7.2 – Definição de uma vad "
"para a amostra casual de uma peça "
" Eventos "x = peça "
" "defeituosa "
"D = {a peça é "0 "
"defeituosa} " "
"P = {a peça é "1 "
"perfeita} " "
A essa altura dá para perceber que a definição de uma vad visa
facilitar o tratamento matemático, uma vez que às vezes os pontos do espaço
amostral são atributos, sendo necessário transformá-los em números,
mediante uma função de variável aleatória.
7.2.3 Distribuição de probabilidade de variável aleatória discreta
Definição: É uma função P(X) que associa probabilidades aos valores
da vad X. Isto é, quando uma vad X assume os valores , , ...,
, com as respectivas probabilidades , ,..., , definidas
por uma P(X), em que a soma dessas probabilidades é igual a um, tem-se a
dita distribuição de probabilidade de X, como resumido no quadro abaixo:
"Quadro 7.3 – Distribuição de "
"probabilidade da vad X "
"X """... "" "
"P(X) """... "" "
Assim, o conjunto [X, P(X)] é chamado de distribuição de probabilidade
de X, onde P(X) é a função de probabilidade que associa a cada valor da vad
a probabilidade do evento correspondente, de maneira que para i = 1,
2, ..., n.
Intuitivamente, uma distribuição de probabilidade equivale a uma
distribuição de freqüências relativas para os resultados do experimento
aleatório, em que exprime a probabilidade ou chance com que cada resultado
da vad pode acontecer quando o experimento é realizado um número grande de
vezes. Em suma, a cada possibilidade do acontecimento é atribuída uma
probabilidade.
O estudo de distribuições de probabilidade é importante em inferência
estatística, pois a suposição sobre propriedades de uma população, com base
em dados de amostras, se fundamenta em distribuições teóricas de
probabilidade.
Em casos mais simples é fácil elaborar uma distribuição de
probabilidade mediante quadros ou gráficos, como se verifica no lançamento
de duas moedas, onde x é a vad número de caras:
"Quadro 7.4 – Distribuição de "
"probabilidade referente ao "
"número de caras no lance de duas"
"moedas "
"Eventos "x = nº de " "
" "caras " "
"A1 = {kk} "0 "¼ "
"A2 ={kc, ck"1 "½ "
"} " " "
"A3 = {cc} "2 "¼ "
"Total (Σ) " "1 "
Esta distribuição de probabilidade está representada na figura abaixo:
Figura 7.1 Distribuição de probabilidade relativa ao número de caras
no jogo de duas moedas
Outra ilustração similar é a distribuição de probabilidade relativa ao
jogo de um dado:
"Quadro 7.5 – Distribuição "
"de probabilidade do número "
"de pontos no jogo de um "
"dado "
"x = número de " "
"pontos " "
"1 "1/6 "
"2 "1/6 "
"3 "1/6 "
"4 "1/6 "
"5 "1/6 "
"6 "1/6 "
"Total (Σ) "6/6 = 1 "
O gráfico desta distribuição se observa na figura a seguir:
Figura 7.2 Distribuição de probabilidade da vad relativa ao jogo de
um dado
Quando o experimento se refere ao jogo de dois dados, a elaboração da
distribuição de probabilidade é mais trabalhosa, embora ainda se possa
representá-la através de quadro ou gráfico, como se vê adiante, onde X é
uma vad igual à soma possível de pontos nos dois dados:
"Quadro 7.6 – Distribuição de probabilidade –"
"vad referente ao número de pontos no lance "
"de dois dados "
" Eventos "X = número de" "
" "pontos " "
"(1:1) "2 "1/36 "
"(1:2), (2:1) "3 "2/36 "
"(1:3), (2:2), (3:1) "4 "3/36 "
"(1:4), (2:3), (3:2),"5 "4/36 "
"(4:1) " " "
"(1:5), (2:4), (3:3),"6 "5/36 "
"(4:2), (5:1) " " "
"(1:6), (2:5), (3:4),"7 "6/36 "
"(4:3), (5:2), (6:1) " " "
"(2:6), (3:5), (4:4),"8 "5/36 "
"(5:3), (6:2) " " "
"(3:6), (4:5), (5:4),"9 "4/36 "
"(6:3) " " "
"(4:6), (5:5), (6:4) "10 "3/36 "
"(5:6), (6:5) "11 "2/36 "
"(6:6) "12 "1/36 "
" Total (Σ) " "36/36 = 1"
A representação gráfica da distribuição anterior se encontra na figura
a seguir:
Figura 7.3 Distribuição de probabilidade do número provável de pontos
no lançamento de dois dados
Nem sempre é possível estabelecer distribuições de probabilidade de
modo tão direto como nos casos visto até aqui, há situações em que a
probabilidade de eventos só pode ser definida por modelos apropriados, como
se verá no capítulo adiante.
7.2.4 Função distribuição acumulada
É uma função que dá a probabilidade de a vad x assumir um valor menor
ou igual a . Essa função é . Para o caso dos dois dados, em que X
é igual ao número de pontos que se pode obter, segue-se função distribuição
pertinente:
"Quadro 7.7 – Função distribuição referente ao número de"
"pontos no jogo de dois dados "
"X "
"X "P(X) "XP(X) "
"2 "1/36 "2/36 "
"3 "2/36 "6/36 "
"4 "3/36 "12/36 "
"5 "4/36 "20/36 "
"6 "5/36 "30/36 "
"7 "6/36 "42/36 "
"8 "5/36 "40/36 "
"9 "4/36 "36/36 "
"10 "3/36 "30/36 "
"11 "2/36 "22/36 "
"12 "1/36 "12/36 "
"Total "36/36 = 1 "252/36 = 7 "
"(Σ) " " "
Verifica-se, assim, que E(X) ou ( = 7 pontos.
7.2.6 Variância de uma variável aleatória discreta
A variância é uma medida de concentração de probabilidades da vad em
torno da média. Quanto menor é o valor da variância maior é a concentração
de probabilidades em torno do valor médio da variável aleatória. É
identificada pelas notações Var(X) ou , cuja fórmula se vê seguir:
Como e vem:
ou .
Calcula-se também a variância por meio da fórmula .
Assim, a variância da vad referente ao número de pontos quando se
lançam dois dados é calculada a partir dos operadores expostos no quadro a
seguir:
"Quadro 7.9 – Cálculo da variância da vad"
"referente ao número de pontos no lance "
"de dois dados "
"X "P(X) "XP(X) "X2P(X) "
"2 "1/36 "2/36 "4/36 "
"3 "2/36 "6/36 "18/36 "
"4 "3/36 "12/36 "48/36 "
"5 "4/36 "20/36 "100/36 "
"6 "5/36 "30/36 "180/36 "
"7 "6/36 "42/36 "294/36 "
"8 "5/36 "40/36 "320/36 "
"9 "4/36 "36/36 "324/36 "
"10 "3/36 "30/36 "300/36 "
"11 "2/36 "22/36 "242/36 "
"12 "1/36 "12/36 "144/36 "
"Total "36/36 = 1"252/36 = 7" 1.974/36 = "
"(Σ) " " "54,83 "
Portanto, pontos (ao quadrado).
A variância é uma medida de dispersão expressa no quadrado da
variável, o que pode gerar confusão na hora da interpretação. Portanto, é
melhor expressá-la na mesma unidade da variável original, isto é, através
da sua raiz quadrada, cujo resultado corresponde ao desvio padrão, como
segue:
pontos.
Significa que quando dois dados são lançados o número esperado de
pontos é 7, sujeito a uma variação média de mais ou menos 2,4 pontos.
7.3 Variável aleatória contínua
Uma variável aleatória é contínua (vac) quando assume infinitos
valores num dado intervalo (a, b). Para valores fora do intervalo a que se
limita o experimento, a probabilidade é igual a zero.
7.3.1 Função densidade de probabilidade
Aqui a distribuição de probabilidade é definida por uma função f(x),
chamada de função densidade de probabilidade (fdp), que deve satisfazer às
condições abaixo:
a) , ;
b) (toda a área sob a curva de probabilidade, ou curva de
freqüência, definida por f(x) vale um).
c) (probabilidade correspondente à área sob a curva limitada
pelo intervalo compreendido entre x = a e x = b). Este assunto será mais
detalhado adiante, quando do estudo da distribuição normal.
Exercícios
01. Numa caixa estão guardadas 4 bolas brancas e 3 pretas. As bolas pretas
são retiradas uma a uma até esgotar o seu estoque. Sendo x = número de
bolas pretas, calcule:
a) A distribuição de probabilidade. R: 4/35; 18/35; 12/35 e 1/35.
b) A função distribuição F(x). R: 4/35; 22/35; 34/35 e 35/35.
c) O valor esperado e o desvio padrão de x. R: 9/7 e respectivamente.
02. Uma moeda é jogada 3 vezes, sendo x uma v. a. igual ao número de caras,
elabore a distribuição de probabilidade e a sua representação gráfica. R:
1/8, 3/8, 3/8 e 1/8.
03. Se uma moeda é viciada de modo que a ocorrência de cara é duas vezes
mais provável que coroa, determine a distribuição de probabilidade
referente ao número de caras, em 3 lançamentos. R: 1/64, 9/64, 27/64 e
27/64.
04. Três peças são retiradas de um lote onde há 15 perfeitas e 5
defeituosas. Dado que x é o número de peças de defeituosas, defina a
distribuição de probabilidade correspondente, caso as peças sejam:
a) Extraídas com reposição. R: 0,42; 0,42; 0,14 e 0,02.
b) Extraídas sem reposição. R: 273/684; 315/684; 90/684 e 6/684
8
Distribuições Teóricas de Probabilidade
Já foi dito que quando a variável tem comportamento simples é fácil
expor a distribuição de probabilidade através de tabela ou gráfico. Mas
ocorrem situações mais complexas em que é preciso recorrer-se a modelos
para calcular probabilidades associadas aos eventos da variável aleatória.
Para isso existem alguns modelos de distribuição que são utilizados
para estudar o comportamento de muitos fatos reais. Essas distribuições
apresentam particularidades próprias que facilitam a sua identificação. As
distribuições de probabilidade dividem-se em discretas e contínuas. As
discretas descrevem variáveis cujos eventos podem ser contados e
representados por números inteiros. A distribuição binomial e a
distribuição de Poisson são exemplos clássicos de distribuições discretas.
As distribuições contínuas, por seu turno, são modelos que descrevem o
comportamento de variáveis passíveis de medição, isto é, podem assumir
infinitos valores num dado intervalo, a exemplo, entre outras, da
distribuição normal e da distribuição t de Student.
O estudo de distribuições de probabilidade é fundamental em inferência
estatística, pois as suposições sobre propriedades de populações, com base
em dados de amostras, dependem de como se distribui a variável na
população.
8.1. Distribuição binomial
É uma distribuição discreta que se aplica a processos conhecidos como
de Bernoulli, que consistem numa experiência aleatória com apenas duas
possibilidades, denotadas por sucesso ou insucesso, e podem ser colocadas
como perguntas de resposta sim ou não. Por exemplo: Deu cara no lançamento
de uma moeda? Um eleitor votou em determinado candidato? Há peças
defeituosas num lote de peças produzidas em determinado dia? Os termos
sucesso e insucesso devem ser interpretados com cuidado, por exemplo, se a
pergunta se refere a peça defeituosa, então sucesso deve ser entendido como
a ocorrência de peça defeituosa.
Neste aspecto, a utilização da distribuição binomial apóia-se nas
seguintes hipóteses:
a) n tentativas ou provas independentes, a exemplo de sorteios com
reposição (ou sem reposição, desde que a amostra represente uma fatia muito
pequena da população);
b) cada tentativa só admite dois resultados, sucesso ou fracasso.
Sendo que sucesso corresponde ao número de eventos em que se está
interessado. Em casos assim, a variável aleatória apresenta valor igual a 0
(zero) quando ocorre insucesso e 1 (um) quando ocorre sucesso.;
c) a probabilidade de sucesso é p e a de fracasso ou insucesso é
, que são complementares entre si e permanecem constantes durante todo
o processo de observação.
Neste contexto, a probabilidade de k sucessos em n tentativas ou
provas independentes é calculada por intermédio da fórmula:
, para
Nesta fórmula o termo n é o número de provas; k é o número de sucessos
em n provas; é o número de maneiras distintas de se obter k sucessos
em n provas; e é a probabilidade de nenhum sucesso.
A distribuição binomial tem média e variância . As
quantidades n e p são os parâmetros da distribuição, que se representa por
e se lê x tem distribuição binomial de parâmetros n e p.
A fim de contornar eventuais dificuldades com a operação da fórmula da
distribuição binomial, recomenda-se que n não exceda a 30 ocorrências
(n(30).
A distribuição binomial é utilizada para avaliar probabilidades de
eventos relacionados com controle de qualidade, mercado de ações, risco de
apólices de seguro, análise demográfica, vendas, etc.
No entanto, a jogada de uma moeda caracteriza a mais elementar das
distribuições binomiais, pois admite apenas dois resultados possíveis, cara
(c) ou coroa (k), ambos com a mesma probabilidade de . Assim, quando
se joga uma moeda três vezes há uma combinação de resultados possíveis, que
podem ser calculados um a um pela distribuição binomial sem precisar de
enumeração direta, basta que se defina a vad x = número de caras (sucesso),
que deve assumir os valores 0, 1, 2 3. Aqui a probabilidade dos respectivos
eventos, para uma binomial do tipo , ou n = 3 e , é calculada
assim:
a) nenhuma cara, representada pelo evento {kkk}:
;
b) uma cara, cujos eventos são {ckk, kck e kkc}:
;
c) duas caras, cujos eventos são {cck, ckc, kcc}:
;
d) três caras, representadas pelo evento {ccc}:
.
Observe-se que a soma das probabilidades correspondente a estes
eventos é igual a unidade, caracterizando a distribuição de probabilidade
do número de caras no jogo de três moedas.
8.2. Distribuição de Poisson
A variável de interesse na distribuição binomial era o número de
sucessos em n provas independentes, num intervalo discreto. Em Poisson, a
distribuição é discreta e o processo semelhante ao de Bernoulli, mas a
variável aleatória é o número de sucessos observados (não sobrepostos –
independentes) num intervalo contínuo, de tempo ou espaço, tais como:
número de veículos que cruzam um semáforo por minuto; número de defeitos
por metro quadrado (m2) de um piso; número de chamadas por hora para
atendimento de emergência num posto de bombeiros; etc.
A distribuição de Poisson é um caso limite da binomial, quando n tende
para mais infinito () e p tende para zero (). Em problemas
típicos da binomial, consegue-se boa aproximação a partir de valores de n
superior a 30 () e p inferior a 0,05 (), havendo até quem admita
. A utilização da distribuição de Poisson baseia-se nas seguintes
hipóteses:
a) a probabilidade de uma ocorrência é a mesma em todo o campo de
observação;
b) a probabilidade de mais de uma ocorrência num único ponto é
aproximadamente zero;
c) o número de ocorrências em qualquer intervalo é independente do
número de ocorrências em outros intervalos.
Assim, a probabilidade de k sucessos num intervalo de tempo ou espaço
é estimada por intermédio da fórmula:
, para
Tem-se aqui: , que é a média da distribuição; é a base do
logaritmo natural (constante); e é a probabilidade de nenhum sucesso.
A média é o único parâmetro da distribuição de Poisson. Uma
variável aleatória de Poisson é representada pela notação , que se lê
X tem distribuição de Poisson de média .
A média é sempre proporcional ao intervalo de tempo ou espaço
definidos no problema, ou seja, o seu valor deve corresponder ao tamanho do
intervalo apresentado. Assim, para qualquer outro intervalo o valor da
média deve sofrer a correção numérica adequada.
Curiosamente, a variância de Poisson é . Decorre que ,
propriedade que só acontece nesta distribuição, e que facilita a solução de
muitos problemas concretos.
Exemplo 1: O telefone de um restaurante especializado em pizzas recebe
em média três pedidos para entrega em domicilio a cada meia hora. Calcule
as probabilidades de o restaurante: a) não receber nenhum pedido para
entrega em domicilio na próxima meia hora; b) pelo menos um pedido no mesmo
espaço de tempo; c) exatamente 5 pedidos no espaço de uma hora.
Solução: Seja a vad x = número de pedidos para entrega em domicilio
e ( = 3 ( (média de pedidos recebidos a cada meia hora). Logo, .
a) .
b) .
c) A média para o novo intervalo de tempo é de ( = 3(2 = 6 pedidos por
hora.
Assim,
Exemplo 2: Uma firma que transporta garrafões de vinho tem observado
que 0,2% deles sofrem algum tipo de avaria durante a viagem. Calcule a
probabilidade de que se encontre num carregamento de mil garrafões: a)
nenhum com avaria; b) exatamente dois com avaria; c) mais de um com avaria;
d) no máximo dois garrafões avariados.
Solução: A vad é x = garrafões avariados e a sua média é ( =
1.000(0,002) = 2 garrafões com avaria. Veja-se que este problema é do tipo
binomial, porém, como n é maior que 30 e p é menor que 0,05, pode ser
resolvido mediante uma distribuição de Poisson de média 2:
a) .
b) ou 27,06%.
c) .
e) .
8.3. Distribuição normal
Recorde-se que uma variável aleatória é contínua quando os seus
valores decorrem de medida, podendo assumir infinitos valores num
determinado intervalo.
A distribuição de probabilidade desse tipo de variável é definida por
uma função densidade de probabilidade (f.d.p.), com as seguintes
propriedades:
a) ; b) ; c) .
Pois bem, a distribuição normal é a mais importante das distribuições
de probabilidade, por razões teórica e prática, pois muitas variáveis no
mundo real têm comportamento bastante aproximado dessa distribuição. Eis
alguns dos motivos da sua elevada importância em estatística: (a) os seus
resultados são de fácil operação matemática; (b) muitas técnicas
estatísticas pressupõem que os dados têm distribuição normal; (c) embora os
dados de muitas situações reais não sejam rigorosamente normais, a sua
aproximação por essa distribuição dá bons resultados e facilita o
tratamento matemático; (d) a distribuição amostral de muitas estatísticas
tende para a distribuição normal em face do teorema do limite central.
A distribuição normal é contínua, podendo assumir a variável qualquer
valor dentro de um intervalo previamente definido. A distribuição é
descrita por uma curva em forma de sino, cuja f.d.p. é expressa por:
, para .
A média e a variância são os parâmetros da distribuição
normal. A média reporta-se ao centro da distribuição e o desvio padrão ao
espalhamento de curva. Os demais termos da fórmula são as constantes e
(base do logaritmo natural).
Uma v. a. X que segue uma distribuição normal é representada por
, que se lê: x tem distribuição normal de parâmetros e .
A distribuição normal tem forma de sino; é simétrica em relação à
média ; é assintótica em relação ao eixo de x; é unimodal e tem
achatamento proporcional ao desvio padrão ou variância. A sua média, moda e
mediana são iguais, e o ponto de máximo se dá em x = (. Os pontos de
inflexão da curva se dão em , nos pontos em que as retas e
interceptam a curva (vide figura adiante).
A área total limitada pela curva normal e pelo eixo das abscissas é 1
(um) ou 100%. Por sua vez, as áreas sob a curva, limitadas pela distância
entre o desvio padrão e a média, têm os seguintes percentuais:;
e , conforme figura a seguir:
Figura 8.1. Formato da distribuição normal
O cálculo de áreas sob a curva normal é simplificado por meio da
transformação , que origina a distribuição normal padrão, de média
zero e variância unitária, representada por . A função densidade da
normal padrão é , para e as proporções de área sob a curva estão
tabeladas.
Com isso, os afastamentos em torno da média, expressos em desvio
padrão de X, são convertidos em unidades padronizadas z, conforme a figura
abaixo:
Figura 8.2. Formato da distribuição normal padrão
A maioria das tabelas traz as proporções de área de zero até um ponto
positivo de z. Por exemplo, a proporção da área situada entre os pontos de
abscissa 0 e 1 é 0,3413, que, devido à simetria da curva, é a mesma da área
compreendida entre os pontos de abscissa 0 e -1 (vide tabela).
Exemplo: Um órgão de pesquisa conclui que o salário pago pelas
microempresas de certa região segue, de perto, uma distribuição normal de
média R$ 360,00 e desvio padrão de R$ 120,00. Neste caso, calcule a
probabilidade de um assalariado qualquer: a) ganhar entre R$ 360,00 e
480,00; b) ganhar menos de R$ 220,00; c) ganhar mais de R$ 450,00; d)
ganhar entre R$ 460,00 e 520,00; e) ganhar entre R$ 240,00 e 460,00; f)
como se distribuem 95% dos salários em torno da média? g) qual o número
esperado e o desvio padrão de 600 desses trabalhadores que ganham entre R$
360,00 e 480,00?
Solução: O salário é uma variável aleatória X, com distribuição
normal de média R$ 360,00 e desvio padrão R$ 120,00. Transformando X em z,
através de , acha-se na tabela de z as proporções de área sob a curva
correspondentes às faixas de salários que se deseja saber:
a)
b)
c)
d)
e)
f) Eis que a metade da área de 0,95 é 0,475. Entrando-se com este valor na
tabela da distribuição normal obtém-se os escores reduzidos e ,
que permitem determinar os limites x1 e x2 mediante substituição na
fórmula , tal que:
.
Donde se conclui que o intervalo de x em torno da média é
g) trabalhadores.
trabalhadores.
9
TEORIA DA ESTIMAÇÃO
9.1 Introdução
A estimativa de um parâmetro de uma população pode ser feita por ponto
ou por intervalo. A teoria da estimação é a parte da Inferência Estatística
em que se estuda a elaboração de intervalos de confiança com base em
estatísticas amostrais, nos quais se espera, com uma probabilidade
definida, que esteja incluído o verdadeiro valor do parâmetro populacional.
Neste ponto, é de suma importância o conhecimento da distribuição amostral
da estatística eleita como estimador do parâmetro da população.
Eis que em tempos de eleição é comum a divulgação de pesquisas sobre
intenção de votos pelos órgãos de comunicação, informando que o candidato
tal lidera, naquele momento, a corrida eleitoral, de acordo com pesquisa do
instituto tal, e caso as eleições fossem logo realizadas, esse candidato
seria eleito com uma proporção de votos, com uma margem de erro de
tantos por cento (para mais ou para menos), tendo sido a pesquisa realizada
nos últimos dias e que foram entrevistados um número n de eleitores, no
país, ou estado, ou município.
Significa, deste modo, que a proporção encontrada na amostra é
divulgada como uma estimativa da verdadeira proporção p de eleitores
favoráveis a esse candidato, naquele momento, em toda a população
habilitada a votar. Isso demonstra como informações amostrais podem ser
generalizadas para fazer juízo sobre propriedades da população como um
todo. O caminho para se chegar a esse tipo de conclusão, dentre outros,
será comentado mais à frente.
9.2 Estimação por ponto
Na estimação pontual estima-se um único valor do parâmetro
populacional, a partir de dados da amostra. Assim, a média da amostra
e a variância da amostra são estimativas por ponto da média e da
variância da população, respectivamente. E também a proporção
do número de desempregados (x) na amostra (n), relativa a certa categoria
profissional, é uma estimativa por ponto da verdadeira proporção de
desemprego profissional na população.
9.3 Intervalo de confiança ― IC
Intervalo de confiança é uma técnica de estimação que visa estabelecer
um intervalo de valores, centrado numa estatística amostral, no qual se
admite, com um nível de confiança, que esteja incluído o parâmetro da
população. Os extremos do IC são chamados limites de confiança.
A vantagem dessa técnica é que ela confere um grau de precisão à
estimativa, de maneira que se a amplitude do intervalo é pequena, pode-se
depreender que uma alta precisão foi atingida. Assim, quanto menor for a
amplitude de um IC melhor é a informação que ele fornece. Por isso,
interessa obter, tanto quanto possível, intervalos de amplitude mínima para
um dado nível de confiança.
9.3.1 Intervalo de confiança para a média da população ( ― σ conhecido
Se a variável aleatória x tem distribuição normal de média ( e
variância , a variável padronizada é expressa por , que se
identifica por .
Por outro lado, se a distribuição amostral da média segue uma
distribuição normal a variável aleatória terá média ( e variância
, que se denota por E desta forma a variável z passa a ser
ou , pois, como já comentado, .
Para deduzir a fórmula do IC para a média ( basta substituir a
expressão de z no intervalo , a saber:
. Eis que a solução desta expressão em relação a μ é .
Como o desvio padrão da distribuição de é , obtém-se, por
substituição, a seguinte fórmula para estimar o IC para a média
populacional (:
, ou .
= média da amostra;
= média da população;
σ = desvio padrão da população;
= nível de confiança – probabilidade de o IC incluir a
média (;
= nível de significância – probabilidade de o IC
encontrado não incluir a média (;
ou = z crítico, abscissa da distribuição normal
padrão, cujo valor é obtido na tabela da distribuição z, em face
do nível de confiança adotado. Por isso, também é chamado de z
tabelado.
= erro padrão da estimativa ou erro de amostragem (semi-
amplitude do IC).
A configuração gráfica de um IC para a média ( é vista na figura
abaixo:
Figura 9.1 Gráfico de um IC para a média populacional μ
De um modo geral, o erro padrão e reflete a variação aleatória que
ocorre de amostra para amostra numa distribuição amostral de médias.
E ainda mais, o valor do erro padrão depende do nível de confiança
adotado, do tamanho da amostra e da dispersão dos elementos da população,
isto é, do desvio padrão σ ou do seu estimador s, quando σ é desconhecido.
Quando se aumenta o nível de confiança de uma estimativa o valor do
erro padrão também aumenta, para compensar a maior probabilidade de acerto
que se atribui à estimação do parâmetro. Assim, mantendo-se os demais
fatores constantes, um IC de 95% de confiança proporciona um erro padrão e
menor que o de um IC de 99% de confiança.
Outrossim, quando se aumenta o tamanho da amostra n é de se esperar
uma redução no erro padrão equivalente a , uma vez que .
A grandeza do desvio padrão populacional , ou do desvio padrão
amostral s, quando este é usado como estimador do primeiro, influencia o
valor de e, para mais ou para menos, ou seja, quanto maior for a dispersão
verificada na população ou na amostra maior será o valor do erro padrão da
estimativa.
A fórmula para calcular o tamanho mínimo da amostra é obtida isolando
n da fórmula do erro padrão, como demonstrado a seguir:
, ou então, .
Neste particular, n é função do erro padrão e do nível de confiança
.
É relevante dizer que a obtenção do desvio padrão para calcular
o tamanho mínimo de amostras é um problema crucial na teoria da estimação,
e pode ser superado consultando-se pesquisas ou estudos similares, em que
se tenha estimado o "" da variável de interesse.
Em se tratando de estudo pioneiro, em que não há nada escrito sobre o
assunto, a única alternativa é a seleção de uma amostra piloto, que permita
fazer uma estimativa preliminar da medida de dispersão que será utilizada
para calcular em definitivo o tamanho mínimo de amostra adequado.
Exemplo 1: Num censo passado apurou-se que a variação do consumo
domiciliar de energia, em certa cidade, era cerca de 50 kw/mês. Para
estimar o consumo médio atual, coletou-se, aleatoriamente, na lista da
companhia distribuidora, o consumo mensal registrado em 100 domicílios,
obtendo-se, dessa amostra, uma média equivalente a 320 kw/mês. Pretende-se
estimar um IC de 95% para o verdadeiro consumo médio domiciliar mensal de
energia.
Solução: Para achar os valores críticos de z, dado o nível de
confiança de 95%, entra-se na tabela da distribuição normal com a
probabilidade de 0,4750 equivalente à metade de (0,95/2 = 0,4750),
encontrando-se z = 1,96 e, por simetria, z = -1,96 (vide tabela da página
81). A arquitetura do IC em comento é ilustrada no gráfico a seguir:
kw/mês, com 95% de confiança. A estimativa em tela dá um erro
padrão de 9,8 kw/mês.
Pergunta-se qual o tamanho mínimo da amostra necessário para reduzir o
erro padrão de 9,8 para 5 kw/mês, mantendo-se o nível de confiança de 95%?
domicílios.
Em se tratando de população finita (amostragem sem reposição), a
fórmula do intervalo de confiança para μ inclui o fator de correção ,
conforme se verifica a seguir:
.
Neste caso, o erro padrão da estimativa é identificado pela expressão
, da qual se tira a fórmula de n para calcular o tamanho mínimo da
amostra, como demonstrado a seguir:
.
Multiplicando os dois membros desta expressão por , tem-se:
, donde se conclui que:
.
A formula acima pode ser simplificada para: .
Exemplo 2: Um auditor selecionou ao acaso uma amostra de 40 contas a
receber de um total (população) de 500 contas arquivadas num determinado
mês, pelo setor de Contabilidade de uma firma, obtendo, depois de examiná-
las, um saldo médio em aberto de R$ 260,00, devido a erro contábil. O
auditor sabe, por experiência, que em situações parecidas, o valor do
desvio padrão populacional () não excede a R$ 35,00. Então, a
estimativa do saldo médio em aberto () das 500 contas encerradas no
mês, a um nível de confiança de 95%, seria calculada assim:
R$
Note-se que .
Logo, o auditor poderia inferir que o saldo médio em aberto das 500
contas encerradas, em face de erro contábil, seria um valor entre R$ 249,59
e R$ 270,41, com 95% de confiança.
Se o auditor desejasse trabalhar com um erro padrão da estimativa de
R$ 5,00 e nível de confiança de 95%, qual deveria ser o tamanho da amostra?
contas
Vale lembrar que o fator de correção de população finita pode
ser ignorado para n menor que 5% de N ().
É importante destacar que o fator de correção pode ser ignorado
quando n é menor que 5% de N ().
9.3.2 Intervalo de confiança para a média ( ― ( desconhecido
Em não se conhecendo o desvio padrão da população (), utiliza-se
em seu lugar, como estimador, o desvio padrão amostral (s). Esta
aproximação melhora à medida que n cresce, mas não se deve esquecer a
distinção entre pequenas e grandes amostras.
9.3.2.1 Grandes amostras
Quando o tamanho da amostra é maior ou igual a 30 (), em face do
teorema do limite central, pode-se utilizar a distribuição normal para
elaborar o intervalo de confiança para a média populacional (, através da
fórmula:
.
Ou, resumidamente:
A fórmula para calcular o tamanho da amostra, a partir do erro padrão
, é dada pela expressão
Exemplo 1: Seja um fabricante de lâmpadas que para estimar o tempo
médio de duração do seu produto seleciona para ensaio uma amostra aleatória
de 50 unidades, donde obteve duração média de 600 horas e desvio padrão de
25 horas. Estime-se, com 90% de confiança, um IC para o verdadeiro tempo
médio de duração de todas das lâmpadas.
Solução: Para corresponde valores críticos de na tabela
da distribuição normal. E mais, com e s = 25, obtém-se:
594,2 ( ( ( 605,8 hs. A arquitetura do IC é retratada no quadro
abaixo:
Significa que se todas as lâmpadas fossem testadas encontrar-se-ia um
tempo médio de duração entre 594,2 e 605,8 horas, com 90% de confiança.
Caso o fabricante decidisse fixar o erro padrão em 2,5 horas, com os
mesmos 90% de confiança, o número de lâmpadas a ser testado seria de:
lâmpadas.
Em se tratando de população finita (amostragem sem reposição) inclui-
se o fator de correção à fórmula do IC:
.
E o calculo do tamanho da amostra é feito através da fórmula adiante:
.
Exemplo 2: Voltemos ao caso da amostra aleatória de 40 contas a
receber de um lote de 500 contas arquivadas em certo mês, pelo setor de
Contabilidade de uma firma, agora, todavia, supondo que o desvio padrão
populacional é desconhecido. Assim, o auditor obtém na amostra um saldo
médio em aberto de R$ 260,00 e desvio padrão (s) de R$ 42,00 (devido a erro
contábil).
A estimativa do saldo médio em aberto das 500 contas encerradas e
arquivadas no mês, a um nível de confiança de 95%, é calculado da maneira
abaixo:
reais.
Enquanto isso, o tamanho mínimo da amostra admitindo um erro padrão da
estimativa de R$ 5,00 e nível de confiança de 95%, é de:
n = 176 contas.
9.3.2.2 Pequenas amostras ― a distribuição t de Student
Em pequenas amostras (), o desvio padrão amostral s não é um bom
estimador do desvio padrão populacional , porque está sujeito a
flutuações muito grandes de amostra para amostra. Todavia, quando há
certeza de que a população de onde provém a amostra é normalmente
distribuída, o que não é raro, o problema é minimizado pela utilização da
distribuição t de Student no lugar da normal.
Ressalve-se que quando a população é normalmente distribuída e se
conhece , nada impede que se utilize a distribuição normal em pequenas
amostras.
A diferença básica entre a distribuição normal e a distribuição t é
que esta, por ser mais dispersa, tem as extremidades mais alongadas que a
primeira, como se observa na figura abaixo:
Figura 9.2 Formato das distribuições t de Student e normal
Por conseguinte, a fórmula do IC neste caso é:
.
Ou, de modo resumido: .
Onde s é o desvio padrão da amostra e ou é chamado t
crítico, que corresponde à abscissa da distribuição t de Student, cujo
valor se obtém na tabela desta distribuição, em função do nível de
significância ( e de n–1 graus de liberdade (g.l.).
A ilustração gráfica de um intervalo de confiança com a distribuição t
é semelhante ao que foi visto nos casos que envolveram a distribuição
normal, como se verifica na figura adiante:
Figura 9.3 Gráfico de um IC para a média μ com a distribuição t
Enquanto que a fórmula para estimar o tamanho da amostra é .
Exemplo 1: Imagine que o fabricante de lâmpadas, citado no exemplo 1
do subitem 4.3.2, em face de urgência no resultado da pesquisa, decidisse
coletar apenas 16 lâmpadas para teste. Para facilitar, admita-se que ele
tenha apurado a mesma média e o mesmo desvio padrão. Qual seria, então, o
intervalo de confiança de 95% para a duração média das lâmpadas como um
todo?
Solução: Sejam lâmpadas; horas; s = 25 hs. e ( = 0,05.
Entrando-se na tabela da distribuição t com graus de liberdade e
nível de significância (=0,05, encontra-se tc=±2,1315, cuja ilustração se
verifica no gráfico adiante:
Logo, horas, ou horas.
Infere-se que o tempo médio global de duração das lâmpadas seria um
valor entre 586,7 e 613,3 horas, com 95% de confiança.
Caso interessasse reduzir o erro padrão de 13,3 para 8 horas, mantendo
o nível de confiança de 95% para a estimativa da média μ, o número de
lâmpadas que deveria ser testado seria de:
lâmpadas.
Este tamanho de amostra permitiria ao fabricante utilizar sem
problemas a distribuição normal para estimar um novo intervalo de confiança
para a média μ.
No caso de população finita, em que se adota o fator de correção de
população finita, sobretudo para a fórmula do IC fica igual a:
.
Para estimar o tamanho mínimo da amostra utiliza-se a fórmula:
.
Exemplo 2: Uma amostra aleatória de 16 acionistas de uma grande
empresa, dentre os 128 que comparecem a uma assembléia, apresenta idade
média de 52 e desvio padrão de 6 anos, respectivamente. Supondo que a idade
dos acionistas é uma variável aleatória que se distribui normalmente,
construa um intervalo de confiança de 95% para a idade média de todos os
acionistas que freqüentam a assembléia.
Solução: Como n=16 e N=128, tem-se, , sugerindo que se deve
utilizar o fator de correção de população finita. Deve-se, também, utilizar
a distribuição t, com n–1 graus de liberdade, pois σ é desconhecido e n é
menor que 30.
Para e graus de liberdade corresponde o valor na
tabela da distribuição t.
anos.
Portanto, infere-se que a idade média de todos os acionistas que
compareceram à assembléia situa-se entre 49 e 55 anos, com 95% de
confiança, cujo esboço gráfico se encontra abaixo.
Para estimar a idade média geral dos acionistas, com erro máximo de 2
anos e nível de confiança de 95%, o tamanho mínimo da amostra seria de
aproximadamente:
acionistas.
9.3.3 Intervalo de confiança para a proporção populacional p
Há situações em que a variável de interesse só admite dois resultados
possíveis: sucesso ou fracasso, cuja distribuição de probabilidade é do
tipo binomial.
Aqui a probabilidade de sucesso é e a de fracasso . A
proporção de eventos favoráveis na população é e o seu estimador na
amostra é .
Apesar de a distribuição de p ser binomial, ela pode ser aproximada
pela distribuição normal, pois a estimativa de proporções envolve quase
sempre grandes amostras retiradas de populações muito grandes. Eis que a
média e a variância da distribuição binomial são, respectivamente, e
Substituindo estes parâmetros na fórmula de z, da distribuição normal
padrão, eis que surge:
.
Dividindo-se a nova expressão de z por n, tem-se: .
Trocando por , chega-se a: .
Para encontrar a fórmula do IC para estimar a proporção populacional
p, basta substituir a nova expressão de z em , a saber:
, tirando o valor de p, vem:
.
Como os parâmetros p e q de dentro da raiz são desconhecidos, eles são
substituídos pelos seus respectivos estimadores e , resultando
na seguinte fórmula do IC para a proporção p:
.
Ou, resumidamente: , onde:
p = proporção na população, a que se pretende estimar;
= proporção na amostra e é o complemento de ;
= z crítico, como já dito, obtido na tabela da distribuição
normal;
= erro padrão da estimativa ou erro de amostragem.
Quando não se conhecem os parâmetros e , nem os respectivos
estimadores e , utiliza-se a fórmula , em que , pois
se considera 0,5 como valor máximo da proporção p.
A fórmula para calcular o tamanho da amostra para a proporção p é
obtida a partir do quadrado da fórmula do erro padrão, como demonstrado
abaixo.
.
Exemplo 1: Seja o caso de um industrial que considera satisfatório um
percentual de até 6% de peças defeituosas produzidas em sua fábrica de
equipamentos eletrônicos. A inspeção feita numa amostra aleatória de 200
peças revelou que 18 apresentavam defeitos. Estime-se um intervalo de
confiança para a verdadeira proporção de peças defeituosas, com 95% de
confiança.
Solução: n = 200 peças; x = peças defeituosas; (proporção de
peças defeituosas na amostra); (proporção de peças perfeitas na
amostra); (nível de confiança) donde se obtém na tabela da
distribuição normal padrão . Segue-se, então, o IC para a verdadeira
proporção de peças defeituosas:
.
Assim, a verdadeira proporção de peças defeituosas é um valor
compreendido no intervalo acima, com 95% de confiança, que envolve o dito
percentual de 6% de peças defeituosas. O esboço do IC em comento consta no
gráfico a seguir:
Caso interesse diminuir a margem de erro da estimativa de 4% para
2,5%, mantendo-se os 95% de confiança, o tamanho mínimo da amostra deverá
ser de:
peças.
Quando se trata de população finita, a fórmula do IC inclui o fator de
correção e passa a ser:
, onde é o erro padrão da estimativa.
Para calcular o tamanho da amostra, utiliza-se a fórmula em destaque,
obtida algebricamente a partir da expressão do erro padrão, qual seja:
.
Exemplo 2: Seja um levantamento por amostragem levado a cabo junto a
160 indivíduos adultos, na área rural de um pequeno município, onde se
constatou que 56 deles eram analfabetos. O último censo demográfico
assinala que a população adulta da área coberta pela pesquisa é de 1.500
indivíduos. Elabore-se um intervalo de confiança de 95% para a proporção
geral de analfabetos.
Solução: n = 160 (tamanho da amostra); N = 1.500 (tamanho da
população); x = 56 (n° de analfabetos); (proporção de analfabetos na
amostra);
(proporção de alfabetizados na amostra);
nível de confiança, mediante o qual se encontra na tabela
da distribuição normal padrão.
Sendo , é necessário adotar o fator de correção de população
finita para estimar a proporção populacional p, como se vê a seguir:
de analfabetos.
Verifica-se que a verdadeira proporção de analfabetos na área
pesquisada se situa entre 28% e 42%, com 95% de confiança, isto é, 35% com
margem de erro de 7%.
Por exemplo, o tamanho mínimo de amostra para estimar a verdadeira
proporção de analfabetos na mesma área, com erro máximo de 4% e nível de
confiança de 95%, seria:
n = 401 indivíduos.
10
TEORIA DA DECISÃO
10.1 Definição
Na teoria da decisão, que ao lado da teoria da estimação é outra
importante vertente da Inferência Estatística, estudam-se os testes de
hipóteses, que são procedimentos destinados a verificar se é
verdadeira ou falsa a suposição que se estabelece acerca do valor do
parâmetro populacional, com nível máximo de confiança (probabilidade
de aceitar a hipótese submetida a teste). E o fato de aceitar ou não
uma hipótese estatística implica sempre em tomar uma decisão.
Seja determinado processo de fabricação, em que o controle de
qualidade considera normal o funcionamento de um equipamento quando a
proporção de itens defeituosos se acerca de 5%. Esta é uma proporção
que vale para todo o universo, mas que deve ser confrontada,
periodicamente, com a proporção decorrente de amostras retiradas da
linha de produção, para verificação da conformidade do processo.
Ainda mais que o percentual de 5%, com o tempo, deverá ser atualizado
tendo em vista o natural desgaste do equipamento no caminho da
absolescência. Neste caso, seria interessante o controle de qualidade
formular e confrontar as hipóteses a seguir:
(agá índice zero): O equipamento está operando normalmente.
(agá índice um): O equipamento não está operando
normalmente.
A decisão de aceitar ou não a hipótese inicial seria determinada por
uma estatística teste que avaliasse a significância de eventuais diferenças
entre proporções obtidas por amostragem e a proporção de 5% fixada pelo
controle de qualidade. Caso o teste revelasse pouca significância para
essas diferenças, a hipótese inicial seria aceita. Este procedimento será
detalhado mais adiante.
10.2 Teste de hipóteses
Os testes de hipóteses são utilizados quando existe alguma suposição
quanto ao valor de algum parâmetro da população e se pretende testar a sua
consistência, a partir de evidências observadas na amostra. Neste sentido,
o objeto de estudo é confirmar a veracidade estatística de algumas
hipóteses a respeito de parâmetros da população visando tomada de decisões.
Um teste de hipóteses compõe-se da hipótese nula (), que
corresponde àquela que se deseja provar, e da hipótese alternativa (),
que se contrapõe a , ou seja, aquela que é aceita quando esta é
rejeitada. é chamada de hipótese nula porque estabelece que é nula a
diferença entre valor real e valor suposto para o parâmetro populacional.
10.3 Risco de erros em testes de hipóteses
Quando uma hipótese é aceita há sempre o risco de ocorrer dois tipos
de erro: o erro tipo i, que consiste em rejeitar a hipótese nula
quando ela é verdadeira; ou o erro tipo ii, que consiste em aceitar a
hipótese quando ela é falsa. A probabilidade do erro tipo I, que é o
mais importante, é igual ao nível de significância ( (alfa) e a do erro
tipo II é ( (beta). A descrição dessas possibilidades de erro consta do
quadro abaixo:
"Quadro 10.1 – Risco de erro num teste "
"de hipótese "
" Decisão "Hipótese nula () "
" "Verdadeira "Falsa "
"Aceita "correto "erro tipo ii "
"Rejeita "erro tipo i "correto "
O erro tipo I, ou erro alfa, corresponde ao nível de significância do
teste. Daí a sua maior importância técnica e de controle bem mais fácil que
o do erro tipo II.
Enquanto que o erro tipo II, ou erro beta, menos importante,
compreende a quantidade da distribuição amostral, baseada no verdadeiro
parâmetro da população, que intercepta a região de aceitação de , o
que é demonstrado através da elaboração da chamada curva característica de
operação (CCO), assunto que não será abordado neste texto.
10.4 Teste para a média populacional µ – teste z
Quando o desvio padrão populacional σ é conhecido o teste para a média
μ é feito com a distribuição normal, qualquer que seja o tamanho da
amostra. O teste Z é ainda utilizado quando σ é desconhecido e a amostra é
maior ou igual a trinta ().
a) Formulação do teste
Os testes de hipótese são do tipo bilateral (bicaudal) ou unilateral
(unicaudal). No primeiro, testa-se a hipótese de igualdade ou diferença a
média populacional e o valor suposto . No segundo, testa-se a
hipótese de desigualdade, para mais ou para menos, entre e . O
modo de formular e decidir sobre um teste de hipóteses para a média μ
resume-se no quadro abaixo:
"Quadro 10.2 – Decisão num teste z para a média "
"populacional μ "
"Tipo de teste "Hipótese "Decisão "
" "Nula "Alternati"Aceita-se "
" " "va " "
"Bicaudal " : µ " : µ"se -zc ( "
" "= µo "( µo "zo ( zc "
"Unicaudal à " : µ " : µ"se zo < zc"
"direita "= µo "> µo " "
"Unicaudal à " : µ " : µ"se zo > "
"esquerda "= µo "< µo "-zc "
A estatística vista no quadro acima é chamada de z observado e é
calculada com base em estatísticas amostrais. Enquanto que é o chamado
z crítico, que delimita a área de aceitação do teste e é obtido na tabela
da distribuição normal, em face do nível de confiança .
Eis que a hipótese nula estabelece uma igualdade entre a média
populacional μ e a média suposta (diferença nula), enquanto que a
hipótese alternativa é sempre de desigualdade. O gráfico de uma curva
normal para realização de um teste bicaudal tem o formato visto na figura
abaixo:
Figura 10.1 Formato de um teste z bicaudal para a média μ
A probabilidade de aceitar é , e a de rejeitá-la é .
Em testes bicaudais ou bilaterais, a probabilidade fica repartida em
duas partes iguais , correspondendo às duas áreas demarcadas nas
extremidades da curva normal, em destaque na figura anterior. Aceita-se
, com nível de confiança , se a estatística teste zo (z
observado) cair entre -zc e zc.
No teste unicaudal à esquerda, a probabilidade de aceitação de é
. E a probabilidade de rejeição é (, representada pela área sob a
curva localizada na extremidade esquerda, como se vê na figura a seguir:
Figura 10.2 Formato de um teste z unicaudal à esquerda para a média μ
Aqui, aceita-se , com nível de confiança , quando .
No teste unicaudal à direita, a probabilidade ( de rejeição de é
dada pela área sob a curva situada na extremidade direita, como ilustra a
figura abaixo:
Figura 10.3 Formato de um teste z unicaudal à direita para a média μ
Enfim, aceita-se , com nível de confiança , quando .
b) Estatística do teste
A estatística de um teste mede a discrepância existente entre a
estatística amostral e o parâmetro populacional a ser testado. Neste caso,
como é conhecido, tem-se:
, eis que .
No caso, a estatística , chamada z observado, mede o afastamento,
em unidades normais padronizadas, entre a média amostral () e a média
populacional ().
Exemplo 1: Foi apurado, em dados de um censo, que a variação do
consumo domiciliar de energia, em certa cidade, era de 50 kw/mês () e
que o consumo médio atual na cidade beira a casa dos 350 kw/mês. Uma
amostra aleatória de 100 consumidores deu uma média amostral de 320 kw/mês.
Teste-se a hipótese de que o consumo médio de energia é de 350 kw/mês, com
95% de confiança.
Solução: kw/mês; n = 100; kw/mês e .
Formulação do teste: kw/mês ( kw/mês.
Estatística do teste:
Para um nível de confiança de 0,95 tem-se um valor modular de zc =
(1,96, na tabela da distribuição normal. Como zo = -6 está fora do
intervalo [-1,96; 1,96], rejeita-se , com 95% de confiança, não
havendo evidência estatística de que o verdadeiro consumo médio domiciliar
de energia seja de 350 kw/mês, conforme esboço no gráfico abaixo.
Nota-se, no caso presente, uma discrepância muito grande entre a média
amostral e a média suposta para a população como um todo.
Chega-se à mesma conclusão calculando-se limites críticos para a média
amostral, em operação similar à de elaboração de intervalos de confiança,
mediante a fórmula:
O símbolo é o valor crítico da média amostral e é a média
populacional suposta. Neste caso, aceita-se quando o valor da média
amostral cair no intervalo limitado pelos valores críticos de . Segue-
se, então, o teste para a média μ com os dados do exemplo anterior:
Formulação: kw/mês ( kw/mês.
Valores críticos de :
, resultando 340,2 (( 359,8 kw/mês.
Como na solução anterior, a hipótese nula () é igualmente
rejeitada, pois a média da amostra de 320 kw/mês não se encaixa no
intervalo acima, como se depreende no gráfico adiante.
Exemplo 2: Aproveitando os dados do exemplo anterior, teste-se a
hipótese de o consumo médio de energia ser inferior a 350 kw/mês, com nível
de confiança de 95%:
Formulação: kw/mês ( kw/mês.
Estatística do teste: zo = -6 (a mesma do exemplo 1).
Para um nível de confiança de 0,95 e sendo o teste unilateral, pega-se
na tabela da distribuição normal o valor zc = -1,64. Como este valor é
superior ao de zo = -6, rejeita-se , havendo indícios de que o consumo
médio de energia na cidade é de fato inferior a 350 kw/mês (vide gráfico
abaixo).
A hipótese nula é igualmente rejeitada quando se calcula um
valor crítico para a média amostral , como segue:
Formulação: kw/mês ( kw/mês
Valor crítico de :
kw/mês.
Rejeita-se , pois a média amostral de 320 é menor que 341,8
kw/mês. Aceitar-se-ia para valores de kw/mês, como ilustra o
gráfico adiante:
Quando o tamanho da amostra é ne o desvio padrão populacional
é desconhecido, este é trocado pelo desvio padrão amostral s, que é o
seu estimador na amostra, e a estatística do teste é expressa pela fórmula
abaixo:
.
Exemplo 3: De uma amostra aleatória representando a remuneração mensal
de 36 comerciários (salário e comissão) de uma cidade média, obteve-se
média e desvio padrão de R$ 329,53 e R$ 44,83, respectivamente. Teste-se,
com 90% de confiança, se essa média atende a suposição de que o ganho médio
geral da categoria é de R$ 325,00.
Solução: n = 36; ; ; . Os valores críticos de z são
iguais a ±1,64, para o nível de confiança de 90%. O valor de
corresponde à probabilidade de 0,4500 (0,90/2=0,4500), na tabela da
distribuição normal.
Formulação:
Estatística do teste: .
Como dá para ver no gráfico acima, aceita-se com 90% de
confiança, pois está compreendido entre ±1,64, intervalo que delimita
a área de aceitação do teste, denotando que a remuneração média mensal
geral dos comerciários pode ser de cerca de R$ 325,00.
10.5 Teste para a média populacional µ – teste t de Student
Quando o desvio padrão é desconhecido e o tamanho da amostra n é
pequeno (), mas n é proveniente de uma população normalmente
distribuída, a distribuição t substitui a normal na realização do teste, e
daí a denominação de teste t para a média populacional.
Isso acontece porque o desvio padrão da amostra (s) não é um bom
estimador do desvio padrão da população (). A distribuição t de
Student é mais alongada nas extremidades do que a distribuição normal, por
refletir a maior dispersão verificada sempre em distribuições de pequenas
amostras.
a) Formulação do teste
Neste caso, a formalização e a decisão inerentes ao teste seguem o
mesmo ritual dos casos anteriores, cujo resumo se encontra no quadro
seguinte:
"Quadro 10.3 – Decisão num teste t para a média "
"populacional μ "
"Tipo de teste "Hipótese "Decisão "
" "Nula "Alternati"Aceita-se "
" " "va "Ho "
"Bicaudal " : µ " : µ"se -tc ( "
" "= µo "( µo "to ( tc "
"Unicaudal à " : µ ": µ "se to < tc"
"direita "= µo "> µo " "
"Unicaudal à " : µ " : µ"se to > "
"esquerda "= µo "< µo "-tc "
Segue-se a representação gráfica da distribuição t para um teste
bicaudal:
Figura 10.4 Formato de um teste t bicaudal para a média μ
Neste caso, aceita-se , com de confiança, se to cair entre
-tc e tc.
Em testes unilaterais toda a área de rejeição ( se localiza numa das
extremidades da curva (direita ou esquerda), como já detalhado no caso da
distribuição normal (vide figuras 10.2 e 10.3).
b) Estatística do teste: .
Nesta fórmula s é o desvio padrão da amostra e to é chamado de t
observado, que mede o desvio existente entre média amostral e média da
população. Caso se opte pela fixação de limites críticos para a média
amostral , o teste poderá ser feito através da fórmula:
.
Neste sentido, rejeita-se quando a média da amostra exceder aos
valores críticos .
Exemplo: Uma máquina é regulada para envasar margarina em potes de 500
gramas. Sabe-se que a distribuição do peso líquido dos potes é quase
normal. Iniciada a produção, foi recolhida uma amostra de 12 potes,
revelando peso líquido médio de 501,5 gramas e desvio padrão de 10 gramas.
Ao nível de confiança de 95%, pode-se aceitar que a máquina está operando
satisfatoriamente?
Solução: n = 12; ; s = 10 gramas; 1–( = 0,95 (( = 0,05) e
n–1=11.
Formulação: gramas gramas.
Estatística para o teste:
O valor de tc para 11 graus de liberdade e nível de significância de
0,05 é encontrado na tabela da distribuição t de Student, e equivale a
2,2010.
Como se vê no gráfico acima, o valor to = 0,52 está compreendido no
intervalo (2,2010, que delimita a área de aceitação do teste. Então, aceita-
se com 95% de confiança, havendo forte evidência de que a máquina
fora regulada satisfatoriamente.
Ressalte-se, ainda, que o teste pode ser feito da seguinte maneira:
Formulação: gramas gramas.
Valores críticos da média:
,
que resulta em gramas.
Como a média gramas se situa no intervalo acima, aceita-se
com 95% de confiança, conforme se depreende também no gráfico a seguir:
10.6 Teste para a proporção populacional p
a) Formulação do teste
O modo de formalizar e decidir sobre os testes de hipótese para
proporção segue o mesmo raciocínio até aqui desenvolvido, conforme resumo
do quadro 18:
"Quadro 10.5 – Decisão num teste z para a "
"proporção populacional p "
"Tipo de teste "Hipótese "Decisão "
" "Nula "Alternativ"Aceita-se Ho"
" " "a " "
"Bicaudal ": p " : p"se -zc ( zo"
" "= po "( po "( zc "
"Unicaudal à " : p" "se zo < zc "
"direita "= po " " "
"Unicaudal à " : p" : p"se zo > -zc"
"esquerda "= po "< po " "
Os três tipos de testes anotados no quadro acima têm perfil gráfico
igual aos do subitem 10.4, quando se utilizou a distribuição normal para
testar a média μ (vide figuras 10.1, 10.2 e 10.3).
b) Estatística do teste:
Como já esclarecido, é o z observado; é a proporção na
amostra; p é a proporção hipotética na população; e é o complemento
de p.
Exemplo 1: Um industrial considera satisfatório se a proporção de
peças produzidas na sua indústria for da ordem de 5%. A inspeção feita numa
amostra aleatória de 200 peças constatou uma proporção de 6% de
defeituosas. Pode-se admitir que a verdadeira proporção de peças
defeituosas é realmente de 5%, com 95% de confiança, como admite o
fabricante?
Formulação: H0 : p = 0,05 contra H1 : p ( 0,05.
Estatística do teste: .
Para o grau de confiança de 95%, correspondem valores críticos de z
nos valores de ±1,96, na tabela da normal. O esboço do teste se vê no
gráfico abaixo:
Aqui, aceita-se , pois 0,65 pertence ao intervalo ±1,96, que
delimita a área de aceitação de . Portanto, há forte evidência de que
a proporção equivalente a 5% de peças defeituosas é verdadeira, ao nível de
95% de confiança.
Exemplo 2: Utilizando as mesmas informações do exemplo 1, pode-se
aceitar a hipótese de que a real proporção de peças defeituosas é superior
a 7%?
Formulação: H0 : p = 0,07 ( H1 : p > 0,07.
Cálculo da estatística zo: .
O valor de z crítico para 95% de confiança, num teste unilateral, é
, que permite aceitar , pois -0,55 < 1,64. Significa que a
verdadeira proporção de peças defeituosas não é superior a 7%, ao nível de
confiança adotado, cujo desenho se observa no gráfico adiante.
10.7 O Teste do p–valor
Nesse caso, a veracidade da hipótese é confirmada pela estatística
teste chamada de p–valor ou valor–p. Com esse teste chega-se à mesma coisa
de maneira diferente, ou seja, o seu resultado consiste em aceitar ou
rejeitar a hipótese nula , como num teste de hipóteses tradicional.
A rejeição da hipótese nula () ocorre quando o p–valor do teste é
menor que o valor escolhido de (, que é o nível de significância do teste
().
Deste modo, quanto menor é o p–valor encontrado, menor é a
probabilidade de a hipótese nula ser verdadeira. E o resultado do teste é
obtido por meio de comparação entre o p–valor e o nível de significância
adotado, sem a necessidade de estabelecer hipótese alternativa nem valores
críticos, como acontece no processo tradicional. Aí consiste a grande
vantagem da técnica em comento.
O teste do p–valor dá resultado igual ao do método tradicional. A
dificuldade prática de se trabalhar com o p–valor, se a distribuição é
distinta da normal, se encontra praticamente superada em face dos
aplicativos disponíveis em computador, a exemplo da planilha Excel, dentre
outros.
O p–valor corresponde a um nível de significância observado, em que a
comparação é feita com o nível de significância arbitrado , para obter
o resultado do teste. Destarte, quando o p–valor é menor que (, rejeita-se
, do contrário, aceita-se a hipótese nula. Em testes com a
distribuição normal o p–valor é calculado da seguinte maneira:
Para teste unicaudal:
a) , quando é menor que (a média amostral é menor que
o valor suposto para a média populacional);
b) , quando é maior que .
Para teste bicaudal:
a) , quando é menor que ;
b) , quando é maior que .
Exemplo: Voltemos ao caso do consumo domiciliar de energia em certa
cidade, cuja variação histórica é de 50 kw/mês. Julgando que atualmente
consumo médio mensal seja de cerca de 350 kw/mês, coletou-se uma amostra
aleatória junto a 100 consumidores, obtendo-se consumo médio de 320 kw/mês.
Teste a hipótese de o consumo médio de energia ser de 350 kw/mês, com 95%
de confiança.
Solução: kw/mês; n = 100; kw/mês; , donde.
Hipótese nula: kw/mês (teste bicaudal).
Cálculo da estatística zo: (como visto antes).
Cálculo do p–valor para teste bicaudal:
.
Como 0,0002<0,05 (), rejeita-se , não havendo evidência
estatística de que o consumo médio de energia na cidade seja de 350 kw/mês.
Nota-se que a mesma conclusão foi conseguida pelo critério tradicional,
para e .
Vale relembrar, por fim, que quanto menor é o valor numérico do
p–valor maior é a evidência contra a aceitação de .
11
Correlação e Regressão Simples
No mundo real é fácil de encontrar relações de interdependência entre
duas ou mais variáveis aleatórias. A própria atividade humana em toda a sua
plenitude é um corpo complexo de fatos e ações entrelaçados entre si, que
produz uma grande diversidade de relações de causa e efeito, que precisam
ser analisadas, compreendidas e controladas. Sem isso é absolutamente
impossível pensar-se em planejamento público ou privado. Neste contexto, o
planejamento utiliza-se de técnicas de tratamento e análise de dados, que
facilitam a tomada de decisões, uma vez que fornecem subsídios
indispensáveis à formulação, implementação e avaliação de ações políticas,
mensurando o seu impacto sobre setores de educação, saúde, emprego, renda,
bem estar social e comércio de uma ampla e variada gama de bens e serviços
que a sociedade moderna exige. Assim, constantemente são estabelecidos
cruzamentos de informações, e pesquisadas as correlações e relações
funcionais existentes, a fim de avaliar e controlar efeitos decorrentes de
variáveis que interagem entre si, a exemplo de: consumo e renda; peso e
altura de um grupo de pessoas; gasto com propaganda e volume de vendas;
preço e demanda de um produto; custo total e quantidade de insumos
necessários para produzir um bem; taxa de juros e níveis de investimento e
emprego; intensidade de chuvas e volume de safras agrícolas, dentre
inúmeras outras relações importantes.
A dependência funcional entre variáveis aleatórias é estudada por meio
de duas técnicas mutuamente relacionadas chamadas de correlação e de
regressão. A análise de correlação é utilizada para avaliar o grau de
relacionamento entre duas ou mais variáveis. E a análise de regressão é
utilizada para estudar esse mesmo relacionamento mediante o ajustamento de
uma curva ou função matemática adequadamente escolhida, que pode ser de
natureza linear, polinomial, exponencial, etc. A determinação de uma função
que se ajusta a um conjunto de pontos do plano é chamada técnica de
ajustamento.
Um problema crucial nessa área de estudo é o da identificação da
relação funcional que descreve o comportamento dos dados empíricos, ou
seja, definir a tendência dos valores observados.
Quando a relação é entre duas variáveis, a tendência dos dados é
facilmente identificada por meio do gráfico conhecido como diagrama de
dispersão, em que os pares de valores são representados no plano,
possibilitando definir a função que se ajusta à relação. Porém, se a
relação envolver mais de duas variáveis, pela dificuldade de representação
no plano, a aderência da função aos dados é avaliada por estatísticas que
permitem testar a eficiência do ajustamento da função aos valores da
amostra que representa a relação. É um procedimento mais científico que
utiliza inferência estatística (análise de variância, testes de
significância, etc). Neste caso, o coeficiente de correlação e o
coeficiente de determinação são indicadores eficientes da qualidade do
ajustamento.
2 Correlação linear simples
Serve para avaliar o grau de relação linear entre duas variáveis,
através de um índice conhecido como coeficiente de correlação. Na população
esse coeficiente é representado pela letra grega ρ (rô) e na amostra pelo
letra latina r (erre). Assim, o coeficiente r é um estimador de ρ na
amostra. A vantagem do coeficiente de correlação é que não é afetado pela
medida das variáveis envolvidas na relação, pois o seu valor é um número
adimensional, de fácil interpretação, que varia no intervalo de -1 a 1
().
Não há correlação linear quando o coeficiente r é igual a zero. Quando
todos os pontos observados coincidem com a linha reta, tal que r = 1 ou r =
-1, a correlação é perfeita, positiva ou negativa, respectivamente, a
depender da variação do sinal. O sinal de r indica o sentido da correlação,
ou seja, se é negativo há relação inversa entre as variáveis, denotando que
a variação numa delas causa efeito contrário em outra. Se r é positivo há
relação direta entre as variáveis, de forma que a variação de uma provoca
efeito no mesmo sentido em outra, como ilustram os gráficos a seguir.
Figura 11.1
Na prática procura-se maximizar o valor do coeficiente de correlação,
selecionando amostras que proporcionem coeficientes o mais próximo possível
de . Alguns autores costumam estabelecer intervalos a fim de facilitar
a interpretação do coeficiente de correlação. Mas essa regra não é rígida,
pois varia de autor para autor, entre elas, eis um dos exemplos abaixo:
a) se 0 < " r " ( 0,30 a correlação é muito fraca ou desprezível, pelo
que praticamente nada se pode concluir sobre a relação;
b) se 0,30 < " r " ( 0,60 a correlação é relativamente fraca, isto é,
a relação entre as variáveis não é muito expressiva;
c) se 0,60 < " r " ( 0,99 a correlação é significativa, isto é, a
relação entre as variáveis é forte.
A fórmula básica para estimar o coeficiente de correlação linear entre
x e y é:
O símbolo cov(x, y) significa covariância entre as variáveis
aleatórias x e y; var(x) é a variância da variável aleatória x; e var(y) é
a variância da variável aleatória y.
Exemplo: Um órgão de pesquisa coletou os seguintes dados sobre consumo
e renda de uma região (em bilhões de unidades monetárias constantes), a fim
de avaliar a correlação linear entre tais variáveis, conforme quadro a
seguir:
"Quadro 11.1 - Amostra sobre Consumo e Renda Anual - "
"Correlação linear simples pelo método dos desvios em torno"
"da média "
"Ano "Renda "Consumo "x – 4"(x – "y – "(y – "(x – 4)(y"
" "(x) "(y) " "4)² "3 "3)² "– 3) "
"1999"3,2 "2,1 "-0,8 "0,64 "-0,9"0,81 "0,72 "
"2000"3,5 "2,4 "-0,5 "0,25 "-0,6"0,36 "0,30 "
"2001"3,7 "2,7 "-0,3 "0,09 "-0,3"0,09 "0,09 "
"2002"4,0 "3,1 "0,0 "0,00 "0,1 "0,01 "0,00 "
"2003"4,2 "3,3 "0,2 "0,04 "0,3 "0,09 "0,06 "
"2004"4,5 "3,5 "0,5 "0,25 "0,5 "0,25 "0,25 "
"2005"4,9 "3,9 "0,9 "0,81 "0,9 "0,81 "0,81 "
"Tota"28,0 "21,0 "0,0 "2,08 "0,0 "2,42 "2,23 "
"l " " " " " " " "
Cálculo das médias: e . Então, com base nas somas obtidas
no quadro acima, segue-se o valor do coeficiente de correlação referente ao
caso em estudo:
O valor de r indica que existe uma forte relação linear entre o
consumo e a renda.
Existem outras fórmulas mais simples de operar, desenvolvidas a
partir da fórmula original vista acima, como a que se apresenta a seguir:
Então, o mesmo valor da estimativa de r para a relação entre o
consumo e a renda, de modo direto, sem precisar calcular os desvios de cada
valor da variável em torno da sua média, é obtido a partir dos somatórios
elaborados no quadro adiante:
"Quadro 11.2 – Cálculo do coeficiente de correlação"
"linear pelo método direto "
"Ano "Renda "Consumo "xy "x² "y² "
" "(x) "(y) " " " "
"1999"3,2 "2,1 "6,72 "10,24 "4,41 "
"2000"3,5 "2,4 "8,40 "12,25 "5,76 "
"2001"3,7 "2,7 "9,99 "13,69 "7,29 "
"2002"4,0 "3,1 "12,40 "16,00 "9,61 "
"2003"4,2 "3,3 "13,86 "17,64 "10,89 "
"2004"4,5 "3,5 "15,75 "20,25 "12,25 "
"2005"4,9 "3,9 "19,11 "24,01 "15,21 "
"Tota"28,0 "21,0 "86,23 "114,08 "65,42 "
"l " " " " " "
Cabe advertir que um índice de correlação elevado não implica
necessariamente em relação de dependência entre duas variáveis, pois a
relação entre as mesmas pode ser decorrente de mera casualidade - e não de
causalidade.
11.2 Regressão linear simples
Supõe-se que o relacionamento entre duas variáveis segue uma
tendência linear, que pode ser estudada através do modelo , para a
população como um todo.
Eis que na equação acima: y é a variável dependente; x é a variável
independente; os coeficientes e são parâmetros relativos uma
característica da população; e o símbolo é o erro aleatório – aquele
que não é explicado pelo modelo adotado para estudar a relação entre x e y.
Se a relação é proveniente de uma amostra, como é mais freqüente, a
regressão é representada pela equação da reta . Esta equação é uma
estimativa do modelo teórico acima, em que os coeficientes "a" e "b" são
estimadores dos parâmetros e .
A equação da reta indica que se há regressão linear de y sobre x, as
variações absolutas em x provocam variações absolutas em y.
Como já dito, um jeito prático de identificar a tendência de uma
relação é através do diagrama de dispersão, em que os valores de y figuram
em ordenada e os de x em abscissa, formando cada par de valores e
um ponto no plano. Se a amostra for grande é possível verificar se a
equação da reta é a melhor opção de ajustamento à nuvem de pontos
distribuídos no plano.
O diagrama a seguir mostra uma situação em que a nuvem de pontos,
apesar dos afastamentos, segue uma tendência linear:
Figura 11.2
11.2.1 O Método de mínimos quadrados
É um método utilizado para estimar os coeficientes da reta, mediante
minimização da soma dos quadrados dos desvios entre valores observados (y)
e valores estimados pela reta (), por meio da equação , onde a
diferença simboliza o erro aleatório (não explicado pela regressão).
A minimização de gera um sistema de equações normais para
calcular os coeficientes da reta , conforme instruções abaixo:
Em primeiro lugar, troca-se por na expressão, tal
que:
.
Em segundo, deriva-se parcialmente em relação aos coeficientes
"a" e "b":
Em terceiro, igualando-se as derivadas parciais a zero, observando as
propriedades dos somatórios e arrumando os termos, chega-se ao sistema de
equações normais que minimiza , pois a segunda derivada do quadrado do
erro é também positiva:
(i)
(ii)
Este sistema tem a seguinte solução para os coeficientes a e b:
e
Exemplo: Seja a relação entre consumo e renda, constante do quadro
11.2.1, cujo coeficiente de correlação igual a 0,994 sugere uma forte
relação linear entre essas duas variáveis, indicando que o ajustamento da
reta amolda-se bem à série histórica. Os somatórios apurados naquele
quadro permitem determinar os valores dos coeficientes da equação da reta
do seguinte modo:
Afinal, a reta de regressão do consumo sobre a renda é .
A equação estimada sugere que quando a renda (x) aumenta de um bilhão
de unidades monetárias, o consumo (y) sofre um acréscimo médio de 1,07
bilhão de unidades monetárias.
Caso as autoridades projetassem um nível de renda anual de cinco
bilhões de unidades monetárias para a região em 2006, a estimativa do
consumo no referido ano seria:
bilhões.
O sistema de equações normais pode ser reduzido mediante a
transformação .
Como o somatório dos desvios em torno da média é igual a zero, ,
o sistema de equações é simplificado para:
(i)
(ii)
Agora, os coeficientes da reta de regressão vão ser estimados através
do sistema reduzido (centrado na média), com base nos somatórios elaborados
no quadro seguinte:
"Quadro 11.3 – Amostra sobre Consumo e Renda "
"Anual – Regressão linear simples – Sistema "
"reduzido "
"Ano "Renda "Consumo " " " "
" "(x) "(y) " " " "
"1999"3,2 "2,1 "-0,8 "0,64 "-1,68 "
"2000"3,5 "2,4 "-0,5 "0,25 "-1,20 "
"2001"3,7 "2,7 "-0,3 "0,09 "-0,81 "
"2002"4,0 "3,1 "0,0 "0,00 "0,00 "
"2003"4,2 "3,3 "0,2 "0,04 "0,66 "
"2004"4,5 "3,5 "0,5 "0,25 "1,75 "
"2005"4,9 "3,9 "0,9 "0,81 "3,51 "
"Tota"28,0 "21,0 "0,0 "2,08 "2,33 "
"l " " " " " "
Assim, a equação da reta centrada na média de x é . Para
recuperar os valores originais de x, basta apenas trocar por na
equação de como segue:
.
11.2.2 Coeficiente de explicação
É uma medida da qualidade do ajustamento da função aos dados. É
também conhecido como coeficiente de determinação e é simbolizado por
. Representa a variação total da variável y (dependente) que é
explicada pela variável x (dependente), através do modelo de regressão.
O coeficiente varia entre 0 e 1, ou seja, . Se , o
modelo de regressão nada explica sobre a relação entre as variáveis x e y.
Se , o poder de explicação é de 100%, indicando que há um
relacionamento perfeito entre x e y, tal que todos os valores observados
estão sobre a reta ou curva. O poder de explicação de diminui à
medida que o seu valor se afasta da unidade.
Calcula-se através da relação entre a variação explicada (VE) e
a variação total (VT), ou ainda por intermédio da relação complementar, na
qual a relação entre a variação residual (VR) e a total (VT) é subtraída da
unidade, como ilustram as fórmulas seguintes:
ou , que vale para qualquer tipo ajustamento, inclusive
de funções não lineares.
Exemplo: Eis o cálculo de r2 para a relação consumo e renda, com base
nas somas do quadro abaixo.
"Quadro 11.4 - Consumo e Renda Anual - Cálculo do coeficiente"
"de explicação "
"Ano "Renda "Consumo "y-3 "(y-3)²" "(y "(y "
" "(x) "(y) " " " "-"-)"
" " " " " " ") "2 "
"1993 "3,2 "2,1 "-0,9 "0,81 "2,14 "-0,04 "0,0016 "
"1994 "3,5 "2,4 "-0,6 "0,36 "2,46 "-0,06 "0,0036 "
"1995 "3,7 "2,7 "-0,3 "0,09 "2,68 "0,02 "0,0004 "
"1996 "4,0 "3,1 "0,1 "0,01 "3,00 "0,10 "0,0100 "
"1997 "4,2 "3,3 "0,3 "0,09 "3,21 "0,09 "0,0081 "
"1998 "4,5 "3,5 "0,5 "0,25 "3,54 "-0,04 "0,0016 "
"1999 "4,9 "3,9 "0,9 "0,81 "3,96 "-0,06 "0,0036 "
"Total"28,0 "21,0 " "2,42 "21,00 " "0,0289 "
O resultado acima informa que 98,8% da variação do consumo é
explicada pela variação da renda, ou seja, a regressão linear tem um alto
poder de explicação sobre a variação da relação consumo/renda.
Vale ressaltar que a raiz quadrada de é uma estimativa do
coeficiente de correlação r, ou vice-versa, senão vejamos:
ANEXOS
Tabela I – Distribuição normal padronizada
O valor de cada casa da tabela indica a proporção da área total sob a
curva normal entre z = 0 e um valor positivo de z. As áreas para os
valores negativos de z são conseguidas por simetria. Por exemplo, a
área sob a curva entre z = 0 e z = 1 corresponde a 0,3413, que é o
mesmo valor da área compreendida entre z = 0 e z = -1.
"z "0,00 "0,01 "0,02 "0,03 "0,04 "0,05 "
"1 "2,4142 "3,0777"6,3138"12,706"35,542"63,657"
"2 "1,6036 "1,8856"2,9200"4,3127"6,2053"9,9248"
"3 "1,4226 "1,6377"2,3534"3,1825"4,1765"5,8409"
"4 "1,3444 "1,5332"2,1318"2,7764"3,4954"4,6041"
"5 "1,3009 "1,4759"2,0150"2,5706"3,1634"4,0321"
"6 "1,2733 "1,4398"1,9432"2,4469"2,9687"3,7074"
"7 "1,2543 "1,4149"1,8946"2,3646"2,8412"3,4995"
"8 "1,2403 "1,3968"1,8595"2,3060"2,7515"3,3554"
"9 "1,2297 "1,3830"1,8331"2,2622"2,6850"3,2498"
"10 "1,2213 "1,3722"1,8125"2,2281"2,6338"3,1693"
"11 "1,2145 "1,3634"1,7959"2,2010"2,5931"3,1058"
"12 "1,2089 "1,3562"1,7823"2,1788"2,5600"3,9545"
"13 "1,2041 "1,3502"1,7709"2,1604"2,5326"3,0123"
"14 "1,2001 "1,3450"1,7613"2,1448"2,5096"2,9768"
"15 "1,1967 "1,3406"1,7530"2,1315"2,4899"2,9467"
"16 "1,1937 "1,3368"1,7459"2,1199"2,4729"2,9208"
"17 "1,1910 "1,3334"1,7396"2,1098"2,4581"2,8982"
"18 "1,1887 "1,3304"1,7341"2,1009"2,4450"2,8784"
"19 "1,1866 "1,3287"1,7291"2,0930"2,4334"2,8609"
"20 "1,1848 "1,3253"1,7247"2,0860"2,4231"2,8453"
"21 "1,1831 "1,3232"1,7207"2,0796"2,4138"2,8314"
"22 "1,1816 "1,3212"1,7171"2,0739"2,4055"2,8188"
"23 "1,1802 "1,3195"1,7139"2,0687"2,3979"2,8073"
"24 "1,1789 "1,3178"1,7109"2,0639"2,3910"2,7969"
"25 "1,1777 "1,3163"1,7081"2,0595"2,3846"2,7874"
"26 "1,1766 "1,3150"1,7056"2,0555"2,3788"2,7787"
"27 "1,1757 "1,3117"1,7033"2,0518"2,3734"2,7707"
"28 "1,1748 "1,3125"1,7011"2,0484"2,3685"2,7633"
"29 "1,1739 "1,3114"1,6991"2,0452"2,3638"2,7564"
"30 "1,1731 "1,3104"1,6973"2,0423"2,3596"2,7500"
"40 "1,1673 "1,3031"1,6839"2,0211"2,3289"2,7045"
"60 "1,1616 "1,2958"1,6707"2,0003"2,2991"2,6603"
"120 "1,1559 "1,2890"1,6577"1,9799"2,2699"2,6174"
"+( "1,1503 "1,2820"1,6449"1,9600"2,2414"2,5758"