Transcript
11. REGRESSÃO LINEAR
11.1 Regressão Linear Simples
A regressão linear simples tem por objetivo descrever através de um
modelo matemático, a relação entre duas variáveis, a partir de n
observações dessas variáveis.
A principal finalidade do estudo da análise de regressão é fazer
estimativas ou predições de valores de uma variável, com base em valores
conhecidos da outra.
Para se conhecer a finalidade e a utilização do modelo de Regressão,
compõe-se uma série de conjuntos de variáveis. Será conveniente examinar o
comportamento (grandeza, média e variação) de cada variável do conjunto, e
utilizando simplesmente a intuição, tentar formar idéia da existência da
relação funcional entre as variáveis.
Exemplos: - Peso e altura;
- Raciocínio e inteligência;
- Enfermidade e tempo de repouso;
- Preço de imóvel e idade do imóvel;
- Resistência de um concreto e relação água/cimento;
- População e tempo;
- Salário e idade;
- Grau de instrução e salário;
Embora não tendo conhecimento de algumas variáveis anunciadas,
acredita-se que, de uma forma geral, pode-se encontrar alguma maneira de
medir a relação entre as variáveis de cada conjunto, de tal modo que essa
medida possa mostrar:
a) Se há relação entre as variáveis e, caso afirmativo, se é fraca ou
forte;
b) Se essa relação existir, estabelecer um modelo que interprete a relação
funcional entre as variáveis;
c) Através do modelo, obter estimativas, previsão ou análise.
11.1.1 Ajustamento da reta
Faz-se o estudo de uma determinada variável em função de uma outra,
descrevendo através de um modelo matemático, a relação entre duas
variáveis, com n observações.
A variável sobre a qual se deseja fazer estimativa é denominada de
variável dependente (Y) e a outra recebe o nome de variável independente
(x).
Considera-se a equação de regressão linear simples:
Y = a + bX + e, onde a e b são os parâmetros e e é o erro
experimental.
Como normalmente se trabalha com amostra, pode-se então utilizar a
equação estimada da reta, dada por:
11.1.2 Estimativa dos parâmetros:
Retira-se uma amostra de n pares (Xi, Yi) de tal modo que reta
seja tão próxima quanto possível do conjunto de pontos marcados no
diagrama, isto é, minimizando a discrepância total entre os pontos marcados
e a reta estimada.
Diagrama de dispersão
Y
Yn dn
Y1
d1 d2
Y2
X1 X2 Xn X
Observa-se que para cada Xi, existe uma diferença "d" entre o valor Y
observado e o seu correspondente , dado pela reta estimada. Os di são
os erros ou desvios, tais que:
Através do Método dos Mínimos Quadrados, determina-se os parâmetros
de tal forma que a soma dos desvios ao quadrado seja mínima, isto é:
d12 + d22 + ... + dn2 = mínimo
Como M depende de , deriva-se M em relação a
Para que M seja mínimo, e ambas devem ser iguais a
zero, dessa forma, tem-se o sistema de equações:
mas (a = na, logo:
, que são as equações normais.
Resolvendo o sistema de equações obtêm-se os parâmetros :
=
Onde: e ,
Então:
11.2 Correlação
Quando duas variáveis estão ligadas por uma relação estatística, diz-se
que existe correlação entre elas.
11.2.1 Diagrama de dispersão
Correlação linear positiva Correlação linear
negativa
Não há Correlação Correlação não linear
11.2.2 Coeficiente de correlação linear (R)
O coeficiente de correlação linear tem por objetivo medir o grau de
relação entre duas variáveis (x, y) e é definido pela fórmula:
,
onde: -1 ( R ( 1
se R = 1, a correlação é positiva perfeita;
se R = -1, a correlação é negativa perfeita;
se R = 0, a correlação é nula.
11.3 Análise de regressão linear simples
Etapas do teste:
a) Hipóteses:
Ho: b = 0 (Não existe regressão linear)
H1: b ( 0 (Existe regressão linear)
b) Teste F, com e graus de liberdade.
c) Valores críticos:
RA
RC
e) Conclusão: Se Fcalc ( F, rejeita-se Ho, logo, existe
regressão linear, é significativo (caso
contrário, aceita-se Ho)
Esquema de análise de regressão:
"C.V. "GL "SQ "QM "Fcalc "Ftab "
"Regr. Lin."1 "SQRegr. "QMRegr. "QMRegr/QMRes "F(1;"
" " " " " "n –2) "
"Resíduo "n – 2 "SQRes. "QMRes. "- "- "
"Total "n – 1 "SQTotal " " " "
Onde: SQTotal = SYY = ;
SQRegr. = , sendo:
SQResíduo = SQTotal – SQRegr.
Exemplo: A tabela abaixo nos dá o número de pessoas por residência (X) e a
quantidade de energia gasta em kwh, em um certo período de tempo.
"Tempo (X) "1 "4 "5 "8 "10 "12 "14 "15 "
"Quant. hidrol. "3,8 "5,4 "9,2 "15,3 "25,3 "20,7 "26,3 "30,6 "
"(Y) " " " " " " " " "
Pede-se:
a) O Coeficiente de correlação entre as duas variáveis;
b) A equação estimada da reta;
c) Para uma quantidade hidrolizada de 28,9, estimar o tempo em minutos.
d) Testar a existência de regressão através da análise de regressão.
Resolução:
"X "Y "XY "X2 "Y2 "
"1 "3,8 "3,8 "1 "14,44 "
"4 "5,4 "21,6 "16 "29,16 "
"5 "9,2 "46 "25 "84,64 "
"8 "15,3 "122,4 "64 "234,09 "
"10 "25,3 "253 "100 "640,09 "
"12 "20,7 "248,4 "144 "428,49 "
"14 "26,3 "368,2 "196 "691,69 "
"15 "30,6 "459 "225 "936,36 "
"(x=69,0 "(y=136,6 "(xy=1522,4 "(x2=771,0 "(y2=3058,96 "
a) Equação estimada da reta:
Médias:
= 771 - = 175,88
= 1522,4 - = 344,23
SYY = ( y2 - = 3058,96 - = 726,52
(
b) O coeficiente de correlação entre as duas variáveis
=
R = = 96,30% ( Há uma forte Correlação Linear entre as
variáveis.
c) Para uma quantidade de energia gasta de 28,9 kwh, estimar o número de
pessoas por residência.
28,9 = 0,17 + 1,96X ( X = 14,66, ou seja: aproximadamente
15 pessoas por residência.
d) Testar a existência de regressão linear através da análise de
regressão
Etapas do teste:
1a) Hipóteses:
Ho: b = 0 (Não existe regressão linear)
H1: b ( 0 (Existe regressão linear)
2a) Teste F, com e graus de liberdade.
3a) Valores críticos:
F0,05(1; 6) = 5,99
RA
RC
e) Conclusão: Verificar o resultado do quadro abaixo:
Como Fcalc ( F ( (76,56 ( 5,99),
rejeita-se Ho, logo, existe regressão linear, é
significativo a 5%.
Esquema de análise de regressão:
"C.V. "GL "SQ "QM "Fcalc "Ftab "
"Regr. Lin. "1 "673,72 "673,72 "76,56* "F0,05(1; "
" " " " " "6)=5,99 "
"Resíduo "6 "52,80 "8,80 "- "- "
"Total "7 "726,52 " " " "
Aproveitam-se os resultados obtidos no item a, para preenchimento do quadro
acima:
Onde: SQTotal = SYY = = 726,52
SQRegr. = , sendo: = 175,88
= 344,23
SQRegr =
SQResíduo = SQTotal – SQRegr ( SQRes = 726,52 – 673,72 = 52,80
QMRegr = SQRegr/1 = 673,72
QMRes = SQRes/(n – 2) = 52,80/6 = 8,80
Fcalc = QMRegr/QMRes = 673,72/8,80 = 76,56
T R A B A L H O 11: Regressão Linear simples
1) Dez alunos foram submetidos a um teste de raciocínio e de inteligência
obtendo os seguintes graus:
"Raciocín"2 "3 "4 "5 "6 "6 "7 "8 "
"io (X) " " " " " " " " "
"Peso (Y)"23,0 "22,7 "21,2 "17,0 "28,4 "19,0 "24,6 "19,0 "
a) A equação da reta;
b) O coeficiente de correlação;
c) Para uma PA de 135,3, estimar o peso em quilogramas;
d) Testar a existência de regressão linear.
5) Para uma certa enfermidade foi observado que a recuperação do paciente
estava em função do tempo de repouso, conforme tabela:
"Grau Recuperação % "Horas Repouso (X)"YX "X2 "Y2 "
"(Y) " " " " "
"37 "1 " " " "
"48 "2 " " " "
"59 "3 " " " "
"73 "4 " " " "
"87 "5 " " " "
"98 "6 " " " "
" " " " " "
a) Estimar a equação da Reta;
b) Calcular o grau de Correlação entre as variáveis;
c) Testar a existência de regressão;
d) Estimar as horas de repouso necessárias para 100% de recuperação do
paciente.
6) Para a tabela abaixo, das alturas(metros) em função dos pesos (kg) de
uma amostra homens em observação no tratamento de vitaminas para
crescimento:
"Altura (Y) "1,54 "1,64 "1,72 "1,78 "1,84 "
"Pesos (X) "47 "57 "67 "77 "87 "
a) Obter a equação de regressão linear simples;
b) Determinar o Coeficiente de Correlação entre as alturas e os pesos;
c) Testar a existência de regressão ao nível de significância de 5%;
7) Para os índices de pedidos de empregos em função do custo de vida,
conforme mostra a tabela abaixo, calcular:
"Ped. emprego (Y) "92,4 "93,6 "95,0 "98,5 "122,5 "
"Custo de vida (X)"100 "101 "112 "125 "134 "
a) Estimar a equação de regressão linear;
b) Obter o coeficiente de correlação linear;
c) Testar a existência de regressão aos níveis de significância de 5%;
c) Obter a estimativa dos pedidos de emprego com índice de custo de vida
igual a 120.
8) Os dados referem à idade gestacional (em semanas) e peso ao nascer em
gramas, de 10 recém-nascidos. Pede-se:
Idade gest. (X) "28 "30 "32 "34 "35 "36 "37 "38 "39 "40 " "Peso nasc. (Y)
"1250 "1750 "1250 "1750 "1750 "2250 "1750 "2250 "2750 "3250 " "
a) Estimar a equação de regressão linear;
b) A correlação linear;
c) Testar a existência de regressão aos níveis de significância de 5%;
d) Obter a estimativa dos pesos ao nascer com idade da gestante igual a 34
anos.
-----------------------
1-(
(
1-(
(
=5,99