Preview only show first 10 pages with watermark. For full document please download

Análise De Séries Temporais

Estatística

   EMBED

  • Rating

  • Date

    December 2018
  • Size

    1.1MB
  • Views

    1,849
  • Categories


Share

Transcript

´ LISE DE SE ´ RIES TEMPORAIS ANA RICARDO S. EHLERS Primeira publica¸ca˜o 2003 Segunda edi¸ca˜o publicada em 2004 Terceira edi¸ca˜o publicada em 2005 Quarta edi¸ca˜o publicada em 2007 © RICARDO SANDES EHLERS 2003-2007 Sum´ ario 1 Introdu¸ c˜ ao 2 T´ ecnicas Descritivas 2.1 Decomposi¸ca˜o Cl´ assica . 2.2 S´eries com Tendˆencia . . 2.3 S´eries Sazonais . . . . . 2.4 Autocorrela¸ca˜o . . . . . 2.4.1 O Correlograma 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Modelos Probabil´ısticos 3.1 Introdu¸ca˜o . . . . . . . . . . . . . 3.2 Processos Estacion´ arios . . . . . . 3.3 A Fun¸ca˜o de Autocorrela¸ca˜o . . . . 3.4 Alguns Processos Estoc´ asticos . . . 3.4.1 Sequˆencia Aleat´ oria . . . . 3.4.2 Passeio Aleat´ orio . . . . . . 3.4.3 Processos de M´edia M´ oveis 3.4.4 Processos Autoregressivos . 3.4.5 Modelos Mistos ARMA . . 3.4.6 Modelos ARMA Integrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 6 11 11 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 19 20 20 20 21 22 24 29 30 4 Estima¸ c˜ ao 4.1 Autocovariˆ ancia e autocorrela¸ca˜o . . 4.2 Ajustando Processos Autoregressivos 4.3 Ajustando Processos M´edias M´ oveis 4.4 Ajustando Processos ARMA . . . . . 4.5 Modelos Sazonais . . . . . . . . . . . 4.6 Adequa¸ca˜o do Modelo . . . . . . . . 4.6.1 An´ alise dos Res´ıduos . . . . . 4.6.2 Testes sobre os res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 35 39 40 41 43 43 44 5 Previs˜ ao 5.1 M´etodos Univariados de Previs˜ ao . . . . . . . . . . . . . . . . . . . . . 5.1.1 Alisamento Exponencial Simples . . . . . . . . . . . . . . . . . 52 52 52 i ´ SUMARIO ii 5.2 5.3 5.4 5.5 5.6 5.1.2 M´etodo de Holt-Winters . . . Previs˜ ao em Modelos ARMA . . . . Performance Preditiva . . . . . . . . Crit´erios de Informa¸ca˜o . . . . . . . Previs˜ oes Usando Todos os Modelos Previs˜ ao Bayesiana . . . . . . . . . . 6 Modelando a Variˆ ancia 6.1 Introdu¸ca˜o . . . . . . . 6.2 Modelos ARCH . . . . . 6.3 Modelos GARCH . . . . 6.3.1 Estima¸ca˜o . . . . 6.3.2 Adequa¸ca˜o . . . 6.4 Volatilidade Estoc´ astica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Modelos Lineares Dinˆ amicos 7.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . 7.2 Modelos Polinomiais . . . . . . . . . . . . . . . . 7.2.1 An´ alise Sequencial e Previs˜ oes . . . . . . 7.2.2 Variˆ ancias de Evolu¸ca˜o e das Observa¸co˜es 7.3 Modelo de Crescimento Linear . . . . . . . . . . 7.4 Modelos Sazonais . . . . . . . . . . . . . . . . . . 7.4.1 Modelos sem Crescimento . . . . . . . . . 7.4.2 Modelos com Crescimento . . . . . . . . . 7.5 Representa¸ca˜o de Fourier . . . . . . . . . . . . . 7.6 Ilustra¸ca˜o . . . . . . . . . . . . . . . . . . . . . . 7.7 Modelos de Regress˜ ao . . . . . . . . . . . . . . . 7.8 Monitoramento . . . . . . . . . . . . . . . . . . . A Lista de Distribui¸ co ˜es A.1 Distribui¸ca˜o Normal . . . . . . A.2 Distribui¸ca˜o Gama . . . . . . . A.3 Distribui¸ca˜o Wishart . . . . . . A.4 Distribui¸ca˜o Gama Inversa . . . A.5 Distribui¸ca˜o Wishart Invertida A.6 Distribui¸ca˜o Beta . . . . . . . . A.7 Distribui¸ca˜o de Dirichlet . . . . A.8 Distribui¸ca˜o t de Student . . . A.9 Distribui¸ca˜o F de Fisher . . . . A.10 Distribui¸ca˜o Binomial . . . . . A.11 Distribui¸ca˜o Multinomial . . . A.12 Distribui¸ca˜o de Poisson . . . . A.13 Distribui¸ca˜o Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 58 62 64 67 68 . . . . . . 73 73 74 80 81 82 83 . . . . . . . . . . . . 86 86 88 89 91 94 95 95 96 96 97 98 99 . . . . . . . . . . . . . 105 105 105 106 106 106 106 107 107 107 108 108 108 108 ´ SUMARIO References iii 110 Cap´ıtulo 1 Introdu¸ c˜ ao Uma s´erie temporal ´e uma cole¸ca˜o de observa¸co˜es feitas sequencialmente ao longo do tempo. A caracter´ıstica mais importante deste tipo de dados ´e que as observa¸co˜es vizinhas s˜ ao dependentes e estamos interessados em analisar e modelar esta dependˆencia. Enquanto em modelos de regress˜ ao por exemplo a ordem das observa¸co˜es ´e irrelevante para a an´ alise, em s´eries temporais a ordem dos dados ´e crucial. Vale notar tamb´em que o tempo pode ser substituido por outra vari´ avel como espa¸co, profundidade, etc. Como a maior parte dos procedimentos estat´ısticos foi desenvolvida para analisar observa¸co˜es independentes o estudo de s´eries temporais requer o uso de t´ecnicas espec´ıficas. Dados de s´eries temporais surgem em v´ arios campos do conhecimento como Economia (pre¸cos di´ arios de a¸co˜es, taxa mensal de desemprego, produ¸ca˜o industrial), Medicina (eletrocardiograma, eletroencefalograma), Epidemiologia (n´ umero mensal de novos casos de meningite), Meteorologia (precipita¸ca˜o pluviom´etrica, temperatura di´ aria, velocidade do vento), etc. Algumas caracter´ısticas s˜ ao particulares a este tipo de dados, por exemplo, ˆ Observa¸co ˜es correlacionadas s˜ ao mais dif´ıceis de analisar e requerem t´ecnicas espec´ıficas. ˆ Precisamos levar em conta a ordem temporal das observa¸co ˜es. ˆ Fatores complicadores como presen¸ca de tendˆencias e varia¸ca ˜o sazonal ou c´ıclica podem ser dif´ıceis de estimar ou remover. ˆ A sele¸ca ˜o de modelos pode ser bastante complicada, e as ferramentas podem ser de dif´ıcil interpreta¸ca˜o. ´ mais dif´ıcil de lidar com observa¸co˜es perdidas e dados discrepantes devido `a ˆ E natureza sequencial. Terminologia Uma s´erie temporal ´e dita ser cont´ınua quando as observa¸co˜es s˜ ao feitas continuamente no tempo. Definindo o conjunto T = {t : t1 < t < t2 } a s´erie temporal ser´ a denotada 1 ˜ CAP´ITULO 1. INTRODUC ¸ AO 2 por {X(t) : t ∈ T }. Uma s´erie temporal ´e dita ser discreta quando as observa¸co˜es s˜ ao feitas em tempos espec´ıficos, geralmente equiespa¸cados. Definindo o conjunto T = {t1 , . . . , tn } a s´erie temporal ser´ a denotada por {Xt : t ∈ T }. Por simplicidade podemos fazer T = {1, 2, . . . , n}. Note que estes termos n˜ao se referem `a vari´ avel observada X, esta pode assumir valores discretos ou cont´ınuos. Em muitas situa¸co˜es X pode ser discreta por defini¸ca˜o (e.g. o n´ umero de casos notificados de AIDS) por´em para efeito de an´ alise estat´ıstica pode ser tratada como continua se os seus valores observados n˜ao forem muito pequenos. Por outro lado, s´eries temporais discretas podem surgir de v´ arias formas. S´eries cont´ınuas podem ser discretizadas, i.e. seus valores s˜ ao registrados a certos intervalos de tempo. S´eries de valores agregados ou acumulados em intervalos de tempo, por exemplo exporta¸co˜es medidas mensalmente ou quantidade de chuva medida diariamente. Finalmente, algumas s´eries s˜ ao inerentemente discretas, por exemplo dividendos pagos por uma empresa aos seus acionistas em anos sucessivos. Uma s´erie temporal tamb´em pode ser multivariada. Se k vari´ aveis s˜ ao observadas a cada tempo (por exemplo discreto) denota-se por {X1t , . . . , Xkt , t ∈ T }. Neste caso v´ arias s´eries correlacionadas devem ser analisadas conjuntamente, ou seja em cada tempo tem-se um vetor de observa¸co˜es. Objetivos Em algumas situa¸co˜es o objetivo pode ser fazer previs˜ oes de valores futuros enquanto em outras a estrutura da s´erie ou sua rela¸ca˜o com outras s´eries pode ser o interesse principal. De um modo geral, os principais objetivos em se estudar s´eries temporais podem ser os seguintes, ˆ Descri¸ca ˜o. Descrever propriedades da s´erie, e.g. o padr˜ao de tendˆencia, existˆencia de varia¸ca˜o sazonal ou c´ıclica, observa¸co˜es discrepantes (outliers), altera¸co˜es estruturais (e.g. mudan¸cas no padr˜ ao da tendˆencia ou da sazonalidade), etc. ˆ Explica¸ca ˜o. Usar a varia¸ca˜o em uma s´erie para explicar a varia¸ca˜o em outra s´erie. ˆ Predi¸ca ˜o: predizer valores futuros com base em valores passados. Aqui assumese que o futuro envolve incerteza, ou seja as previs˜ oes n˜ao s˜ ao perfeitas. Por´em devemos tentar reduzir os erros de previs˜ ao. ˆ Controle. Os valores da s´erie temporal medem a “qualidade” de um processo de manufatura e o objetivo ´e o controle do processo. Um exemplo ´e o controle estat´ıstico de qualidade aonde as observa¸co˜es s˜ ao representadas em cartas de controle. Este t´opico n˜ao ser´ a abordado nestas notas de aula. 3 Abordagens ˆ T´ecnicas Descritivas. T´ecnicas gr´ aficos, identifica¸c˜ao de padr˜ oes, etc. ˆ Modelos Probabil´ısticos. Sele¸ca ˜o, compara¸ca˜o e adequa¸ca˜o de modelos, estimac¸a˜o, predi¸ca˜o. Ferramenta b´asica ´e a fun¸ca ˜o de autocorrela¸ca ˜o. ˆ An´ alise espectral. ˆ M´etodos n˜ ao param´etricos (alisamento ou suaviza¸ca˜o). ˆ Outras Abordagens. Modelos de espa¸co de estados, modelos n˜ ao lineares, s´eries multivariadas, estudos longitudinais, processos de longa dependˆencia, modelos para volatilidade, etc. Sazonalidade Muitas s´eries temporais exibem um comportamento que tende a se repetir a cada s per´ıodos de tempo. Por exemplo, ´e natural esperar que as vendas mensais de brinquedos ter˜ ao um pico no mˆes de dezembro e talvez um pico secund´ario em outubro. Este padr˜ ao possivelmente se repetir´a ao longo de v´ arios anos. Vejamos alguns poss´ıveis modelos sazonais, 1. Sazonalidade deterministica. Vari´ aveis dummies (bin´ arias). O coeficiente de cada vari´ avel dummy representa o fator sazonal do respectivo mˆes, trimestre, etc. 2. Fun¸co˜es trigonom´etricas. 3. Sazonalidade estoc´ astica: (a) Vari´ avel end´ ogena com defasagem sazonal no modelo (modelos ARMA peri´ odicos), (b) modelo ARMA sazonal. Tipos de Sazonalidade ˆ Aditiva. A s´erie apresenta flutua¸co ˜es sazonais mais ou menos constantes n˜ao importando o n´ıvel global da s´erie. ˆ Multiplicativa. O tamanho das flutua¸co ˜es sazonais varia dependendo do n´ıvel global da s´erie. No exemplo dos brinquedos, suponha que o aumento esperado nas vendas nos meses de dezembro ´e de 1 milh˜ ao de reais em rela¸ca˜o `a m´edia anual. Ent˜ao as previs˜ oes para os meses de dezembro dos pr´oximos anos deve somar a quantia de 1 milh˜ ao de reais ` a uma m´edia anual para levar em conta esta flutua¸ca˜o sazonal. Isto ´e o que se chama de sazonalidade aditiva. ˜ CAP´ITULO 1. INTRODUC ¸ AO 4 Suponha agora que o aumento esperado nos meses de dezembro seja de 30%. Ent˜ao o aumento esperado (em valor absoluto) de vendas em dezembro ser´ a pequeno ou grande dependendo da m´edia anual de vendas ser baixa ou alta. Nas previs˜ oes para os pr´oximos meses de dezembro deve-se multiplicar a m´edia anual pelo fator 1,3. Isto ´e o que se chama de sazonalidade multiplicativa. Tendˆ encia Globalmente, uma s´erie pode exibir tendˆencia de crescimento (ou decrescimento) com v´ arios poss´ıveis padr˜ oes. ˆ Crescimento linear. Por exemplo, a cada ano o aumento esperado nas vendas de um certo brinquedo ´e de 1 milh˜ ao de reais. ˆ Crescimento exponencial. Por exemplo, a cada ano as vendas de um certo brinquedo aumentam de um fator 1,3. ˆ Crescimento amortecido. Por exemplo, as vendas de um certo brinquedo tem uma aumento esperado de 70% sobre o ano anterior. Se o aumento esperado for de 1 milh˜ ao de reais no primeiro ano, no segundo ano ser´ a de 700 mil reais, no terceiro ano ser´ a de 490 mil reais e assim por diante. Exemplos de S´ eries Temporais Como primeira ilustra¸ca˜o s˜ ao apresentadas na Figura 1.1 quatro s´eries temporais dispon´ıveis no pacote R. Nos eixos horizontais aparecem os anos de observa¸ca˜o e nos eixos verticais os nomes das s´eries (mesmos nomes do R). A Figura 1.1a mostra totais mensais de passageiros em linhas a´ereas internacionais nos EUA entre 1949 e 1960. Existe uma clara tendˆencia de crescimento bem como um padr˜ao sazonal ao longo dos anos. A Figura 1.1b mostra a s´erie com o n´ umero anual de linces capturados em armadilhas entre 1821 e 1934 no Canad´ a. Existe um padr˜ ao c´ıclico em torno de 10 ou 11 anos. A Figura 1.1c mostra a s´erie com as medi¸co˜es anuais de vaz˜oes do Rio Nilo em Ashwan entre 1871 e 1970. Parece haver alguma altera¸ca˜o estrutural em torno do ano de 1900. Finalmente a Figura 1.1d mostra a s´erie trimestral do consumo de g´ as no Reino Unido entre o primeiro trimestre de 1960 e o quarto trimestre de 1986. H´ a uma tendˆencia de crescimento por´em a amplitude do padr˜ ao sazonal aumenta bastante a partir de 1971. Exerc´ıcios 1. Classifique as seguintes s´eries temporais quanto ao tempo e quanto a vari´ avel observada. (a) Registros de mar´e durante 1 dia. (b) Medidas de temperatura em uma esta¸ca˜o meteorol´ ogica. lynx 5000 500 2000 300 0 100 1954 1958 1820 1860 1900 1000 UKgas 1000 200 600 Nile 1400 1950 600 AirPassengers 5 1880 1920 1960 1960 1970 1980 Figura 1.1: (a) Totais mensais de passageiros em linhas a´ereas internacionais nos EUA entre 1949 e 1960, (b) n´ umero anual de linces capturados em armadilhas entre 1821 e 1934 no Canad´ a, (c) medi¸co˜es anuais de vaz˜oes do Rio Nilo em Ashwan entre 1871 e 1970, (d) consumo de g´ as no Reino Unido entre o primeiro trimestre de 1960 e o quarto trimestre de 1986. (c) O ´ındice di´ ario da bolsa de valores de S˜ao Paulo. (d) A infla¸ca˜o mensal medida pelo ´ındice de pre¸cos ao consumidor. (e) Varia¸ca˜o di´ aria de um determinado ´ındice financeiro, 1 para varia¸ca˜o positiva, -1 para varia¸ca˜o negativa ou zero se n˜ao ocorreu varia¸ca˜o. (f) N´ umero mensal de novos casos de Dengue em uma determinada regi˜ ao. 2. Dˆe exemplos de s´eries temporais continuas que poderiam ser discretizadas (e de que forma). Cap´ıtulo 2 T´ ecnicas Descritivas Ao se analisar uma ou mais s´eries temporais a representa¸c˜ao gr´ afica dos dados sequencialmente ao longo do tempo ´e fundamental e pode revelar padr˜ oes de comportamento importantes. Tendˆencias de crescimento (ou decrescimento), padr˜ oes c´ıclicos, altera¸co˜es estruturais, observa¸co˜es aberrantes, etc. s˜ ao muitas vezes facilmente identificados. Sendo assim, o gr´ afico temporal deve ser sempre o primeiro passo e antecede qualquer an´ alise. Outras ferramentas ser˜ ao descritas ao longo deste cap´ıtulo. 2.1 Decomposi¸c˜ ao Cl´ assica Muitas das propriedades observadas em uma s´erie temporal Xt podem ser captadas assumindo-se a seguinte forma de decomposi¸ca˜o Xt = Tt + Ct + Rt onde Tt ´e uma componente de tendˆencia, Ct ´e uma componente c´ıclica ou sazonal e Rt ´e uma componente aleat´ oria ou ru´ıdo (a parte n˜ao explicada, que espera-se ser puramente aleat´ oria). A componente c´ıclica se repete a cada intervalo fixo s, i.e. · · · = Ct−2s = Ct−s = Ct = Ct+s = Ct+2s = . . . . Assim, varia¸co˜es peri´ odicas podem ser captadas por esta componente. 2.2 S´ eries com Tendˆ encia N˜ ao existe uma defini¸ca˜o precisa de tendˆencia e diferentes autores usam este termo de diferentes formas. Podemos pensar em tendˆencia como uma mudan¸ca de longo prazo no n´ıvel m´edio da s´erie. A dificuldade aqui ´e definir longo prazo. A forma mais simples de tendˆencia ´e Xt = α + βt + ǫt (2.1) onde α e β s˜ ao constantes a serem estimadas e ǫt denota um erro aleat´ orio com m´edia zero. O n´ıvel m´edio da s´erie no tempo t ´e dado por mt = α + βt que ´e algumas vezes 6 ´ ˆ 2.2. SERIES COM TENDENCIA 7 chamado de termo de tendˆencia. Por´em alguns autores preferem chamar a inclina¸ca˜o β de tendˆencia, ou seja a mudan¸ca no n´ıvel da s´erie por unidade de tempo j´a que β = mt − mt−1 . Note que a tendˆencia na equa¸ca˜o (2.1) ´e uma fun¸ca˜o determin´ıstica do tempo e algumas vezes ´e chamada de tendˆencia global (i.e. vale para toda a s´erie), em oposi¸ca˜o a tendˆencia local. De um modo geral, uma forma de se lidar com dados n˜ao sazonais que contenham uma tendˆencia consiste em ajustar uma fun¸ca˜o polinomial, Xt = β0 + β1 t + · · · + βp tp + ǫt . Uma fun¸ca˜o linear ou quadr´ atica seria apropriada no caso de uma tendˆencia monotonicamente crescente ou decrescente. Caso contr´ario polinˆ omios de ordem mais alta devem ser ajustados. Outras poss´ıveis formas de tendˆencia s˜ ao os crescimentos descritos por uma curva Gompertz, log xt = a + brt onde a, b e r s˜ ao parˆ ametros com 0 < r < 1, ou uma curva Log´ıstica, xt = a/(1 + be−ct ) onde a, b e c s˜ ao parˆ ametros. Estas duas u ´ltimas s˜ ao chamadas curvas S e se aproximam de uma ass´ıntota quando t → ∞. Neste caso o ajuste pode levar a equa¸co˜es n˜ao lineares. Seja qual for a curva utilizada, a fun¸ca˜o ajustada fornece uma medida da tendˆencia da s´erie, enquanto os res´ıduos (valores observados – valores ajustados) fornecem uma estimativa de flutua¸co˜es locais. Exemplo 2.1 : A Figura 2.1 mostra as medi¸co˜es anuais de vaz˜oes do Rio Nilo em Ashwan entre 1871 e 1970 juntamente com polinˆ omios de graus 3 e 6 superimpostos. Os polinˆ omios foram ajustados por m´ınimos quadrados usando os comandos do R a seguir. A s´erie original com as tendˆencias estimadas aparecem na Figura (2.1). > + + + + + + + + > > mypolytrend = function(y, degree = 1) { n = length(y) x = 1:n X = matrix(NA, n, degree) for (i in 1:degree) X[, i] = x^i a = as.numeric(lm(y ~ X)$coeff) out = cbind(rep(1, n), X) %*% a return(ts(out, start = start(y), freq = frequency(y))) } z3 = mypolytrend(Nile, 3) z6 = mypolytrend(Nile, 6) ´ CAP´ITULO 2. TECNICAS DESCRITIVAS 1400 8 1000 600 800 Vazoes 1200 observado tendencia grau 3 tendencia grau 6 1880 1900 1920 1940 1960 Figura 2.1: Medi¸co˜es anuais de vaz˜oes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos), com polinˆ omios de graus 3 e 6 ajustados por minimos quadrados. Regress˜ ao Local A id´eia aqui ´e estimar para cada t uma equa¸ca˜o de regress˜ ao polinomial diferente, por exemplo ˆ x ˆt = α ˆ (t) + β(t)t. Note que as estimativas de α e β dependem do tempo o que da o car´ater local das retas de regress˜ ao. O procedimento conhecido como loess ´e um procedimento iterativo que a cada passo aplica a regress˜ ao local anterior, calcula os res´ıduos xt − x ˆt e aplica novamente a regress˜ ao local dando peso menor `as observa¸co˜es com res´ısuos maiores. Este procedimento se repete at´e atingir convergˆencia. Exemplo 2.2 : A Figura 2.2 apresenta os mesmos dados da Figura 2.1 sendo que as curvas superimpostas foram obtidas usando regress˜ ao local com os comandos do R a seguir. ´ ˆ 2.2. SERIES COM TENDENCIA 1400 9 1000 600 800 Vazoes 1200 observado tendencia f=1 tendencia f=0.25 1880 1900 1920 1940 1960 Figura 2.2: Medi¸co˜es anuais de vaz˜oes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos), tendˆencia estimada via fun¸ca˜o lowess. Filtragem Outro procedimento para analisar s´eries com tendˆencia ´e atrav´es de filtros lineares. Um filtro linear converte uma s´erie {xt } em outra {yt } atrav´es da seguinte opera¸ca˜o linear s X aj xt+j yt = j=−q onde {aj } ´e um conjunto de pesos. Al´em disso, como queremos estimar a m´edia local P os pesos devem ser tais que sj=−q aj = 1, garantindo assim que min{xt } < yt < max{xt }. Neste caso a opera¸ca˜o ´e chamada m´edia m´ ovel. M´edias m´ oveis s˜ ao em geral sim´etricas com s = q e a−r = ar . Por exemplo, se s = q = 2 temos que yt = a2 xt−2 + a1 xt−1 + a0 xt + a1 xt+1 + a2 xt+2 . O caso mais simples ´e quando todos os pesos aj tem o mesmo valor e devido `a restri¸ca˜o de soma 1 segue que aj = 1/(2q +1), para j = −q, . . . , q. Neste caso, o valor suavizado ´ CAP´ITULO 2. TECNICAS DESCRITIVAS 10 de xt ´e dado por yt = q X 1 xt+j . 2q + 1 j=−q Qualquer que seja o filtro utilizado, yt ´e uma estimativa da tendˆencia no tempo t e xt − yt ´e uma s´erie livre de tendˆencia. 500 100 200 300 400 dados Media Movel q=2 Media Movel q=5 0 Numero de passageiros (em milhares) 600 Exemplo 2.3 : A Figura 2.3 apresenta a s´erie com os totais mensais de passageiros de linhas a´ereas internacionais nos EUA, entre 1949 e 1960 (Box, Jenkins and Reinsel, 1976) juntamente com a tendˆencia “estimada” superimposta. Foram aplicados filtros lineares com m´edias m´ oveis aproximadamente trimestrais (q = 2) e m´edias m´ oveis aproximadamente anuais (q = 5). Os seguintes comandos do R foram usados. 1950 1952 1954 1956 1958 1960 Anos Figura 2.3: Totais mensais de passageiros de linhas a´ereas internacionais nos EUA, com a tendˆencia superimposta aplicando m´edias m´ oveis aproximadamente trimestrais (q = 2) e m´edias m´ oveis aproximadamente anuais (q = 5). Note que, para a aplica¸ca˜o de qualquer filtro sim´etrico os valores suavizados s´ o podem ser calculados para t = q + 1, . . . , n − q e assim a s´erie suavizada ter´ a n − 2q valores. Em algumas situa¸co˜es no entanto ´e importante obter valores suavizados at´e o per´ıodo t = n e uma alternativa ´e utilizar um filtro assim´etrico que usa apenas os valores atual e passados de xt . Por exemplo na t´ecnica conhecida como alisamento ´ 2.3. SERIES SAZONAIS 11 exponencial os valores suavizados s˜ ao dados por yt = ∞ X j=0 α(1 − α)j xt−j onde 0 < α < 1. Note como, embora todas as observa¸co˜es passadas sejam usadas no filtro, os pesos α(1 − α)j decaem geometricamente com j. Quanto mais pr´oximo de 1 estiver α mais peso ser´ a dado ` as observa¸co˜es mais recentes e quanto mais pr´oximo de zero mais os pesos estar˜ ao distribuidos ao longo da s´erie. Por exemplo se α = 0, 90 a s´erie filtrada fica yt = 0, 9xt + 0, 09xt−1 + 0, 009xt−2 + . . . enquanto que para α = 0, 1 temos que yt = 0, 1xt + 0, 09xt−1 + 0, 081xt−2 + . . . . Este tipo de filtro pode ser utilizado para fazer previs˜ oes. Especificamente a previs˜ ao da s´erie original em t + 1 ser´ a o valor filtrado yt (mais detalhes no Cap´ıtulo 5). Diferencia¸ c˜ ao Um tipo especial de filtro, muito u ´til para remover uma componente de tendˆencia polinomial, consiste em diferenciar a s´erie at´e que ela se torne estacion´ aria (este conceito ser´ a formalizado no Cap´ıtulo 3). Para dados n˜ao sazonais, a primeira diferen¸ca ´e em geral suficiente para induzir estacionariedade aproximada. A nova s´erie y2 , . . . , yn ´e formada a partir da s´erie original x1 , . . . , xn como yt = xt − xt−1 = ▽xt . Note que isto nada mais ´e do que um filtro (assim´etrico) com coeficientes 1 e -1. Diferencia¸ca˜o de primeira ordem ´e a mais utilizada sendo que ocasionalmente uma diferencia¸ca˜o de segunda ordem pode ser requerida, i.e. yt = ▽2 xt = ▽(xt − xt−1 ) = xt − 2xt−1 + xt−2 . Al´em disso, independente do seu uso para induzir estacionariedade, a diferenciac¸a˜o pode ser muito u ´til como ferramenta explorat´oria. Observa¸co˜es discrepantes por exemplo podem ter um efeito dram´ atico na s´erie diferenciada e uma representa¸ca˜o gr´ afica ´e em geral suficiente para identificar tais pontos. 2.3 S´ eries Sazonais Uma forma bastante simples de eliminar o efeito sazonal ´e simplesmente tomar m´edias sazonais. Por exemplo, em dados mensais com sazonalidade anual, as m´edias anuais estar˜ ao livres do efeito sazonal. Embora este procedimento esteja correto muitos dados ser˜ ao perdidos e ao inv´es disto pode-se recorrer mais uma vez `as m´edias m´ oveis. 2.4 Autocorrela¸c˜ ao Uma importante ferramenta para se identificar as propriedades de uma s´erie temporal consiste de uma s´erie de quantidades chamadas coeficientes de autocorrela¸ca ˜o ´ CAP´ITULO 2. TECNICAS DESCRITIVAS 12 amostral. A id´eia ´e similar ao coeficiente de correla¸ca˜o usual, i.e. para n pares de observa¸co˜es das vari´ aveis x e y o coeficiente de correla¸ca˜o amostral ´e dado por n X (xi − x)(yi − y) r = v i=1 . uX n X u n t (xi − x)2 (yi − y)2 i=1 (2.2) i=1 Aqui no entanto queremos medir a correla¸ca˜o entre as observa¸co˜es de uma mesma vari´ avel em diferentes horizontes de tempo, i.e. correla¸co˜es entre observa¸co˜es defasadas 1, 2, . . . per´ıodos de tempo. Assim, dadas n observa¸co˜es x1 , . . . , xn de uma s´erie temporal discreta podemos formar os pares (x1 , x2 ), . . . , (xn−1 , xn ). Considerando x1 , . . . , xn−1 e x2 , . . . , xn como duas vari´ aveis o coeficiente de correla¸ca˜o entre xt e xt+1 ´e dado por n−1 X t=1 (xt − x1 )(xt+1 − x2 ) r1 = v un−1 n−1 X uX t (xt − x1 )2 (xt+1 − x2 )2 t=1 (2.3) t=1 onde as m´edias amostrais s˜ ao n−1 X xt /(n − 1) x1 = n X e x2 = t=1 t=2 xt /(n − 1). Como o coeficiente r1 mede as correla¸co˜es entre observa¸co˜es sucessivas ele ´e chamado de coeficiente de autocorrela¸ca˜o ou coeficiente de correla¸ca˜o serial. ´ usual simplificar a equa¸ca˜o (2.3) utilizando-se a m´edia de todas as observa¸co˜es, E n X xt /n j´a que x1 ≈ x2 , e assumindo variˆ ancia constante. Assim, a vers˜ ao i.e. x = t=1 simplificada de (2.3) fica r1 = n−1 X t=1 (xt − x)(xt+1 − x) (n − 1) n X t=1 (2.4) 2 (xt − x) /n sendo que alguns autores ainda retiram o termo n/(n − 1) que ´e pr´oximo de 1 para n n˜ao muito pequeno. Esta u ´ltima forma simplificada, sem o termo n/(n − 1) ser´ a utilizada neste texto. A equa¸ca˜o (2.4) pode ser generalizada para calcular a correla¸ca˜o entre observa¸co˜es defasadas de k per´ıodos de tempo, i.e. rk = n−k X t=1 (xt − x)(xt+k − x) n X t=1 2 (xt − x) (2.5) ˜ 2.4. AUTOCORRELAC ¸ AO 13 fornece o coeficiente de correla¸ca˜o de ordem k. Assim como o coeficiente de correla¸ca˜o usual, as autocorrela¸co˜es s˜ ao adimensionais e −1 < rk < 1. Na pr´atica ´e mais usual calcular primeiro os coeficientes de autocovariˆ ancia {ck }, definidos por analogia com a f´ormula usual de covariˆ ancia, i.e. ck = n−k X t=1 (xt − x)(xt+k − x)/n. Os coeficientes de autocorrela¸ca˜o s˜ ao ent˜ao obtidos como rk = ck /c0 . 2.4.1 O Correlograma Um gr´ afico com os k primeiros coeficientes de autocorrela¸ca˜o como fun¸ca˜o de k ´e chamado de correlograma e pode ser uma ferramenta poderosa para identificar caracter´ısticas da s´erie temporal. Por´em isto requer uma interpreta¸ca˜o adequada do correlograma, i.e. devemos associar certos padr˜ oes do correlograma como determinadas caracter´ısticas de uma s´erie temporal. Esta nem sempre ´e uma tarefa simples e a seguir s˜ ao dadas algumas indica¸co˜es. S´ eries aleat´ orias A primeira quest˜ ao que podemos tentar responder atrav´es do correlograma ´e se uma s´erie temporal ´e aleat´ oria ou n˜ao. Para uma s´erie completamente aleat´ oria os valores defasados s˜ ao n˜ao correlacionados e portanto espera-se que rk ≈ 0, k = 1, 2, . . . . Suponha que x1 , . . . , xn sejam vari´ aveis aleat´ orias independentes e identicamente distribuidas com m´edia arbitr´ arias. Ent˜ao, pode-se mostrar que o coeficiente de autocorrela¸ca˜o amostral rk ´e assintoticamente normalmente distribuido, com m´edia e variˆ ancia dados por E(rk ) ≈ −1/n e V ar(rk ) ≈ 1/n. (ver Kendall, Stuart, & Ord 1983, Cap´ıtulo 48). Portanto, limites de confian¸ca apro√ ao frequentemente ainda mais ximados de 95% s˜ ao dados por −1/n ± 1, 96/ n, que s˜ √ aproximados para ±1, 96/ n. Isto ilustra uma das dificuldades de interpretar o correlograma j´a que, mesmo para uma s´erie completamente aleat´ oria, espera-se que 1 em cada 20 coeficientes rk esteja fora destes limites. Por outro lado, um valor muito grande de rk tem menos chance de ter ocorrido ao acaso do que um valor que est´ a apenas ligeiramente fora dos limites. A Figura 2.4 mostra uma s´erie temporal com 100 observa¸co˜es independentes e identicamente distribuidas geradas no computador juntamente com o seu correlo√ grama. Neste caso os limites de confian¸ca de 95% s˜ ao aproximadamente ±2/ 100 = ±0,2 e podemos notar que 2 dentre as 20 primeiras autocorrela¸co˜es est˜ ao ligeiramente fora destes limites. No entanto isto ocorre em defasagens aparentemente arbitr´ arias (12 e 18) e podemos concluir que n˜ao h´a evidˆencia para rejeitar a hip´ otese de que as observa¸co˜es s˜ ao independentes. ´ CAP´ITULO 2. TECNICAS DESCRITIVAS 1 −1 −3 observações 14 0 20 40 60 80 100 1.0 0.4 −0.2 autocorrelaçoes tempo 0 5 10 15 20 defasagem Figura 2.4: (a) 100 observa¸co˜es simuladas independentes e identicamente distribuidas. (b) 20 primeiras autocorrela¸co˜es amostrais. Correla¸c˜ ao de curto-prazo Uma s´erie temporal na qual uma observa¸ca˜o acima da m´edia “tende” a ser seguida por uma ou mais observa¸co˜es acima da m´edia, similarmente para observa¸co˜es abaixo da m´edia, ´e dita ter correla¸ca˜o de curto-prazo. Um correlograma desta s´erie dever´ a exibir um valor relativamente grande de r1 seguido por valores que tendem a ficar sucessivamente menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero. Na Figura 2.5 temos 50 observa¸co˜es geradas de acordo com o processo xt = 0, 7xt−1 + ǫt juntamente com o seu correlograma. Correla¸c˜ ao negativa Se os valores de uma s´erie temporal tendem a se alternar acima e abaixo de um valor m´edio, o correlograma desta s´erie tamb´em tende a se alternar. O valor de r1 ser´ a negativo enquanto o valor de r2 ser´ a positivo j´a que as observa¸co˜es defasadas de 2 per´ıodos tendem a estar do mesmo lado da m´edia. Esta caracter´ıstica est´ a ilustrada na Figura 2.6 aonde temos 50 observa¸co˜es simuladas com autocorrela¸co˜es negativas juntamente com as 14 primeiras autocorrela¸co˜es amostrais. −1 1 15 −3 observacoes ˜ 2.4. AUTOCORRELAC ¸ AO 0 10 20 30 40 50 0.8 0.2 −0.4 autocorrelacoes tempo 0 5 10 15 defasagem Figura 2.5: (a) 50 observa¸co˜es simuladas com autocorrela¸co˜es de curto-prazo. (b) 16 primeiras autocorrela¸co˜es amostrais. S´ eries n˜ ao estacion´ arias Para uma s´erie temporal com tendˆencia os valores de rk n˜ao decair˜ ao para zero a n˜ao ser em defasagens grandes. Intuitivamente, isto ocorre porque uma observa¸ca˜o de um lado da m´edia tende a ser seguida por um grande n´ umero de observa¸co˜es do mesmo lado (devido ` a tendˆencia). Neste caso, pouca ou nenhuma informa¸ca˜o pode ser extraida do correlograma j´a que a tendˆencia dominar´ a outras caracter´ısticas. Na verdade, como veremos em outros cap´ıtulos a fun¸ca˜o de autocorrela¸ca˜o s´ o tem um significado para s´eries estacion´arias, sendo assim qualquer tendˆencia deve ser removida antes do c´ alculo de {rk }. A Figura 2.7 mostra uma s´erie temporal com 50 observa¸co˜es geradas segundo o modelo xt = xt−1 + ǫt , juntamente com o seu correlograma. Note que a n˜ao estacionariedade da s´erie fica evidenciada no correlograma j´a que as autocorrela¸co˜es amostrais decaem muito lentamente. Varia¸ c˜ ao sazonal Um padr˜ ao sazonal ´e em geral facilmente identificado no correlograma. De fato, se uma s´erie temporal contem flutua¸co˜es sazonais o correlograma ir´ a exibir oscila¸co˜es na ´ CAP´ITULO 2. TECNICAS DESCRITIVAS 1 −1 −3 observacoes 16 0 10 20 30 40 50 0.5 −0.5 autocorrelacoes tempo 0 5 10 15 defasagem Figura 2.6: (a) 50 observa¸co˜es simuladas com autocorrela¸co˜es negativas. (b) 15 primeiras autocorrela¸co˜es amostrais. mesma frequˆencia. Por exemplo, com observa¸co˜es mensais r6 ser´ a grande e negativo enquanto r12 ser´ a grande e positivo. Na verdade, se o padr˜ ao sazonal j´a for evidente no gr´ afico da s´erie original o correlograma trar´ a pouca ou nenhuma informa¸ca˜o adicional. Observa¸ c˜ oes discrepantes Se uma s´erie temporal contem uma ou mais observa¸co˜es discrepantes (“outliers”) o correlograma pode ser seriamente afetado. No caso de uma u ´nica observa¸ca˜o discrepante o gr´ afico de xt contra xt+k ter´ a pontos extremos o que pode viesar os coeficientes de correla¸ca˜o para zero. Com dois valores discrepantes o efeito pode ser ainda mais devastador, al´em de gerar uma correla¸ca˜o esp´ uria quando k ´e igual `a distˆ ancia entre os valores. Exerc´ıcios 1. Use o R para gerar uma s´erie temporal Yt = b0 + b1 t + ǫt , t = 1, . . . , 100, com b0 , b1 6= 0 e ǫt normais e independentes com m´edia µ e variˆ ancia σ12 se t ≤ 70 2 2 mas variˆ ancia σ2 6= σ1 se t > 70. Usando diferentes valores de α aplique o 0.4 0.8 17 0.0 observacoes ˜ 2.4. AUTOCORRELAC ¸ AO 0 10 20 30 40 50 1.0 0.4 −0.2 autocorrelacoes tempo 0 5 10 15 20 defasagem Figura 2.7: (a) 50 observa¸co˜es simuladas segundo um passeio aleat´orio. (b) 20 primeiras autocorrela¸co˜es amostrais. alisamento exponencial e fa¸ca um gr´ afico da s´erie com os valores suavizados. Comente os resultados. 2. Para cada um dos processos abaixo gere 200 observa¸co˜es. Fa¸ca um gr´ afico da s´erie e do correlograma. (a) Serie aleat´ oria, observa¸co˜es iid da distribui¸ca˜o N(0,1). (b) Serie com tendˆencia estoc´ astica, xt = xt−1 + ǫt , ǫt ∼ N (0, (0, 1)2 ) (c) Outra serie com tendencia estocastica, xt = xt−1 + ǫt , ǫt ∼ N (1, 52 ) (d) Serie com correla¸ca˜o de curto-prazo, xt = 0, 7xt−1 + ǫt , ǫt ∼ N (0, 1) (e) Serie com correla¸co˜es negativas, xt = −0, 8xt−1 + ǫt , ǫt ∼ N (0, 1) (f) Medias moveis, xt = ǫt + 0, 6ǫt−1 , ǫt ∼ N (0, 1) (g) passeio aleatorio com desvio Xt = 1 + Xt−1 + ǫt , ǫt ∼ N (0, 1). Cap´ıtulo 3 Modelos Probabil´ısticos 3.1 Introdu¸c˜ ao Neste cap´ıtulo ser˜ ao descritos v´ arios modelos adequados para dados de s´eries temporais. Tais modelos s˜ ao chamados de processos estoc´ asticos. Matematicamente um processo estoc´ astico pode ser definido como uma cole¸ca˜o de vari´ aveis aleat´ orias ordenadas no tempo e definidas em um conjunto de pontos T , que pode ser cont´ınuo ou discreto. Iremos denotar a vari´ avel aleat´ oria no tempo t por X(t) no caso cont´ınuo (usualmente −∞ < t < ∞), e por Xt no caso discreto (usualmente t = 0, ±1, ±2, . . . ). O conjunto de poss´ıveis valores do processo ´e chamado de espa¸co de estados que pode ser discreto (e.g. o n´ umero de chamadas que chegam a uma central telefˆ onica a cada 2 horas) ou cont´ınuo (e.g. a temperatura do ar em uma localidade observada em intervalos de 1 hora). Em an´ alise de s´eries temporais a situa¸ca˜o ´e bem diferente da maioria dos problemas estat´ısticos. Embora seja poss´ıvel variar o tamanho da s´erie observada, usualmente ser´ a imposs´ıvel fazer mais do que uma observa¸ca˜o em cada tempo. Assim, tem-se apenas uma realiza¸ca˜o do processo estoc´ astico e uma u ´nica observa¸ca˜o da vari´ avel aleat´ oria no tempo t denotada por x(t) no caso cont´ınuo e xt , para t = 1, . . . , N no caso discreto. Uma maneira de descrever um processo estoc´ astico ´e atrav´es da distribui¸ca˜o de probabilidade conjunta de X(t1 ), . . . , X(tk ) para qualquer conjunto de tempos t1 , . . . , tk e qualquer valor de k. Esta ´e uma tarefa extremamente complicada e na pr´atica costuma-se descrever um processo estoc´ astico atrav´es das fun¸co˜es m´edia, variˆ ancia e autocovariˆ ancia. Estas fun¸co˜es s˜ ao definidas a seguir para o caso cont´ınuo sendo que defini¸co˜es similares se aplicam ao caso discreto. m´edia µ(t) = E[X(t)] variˆ ancia σ 2 (t) = V ar[X(t)] autocovariˆ ancia γ(t1 , t2 ) = E[X(t1 ) − µ(t1 )][X(t2 ) − µ(t2 )] Note que a fun¸ca˜o de variˆ ancia ´e um caso especial da fun¸ca˜o de autocovariˆ ancia quando t1 = t2 . Momentos de ordem mais alta do processo tamb´em ser definidos 18 ´ 3.2. PROCESSOS ESTACIONARIOS 19 mas s˜ ao raramente utilizados na pr´atica e as fun¸co˜es µ(t) e γ(t1 , t2 ) s˜ ao em geral suficientes. 3.2 Processos Estacion´ arios Uma importante classe de processos estoc´ asticos s˜ ao os chamados processos estacion´ arios. A id´eia intuitiva de estacionariedade foi introduzida no cap´ıtulo anterior e aqui ser´ a apresentada a defini¸ca˜o formal. Uma s´erie temporal ´e dita estritamente estacion´ aria se a distribui¸ca˜o de probabilidade conjunta de X(t1 ), . . . , X(tk ) ´e a mesma de X(t1 + τ ), . . . , X(tk + τ ). Ou seja, o deslocamento da origem dos tempos por uma quantidade τ n˜ao tem efeito na distribui¸ca˜o conjunta que portanto depende apenas dos intervalos entre t1 , . . . , tk . Em particular, para k = 1 a estacionariedade estrita implica que a distribui¸ca˜o de X(t) ´e a mesma para todo t de modo que, se os dois primeiros momentos forem finitos, temos que µ(t) = µ e σ 2 (t) = σ 2 s˜ ao constantes que n˜ao dependem de t. Para k = 2 a distribui¸ca˜o conjunta de X(t1 ) e X(t2 ) depende apenas da distˆ ancia t2 − t1 , chamada defasagem. A fun¸ca˜o de autocovariˆ ancia γ(t1 , t2 ) tamb´em depende apenas de t2 − t1 e pode ser escrita como γ(τ ) onde γ(τ ) = E[X(t) − µ][X(t + τ ) − µ] = Cov[X(t), X(t + τ )] ´e chamado de coeficiente de autocovariˆ ancia na defasagem τ . Note que o tamanho de γ(τ ) depende da escala em que X(t) ´e medida. Portanto, para efeito de interpreta¸ca˜o, ´e mais u ´til padronizar a fun¸ca˜o de autocovariˆ ancia dando origem a uma fun¸ca˜o de autocorrela¸ca˜o ρ(τ ) = γ(τ )/γ(0) que mede a correla¸ca˜o entre X(t) e X(t + τ ). No cap´ıtulo anterior foi apresentado o seu equivalente emp´ırico para s´eries discretas rk . Note tamb´em que o argumento τ ser´ a discreto se a s´erie temporal for discreta e cont´ınuo se a s´erie temporal for cont´ınua. Na pr´atica ´e muito dif´ıcil usar a defini¸ca˜o de estacionariedade estrita e costuma-se definir estacionariedade de uma forma menos restrita. Defini¸ c˜ ao 3.1. Um processo estoc´ astico {X(t), t ∈ T } ´e dito ser estacion´ ario de segunda ordem ou fracamente estacion´ ario se a sua fun¸ca ˜o m´edia ´e constante e sua fun¸ca ˜o de autocovariˆ ancia depende apenas da defasagem, i.e. E[X(t)] = µ e Cov[X(t), X(t + τ )] = γ(τ ). Nenhuma outra suposi¸ca˜o ´e feita a respeito dos momentos de ordem mais alta. Al´em disso, fazendo τ = 0 segue que V ar[X(t)] = γ(0), ou seja a variˆ ancia do processo CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 20 assim como a m´edia tamb´em ´e constante. Note tamb´em que tanto a m´edia quanto a variˆ ancia precisam ser finitos. Esta defini¸ca˜o mais fraca de estacionariedade ser´ a utilizada daqui em diante j´a que muitas propriedades dos processos estacion´arios dependem apenas da estrutura especificada pelo primeiro e segundo momentos. Uma classe importante de processos aonde isto se verifica ´e a classe de processos normais ou Gaussianos aonde a distribuic¸a˜o conjunta de X(t1 ), . . . , X(tk ) ´e normal multivariada para todo conjunto t1 , . . . , tk . A distribui¸ca˜o normal multivariada fica completamente caracterizada pelo primeiro e segundo momentos, i.e. por µ(t) e γ(t1 , t2 ), assim estacionariedade fraca implica em estacionariedade estrita para processos normais. Por outro lado, µ e γ(τ ) podem n˜ao descrever adequadamente processos que sejam muito “n˜ ao-normais”. 3.3 A Fun¸c˜ ao de Autocorrela¸c˜ ao Foi visto na Se¸ca˜o 2.4 que os coeficientes de autocorrela¸ca˜o amostral de uma s´erie temporal observada s˜ ao uma ferramenta importante para descrever a s´erie. Analogamente, a fun¸ca˜o de autocorrela¸ca˜o te´ orica (fac) de um processo estoc´ astico estacion´ario ´e uma ferramenta importante para assessar suas propriedades. A seguir ser˜ ao apresentadas propriedades gerais da fun¸ca˜o de autocorrela¸ca˜o. Se um processo estoc´ astico estacion´ario X(t) tem m´edia µ e variˆ ancia σ 2 ent˜ao ρ(τ ) = γ(τ )/γ(0) = γ(τ )/σ 2 e portanto ρ(0) = 1. As seguintes propriedades s˜ ao facilmente verific´ aveis. 1. A correla¸ca˜o entre X(t) e X(t + τ ) ´e a mesma que entre X(t) e X(t − τ ), ou seja ρ(τ ) = ρ(−τ ). 2. −1 < ρ(τ ) < 1. 3. Embora um processo estoc´ astico tenha uma estrutura de autocovariˆ ancia u ´nica ´ poss´ıvel encontrar v´ o contr´ario n˜ao ´e verdadeiro em geral. E arios processos com a mesma fun¸ca˜o de autocorrela¸ca˜o, o que dificulta ainda mais a interpreta¸ca˜o do correlograma. 3.4 Alguns Processos Estoc´ asticos Nesta se¸ca˜o ser˜ ao apresentados alguns processos estoc´asticos que s˜ ao utilizados com frequˆencia na especifica¸ca˜o de modelos para s´eries temporais. 3.4.1 Sequˆ encia Aleat´ oria Um processo em tempo discreto ´e chamado puramente aleat´ orio se consiste de uma sequˆencia de vari´ aveis aleat´ orias {ǫt } independentes e identicamente distribuidas. Isto implica nas seguintes propriedades ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 21 1. E(ǫt ) = E(ǫt |ǫt−1 , ǫt−2 , . . . ) = µ 2. V ar(ǫt ) = V ar(ǫt |ǫt−1 , ǫt−2 , . . . ) = σǫ2 3. γ(k) = Cov(ǫt , ǫt+k ) = 0, k = ±1, ±2, . . . . Como a m´edia e a fun¸ca˜o de autocovariˆ ancia n˜ao dependem do tempo o processo ´e estacion´ario em segunda ordem. A fun¸ca˜o de autocorrela¸ca˜o ´e simplesmente ( 1, k = 0 ρ(k) = 0, k = ±1, ±2, . . . . Um processo puramente aleat´ orio ´e as vezes chamado de ru´ıdo branco e pode ser u ´til por exemplo na constru¸ca˜o de processos mais complicados. As propriedades acima podem ser entendidas como ausˆencia de correla¸ca ˜o serial e homocedasticidade condicional (variˆ ancia condicional constante). 3.4.2 Passeio Aleat´ orio Seja {ǫt } um processo discreto puramente aleat´ orio com m´edia µ e variˆ ancia σǫ2 . Um processo {Xt } ´e chamada de passeio aleat´ orio se Xt = Xt−1 + ǫt . Fazendo-se substitui¸co˜es sucessivas obt´em-se que Xt = Xt−2 + ǫt−1 + ǫt = Xt−3 + ǫt−2 + ǫt−1 + ǫt .. . t X ǫj = X0 + j=1 e iniciando o processo em X0 = 0 n˜ao ´e dif´ıcil verificar que E(Xt ) = t X E(ǫj ) = tµ j=1 V ar(Xt ) = t X V ar(ǫj ) = tσǫ2 . j=1 Al´em disso, a fun¸ca˜o de autocovariˆ ancia ´e dada por Cov(Xt , Xt−k ) = Cov(ǫ1 + · · · + ǫt−k + · · · + ǫt , ǫ1 + · · · + ǫt−k ) = (t − k)σǫ2 e portanto a fun¸ca˜o de autocorrela¸ca˜o fica ρt (k) = t−k . t CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 22 Como a m´edia, a variˆ ancia e as autocovariˆ ancias dependem de t este processo ´e n˜ao estacion´ario. No entanto, ´e interessante notar que a primeira diferen¸ca de um passeio aleat´ orio ´e estacion´aria j´a que ▽Xt = Xt − Xt−1 = ǫt . Os exemplos mais conhecidos de s´eries temporais que se comportam como um passeio aleat´ orio s˜ ao os pre¸cos de a¸co˜es em dias sucessivos (ver por exemplo Morettin e Toloi, 2004). 3.4.3 Processos de M´ edia M´ oveis Seja {ǫt } um processo discreto puramente aleat´ orio com m´edia zero e variˆ ancia σǫ2 . Um processo {Xt } ´e chamada de processo de m´edias m´ oveis de ordem q, ou MA(q), se Xt = ǫt + β1 ǫt−1 + · · · + βq ǫt−q , (3.1) sendo βi ∈ R, i = 1, . . . , q. N˜ ao ´e dif´ıcil verificar como ficam a m´edia e a variˆ ancia deste processo, E(Xt ) = E(ǫt ) + q X βj E(ǫt−j ) = 0 j=1 V ar(Xt ) = V ar(ǫt ) + q X j=1 βj2 V ar(ǫt−j ) = (1 + β12 + · · · + βq2 ) σǫ2 . Al´em disso, como Cov(ǫt , ǫs ) = σǫ2 para t = s e Cov(ǫt , ǫs ) = 0 para t 6= s, a fun¸ca˜o de autocovariˆ ancia ´e dada por γ(k) = Cov(Xt , Xt+k ) = Cov(ǫt + β1 ǫt−1 + · · · + βq ǫt−q , ǫt+k + β1 ǫt+k−1 + · · · + βq ǫt+k−q )   0 k>q    q−k  X σǫ2 βj βj+k k = 0, . . . , q = (3.2)   j=0    γ(−k) k<0 com β0 = 1. Como a m´edia e a variˆ ancia s˜ ao constantes e γ(k) n˜ao depende de t o processo ´e (fracamente) estacion´ario para todos os poss´ıveis valores de β1 , . . . , βq . Al´em disso, se os ǫt ’s forem normalmente distribuidos os Xt ’s tamb´em ser˜ ao e portanto o processo ser´ a estritamente estacion´ario. A fun¸ca˜o de autocorrela¸ca˜o pode ser facilmente obtida de (3.2) como  1 k=0      q−k q  X   Xβ β βj2 k = 1, . . . , q j j+k ρ(k) = j=0 j=0     0 k>q    ρ(−k) k < 0. ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 23 Note que a fun¸ca˜o tem um ponto de corte na defasagem q, i.e. ρ(k) = 0 para k > q. Esta ´e uma caracter´ıstica espec´ıfica de processos m´edias m´ oveis e ser´ a u ´til na especifica¸ca˜o do valor de q na pr´atica (Box & Jenkins 1970, p. 170). > MAacf <- function(q, beta, lag.max) { + sig2x = 1 + sum(beta^2) + rho = rep(0, lag.max) + for (k in 1:q) { + rho[k] = beta[k] + if (q - k > 0) { + for (j in 1:(q - k)) rho[k] = rho[k] + beta[j] * + beta[j + k] + } + rho[k] = rho[k]/sig2x + } + return(rho) + } > round(MAacf(q = 2, beta = c(0.5, 0.3), lag.max = 6), 4) [1] 0.4851 0.2239 0.0000 0.0000 0.0000 0.0000 Vamos analisar agora com mais detalhes o caso particular do processo MA(1). A fun¸ca˜o de autocorrela¸ca˜o fica   k=0  1 2 ρ(k) = (3.3) β1 /(1 + β1 ) k = ±1   0 k > 1. O processo ´e estacion´ario para qualquer valor de β1 mas em geral ´e desej´avel impor restri¸co˜es para que ele satisfa¸ca uma condi¸ca˜o chamada inversibilidade. Considere os seguintes processos MA(1) Xt = ǫt + θǫt−1 1 Xt = ǫt + ǫt−1 . θ Substituindo em (3.3) n˜ao ´e dif´ıcil verificar que estes dois processos diferentes tˆem exatamente a mesma fun¸ca˜o de autocorrela¸ca˜o. Assim, n˜ao ´e poss´ıvel identificar um processo MA(1) u ´nico a partir da fun¸ca˜o de autocorrela¸ca˜o. Por outro lado, podemos fazer substitui¸co˜es sucessivas e reescrever estes dois processos colocando ǫt em fun¸ca˜o de Xt , Xt−1 , . . . , i.e. ǫt = Xt − θXt−1 + θ2 Xt−2 − θ3 Xt−3 + . . . 1 1 1 ǫt = Xt − Xt−1 + 2 Xt−2 − 3 Xt−3 + . . . θ θ θ Se |θ| < 1 a primeira s´erie converge e o modelo ´e dito ser invers´ıvel mas a segunda n˜ao converge e o modelo ´e n˜ ao invers´ıvel. Ou seja, a condi¸ca˜o de inversibilidade (neste 24 CAP´ITULO 3. MODELOS PROBABIL´ISTICOS caso |θ| < 1) garante que existe um u ´nico processo MA(1) para uma dada fun¸ca˜o de autocorrela¸ca˜o. Outra consequˆencia da inversibilidade ´e que o processo MA(1) pode ser reescrito como uma regress˜ ao de ordem infinita nos seus pr´oprios valores defasados. Para um processo MA(q) esta condi¸ca˜o pode ser melhor expressa usando-se o operador de retardo, denotado por B e definido como B j Xt = Xt−j , para todo j. A equa¸ca˜o (3.1) pode ent˜ao ser reescrita como Xt = (1 + β1 B + β2 B 2 + · · · + βq B q )ǫt = θ(B)ǫt onde θ(B) ´e um polinˆ omio de ordem q em B. Um processo MA(q) ´e invers´ıvel se as ra´ızes da equa¸ca˜o θ(B) = 1 + β1 B + β2 B 2 + · · · + βq B q = 0 estiverem fora do c´ırculo unit´ ario. Ou seja, se δ1 , . . . , δq s˜ ao q solu¸co˜es de θ(B) = 0 ent˜ao o processo ´e invers´ıvel se |δi | > 1, i = 1, . . . , q. Teremos ent˜ao 2q modelos com a mesma fun¸ca˜o de autocorrela¸ca˜o mas somente um deles ser´ a invers´ıvel. Finalmente, vale notar que uma constante µ qualquer pode ser adicionada ao lado direito de (3.1) dando origem a um processo com m´edia µ. O processo continuar´ a sendo estacion´ario com E(Xt ) = µ e em particular a fun¸ca˜o de autocorrela¸ca˜o n˜ao ser´ a afetada. 3.4.4 Processos Autoregressivos Suponha que {ǫt } seja um processo puramente aleat´ orio com m´edia zero e variˆ ancia σǫ2 . Um processo {Xt } ´e chamada de processo autoregressivo de ordem p, ou AR(p), se Xt = α1 Xt−1 + · · · + αp Xt−p + ǫt . (3.4) Note a similaridade com um modelo de regress˜ ao m´ ultipla, onde os valores passados de Xt fazem o papel das regressoras. Assim, processos AR podem ser usados como modelos se for razo´ avel assumir que o valor atual de uma s´erie temporal depende do seu passado imediato mais um erro aleat´ orio. Por simplicidade vamos come¸car estudando em detalhes processos de primeira ordem, AR(1), i.e. Xt = αXt−1 + ǫt . (3.5) Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado Xt−1 , Xt n˜ao depende de Xt−2 , Xt−3 , . . . . Fazendo subtitui¸co˜es sucessivas em (3.5) ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 25 obtemos que Xt = α(αXt−2 + ǫt−1 ) + ǫt = α2 Xt−2 + αǫt−1 + ǫt = α2 (αXt−3 + ǫt−2 ) + αǫt−1 + ǫt = α3 Xt−3 + α2 ǫt−2 + αǫt−1 + ǫt .. . r X αj ǫt−j . = αr+1 Xt−r−1 + j=0 2 podemos escrever que Se Xt for estacion´ario com variˆ ancia finita σX E[Xt − r X 2 2 αj ǫt−j ]2 = α2r+2 E(Xt−r−1 ) = α2r+2 σX j=0 e se |α| < 1 temos que α2r+2 → 0 quando r → ∞. Portanto, esta condi¸ca˜o nos permite escrever Xt como o seguinte processo MA infinito, Xt = ǫt + αǫt−1 + α2 ǫt−2 + . . . e assim |α| < 1 ´e uma condi¸ca˜o suficiente para que Xt seja estacion´ario. Neste caso, reescrevendo o processo k per´ıodos `a frente, i.e. Xt+k = ǫt+k + αǫt+k−1 + · · · + αk ǫt + . . . (3.6) note como o efeito de ǫt sobre Xt+k diminui a medida que k aumenta e por isso ´e chamado efeito transit´ orio. Podemos tamb´em usar o operador de retardo reescrevendo a equa¸ca˜o (3.5) como (1 − αB)Xt = ǫt ou equivalentemente Xt = 1 ǫt = (1 + αB + α2 B 2 + . . . )ǫt = ǫt + αǫt−1 + α2 ǫt−2 + . . . (1 − αB) Escrevendo o processo AR(1) neste formato de MA infinito fica f´acil ver que a sua m´edia e variˆ ancia s˜ ao dados por E(Xt ) = 0 e V ar(Xt ) = σǫ2 (1 + α2 + α4 + . . . ) = σǫ2 . 1 − α2 A fun¸ca˜o de autocovariˆ ancia pode ser obtida usando os resultados acima. Reescrevendo a equa¸ca˜o (3.6) como Xt+k = ǫt+k + · · · + αk−1 ǫt+1 + αk ǫt + αk+1 ǫt−1 + αk+2 ǫt−2 + . . . pode-se verificar que, para qualquer k = 1, 2, . . . , Cov(ǫt + αǫt−1 + α2 ǫt−2 + . . . , ǫt+k + · · · + αk−1 ǫt+1 ) = 0. CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 26 Portanto, E(Xt Xt+k ) = Cov(ǫt + αǫt−1 + α2 ǫt−2 + . . . , αk ǫt + αk+1 ǫt−1 + αk+2 ǫt−2 + . . . ) = αk E(ǫ2t ) + αk+2 E(ǫ2t−1 ) + αk+4 E(ǫ2t−2 ) + . . . = αk σǫ2 (1 + α2 + α4 + . . . ) = αk σǫ2 2 = α k σX = γ(k). 1 − α2 0.0 −0.8 0.2 −0.2 0.4 0.2 0.6 0.6 0.8 Assim, a fun¸ca˜o de autocorrela¸ca˜o ´e ρ(k) = αk para k = 0, 1, 2, . . . . Assim, como a m´edia e a variˆ ancia s˜ ao constantes e γ(k) n˜ao depende de t o processo AR(1) com |α| < 1 ´e estacion´ario. Na Figura 3.1 s˜ ao mostradas graficamente as autocorrela¸c˜oes te´ oricas de um processo AR(1) at´e a defasagem k = 20 para α igual a 0,8, -0,8, 0,2 e -0,2. Note como a fun¸ca˜o de autocorrela¸ca˜o decai rapidamente para zero quando α = 0, 2 e se alterna entre valores positivos e negativos quando α = −0, 8. Ou seja sempre h´a um decaimento exponencial para zero mas este decaimento depende do sinal e magnitude de α. 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20 0.00 −0.20 −0.10 0.10 0.00 0.20 5 Figura 3.1: As 20 primeiras autocorrela¸co˜es te´oricas de um processo AR(1) com (a) α = 0, 8, (b) α = −0, 8, (c) α = 0, 2 e (d) α = −0, 2. Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt como um processo MA infinito com coeficientes ψ0 , ψ1 , . . . , i.e. Xt = ψ0 ǫt + ψ1 ǫt−1 + ψ2 ǫt−2 + · · · = (ψ0 + ψ1 B + ψ2 B 2 + . . . )ǫt = ψ(B)ǫt . ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 27 e em analogia com o caso AR(1) segue que o processo ser´ a estacion´ario se Usando agora o operador de retardo a equa¸ca˜o (3.4) fica (1 − α1 B − α2 B 2 − · · · − αp B p )Xt = ǫt P j ψj2 < ∞. ou φ(B)Xt = ǫt e portanto o processo AR(p) pode ser escrito como Xt = φ(B)−1 ǫt = ψ(B)ǫt . Assim, os coeficientes ψj podem ser obtidos a partir dos coeficientes αj fazendo-se (1 − α1 B − α2 B 2 − · · · − αp B p )(ψ0 + ψ1 B + ψ2 B 2 + . . . ) = 1 Desenvolvendo-se esta express˜ao segue que ψ0 + ψ1 B + ψ2 B 2 + · · · − α1 ψ0 B − α1 ψ1 B 2 − α1 ψ2 B 3 − . . . − α2 ψ0 B 2 − α2 ψ1 B 3 − α2 ψ2 B 4 − . . . .. . − αp ψ0 B p − αp ψ1 B p+1 − · · · = 1 + 0B + 0B 2 + . . . e agora agrupando em termos de B, B 2 , . . . ψ0 + (ψ1 − α1 ψ0 )B + (ψ2 − α1 ψ1 − α2 ψ0 )B 2 + · · · = 1 + 0B + 0B 2 + . . . donde obt´em-se os coeficientes MA recursivamente como ψ0 = 1 ψ1 = ψ0 α1 ψ2 = ψ1 α1 + ψ0 α2 ψ3 = ψ2 α1 + ψ1 α2 + ψ0 α3 .. . i X ψi−j αj . ψi = j=1 O efeito de ǫt sobre Xt+k ´e dado por ψk , k = 1, 2, . . . . Pode-se mostrar que (ver por exemplo Box, Jenkins, & Reinsel 1994) a condi¸ca˜o de estacionariedade do processo Xt ´e que todas as ra´ızes de φ(B) = 0 estejam fora do c´ırculo unit´ ario. Em particular, para p = 1 temos que φ(B) = 1 − αB = 0 implica que B = 1/α e a condi¸ca˜o de estacionariedade fica |α| < 1 conforme j´a haviamos verificado. Para reescrever um processo AR(p) em forma vetorial, defina Z t = (Xt−1 , . . . , Xt−p )′ e portanto Z t = ΦZ t−1 + ut CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 28 sendo a matriz Φ definida como  φ1 φ2 1 0   0 1 Φ=  ..  .. . . 0 0 ... ... ... .. . ...  φp−1 φp 0 0   0 0  .. ..  . . 1 0 e ut = (ǫt , 0, . . . , 0)′ . Para obter a fun¸ca˜o de autocorrela¸ca˜o de um processo AR(p) ´e algebricamente mais simples assumir a priori que o processo ´e estacion´ario com E(Xt ) = 0, V ar(Xt ) = 2 e Cov(X , X σX ca˜o (3.4) por Xt−k , i.e t t−k ) = γ(k). Neste caso, multiplicando a equa¸ Xt Xt−k = α1 Xt−1 Xt−k + · · · + αp Xt−p Xt−k + ǫt Xt−k . e tomando o valor esperado obtemos que E(Xt Xt−k ) = γ(k) = α1 E(Xt−1 Xt−k ) + · · · + αp E(Xt−p Xt−k ) = α1 γ(k − 1) + · · · + αp γ(k − p), k > 0. 2 obtem-se que Dividindo-se ambos os lados pela variˆ ancia constante σX ρ(k) = α1 ρ(k − 1) + · · · + αp ρ(k − p), k>0 chamadas equa¸co˜es de Yule-Walker. Por exemplo, para um processo AR(1) com coeficiente α segue que ρ(1) = α, ρ(2) = αρ(1) = α2 , . . . , ρ(k) = αk como j´a haviamos verificado. Para um processo AR(2) com coeficientes α1 e α2 segue que ρ(1) = α1 ρ(0) + α2 ρ(1) ⇒ ρ(1) = α1 /(1 − α2 ) e as outras autocorrela¸co˜s s˜ ao obtidas iterativamente como ρ(k) = α1 ρ(k − 1) + α2 ρ(k − 2), k≥2 Autocorrela¸ c˜ oes Parciais Para um processo AR(p), o u ´ltimo coeficiente αp mede o “excesso de correla¸ca˜o” na defasagem p que n˜ao ´e levado em conta por um modelo AR(p − 1). Este ´e chamado de p-´esimo coeficiente de autocorrela¸ca ˜o parcial. Assim, variando k = 1, 2, . . . temos a chamada fun¸ca ˜o de autocorrela¸ca ˜o parcial (FACP). Por outro lado, em um processo AR(p) n˜ao existe correla¸ca˜o direta entre Xt e Xt−p−1 , Xt−p−2 , . . . e substituindo k = p + 1, p + 2, . . . nas equa¸co˜es de Yule-Walker obtem-se que todos os coeficientes de correla¸ca˜o parcial ser˜ ao nulos para k > p. Por exemplo, substituindo-se k = p + 1 segue que ρ(p + 1) = α1 ρ(p) + · · · + αp ρ(1) + αp+1 . O fato de que a facp ´e igual a zero para k > p ´e sugerido em Box and Jenkins (1970, p. 170) como uma ferramenta para determinar a ordem p do processo autoregressivo para s´eries temporais observadas. ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 3.4.5 29 Modelos Mistos ARMA Combinando-se modelos AR e MA pode-se obter uma representa¸c˜ao adequada com um n´ umero menor de parˆ ametros. Processos autoregressivos m´edias m´ oveis (ARMA) formam um classe de modelos muito u ´teis e parcimoniosos para descrever dados de s´eries temporais. O modelo ARMA(p, q) ´e dado por Xt = α1 Xt−1 + · · · + αp Xt−p + ǫt + β1 ǫt−1 + · · · + βq ǫt−q onde {ǫt } ´e um processo puramente aleat´ orio com m´edia zero e variˆ ancia σǫ2 . Note que, modelos AR ou MA podem ser obtidos como casos especiais quando p = 0 ou q = 0. Usando o operador de retardo o modelo pode ser reescrito como (1 − α1 B − α2 B 2 − · · · − αp B p )Xt = (1 + β1 B + β2 B 2 + · · · + βq B q )ǫt ou φ(B)Xt = θ(B)ǫt . Os valores de α1 , . . . , αp que tornam o processo estacion´ario s˜ ao tais que as ra´ızes de φ(B) = 0 est˜ ao fora do c´ırculo unit´ ario. Analogamente, os valores de β1 , . . . , βq que tornam o processo invers´ıvel s˜ ao tais que as ra´ızes de θ(B) = 0 est˜ ao fora do c´ırculo unit´ ario. Vale notar que as fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial ficam consideravelmente mais complicadas em processos ARMA. De um modo geral, para um processo ARMA(p, q) estacion´ario a fun¸ca˜o de autocorrela¸ca˜o tem um decaimento exponencial ou oscilat´orio ap´ os a defasagem q enquanto que a facp tem o mesmo comportamento ap´ os a defasagem p (Box & Jenkins 1970, p. 79). Em princ´ıpio este resultado pode ser utilizado para auxiliar na determina¸ca˜o da ordem (p, q) do processo mas na pr´atica pode ser bastante dif´ıcil distinguir entre decaimentos exponenciais e oscilat´orios atrav´es das estimativas destas fun¸co˜es. A Tabela 3.1 mostra as propriedades te´ oricas das fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial para alguns processos estacion´arios como auxiliar na identifica¸ca˜o do modelo. Tabela 3.1: Propriedades te´ oricas da fac e facp. Processo s´erie aleat´ oria AR(1), α > 0 AR(1), α < 0 AR(p) MA(1) ARMA(p, q) FAC 0 decaimento decaimento decaimento 0, k > 1 decaimento exponencial oscilat´orio para zero a partir de q FACP 0 0, k ≥ 2 idem 0, k > p decaimento oscilat´orio decaimento a partir de p CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 30 3.4.6 Modelos ARMA Integrados Os modelos discutidos at´e agora s˜ ao apropriados para s´eries temporais estacion´arias. Assim, para ajustar estes modelos a uma s´erie temporal observada ´e necess´ario remover as fontes de varia¸ca˜o n˜ao estacion´arias. Por exemplo, se a s´erie observada for n˜ao estacion´aria na m´edia pode-se tentar remover a tendˆencia tomando-se uma ou mais diferen¸cas (esta abordagem ´e muito utilizada em Econometria). Um modelo ARMA no qual Xt ´e substituido pela sua d-´esima diferen¸ca ▽d Xt ´e capaz de descrever alguns tipos de s´eries n˜ao estacion´arias. Denotando a s´erie diferenciada por Wt = ▽d Xt = (1 − B)d Xt o processo autoregressivo integrado m´edias m´ oveis denotado ARIMA(p, d, q) ´e dado por Wt = α1 Wt−1 + · · · + αp Wt−p + ǫt + β1 ǫt−1 + · · · + βq ǫt−q ou, equivalentemente φ(B)(1 − B)d Xt = θ(B)ǫt . (3.7) Da equa¸ca˜o (3.7) acima pode-se notar que o modelo para Xt ´e claramente n˜ao estacion´ario j´a que o polinˆ omio autoregressivo φ(B)(1 − B)d tem exatamente d ra´ızes sobre o c´ırculo unit´ ario, ou d ra´ızes unit´ arias. Um processo que se torna estacion´ario ap´ os d diferen¸cas ´e dito ser n˜ao estacion´ario homogˆeneo, ou integrado de ordem d, I(d). Na pr´atica valores pequenos s˜ ao em geral especificados para d, sendo d = 1 o valor mais frequentemente utilizado e excepcionalmente d = 2. Note tamb´em que o passeio aleat´ orio pode ser considerado um processo ARIMA(0,1,0). Vale notar que para dados reais um modelo ARIMA (e de fato qualquer modelo) ´e no m´ aximo uma aproxima¸ca˜o para o verdadeiro processo gerador dos dados. Na pr´atica pode ser bem dif´ıcil distinguir entre um processo estacion´ario com mem´ oria longa (e.g. AR(1) com α ≈ 1) e um processo n˜ao estacion´ario homogˆeneo. Existe uma vasta literatura econom´etrica sobre testes de ra´ız unit´ aria (ver por exemplo Hamilton 1994 e Bauwens, Lubrano, & Richard 1999). Mais recentemente, modelos da classe ARFIMA (ou ARIMA fracion´ arios) tem sido utilizados para analisar s´eries com mem´ oria longa. Estes t´opicos n˜ao ser˜ ao abordados aqui e o leitor interessado pode consultar por exemplo Brockwell & Davis (1991) al´em das referˆencias acima. Exerc´ıcios Nos exerc´ıcios a seguir {ǫt } ´e um processo discreto puramente aleat´ orio com m´edia zero e variˆ ancia σǫ2 . 1. Encontre a fac do processo Xt = ǫt + 0, 7ǫt−1 − 0, 2ǫt−2 . 2. Encontre a fac do processo Xt − µ = 0, 7(Xt−1 − µ) + ǫt . 3. Encontre a fac do processo Xt = 13 Xt−1 + 92 Xt−2 + ǫt . ´ 3.4. ALGUNS PROCESSOS ESTOCASTICOS 31 4. Se Xt = µ + ǫt + βǫt−1 mostre que a fac do processo n˜ao depende de µ. 5. Reescreva cada um dos modelos abaixo em termos de operador de retardo B e verifique se o modelo ´e estacion´ario e/ou invers´ıvel: (a) Xt = 0, 3Xt−1 + ǫt . (b) Xt = ǫt − 1, 3 ǫt−1 + 0, 4 ǫt−2 . (c) Xt = 0, 5Xt−1 + ǫt − 1, 3 ǫt−1 + 0, 4 ǫt−2 . (d) ▽Xt = 0, 3 ▽Xt−1 + ǫt − 0, 6 ǫt−1 (e) Xt = Xt−1 + ǫt − 1, 5ǫt−1 6. Mostre que o processo Xt = Xt−1 + cXt−2 + ǫt ´e estacion´ario se −1 < c < 0 e obtenha a fac para c = −3/16. 7. Mostre que o processo Xt = Xt−1 + cXt−2 − cXt−3 + ǫt ´e n˜ao estacion´ario para qualquer valor de c. 8. Descreva como deve se comportar a fun¸ca˜o de autocorrela¸ca˜o te´ orica para os seguintes processos, (a) AR(1) estacion´ario, para α = 0, 1, α = −0, 75 e α = 0, 99. (b) M´edias m´ oveis de ordem q. (c) Como deveriam ficar as fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial amostrais que identificam os processos acima? 9. Descreva como deveriam se comportar as fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial amostrais para processos AR, MA e ARMA n˜ao sazonais. 10. Para o modelo (1 − B)(1 − 0, 2B)Xt = (1 − 0, 5B)ǫt , identifique os valores de p, q, e d e verifique se o processo ´e estacion´ario e invers´ıvel. 11. Mostre que a fun¸ca˜o de autocovariˆ ancia de um processo AR(1) estacion´ario com 2 k 2 variˆ ancia σX ´e dada por α σX (Sugest˜ ao: use a express˜ao (3.2) com q → ∞) P 12. Verifique se Xt = tj=1 ǫt ´e estacion´ario. 13. Mostre que a fac do processo Xt = aXt−1 + ǫt + bǫt−1 ´e dada por (1 + ab)(a + b) 1 + b2 + 2ab ρ(k) = aρ(k − 1), k = 2, 3, . . . ρ(1) = 14. Obtenha a fun¸ca˜o de autocovarˆ ancia do processo 1 1 1 Xt = ǫt + ǫt−1 + 2 ǫt−2 + · · · + m ǫt−m a a a sendo que 0 < a < 1. 32 CAP´ITULO 3. MODELOS PROBABIL´ISTICOS 15. Se {Xt } ´e um processo estacion´ario obtenha a fun¸ca˜o de autocovariˆ ancia de Yt = Xt − Xt−1 . 16. Mostre que o processo Xt = (α + 1)Xt−1 − αXt−2 + ǫt tem exatamente uma raiz unit´ aria e reescreva-o como um processo ARIMA(1,1,0). 17. Obtenha a fun¸ca˜o de autocorrela¸ca˜o do passeio aleat´ orio Xt = Xt−1 + ǫt com E(ǫt ) = µ, V ar(ǫt ) = σǫ2 e Cov(ǫt , ǫs ) = 0, ∀t 6= s. 18. Verifique se o processo {Yt } tal que P (Yt = 1) = P (Yt = −1) = 1/2 ´e estacion´ario. Obtenha sua m´edia, variˆ ancia e covariˆ ancia. 19. Sejam os processos Yt = ǫt + θǫt−1 , |θ| > 1 e {Xt } tal que Xt = 1 se Yt ≥ 0 e Xt = −1 se Yt < 0. Verifique se {Xt } e {Yt } s˜ ao estacion´arios. Calcule a fun¸ca˜o de autocorrela¸ca˜o de {Xt }. 20. Verifique que o processo Yt = (−1)t ǫt ´e estacion´ario e que Xt = Yt + ǫt n˜ao ´e estacion´ario. 21. Se {Xt } e {Yt } s˜ ao independentes e estacion´arios verifique se Zt = αXt + βYt , α, β ∈ R tamb´em ´e estacion´ario. 22. Obtenha a representa¸ca˜o MA(∞) de um processo AR(2) estacion´ario. 23. Obtenha a representa¸ca˜o AR(∞) de um processo MA(1) invers´ıvel. Cap´ıtulo 4 Estima¸ c˜ ao No cap´ıtulo anterior foram estudados modelos probabil´ısticos que podem ser utilizados para descrever dados de s´eries temporais. Neste cap´ıtulo ser´ a discutido o problema de ajustar um modelo aos dados observados. A inferˆencia ser´ a baseada na fun¸ca˜o de autocorrela¸ca˜o. Para um processo estacion´ario {Xt } (t = 1, . . . , n), a fun¸ca˜o de densidade de probabilidade conjunta de X1 , . . . , Xn pode ser sempre fatorada como p(x1 , . . . , xn ) = p(x1 )p(xn , . . . , x2 |x1 ) = p(x1 )p(x2 |x1 )p(xn , . . . , x3 |x2 , x1 ) .. . n Y p(xt |xt−1 , . . . , x1 ). = p(x1 ) t=2 Em particular para um modelo ARMA(p, q), denotando o vetor de parˆ ametros por θ=(α1 , . . . , αp , β1 , . . . , βq , σǫ2 )′ e destacando-se a densidade conjunta das p primeiras realiza¸co˜es segue que p(x1 , . . . , xn |θ) = p(x1 , . . . , xp |θ) = p(x1 , . . . , xp |θ) n Y t=p+1 n Y t=p+1 p(xt |xt−1 , . . . , x1 , θ) p(xt |xt−1 , . . . , xp , θ). (4.1) Au ´ltima igualdade vem da estrutura Markoviana da componente autoregressiva. O segundo termo em (4.1) ´e a densidade condicional conjunta de xp+1 , . . . , xn dados os valores iniciais x1 , . . . , xp e define ent˜ao uma fun¸ca˜o de verossimilhan¸ca condicional enquanto p(x1 , . . . , xn |θ) define a fun¸ca˜o de verossimilhan¸ca exata. Se for atribuida uma distribui¸ca˜o de probabilidades conjunta tamb´em para θ ent˜ao pelo Teorema de Bayes ´e poss´ıvel obter sua distribui¸ca˜o atualizada ap´ os os dados serem observados (distribui¸ca˜o a posteriori), p(θ|x) = p(x|θ)p(θ) ∝ p(x|θ)p(θ). p(x) 33 ˜ CAP´ITULO 4. ESTIMAC ¸ AO 34 4.1 Autocovariˆ ancia e autocorrela¸c˜ ao O coeficiente de autocovariˆ ancia amostral de ordem k foi definido na Se¸ca˜o 2.4 como ck = n−k X t=1 (xt − x)(xt+k − x)/n que ´e o estimador usual do coeficiente de autocovariˆ ancia te´ orico γ(k). As propriedades deste estimador n˜ao ser˜ ao detalhadas aqui mas podem ser encontradas por exemplo em Priestley (1981). Ap´ os obter as estimativas de γ(k) os coeficientes de autocorrela¸ca˜o s˜ ao ent˜ao estimados como rk = ck /c0 , k = 1, 2, . . . . Aqui ser˜ ao consideradas apenas as propriedades de rk quando a amostra vem de um processo puramente aleat´ orio (propriedades gerais podem ser obtidas em Kendall et al. 1983, Cap´ıtulo 48). Vimos na Se¸ca˜o 2.4.1 que o coeficiente de autocorrela¸ca˜o amostral rk ´e assintoticamente normalmente distribuido, com m´edia e variˆ ancia dados por E(rk ) ≈ −1/n e V ar(rk ) ≈ 1/n. e os limites de confian¸ca aproximados de 95% frequentemente utilizados s˜ ao dados √ por ±1, 96/ n. No caso geral, limites de 100(1-α)% podem ser construidos como √ ±qα/2 / n sendo qα/2 o percentil α/2 da distribui¸ca˜o normal padr˜ ao. Interpretando o correlograma No Cap´ıtulo 2 foram vistos alguns exemplos de correlogramas associados a caracter´ısticas de s´eries temporais observadas. O correlograma ´e u ´til tamb´em na identifica¸ca˜o do tipo de modelo ARIMA que fornece a melhor representa¸ca˜o de uma s´erie observada. Um correlograma como o da Figura 2.7 por exemplo, aonde os valores de rk decaem para zero de forma relativamente lenta, indica n˜ao estacionariedade e a s´erie precisa ser diferenciada. Para s´eries estacion´arias o correlograma ´e comparado com as autocorrela¸co˜es te´ oricas de v´ arios processos ARMA para auxiliar na identifica¸ca˜o daquele mais apropriado. Por exemplo, se r1 ´e significativamente diferente de zero e todos os valores subsequentes r2 , r3 , . . . s˜ ao pr´oximos de zero ent˜ao um modelo MA(1) ´e indicado j´a que sua fun¸ca˜o de autocorrel¸ca˜o te´ orica se comporta assim. Por outro lado, se r1 , r2 , r3 , . . . parecem estar decaindo exponencialmente ent˜ao um modelo AR(1) pode ser apropriado. Vale notar entretando que a interpreta¸ca˜o de correlogramas ´e um dos aspectos mais dif´ıceis da an´ alise de s´eries temporais. A fun¸ca˜o de autocorrela¸ca˜o parcial ´e um importante coadjuvante nesta etapa de identifica¸ca˜o se houver termos autoregressivos no modelo j´a que seus valores estimados tendem a ficar pr´oximos de zero ap´ os a defasagem p. Vimos no Cap´ıtulo 3 que para um processo ARMA(p, q) estacion´ario a fun¸ca˜o de autocorrela¸ca˜o te´ orica ter´ a um decaimento exponencial ou oscilat´orio ap´ os a defasagem q enquanto que a fun¸ca˜o de autocorrela¸ca˜o parcial te´ orica ter´ a o mesmo comportamento ap´ os a defasagem p. Mas na pr´atica esta distin¸ca˜o entre decaimentos 4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS 35 exponenciais e oscilat´orios atrav´es das estimativas destas fun¸co˜es pode ser bastante dif´ıcil. 4.2 Ajustando Processos Autoregressivos Para um processo AR de ordem p com m´edia µ dado por Xt − µ = α1 (Xt−1 − µ) + · · · + αp (Xt−p − µ) + ǫt , e dadas n observa¸co˜es x1 , . . . , xn , os parˆ ametros µ, α1 , , . . . , αp podem ser estimados pelo m´etodo de m´ınimos quadrados, i.e. minimizando-se a soma de quadrados S= n X [(xt − µ) − α1 (xt−1 − µ) − · · · − αp (xt−p − µ)]2 t=p+1 com respeito a µ, α1 , , . . . , αp . Note que o somat´orio ´e de t = p + 1 em diante, mas esta pequena perda de informa¸ca˜o n˜ao ser´ a importante se a s´erie n˜ao for muito curta. Al´em disso, se o processo ǫt tiver distribui¸ca˜o normal ent˜ao as estimativas de m´ınimos quadrado coincidem com as estimativas de m´ axima verossimilhan¸ca condicionada nas p primeiras observa¸co˜es. Alternativamente, dois m´etodos aproximados podem ser utilizados tomando-se µ ˆ = x. O primeiro ajusta os dados ao modelo Xt − x = α1 (Xt−1 − x) + · · · + αp (Xt−p − x) + ǫt , como se fosse um modelo de regress˜ ao linear m´ ultipla. No segundo m´etodo os coeficientes de autocorrela¸ca˜o ρ(k) s˜ ao substituidos pelas suas estimativas rk nas p primeiras equa¸co˜es de Yule-Walker. Ou seja, estamos usando o m´etodos dos momentos e por isto os estimadores resultantes s˜ ao assintoticamente equivalentes aos estimadores de m´ axima verossimilhan¸ca. Assim, temos um sistema com p equa¸co˜es e p inc´ognitas α1 , . . . , αp , i.e. r1 = α1 + α2 r1 + · · · + αp rp−1 r2 = α1 r1 + α2 + · · · + αp rp−2 .. . rp = α1 rp−1 + α2 rp−2 + · · · + αp ou equivalentemente,    r1     r2   .= .  .  rp 1 r1 .. . r1 1 .. . ... ... rp−1 rp−2 . . .   rp−1 α1   rp−2  α2    ..   .  .   ..  1 αp Exemplo 4.1 : Usando os comandos do R abaixo vamos simular um processo AR(3) e usar as equa¸co˜es de Yule-Walker para estimar os coeficientes. ˜ CAP´ITULO 4. ESTIMAC ¸ AO 36 > > > > > > > x = arima.sim(n = 200, model = list(ar = c(0.6, -0.7, 0.2))) r = acf(x, plot = FALSE)$acf[2:4] R = diag(3) R[1, 2] = R[2, 1] = r[1] R[1, 3] = R[3, 1] = r[2] R[2, 3] = R[3, 2] = r[1] round(solve(R, r), 4) [1] 0.6659 -0.7513 0.2678 Para estima¸ca˜o por minimos quadrados basta escrever o AR(p) como um modelo linear usual e resolver um sistema de equa¸co˜es lineares. Definindo-se         xp+1 xp . . . x1 ǫp+1 α1         x2  xp+2   xp−1 . . . ǫp+2  α2        y= ..   ..  X =  ..  ǫ =  ..  α =  ..  .   .   .  .  . xn xn−1 . . . xn−p ǫn αp podemos reescrever o modelo na forma matricial como y = Xα + ǫ, (4.2) sendo E(ǫ) = 0, V ar(ǫ) = σǫ2 I n−p e I n−p a matriz identidade de ordem n − p. A solu¸ca˜o de m´ınimos quadrados para os coeficientes α ´e obtida minimizando-se ǫ′ ǫ e ´e ˆ = (X ′ X)−1 X ′ y. Usando o valor estimado de α na equa¸ca˜o do modelo dada por α ˆ i.e. calcula-se os res´ıduos como y = X α, et = xt − p X α ˆ j xt−j , t = p + 1, . . . , n j=1 e a estimativa de m´ınimos quadrados de σǫ2 ´e dada por σˆǫ2 = n X 1 e2t . n−p t=p+1 Note que os res´ıduos tamb´em foram calculados a partir de t = p + 1. Mantendo a representa¸ca˜o (4.2) e adicionando a hip´ otese de normalidade dos erros, 2 i.e. ǫ ∼ N (0, σǫ I n−p ) obt´em-se uma fun¸ca˜o de verossimilhan¸ca aproximada dada por, L(α, σǫ2 ) ∝ (σǫ2 )−(n−p)/2 exp{−σǫ−2 (y − Xα)′ (y − Xα)/2}. Neste caso, os EMV de α e σǫ2 coincidem com os estimadores de m´ınimos quadrados, ∂ log(L(α, σǫ2 )) ∂α σǫ−2 ∂(y − Xα)′ (y − Xα) 2 ∂α σǫ−2 ∂(−2α′ X ′ y + α′ X ′ Xα) = − 2 ∂α σǫ−2 (−2X ′ y + 2X ′ Xα). = − 2 = − 37 4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS ∂ log(L(α, σǫ2 )) ∂α Lembrando que (y − = 0 ⇐⇒ α ˆ = (X ′ X)−1 X ′ y. ˆ α=α P ˆ = nt=p+1 e2t segue que − X α)   n X 1 ∂  = − e2t  (n − p) log(σǫ2 ) + σǫ−2 2 ∂σǫ2 t=p+1   n X 1  −2 −4 = − e2t  (n − p)σǫ − σǫ 2 ˆ ′ (y X α) ˆ σǫ2 )) ∂ log(L(α, ∂σǫ2 t=p+1 n X ˆ σǫ2 )) ∂ log(L(α, ˆ2 = 1 = 0 ⇐⇒ σ e2t . ǫ 2 ˆ2 ∂σǫ2 n − p σǫ =σǫ t=p+1 Exemplo 4.2 : Para um modelo AR(1) com erros normais a matriz X tem somente uma coluna e n˜ao ´e dif´ıcil verificar que ′ XX= n X x2t−1 ′ e Xy= n X xt xt−1 . t=2 t=2 Portanto, o EMV condicional ´e dado por Pn n 1 X t=2 xt xt−1 ˆ 2 P e σǫ = α ˆ= (xt − α ˆ xt−1 )2 . n 2 n − 1 x t=2 t−1 t=2 Exemplo 4.3 : Novamente para o modelo AR(1) com erros normais o EMV incondicional ´e obtido maximizando-se da fun¸ca˜o de verossimilhan¸ca exata. A express˜ao (4.1) com p = 1 fica p(x1 , . . . , xn |α, σǫ2 ) = p(x1 |α, σǫ2 ) n Y t=2 p(xt |xt−1 , α, σǫ2 ). Lembrando que E(Xt ) = 0 e V ar(Xt ) = σǫ2 /(1 − α2 ) e razo´ avel assumir que X1 ∼ 2 2 N (0, σǫ /(1 − α )). Segue ent˜ao que L(α, σǫ2 ) σǫ2 1 − α2 −1/2   1 − α2 2 ∝ exp − x × 2σǫ2 1 ) ( n 1 X 2 2 −(n−1)/2 (xt − αxt−1 ) (σǫ ) exp − 2 2σǫ t=2 ( !) n X 1 ∝ (1 − α2 )1/2 (σǫ2 )−n/2 exp − 2 (1 − α2 )x21 + (xt − αxt−1 )2 . 2σǫ  t=2 Maximizar esta express˜ao (ou seu logaritmo) em rela¸ca˜o a α requer algum algoritmo de otimiza¸ca˜o num´erica (por exemplo m´etodos de Newton-Raphson). No R podemos usar a fun¸ca˜o optim como no Exemplo 4.4. ˜ CAP´ITULO 4. ESTIMAC ¸ AO 38 Exemplo 4.4 : Foram gerados 200 valores de um processo AR(1) com parˆ ametros 2 α = 0, 8 e σǫ = 1. Os comandos abaixo podem ser usados para obter as estimativas de m´ axima verossimilhan¸ca (incondicional). Note que estamos maximizando o logaritmo da verossimilhan¸ca e verificando a condi¸ca˜o de estacionariedade. > fun = function(theta, x) { + s2 = theta[1] + alpha = theta[2] + if (abs(alpha) >= 1) + return(-Inf) + n = length(x) + e = x[2:n] - alpha * x[1:(n - 1)] + Q = (1 - alpha^2) * x[1]^2 + sum(e^2) + return(-0.5 * (n * log(s2) - log(1 - alpha^2) + Q/s2)) + } > > > + > x = arima.sim(n = 200, model = list(ar = 0.8)) init = c(1, 0.5) out = optim(init, fn = fun, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par [1] 1.0196881 0.8274672 Como o custo computacional de estimar modelos AR n˜ao ´e t˜ao grande uma abordagem alternativa para determina¸ca˜o de p consiste em estimar modelos de ordem progressivamente mais alta e calcular a soma de quadrados residual para cada valor de p. Pode ser poss´ıvel encontrar o valor de p para o qual a inclus˜ ao de termos extras n˜ao melhora sensivelmente o ajuste. Como vimos na Se¸ca˜o 3.4.4 este procedimento d´a origem ` a fun¸ca˜o de autocorrela¸ca˜o parcial. Suponha agora que vamos atribuir uma distribui¸ca˜o de probabilidades para o vetor de parˆ ametros θ = (α1 , . . . , αp , σǫ2 ). Pelo Teorema de Bayes e usando a verossimilhan¸ca condicional segue que p(θ|x) ∝ p(θ) (σǫ2 )−(n−p)/2 exp{−σǫ−2 (y − Xα)′ (y − Xα)/2}. Para representar a informa¸ca˜o a priori sobre θ pode-se fazer por exemplo, p(θ) = p(α|σǫ2 )p(σǫ2 ) com α|σǫ2 ∼ N (0, σǫ2 I p ) ou p(θ) = p(α)p(σǫ2 ) com α ∼ N (0, I p ). Nos dois casos comumente assume-se que σǫ2 tem distribui¸ca˜o Gama Inversa, i.e. σǫ2 ∼ GI(a, b) (ver Apˆendice A), ou equivalentemente σǫ−2 ∼ Gama(a, b). Exemplo 4.5 : No modelo AR(1) com erros normais vamos atribuir as seguintes distribui¸co˜es a priori, α ∼ N (0, 1) e σǫ2 ∼ GI(1, 1). Portanto, p(α) ∝ exp(−α2 /2) e p(σǫ2 ) ∝ (σǫ2 )−2 exp(−1/σǫ2 ) ´ ´ 4.3. AJUSTANDO PROCESSOS MEDIAS MOVEIS 39 e os comandos abaixo podem ser usados para obter a moda da distribui¸ca˜o a posteriori conjunta de σǫ2 e α. > + + + + > > + > prior = function(theta) { s2 = theta[1] alpha = theta[2] return(-alpha^2/2 - 1/s2 - 2 * log(s2)) } post = function(theta, x) fun(theta, x) + prior(theta) out = optim(init, fn = post, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par [1] 1.0095348 0.8262561 Note que as estimativas pontuais nos Exemplos 4.4 e 4.5 s˜ ao bastante similares. Nenhuma restri¸ca˜o de estacionariedade foi imposta na distribui¸ca˜o a priori, mas ´e poss´ıvel fazer uma otimiza¸ca˜o restrita ou mesmo impor esta restri¸ca˜o a priori. No caso do AR(1) poderiamos atribuir uma distribui¸ca˜o normal truncada ou uma distribui¸ca˜o uniforme em (-1,1) para o parˆ ametro α. 4.3 Ajustando Processos M´ edias M´ oveis O problema de estima¸ca˜o dos parˆ ametros em modelos MA ´e bem mais complicado do que em modelos AR. Os erros ǫt s˜ ao agora fun¸co˜es n˜ao lineares complicadas dos parˆ ametros β1 , . . . , βq e express˜oes anal´ıticas para os estimadores n˜ao podem ser obtidas. Assim, m´etodos computacionais iterativos precisam ser utilizados para minimizar a soma de quadrados residual. Dado um modelo MA(q) Xt = µ + ǫt + β1 ǫt−1 + · · · + βq ǫt−q e uma s´erie observada x1 , . . . , xn o procedimento iterativo consiste basicamente em fixar os valores de µ, β1 , . . . , βq e calcular os res´ıduos et = xt − µ − β1 ǫt−1 − · · · − βq ǫt−q sequencialmente para t = 1, . . . , n assumindo que ǫ0 = ǫ−1 = · · · = ǫ−q+1 = 0 e substituindo ǫt−1 , . . . , ǫt−q pelos residuos calculados. Assim, e1 = x1 − µ e2 = x2 − µ − β1 e1 = x2 − µ − β1 x1 + β1 µ e3 = x3 − µ − β1 e2 − β2 e1 .. . ˜ CAP´ITULO 4. ESTIMAC ¸ AO 40 Dados estes res´ıduos pode-se calcular a soma de quadrados residual S(µ, β) = Pn 2 t=1 et . Repetindo este procedimento para µ, β1 , . . . , βq variando em uma grade de pontos pode-se escolher os valores que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos eficientes de otimiza¸ca˜o num´erica e nada garante a sua convergˆencia para um m´ınimo global. Al´em das estimativas pontuais, se o processo {ǫt } tem distribui¸ca˜o normal ent˜ao Box & Jenkins (1970), p. 228 descrevem regi˜ oes de confian¸ca para os parˆ ametros do modelo. Neste caso, se ǫt ∼ N (0, σǫ2 ) a fun¸ca˜o de verossimilhan¸ca fica, L(µ, β, σǫ2 )   n Y 1 2 2 −1/2 (2πσǫ ) exp − 2 et = 2σǫ t=1 ) ( n X 1 e2t . ∝ (σǫ2 )−n/2 exp − 2 2σǫ t=1 e os valores de et s˜ ao calculados como anteriormente. Portanto L(µ, β, σǫ2 ) ´e uma fun¸ca˜o n˜ao linear dos parˆ ametros. Em termos pr´aticos, se o procedimento de otimiza¸ca˜o utilizado levar muitas itera¸co˜es para convergir ou mesmo n˜ao convergir deve-se “desconfiar” das estimativas. Neste caso as estimativas podem ser inst´ aveis no sentido de que adicionando-se ou removendo-se uma ou duas observa¸co˜es pode-se obter valores muito diferentes. Nesta situa¸ca˜o pode ser computacionalmente mais vantajoso ajustar um modelo AR aos dados mesmo que o modelo resultante tenha mais parˆ ametros do que o modelo MA sugerido pela fun¸ca˜o de autocorrela¸ca˜o. 4.4 Ajustando Processos ARMA Os problemas de estima¸ca˜o para modelos ARMA s˜ ao similares aqueles para modelos MA no sentido de que um procedimento iterativo precisa ser utilizado. Isto ocorre porque os erros {ǫt } s˜ ao fun¸co˜es n˜ao lineares complicadas de todos os coeficientes α1 , . . . , αp , β1 , . . . , βq . Portanto os mesmos coment´arios da se¸ca˜o anterior s˜ ao v´ alidos para procedimentos que levam muitas itera¸co˜es para convergir, i.e deve-se “desconfiar” das estimativas. Os residuos s˜ ao calculados de forma an´ aloga ao modelo MA (ver Exerc´ıcio 13). Outra dificuldade, espec´ıfica de modelos ARMA, ´e o problema de cancelamento de ra´ızes. Por exemplo considere o modelo ARMA(2,1) Xt = 2θXt−1 − θ2 Xt−2 − φǫt−1 + ǫt que pode ser reescrito em termos do operador de retardo como (1 − θB)2 Xt = (1 − φB)ǫt . Note como θ = φ implica em um modelo AR(1) Xt = θXt−1 + ǫt , ou seja ambos os modelos implicam exatamento no mesmo comportamento para a s´erie temporal Xt . 41 4.5. MODELOS SAZONAIS Este ´e um problema de identifica¸ca˜o que fica ainda mais complicado em modelos de ordem mais alta. Em termos pr´aticos ´e dif´ıcil identificar o problema de cancelamento de ra´ızes a n˜ao ser, como j´a foi dito, que o procedimento iterativo dever´ a ter convergˆencia lenta. No caso particular de um modelo ARMA(1,1) deve-se “desconfiar” quando as estimativas de α e β s˜ ao muito similares. Para outros valores de p e q a u ´nica sugest˜ao para tentar minimizar o problema ´e n˜ao incluir muitos parˆ ametros no modelo. Exemplo 4.6 : Vamos simular um processo ARMA(1,1) com ra´ızes similares e verificar o problema de cancelamento de ra´ızes. > x = arima.sim(n = 100, list(ar = 0.7, ma = -0.75)) > arima(x, order = c(1, 0, 1), include.mean = F) Call: arima(x = x, order = c(1, 0, 1), include.mean = F) Coefficients: ar1 ma1 0.5992 -0.6835 s.e. 0.2946 0.2613 sigma^2 estimated as 1.020: log likelihood = -142.88, aic = 291.75 Note como as estimativas dos coeficientes est˜ ao muito diferentes dos valores verdadeiros e os erros padr˜ oes est˜ ao enormes! 4.5 Modelos Sazonais Muitas s´eries temporais cont´em uma componente peri´ odica sazonal que se repete a cada s observa¸co˜es (s > 1). Por exemplo, com dados mensais e s = 12 tipicamente espera-se que Xt dependa de Xt−12 e talvez de Xt−24 al´em de Xt−1 , Xt−2 , . . . . Neste caso, tomar a primeira diferen¸ca xt − xt−1 n˜ao ´e suficiente para tornar a s´erie (aproximadamente) estacion´aria. A forma apropriada de diferenciar dados com padr˜ ao sazonal acentuado ´e tomar diferen¸cas no per´ıodo sazonal. Por exemplo, para dados mensais a primeira diferen¸ca sazonal ´e ▽12 xt = (1 − B 12 )xt = xt − xt−12 e ter´ a variabilidade menor do que a primeira diferen¸ca n˜ao sazonal ▽xt = xt − xt−1 , sendo portanto mais f´acil de identificar e estimar. Em geral, uma diferen¸ca sazonal ´e denotada por ▽s onde s ´e o per´ıodo sazonal. A D-´esima diferen¸ca sazonal ´e ent˜ao denotada por ▽D s . Combinando-se os dois tipos . Por exemplo, tomando-se 1 diferen¸ca de diferencia¸ca˜o obtem-se o operador ▽d ▽D s simples e 1 sazonal em uma s´erie mensal tem-se que ▽▽12 xt = xt − xt−1 − xt−12 + xt−13 ˜ CAP´ITULO 4. ESTIMAC ¸ AO 42 Box & Jenkins (1970) generalizaram o modelo ARIMA para lidar com sazonalidade e definiram um modelo ARIMA sazonal multiplicativo, denominado SARIMA, dado por φ(B)Φ(B s )Wt = θ(B)Θ(B s )ǫt (4.3) onde φ(B) = (1 − α1 B − · · · − αp B p ) Φ(B s ) = (1 − φs B s − · · · − φP B P s ) Wt = ▽d ▽D s Xt θ(B) = (1 + β1 B + · · · + βq B q ) Θ(B s ) = (1 + θs B s + · · · + θQ B Qs ). Este modelo ´e chamado SARIMA multiplicativo de ordem (p, d, q)×(P, D, Q)s e parece extremamente complicado `a primeira vista mas na pr´atica os valores de d e D em geral n˜ao ser˜ ao maiores do que 1 e um n´ umero pequeno de coeficientes ser´ a suficiente. Por exemplo, com P = 1 temos que Φ(B s ) = (1 − αs B s ) o que significa simplesmente que Wt depende de Wt−s . A s´erie Wt ´e formada a partir da s´erie original tomando-se diferen¸cas simples para remover a tendˆencia e diferen¸cas sazonais para remover a sazonalidade. Para fixar id´eias considere o modelo SARIMA(1,0,0)× (0, 1, 1)12 para dados mensais. Ou seja temos um termo autoregressivo e um termo m´edia m´ ovel sazonal modelando a primeira diferen¸ca sazonal. O modelo pode ser escrito como (1 − αB)(1 − B 12 )Xt = (1 − θB 12 )ǫt e desenvolvendo os produtos obtemos que Xt = Xt−12 + α(Xt−1 − Xt−13 ) + ǫt + θǫt−12 . Assim, Xt depende de Xt−1 , Xt−12 e Xt−13 al´em do erro no tempo t − 12. Para finalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa ´e especificar os valores de d e D que tornam a s´erie (aproximadamente) estacion´aria e remove a maior parte da sazonalidade. Como j´a foi dito, estes valores raramente ser˜ ao maiores do que 1. Posteriormente os valores de p, P , q e Q devem ser especificados com base nas fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial da s´erie diferenciada. Os valores de P e Q s˜ ao especificados basicamente a partir de rk , k = s, 2s, . . . . Por exemplo, para dados mensais se r12 ´e grande mas r24 ´e pequeno isto sugere que um termo m´edia m´ ovel sazonal pode ser adequado. Ap´ os ter identificado, por tentativa, o que parece ser um modelo SARIMA razo´avel os parˆ ametros ser˜ ao estimados por algum procedimento iterativo similar `aqueles propostos para modelos ARMA. Detalhes sobre as rotinas de estima¸ca˜o destes modelos n˜ao ser˜ ao abordados aqui e podem ser obtidos em Box & Jenkins (1970). ˜ DO MODELO 4.6. ADEQUAC ¸ AO 4.6 43 Adequa¸c˜ ao do Modelo Todos os modelos s˜ ao errados mas alguns s˜ ao u ´teis (George Box) Ap´ os identificar a ordem e estimar eficientemente os parˆ ametros de um modelo ´e necess´ario verificar sua adequa¸ca˜o antes de utiliz´ a-lo por exemplo para fazer previs˜ oes. Pode-se fazer testes de sobreajustamento, que consistem em incluir parˆ ametros extras no modelo e verificar sua significˆ ancia estat´ıstica. No caso de modelos ARMA deve-se incluir um parˆ ametro de cada vez para evitar o problema de cancelamento de ra´ızes mencionado na Se¸ca˜o 4.4. 4.6.1 An´ alise dos Res´ıduos Ap´ os um modelo ter sido ajustado a uma s´erie temporal deve-se verificar se ele fornece uma descri¸ca˜o adequada dos dados. Assim como em outros modelos estat´ısticos a id´eia ´e verificar o comportamento dos res´ıduos onde residuo = observa¸ca˜o - valor ajustado. Para os modelos vistos aqui o valor ajustado ´e a previs˜ ao 1 passo a frente de modo que o res´ıduo fica definido como o erro de previs˜ ao 1 passo a frente. Por exemplo, em um modelo AR(1) se α ˆ ´e a estimativa do coeficiente autoregressivo ent˜ao o valor ajustado no tempo t ´e α ˆ xt−1 e o res´ıduo correspondente ´e et = xt − α ˆ xt−1 . Se o modelo tiver um “bom” ajuste espera-se que os res´ıduos se distribuam aleatoriamente em torno de zero com variˆ ancia aproximadamente constante e sejam n˜ao correlacionados. Se a variˆ ancia dos res´ıduos for crescente uma transforma¸ca˜o logar´ıtmica nos dados pode ser apropriada. O fenˆ omeno de “n˜ ao constˆ ancia” na variˆ ancia ´e denominado de volatilidade na literatura de s´eries temporais e pode ser tratado atrav´es de transforma¸co˜es nos dados (e.g. transforma¸co˜es de Box-Cox)1 . Al´em disso, em modelos de s´eries temporais os res´ıduos est˜ ao ordenados no tempo ´ particularmente e ´e portanto natural trat´a-los tamb´em como uma s´erie temporal. E importante que os res´ıduos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) n˜ao correlacionados. Evidˆencia de correla¸ca˜o serial nos res´ıduos ´e uma indica¸ca˜o de que uma ou mais caracter´ısticas da s´erie n˜ao foi adequadamente descrita pelo modelo. Consequentemente, duas maneiras ´obvias de verificar a adequa¸ca˜o do modelo consistem em representar graficamente os res´ıduos e o seu correlograma. O gr´ afico temporal poder´ a revelar a presen¸ca de dados discrepantes, efeitos de autocorrela¸ca˜o ou padr˜ oes c´ıclicos enquanto que o correlograma permite uma an´ alise mais detalhada da estrutura de autocorrela¸ca˜o indicando poss´ıveis termos faltantes no modelo. Ou seja, assim como em outros modelos estat´ısticos, a id´eia ´e que os res´ıduos poder˜ ao identificar caracter´ısticas que n˜ao foram adequadamente modeladas. Por exemplo, autocorrela¸co˜es residuais significativas nas defasagens 1 ou 2, ou em defasagens sazonais (e.g. 12 para dados mensais) s˜ ao uma indica¸ca˜o de que mais termos 1 Uma tendˆencia mais recente no entanto consiste em tentar modelar simultaneamente a m´edia e a variˆ ancia ao inv´es de usar transforma¸c˜ oes. ˜ CAP´ITULO 4. ESTIMAC ¸ AO 44 m´edias m´ oveis devem ser incluidos no modelo. Por outro lado, um valor de rk ligeiramente fora dos limites de confian¸ca em defasagens sem significado ´obvio (e.g. k=5) n˜ao ´e indica¸ca˜o suficiente para se rejeitar o modelo. O mesmo coment´ario vale para as autocorrela¸co˜es parciais dos res´ıduos no que diz respeito `a inclus˜ ao de termos autoregressivos (sazonais e n˜ao sazonais). 4.6.2 Testes sobre os res´ıduos Ao inv´es de olhar para as autocorrela¸co˜es residuais individualmente pode-se testar se um grupo de autocorrela¸co˜es ´e significativamente diferente de zero atrav´es das chamadas estat´ısticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box-Pierce para as hip´ oteses H0 : ρ(1) = · · · = ρ(m) = 0 H1 : ρ(k) 6= 0, para algum k ∈ {1, . . . , m}. sendo a estat´ıstica de teste dada por Q=n m X rk2 . k=1 Na pr´atica o n´ umero m de autocorrela¸co˜es amostrais ´e tipicamente escolhido entre 15 e 30. Se o modelo ajustado for apropriado ent˜ao Q ter´ a distribui¸ca˜o aproximadamente qui-quadrado com m − p − q graus de liberdade. Assim, valores grandes de Q fornecem indica¸ca˜o contra a hip´ otese de que as autocorrela¸co˜es s˜ ao todas nulas, em favor da hip´ otese de que ao menos uma delas ´e diferente de zero. O teste de Box-Pierce n˜ao tem bom desempenho em amostras pequenas ou moderadas no sentido de que a distribui¸ca˜o se afasta da qui-quadrado. V´ arios testes alternativos foram sugeridos na literatura e o mais conhecido ´e o teste de Ljung-Box, aonde a estat´ıstica de teste ´e dada por Q = n(n + 2) m X k=1 rk2 . n−k Sua distribui¸ca˜o amostral tamb´em ´e aproximadamente m − p − q graus de liberdade. qui-quadrado com Exemplo 4.7 : Considere novamente a s´erie com os totais mensais de passageiros em linhas a´ereas internacionais nos EUA entre 1949 e 1960 que aparece na Figura ??. Existe uma clara tendˆencia de crescimento bem como um padr˜ao sazonal ao longo dos anos. Foi feita uma transforma¸ca˜o logaritmica nos dados (esta transforma¸ca˜o ´e sugerida na literatura). Fa¸ca os gr´ aficos da FAC amostral da s´erie original, 1a diferen¸ca e 1a diferen¸ca sazonal. Os comandos abaixo podem ser utilizados e obt´emse os gr´ aficos da Figura 4.1. > y = log(AirPassengers) > z = cbind(y, diff(y), diff(y, lag = 12)) > yl = c("No de passageiros", "Variacao mensal", "Variacao anual") ˜ DO MODELO 4.6. ADEQUAC ¸ AO 45 Os gr´ aficos anteriores indicam que precisamos tomar 1 diferen¸ca simples mais 1 diferen¸ca sazonal para tentar induzir estacionariedade aproximada. > z = diff(diff(y), lag = 12) > m = acf(z, lag.max = 36, plot = F) > m$lag = m$lag * 12 Note que h´a valores grandes nas defasagens 1, 3, 12 e 23 do u ´ltimo gr´ afico. Isto pode ser uma indica¸ca˜o de que termos MA sazonais e n˜ao sazonais devem ser incluidos no modelo. Um modelo candidato para o logaritmo da s´erie ´e SARIMA(0,1,1)x(0,1,1) e foi estimado usando os comandos abaixo. > m = arima(y, order = c(0, 1, 1), seasonal = list(order = c(0, + 1, 1))) > m Call: arima(x = y, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1))) Coefficients: ma1 -0.4018 s.e. 0.0896 sma1 -0.5569 0.0731 sigma^2 estimated as 0.001348: log likelihood = 244.7, aic = -483.4 Como primeiro verifica¸ca˜o da adequa¸ca˜o do modelo vamos usar a fun¸ca˜o tsdiag() que retorna os gr´ aficos dos residuos padronizados, o correlograma e os p-valores do teste de Ljung-Box para autocorrela¸co˜es de ordem 1, 2, . . . . O resultado est´ a na Figura 4.3. Compare estes p-valores com o resultado da fun¸ca˜o Box.test() que calcula as estatisticas de Box-Pierce e Ljung-Box para a hip´ otese nula de independˆencia. > for (i in 1:10) { + b = Box.test(m$residuals, i, type = "Ljung-Box")$p.value + print(b) + } [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] 0.8610215 0.945251 0.4829255 0.3663102 0.4320234 0.488321 0.539204 0.6328112 0.5096084 0.5502512 ˜ CAP´ITULO 4. ESTIMAC ¸ AO 46 Testando a Normalidade dos Res´ıduos Para uma vari´ avel aleat´ oria X tal que E(X) = µ e V ar(X) = σ 2 define-se os coeficientes de assimetria e curtose como,     (X − µ)3 (X − µ)4 A(X) = E e K(X) = E σ3 σ4 respectivamente. A distribui¸ca˜o normal tem assimetria 0 e curtose igual a 3. Substituindo os momentos te´ oricos de X pelos seus equivalente amostrais n mj = 1X (Xt − X)j n t=1 os estimadores da assimetria e curtose s˜ ao dados por m3 Aˆ = p 3 m2 e m4 ˆ =p K m22 p respectivamente. Sob a hip´ otese de normalidade as vari´ aveis aleat´ orias n/6Aˆ e p ˆ − 3) s˜ n/24(K ao independentes e tˆem distribui¸ca˜o assint´otica N (0, 1) e assim a estat´ıstica ˆ − 3)2 nAˆ2 n(K + 6 24 2 tem distribui¸ca˜o assint´otica χ com 2 graus de liberdade e pode ser usada para testar a normalidade de X. As outras verifica¸co˜es usuais sobre os residuos tamb´em devem ser feitas. Por exemplo, um histograma com curva normal superposta, o gr´ afico de probabilidades normais e um teste de normalidade. Os comandos abaixo podem ser utilizados no R. > z = m$residuals > d = seq(range(z)[1] - 3 * sd(z), range(z)[2] + 3 * sd(z), 0.001) > a = shapiro.test(z) Exerc´ıcios 1. Calcule as autocorrela¸co˜es te´ oricas de um processo MA(Q) puramente sazonal. 2. Fa¸ca um esbo¸co do correlograma para uma s´erie com estrutura MA(Q) puramente sazonal, i.e. n˜ao existe dependˆencia dentro de um per´ıodo sazonal. 3. Para uma s´erie temporal observada foi identificado o modelo ARIMA(1,1,1). (a) Escreva o modelo em termos do operador de retardo. (b) Descreva como deve ter sido o comportamento das fun¸co˜es de autocorrelac¸a˜o e autocorrela¸ca˜o parcial da s´erie original e da s´erie diferenciada. 4. Escreva o modelo SARIMA(0, 0, 1) × (1, 1, 0)12 em termos de operador de retardo. ˜ DO MODELO 4.6. ADEQUAC ¸ AO 47 5. Para uma s´erie mensal observada foi identificado e estimado o modelo SARIMA(1,1,0)×(0,1,0). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das fun¸co˜es de autocorrelac¸a˜o e autocorrela¸ca˜o parcial da s´erie original e da s´erie diferenciada. (c) Como deve ser o comportamento esperado dos res´ıduos em termos de suas autocorrela¸co˜es para que o modelo seja adequado? (d) O que se deve fazer no caso de autocorrela¸co˜es residuais significativas nas defasagens 1, 8 e 12 ? 6. Para uma s´erie observada trimestralmente foi identificado e estimado o modelo SARIMA(1,1,0)×(2,1,1). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das fun¸co˜es de autocorrelac¸a˜o e autocorrela¸ca˜o parcial da s´erie original e da s´erie diferenciada. (c) O que se deve fazer se a autocorrela¸ca˜o residual na defasagem 4 for significativa ? 7. Explique como vocˆe estimaria os coeficientes em um modelo ARMA(1,1) utilizando as duas primeiras autocorrela¸co˜es amostrais? 8. Obtenha os estimadores de m´ınimos quadrados para os coeficientes em um modelo AR(2). 9. Escreva as equa¸co˜es de m´ınimos quadrados para o modelo AR(p). Como vocˆe estima a variˆ ancia dos erros? 10. Em que condi¸co˜es as estimativas de m´ınimos quadrados de um modelo AR(p) coincidir˜ ao com as de m´ axima verossimilhan¸ca? 11. Seja o modelo AR(1) com erros normais. (a) Obtenha os EMV usando a verossimilhan¸ca condicional. (b) Obtenha os EMV usando a verossimilhan¸ca exata com X1 ∼ N (0, σǫ2 /(1 − α2 )). 12. Usando as notas de aula e qualquer outra referˆencia bibliogr´ afica fa¸ca um resumo da an´ alise de res´ıduos em s´eries temporais. 13. Explique como podem ser calculados os res´ıduos em um modelo ARMA(p,q). ˜ CAP´ITULO 4. ESTIMAC ¸ AO 48 −0.2 0.4 0.8 FAC 6.0 5.0 No de passageiros > par(mfrow = c(3, 2)) > for (i in 1:3) { + plot(z[, i], main = "", xlab = "Anos", ylab = yl[i]) + m = acf(z[, i], lag.max = 36, plot = F, na.action = na.pass) + m$lag = m$lag * 12 + plot(m, main = "", xlab = "defasagem", ylab = "FAC") + } 1950 1954 1958 0 5 10 20 25 30 35 25 30 35 25 30 35 1.0 −0.2 0.4 FAC 0.2 0.0 1950 1954 1958 0 5 10 15 20 defasagem 0.4 −0.2 0.0 FAC 0.2 1.0 Anos Variacao anual 15 defasagem −0.2 Variacao mensal Anos 1950 1954 1958 0 Anos 5 10 15 20 defasagem Figura 4.1: ˜ DO MODELO 4.6. ADEQUAC ¸ AO 49 > par(mfrow = c(2, 1)) > plot(z, main = "serie com 1 diferenca simples e 1 sazonal", xlab = "Anos", + ylab = "") > plot(m, main = "") −0.15 0.00 0.15 serie com 1 diferenca simples e 1 sazonal 1950 1952 1954 1956 1958 1960 0.2 −0.4 ACF 0.8 Anos 0 5 10 15 20 Lag Figura 4.2: 25 30 35 ˜ CAP´ITULO 4. ESTIMAC ¸ AO 50 > tsdiag(m) −3 −1 1 3 Standardized Residuals 1950 1952 1954 1956 1958 1960 Time 0.4 0.8 −0.2 ACF ACF of Residuals 0.0 0.5 1.0 1.5 Lag 0.8 0.4 0.0 p value p values for Ljung−Box statistic 2 4 6 lag Figura 4.3: 8 10 ˜ DO MODELO 4.6. ADEQUAC ¸ AO par(mfrow = c(2, 1)) hist(z, freq = F) lines(d, dnorm(d, 0, sd(z))) qqnorm(z) qqline(z) text(-1.5, 0.05, "Teste de Shapiro-Wilk") text(-2, 0.01, paste("p-valor=", round(a$p.value, 4))) 8 4 0 Density 12 Histogram of z −0.10 −0.05 0.00 0.05 0.10 z Teste de Shapiro−Wilk p−valor= 0.1674 −0.10 0.05 Normal Q−Q Plot Sample Quantiles > > > > > > > 51 −2 −1 0 1 Theoretical Quantiles Figura 4.4: 2 Cap´ıtulo 5 Previs˜ ao Uma das formas de utiliza¸ca˜o de um modelo ajustado ´e para fazer previs˜ oes de valores futuros. Assim, se t ´e o per´ıodo corrente estamos interessados em prever os valores de Xt+1 , Xt+2 , . . . . A previs˜ ao de Xt+k , para k = 1, 2, . . . ser´ a denotada por x ˆt (k) e ´e definida como a esperan¸ca condicional de Xt+k dados todos os valores passados, i.e. x ˆt (k) = E(Xt+k |xt , xt−1 , . . . ). (5.1) A equa¸ca˜o acima ´e chamada de fun¸ca ˜o de previs˜ ao e o inteiro k ´e chamado de horizonte de previs˜ ao. Pode-se mostrar que esta previs˜ ao tem o menor erro quadr´ atico m´edio 2 (EQM), E(Xt+k − x ˆt (k)) . Na pr´atica temos um n´ umero finito de observa¸co˜es e obtemos ent˜ao que x ˆt (k) = E(Xt+k |xt , . . . , x1 ) que n˜ao tem o EQM m´ınimo mas pode ser visto como uma aproxima¸ca˜o de (5.1). Note que se temos uma s´erie temporal observada x1 , . . . , xn as previs˜ oes podem ser feitas dentro do per´ıodo amostral e comparadas com os valores observados. Esta ´e uma pr´atica bastante comum para checar a performance preditiva do modelo. A diferen¸ca entre os valores previsto e observado, x ˆt (k) − xt+k , ´e chamada de erro de previs˜ ao k passos a ` frente e ser´ a denotado por et+k . 5.1 M´ etodos Univariados de Previs˜ ao Os m´etodos descritos nesta se¸ca˜o tˆem um forte apelo intuitivo, decompondo uma s´erie temporal em componentes de f´acil interpreta¸ca˜o. Dados os recursos computacionais dispon´ıveis atualmente eles tamb´em tˆem a vantagem de serem extremamente simples de programar e sua utiliza¸ca˜o ter um custo computacional muito pequeno. Vamos come¸car com o caso mais simples, adequado para s´eries localmente constantes. 5.1.1 Alisamento Exponencial Simples Dada uma s´erie temporal x1 , . . . , xn , n˜ao sazonal e sem tendˆencia sistem´ atica, ´e razo´ avel tomar a estimativa de xn+1 como uma soma ponderada das observa¸co˜es passadas, i.e. x ˆn (1) = a0 xn + a1 xn−1 + . . . 52 ´ ˜ 5.1. METODOS UNIVARIADOS DE PREVISAO 53 onde {aj } s˜ ao os pesos. Parece razo´ avel tamb´em dar um peso maior `as observa¸co˜es mais recentes do que ` as observa¸co˜es mais distantes no passado, i.e. a0 > a1 > . . . . Neste procedimento s˜ ao adotados pesos que decaem geometricamente a uma taxa constante dados por aj = α(1 − α)j , j = 0, 1, . . . onde 0 < α < 1 ´e chamada de constante de alisamento. Assim, a previs˜ ao 1 passo `a frente em t = n fica x ˆn (1) = αxn + α(1 − α)xn−1 + α(1 − α)2 xn−2 + . . . . (5.2) Naturalmente que na pr´atica haver´ a um n´ umero finito de observa¸co˜es passadas e a soma acima ser´ a tamb´em finita. A id´eia de que o conte´ udo informativo de uma observa¸ca˜o decai com a sua “idade” ´e bastante intuitivo e o parˆ ametro α est´ a controlando o grau de “envelhecimento” deste conte´ udo. A equa¸ca˜o (5.2) costuma ser reescrita em forma de equa¸ca˜o recursiva. Colocandose (1 − α) em evidˆencia obt´em-se que x ˆn (1) = αxn + (1 − α)[αxn−1 + α(1 − α)xn−2 + α(1 − α)2 xn−3 + . . . ] = αxn + (1 − α)ˆ xn−1 (1) (5.3) i.e. uma m´edia ponderada entre a observa¸ca˜o mais recente e a previs˜ ao anterior. A equa¸ca˜o (5.2) pode ainda ser reescrita na forma de corre¸ca ˜o de erro. Definindo en = xn − x ˆn−1 (1) o erro de previs˜ ao 1 passo `a frente no tempo n ent˜ao x ˆn (1) = x ˆn−1 (1) + αen . Ou seja, a previs˜ ao para t = n + 1 ´e igual `a previs˜ ao para t = n que foi feita em t = n − 1 mais uma propor¸ca˜o do erro cometido. A previs˜ ao k-passos a frente ´e a mesma, i.e x ˆn (k) = x ˆn (1), k = 2, 3, . . . . Previs˜ oes Dentro da Amostra Usando x ˆ0 (1) = x1 como previs˜ ao inicial em t = 0 e definindo et = xt − x ˆt−1 (1) os erros de previs˜ ao 1 passo ` a frente, a equa¸ca˜o (5.3) pode ser usada recursivamente para obter as previs˜ oes, i.e. x ˆt (1) = αxt + (1 − α)ˆ xt−1 (1), t = 1, 2, . . . Na forma de corre¸ca˜o de erro as recurs˜ oes ficam x ˆt (1) = x ˆt−1 (1) + αet , t = 1, 2, . . . Especifica¸ c˜ ao de α Vale notar que o valor de α n˜ao depende da escala em que as observa¸co˜es foram medidas, mas sim das propriedades da s´erie temporal. O valor de α deve ser especificado de modo a refletir a influˆencia das observa¸co˜es passadas nas previs˜ oes. Valores pequenos ˜ CAP´ITULO 5. PREVISAO 54 produzem previs˜ oes que dependem de muitas observa¸co˜es passadas. Por outro lado, valores pr´oximos de 1 levam a previs˜ oes que dependem das observa¸co˜es mais recentes e no caso extremo α = 1 a previs˜ ao ´e simplesmente a u ´ltima observa¸ca˜o. O valor de α tamb´em pode ser estimado a partir dos dados e o crit´erio utilizado ´e a minimiza¸ca˜o da soma de quadrados dos erros de previs˜ ao. Ou seja, dado um valor fixo de α e usando a equa¸ca˜o (5.3), calcule x ˆ0 (1) = x1 , x ˆ1 (1) = αx1 + (1 − α)ˆ x0 (1), x ˆ2 (1) = αx2 + (1 − α)ˆ x1 (1), .. . e2 = x2 − x ˆ1 (1) e3 = x3 − x ˆ2 (1) x ˆn−1 (1) = αxn−1 + (1 − α)ˆ xn−2 (1), en = xn − x ˆn−1 (1) Pn 2 e calcule t=2 et . Repita o procedimento para valores de α variando entre 0 e 1 (digamos com incrementos de 0,1) e selecione o valor que minimiza esta soma de quadrados. Na pr´atica, o valor m´ınimo pode ocorrer muito pr´oximo de um dos extremos do intervalo de varia¸ca˜o de α. Isto pode ocorrer quando a soma de quadrados varia muito pouco na regi˜ ao em torno do m´ınimo. Neste caso faz mais sentido utilizar valores n˜ao t˜ao extremos. Exemplo 5.1 : No banco de dados do R, a s´erie lh cont´em as quantidades de um tipo de hormˆ onio em amostras de sangue coletadas a cada 10 minutos de uma pessoa do sexo feminino (Diggle 1990). Vamos aplicar o m´etodo de alisamento exponencial simples ` a esta s´erie fazendo primeiro a sele¸ca˜o do valor de α que minimiza a soma dos quadrados dos erros de previs˜ ao 1 passo a frente. Na Figura 5.1 temos o gr´ afico desta soma de quadrados como fun¸ca˜o de α e o gr´ afico das previs˜ oes 1 passo `a frente juntamente com a s´erie observada. O valor ´ otimo obtido foi α = 0, 945 com a soma de erros quadrados igual a 11,86 e os seguintes comandos do R podem ser utilizados para a sele¸ca˜o de α. > AES = function(x, interval) { + e = NULL + for (alfa in interval) { + e2 = 0 + prev = x[1] + for (i in 2:length(x)) { + prev = c(prev, alfa * x[i - 1] + (1 - alfa) * prev[i + 1]) + e2 = e2 + (x[i] - prev[i])^2 + } + e = c(e, e2) + } + plot(interval, e, type = "l", xlab = expression(alpha), ylab = "Soma de quadra + e.min = min(e) ´ ˜ 5.1. METODOS UNIVARIADOS DE PREVISAO + + + + + + } alfa = interval[e == e.min] prev = x[1] for (i in 2:length(x)) prev = c(prev, alfa * x[i - 1] + (1 alfa) * prev[i - 1]) return(list(alfa = alfa, sq2 = e.min, prev = prev)) 12.0 13.5 par(mfrow = c(2, 1)) m = AES(lh, seq(0.1, 0.99, 0.001)) plot(1:48, m$prev, ylab = "Hormonio", xlab = "Amostras", type = "l") points(lh) Soma de quadrados dos erros > > > > 55 0.2 0.4 0.6 0.8 1.0 2.5 1.5 Hormonio 3.5 α 0 10 20 30 40 Amostras Figura 5.1: Soma dos quadrados dos erros de previs˜ao 1 passo a frente em fun¸ca˜o de α. Valores observados (pontos) e previs˜ oes 1 passo a frente (linhas) usando o valor ´otimo de α. Exemplo 5.2 : O procedimento do Exemplo 5.1 foi repetido para a s´erie de medidas anuais de vaz˜oes do Rio Nilo entre 1871 e 1970, tamb´em do banco de dados do R. Os resultados est˜ ao na Figura 5.2. ˜ CAP´ITULO 5. PREVISAO 56 2100000 2700000 par(mfrow = c(2, 1)) m = AES(Nile, seq(0.1, 0.99, 0.001)) plot(1:length(Nile), m$prev, ylab = "", xlab = "", type = "l") points(1:length(Nile), Nile) Soma de quadrados dos erros > > > > 0.2 0.4 0.6 0.8 1.0 80 100 800 1000 α 0 20 40 60 Figura 5.2: Soma dos quadrados dos erros de previs˜ao 1 passo a frente em fun¸ca˜o de α. Valores observados (pontos) e previs˜ oes 1 passo a frente (linhas) usando o valor ´otimo de α 5.1.2 M´ etodo de Holt-Winters O procedimento de alisamento exponencial pode ser generalizado para s´eries que contenham tendˆencia e varia¸ca˜o sazonal. Suponha por exemplo que as observa¸co˜es s˜ ao mensais e sejam Lt , Tt e It o n´ıvel, a tendˆencia e o ´ındice sazonal no tempo t. Assim, Tt ´e o aumento ou redu¸ca˜o esperada por mˆes no n´ıvel atual da s´erie. Suponha que no tempo t os termos (L1 , T1 , I1 ), . . . , (Lt−1 , Tt−1 , It−1 ) sejam conhecidos. Ent˜ao, ap´ os observar xt os termos Lt , Tt e It s˜ ao atualizados via alisamento exponencial. Se a varia¸ca˜o sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equa¸co˜es de atualiza¸ca˜o na forma de recorrˆencia s˜ ao ´ ˜ 5.1. METODOS UNIVARIADOS DE PREVISAO 57 dadas por Lt = α(xt /It−12 ) + (1 − α)(Lt−1 + Tt−1 ) Tt = γ(Lt − Lt−1 ) + (1 − γ)Tt−1 It = δ(xt /Lt ) + (1 − δ)It−12 e as previs˜ oes k per´ıodos ` a frente s˜ ao dadas por x ˆt (k) = (Lt + kTt )It−12+k , k = 1, 2, . . . . No caso de sazonalidade aditiva as equa¸co˜es de atualiza¸ca˜o para o n´ıvel e o ´ındice sazonal s˜ ao modificadas para Lt = α(xt − It−12 ) + (1 − α)(Lt−1 + Tt−1 ) It = δ(xt − Lt ) + (1 − δ)It−12 e as previs˜ oes k per´ıodos ` a frente ficam x ˆt (k) = Lt + kTt + It−12+k , k = 1, 2, . . . . Aqui temos parˆ ametros de alisamento, α, γ e δ, para cada componente da s´erie que s˜ ao em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a soma de quadrados dos erros de previs˜ ao como na se¸ca˜o anterior. Aqui vale tamb´em o coment´ario sobre valores pr´oximos aos extremos devido `a soma de quadrados variar pouco nesta regi˜ ao. Al´em disso, estes parˆ ametros n˜ao dependem da escala das observa¸co˜es mas sim das propriedades temporais do n´ıvel, tendˆencia e sazonalidade da s´erie. Valem os mesmos coment´arios sobre estes valores refletindo a influˆencia das observa¸co˜es passadas nas previs˜ oes de cada componente. Para o caso particular de s´eries sem varia¸ca˜o sazonal basta utilizar as equa¸co˜es para Lt e Tt acima (sem o ´ındice It−12 ). Ou seja, Lt = αxt + (1 − α)(Lt−1 + Tt−1 ) Tt = γ(Lt − Lt−1 ) + (1 − γ)Tt−1 e a previs˜ ao k passos ` a frente no tempo t ´e simplesmente Lt + kTt . Se a s´erie tamb´em n˜ao tem uma tendˆencia sistem´ atica retorna-se `a equa¸ca˜o (5.3), ou seja Lt = αxt + (1 − α)Lt−1 e Lt ´e a previs˜ ao 1 passo ` a frente (ˆ xt (1)). Exemplo 5.3 : A vari´ avel UKLungDeaths cont´em os n´ umeros mensais de mortes por doen¸cas do pulm˜ ao (bronquite, efisema e asma) no Reino Unido entre janeiro de 1974 e dezembro de 1979. A vari´ avel ´e composta por 3 s´eries: ambos os sexos (ldeaths), sexo feminino (fdeaths) e sexo masculino (mdeaths). Aqui ser´ a utilizada a fun¸ca˜o HoltWinters do R que faz o alisamento exponencial de Holt-Winters com a s´erie ldeaths. As constantes de alisamento (α , β e γ ) s˜ ao determinadas minimizando a soma ˜ CAP´ITULO 5. PREVISAO 58 dos quadrados dos erro de previs˜ ao 1 passo `a frente. Considere um modelo sazonal aditivo. O resultado s˜ ao as constantes de alisamento calculadas e as Estimativas finais (em t = n) do nivel, tendˆencia e componentes sazonais. Pode-se tamb´em obter as previs˜ oes e intervalos de previs˜ ao (supondo normalidade) para modelos ajustados pelo m´etodo de Holt-Winters. No gr´ afico da Figura 5.3 temos a s´erie original com a s´erie suavizada mais as previs˜ oes para os anos de 1980, 1981 e 1982 da s´erie ldeaths. > data(UKLungDeaths) > m = HoltWinters(ldeaths, seasonal = "addit") > p = predict(m, n.ahead = 12, prediction.interval = T) > plot(m, p) 2500 2000 1500 500 1000 Observed / Fitted 3000 3500 4000 Holt−Winters filtering 1975 1976 1977 1978 1979 1980 1981 Time Figura 5.3: S´erie original, s´erie suavizada e previs˜oes para o ano de 1980 da s´erie ldeaths via m´etodo de Holt-Winters. 5.2 Previs˜ ao em Modelos ARMA Em modelos ARMA as previs˜ oes podem ser obtidas usando-se diretamente a equa¸ca˜o do modelo. Assumindo que a equa¸ca˜o do modelo seja conhecida a previs˜ ao x ˆn (k) ´e obtida substituido valores futuros dos erros ǫ por zero, valores futuros da s´erie ˜ EM MODELOS ARMA 5.2. PREVISAO 59 Xn+1 , Xn+2 , . . . pela sua esperan¸ca condicional, e valores passados de X e de ǫ pelos seus valores observados. Tomemos como exemplo o modelo SARIMA(1, 0, 0) × (0, 1, 1)12 . A equa¸ca˜o do modelo ´e dada por (1 − αB)(1 − B 12 )Xt = (1 + θB 12 )ǫt ou equivalentemente Xt = Xt−12 + α(Xt−1 − Xt−13 ) + ǫt + θǫt−12 . Neste caso, as previs˜ oes 1 e 2 passos `a frente ficam x ˆn (1) = xn−11 + α(xn − xn−12 ) + θǫn−11 x ˆn (2) = xn−10 + α(ˆ xn (1) − xn−11 ) + θǫn−10 . Note como o valor futuro Xn+1 foi substitu´ıdo na segunda equa¸ca˜o pela sua esperan¸ca condicional x ˆn (1), i.e. a previs˜ ao feita em t = n para t = n + 1. Previs˜ oes para horizontes maiores podem ser obtidas recursivamente. No caso de modelos autoregressivos AR(p) n˜ao ´e dif´ıcil verificar como fica a fun¸ca˜o de previs˜ ao. x ˆt (1) = α1 xt + · · · + αp xt−p+1 x ˆt (2) = α1 x ˆt (1) + · · · + αp xt−p+2 .. . x ˆt (p + 1) = α1 x ˆt (p) + · · · + αp x ˆt (1) de modo que as previs˜ oes para horizontes maiores do que p usam apenas as previs˜ oes anteriores. Para p = 1 por exemplo segue que x ˆt (k) = αˆ xt (k − 1) = α2 x ˆt (k − 2) = · · · = αk xt Para modelos m´edias m´ oveis MA(q) tamb´em n˜ao ´e dif´ıcil verificar que a equa¸ca˜o de previs˜ ao fica x ˆt (1) = β1 ǫt + · · · + βq ǫt−q+1 x ˆt (2) = β2 ǫt + · · · + βq ǫt−q+2 .. . x ˆt (q) = βq ǫt x ˆt (q + j) = 0, j = 1, 2, . . . ou seja, x ˆt (k) = ( P q i=k 0, βi ǫt+k−i , k = 1, . . . , q k>q ˜ CAP´ITULO 5. PREVISAO 60 Atualiza¸ c˜ ao das Previs˜ oes ´ interessante notar tamb´em como as previs˜ E oes podem ser atualizadas conforme novas observa¸co˜es da s´erie forem obtidas. Suponha por exemplo que o valor xn+1 foi observado. Neste caso a previs˜ ao para t = n + 2 ficar´ a condicionada em x1 , . . . , xn , xn+1 e pode ser facilmente atualizada para a nova origem n + 1. Para o modelo SARIMA visto acima a previs˜ ao fica x ˆn+1 (1) = E(Xn+2 |xn+1 , . . . , x1 ) = xn−10 + α(xn+1 − xn−11 ) + θǫn−10 . (5.4) Somando e subtraindo αˆ xn (1) no lado direito de (5.4) obtemos que x ˆn+1 (1) = xn−10 + α(ˆ xn (1) − xn−11 ) + α(xn+1 − x ˆn (1)) + θǫn−10 = x ˆn (2) + α(xn+1 − x ˆn (1)) ou seja, a previs˜ ao atualizada ´e a previs˜ ao anterior mais uma propor¸ca˜o do erro de previs˜ ao 1 passo ` a frente em t = n + 1. Previs˜ oes usando a forma MA As previs˜ oes tamb´em podem ser obtidas reescrevendo-se o modelo como um processo m´edias m´ oveis de ordem infinita. Neste caso temos que Xn+k = ǫn+k + ψ1 ǫn+k−1 + · · · + ψk ǫn + ψk+1 ǫn−1 + . . . e fica claro que a previs˜ ao k passos `a frente ´e dada por x ˆn (k) = ψk ǫn + ψk+1 ǫn−1 + . . . . (5.5) Note que apenas os valores ǫn , ǫn−1 , . . . foram utilizados j´a que a esperan¸ca dos valores futuros ´e igual a zero. Esta forma ´e particularmente u ´til para o c´ alculo da variˆ ancia do erro de previs˜ ao. Da equa¸ca˜o (5.5) obtemos que o erro de previs˜ ao k passos ` a frente ´e dado por xn+k − x ˆn (k) = ǫn+k + ψ1 ǫn+k−1 + · · · + ψk−1 ǫn+1 e portanto a variˆ ancia do erro de previs˜ ao ´e dada por 2 V ar(et+k ) = (1 + ψ12 + · · · + ψk−1 )σǫ2 . ancia do erro de previs˜ ao O ponto importante a se notar aqui ´e que, para σǫ2 fixo, a variˆ aumenta com o horizonte de previs˜ ao. Na pr´atica, isto significa ter mais confian¸ca em previs˜ oes de curto prazo do que em previs˜ oes de longo prazo. At´e agora n˜ao haviamos assumido nenhuma distribui¸ca˜o de probabilidade para os erros. Assumindo tamb´em que a sequˆencia {ǫt } seja normalmente distribuida pode-se ˜ EM MODELOS ARMA 5.2. PREVISAO 61 construir intervalos de confian¸ca para Xt+k sim´etricos em torno das previs˜ oes. Estes s˜ ao chamados intervalos de previs˜ ao e s˜ ao dados por v  u k−1 u X u x ˆt (k) ± zα/2 t1 + ψj2  σǫ2 . j=1 ´ claro que neste caso a hip´ E otese de normalidade precisa ser checada. Finalmente, vale notar que na pr´atica os parˆ ametros do modelo n˜ao s˜ ao conhecidos de forma exata e precisam ser estimados. Os valores passados dos erros ǫt tamb´em precisam ser estimados como erros de previs˜ ao um passo `a frente. Assim, por exemplo para o modelo SARIMA(1, 0, 0) × (0, 1, 1)12 visto acima teremos que ˆǫn−11 x ˆn (1) = xn−11 + α ˆ (xn − xn−12 ) + θˆ onde o erro de previs˜ ao 1 passo `a frente em n − 11 ´e dado por ǫˆn−11 = xn−11 − x ˆn−12 (1). Al´em disso, os intervalos de previs˜ ao obtidos ser˜ ao intervalos aproximados devido a esta substitui¸ca˜o. Exemplo 5.4 : A Figura 5.4 mostra uma s´erie temporal com os totais mensais de mortes por acidente nos Estados Unidos entre janeiro de 1973 e dezembro de 1978. Suponha que foi identificado o modelo SARIMA(0,1,1)x(0,1,1). Ap´ os a estima¸ca˜o, an´ alise de res´ıduos e verifica¸ca˜o da adequa¸ca˜o do modelo foram feitas previs˜ oes para o ano de 1979, i.e. previs˜ oes 1, 2, . . . , 12 passos `a frente. Em julho de 1979 os valores para os primeiros 6 meses daquele ano foram disponibilizados e aparecem na Figura 5.5 juntamente com as previs˜ oes. Note como os valores observados ficaram dentro dos intervalos de previs˜ ao fornecendo assim indica¸ca˜o de que o modelo teve uma boa performance preditiva. Sendo assim, uma estrat´egia inicial para o segundo semestre de 1979 consiste em simplesmente atualizar as previs˜ oes. Os comandos do R para este exemplo s˜ ao dados a seguir. Transforma¸c˜ oes Em muitas aplica¸co˜es a s´erie modelada ´e na verdade uma transforma¸ca˜o dos dados originais, sendo a transforma¸ca˜o logaritmica a mais usual. Assim, tanto as previs˜ oes pontuais quanto os intervalos de previs˜ ao s˜ ao obtidos para a s´erie transformada e estes valores precisam ser transformados novamente para a escala original. A abordagem mais simples (e geralmente adotada) consiste simplesmente em tomar a transforma¸ca˜o inversa, por exemplo se um modelo foi ajustado para a s´erie Xt = log Yt ent˜ao yˆn (k) = exp(ˆ xn (k)) ´e a previs˜ ao k passos a frente da s´erie original. No entanto deve-se ter em mente que estas previs˜ oes via transforma¸ca˜o inversa s˜ ao em geral viesadas. Felismente os intervalos de previs˜ ao tem boas propriedades e por exemplo quanto se toma o antilogaritmo dos limites p x ˆn (k) ± zα/2 var(en+k ) ˜ CAP´ITULO 5. PREVISAO 62 10000 9000 8000 7000 Numero de mortes por acidente 11000 > data(USAccDeaths) > plot(USAccDeaths, xlab = "Anos", ylab = "Numero de mortes por acidente") 1973 1974 1975 1976 1977 1978 1979 Anos Figura 5.4: Totais mensais de mortes por acidente nos Estados Unidos entre janeiro de 1973 e dezembro de 1978. obt´em-se um intervalo (geralmente assim´etrico) de 100(1 − α)% para a previs˜ ao pontual yˆn (k). Exemplo 5.5 : Considere novamente a s´erie AirPassengers e fa¸ca transforma¸ca˜o logaritmica nos dados (conforme sugerido na literatura). Estime um modelo SARIMA(0,1,1)x(0,1,1) usando os dados at´e dezembro de 1960 e fa¸ca previs˜ oes de 1 at´e 12 meses ` a frente para o ano de 1961 nas 2 escalas. As previs˜ oes e intervalos de previs˜ ao na escala transformada s˜ ao dados na Tabela 5.1, enquanto as previs˜ oes, intervalos de previs˜ ao e suas semi-amplitudes na escala original s˜ ao dadas na Tabela 5.2. 5.3 Performance Preditiva A id´eia de verificar a adequa¸ca˜o de um modelo em termos dos erros de previs˜ ao um passo ` a frente foi apresentada na Se¸ca˜o 4.6. Na pr´atica ´e preciso verificar se os res´ıduos se comportam de maneira aleat´ oria (ou imprevis´ıvel) em torno de zero e com variˆ ancia 63 5.3. PERFORMANCE PREDITIVA 1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec previs˜ ao 6.11 6.05 6.17 6.20 6.23 6.37 6.51 6.50 6.32 6.21 6.06 6.17 li 6.04 5.97 6.08 6.09 6.12 6.25 6.38 6.37 6.18 6.06 5.91 6.00 ls 6.18 6.14 6.27 6.31 6.35 6.49 6.64 6.64 6.47 6.36 6.22 6.33 Tabela 5.1: Previs˜ oes e limites inferior (li) e superior (ls) dos intervalos de previs˜ ao. aproximadamente constante, al´em de serem n˜ao correlacionados ao longo do tempo. Al´em disso, dois ou mais modelos podem ser comparados segundo a sua performance preditiva, ou seja construindo-se medidas baseadas nos erros de previs˜ ao. A maioria dos m´etodos de previs˜ ao baseia-se na id´eia de minimizar somas de quadrados ou de valores absolutos dos erros de previs˜ ao e esta ´e tamb´em uma medida usada para comparar a adequa¸ca˜o de modelos alternativos. A id´eia ent˜ao ´e comparar o erro P P quadr´ atico m´edio e2t /(n−m) ou erro absoluto m´edio |et |/(n−m) para diferentes modelos, onde m ´e o n´ umero de parˆ ametros a serem estimados. Uma estrat´egia simples de se fazer previs˜ oes consiste em tomar a observa¸ca˜o mais recente como a melhor previs˜ ao de um valor futuro da s´erie, i.e. x ˆt (1) = xt . Note que esta ´e a previs˜ ao 1 passo ` a frente de um passeio aleat´ orio. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previs˜ ao com aqueles do passeio aleat´ orio. Isto pode ser feito atrav´es da chamada estat´ıstica U de Theil definida como sP n−1 ˆt (1))2 t=1 (xt+1 − x U= . P n−1 2 t=1 (xt+1 − xt ) Note que valores maiores do que 1 s˜ ao uma indica¸ca˜o de que globalmente os erros de previs˜ ao tendem a ser grandes em rela¸ca˜o aos erros de um passeio aleat´ orio. Esta n˜ao ´e uma boa caracter´ıstica e gostariamos que o valor de U fosse sempre menor do que 1. Vale notar tamb´em que neste caso os erros de previs˜ ao est˜ ao sendo avaliados independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previs˜ ao k passos a frente. Outra pr´atica comum em s´eries temporais consiste em estimar o modelo excluindo algumas observa¸co˜es finais e usar o modelo estimado para fazer previs˜ oes. Neste caso as previs˜ oes podem ser comparadas com os valores observados. Por exemplo, para uma ˜ CAP´ITULO 5. PREVISAO 64 1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec prev 450.42 425.72 479.01 492.40 509.05 583.34 670.01 667.08 558.19 497.21 429.87 477.24 li 418.53 390.81 435.08 443.00 453.98 516.02 588.18 581.40 483.18 427.59 367.37 405.40 ls 484.74 463.75 527.37 547.32 570.81 659.45 763.23 765.38 644.85 578.17 503.01 561.81 prev.li 31.89 34.91 43.93 49.41 55.07 67.33 81.83 85.68 75.01 69.62 62.50 71.84 ls.prev 34.32 38.03 48.36 54.92 61.75 76.11 93.22 98.30 86.66 80.96 73.14 84.57 Tabela 5.2: Previs˜ oes e limites inferior (li) e superior (ls) e semi-amplitudes dos intervalos de previs˜ ao. s´erie mensal observada ao longo de 5 anos poderia-se estimar o modelo identificado usando os primeiros 4 anos e meio (54 observa¸co˜es) e fazer previs˜ oes para os u ´ltimos 6 meses. 5.4 Crit´ erios de Informa¸c˜ ao Em muitas aplica¸co˜es v´ arios modelos podem ser julgados adequados em termos do comportamento dos res´ıduos. Uma forma de “discriminar” entre estes modelos competidores ´e utilizar os chamados crit´erios de informa¸ca˜o que levam em conta n˜ao apenas a qualidade do ajuste mas tamb´em penalizam a inclus˜ ao de parˆ ametros extras. Assim, um modelo com mais parˆ ametros pode ter um ajuste melhor mas n˜ao necessariamente ser´ a prefer´ıvel em termos de crit´erio de informa¸ca˜o. A regra b´asica consiste em selecionar o modelo cujo crit´erio de informa¸ca˜o calculado seja m´ınimo. A regra mais utilizada em s´eries temporais ´e o chamado crit´erio de informa¸ca˜o de Akaike, denotado por AIC. A defini¸ca˜o mais comumente utilizada ´e AIC = −2 log verossimilhan¸ca maximizada + 2m1 onde m ´e o n´ umero de parˆ ametros (em modelos ARMA(p, q) m = p + q + 1). Para dados normalmente distribuidos e usando-se estimativas de m´ axima verossimilhan¸ca para os parˆ ametros pode-se mostrar que AIC = n log(ˆ σǫ2 ) + 2m onde σ ˆǫ2 = (1/n) 1 P ǫˆ2t . O fator 2 ´e somente uma conven¸c˜ ao e n˜ ao ir´ a alterar a sele¸c˜ ao do modelo. ´ ˜ 5.4. CRITERIOS DE INFORMAC ¸ AO 65 Existem outros crit´erios de informa¸ca˜o que s˜ ao basicamente modifica¸co˜es do AIC na forma de penalizar a inclus˜ ao de parˆ ametros extras. O mais famoso deles ´e o crit´erio de informa¸ca˜o Bayesiano, denotado por BIC e dado por BIC = −2 log verossimilhan¸ca maximizada + m log n. Note como este crit´erio penaliza bem mais a inclus˜ ao de parˆ ametros do que o AIC e portanto tende a selecionar modelos mais parcimoniosos. ´ sempre bom lembrar que estas medidas n˜ao tˆem nenhum significado quando E olhadas individualmente, i.e. considerando-se um u ´nico modelo. Assim, tanto o AIC quanto o BIC podem assumir valores quaisquer, inclusive valores negativos, j´a que eles dependem da forma da fun¸ca˜o de verossimilhan¸ca. Vale lembrar tamb´em que ao usar tais crit´erios para comparar modelos a estima¸ca˜o precisa ser feita no mesmo per´ıodo amostral de modo que os modelos sejam compar´ aveis. Note tamb´em que aumentando-se o n´ umero de termos autoregressivos e/ou m´edias m´ oveis, o valor de m aumenta. Assim se a inclus˜ ao de termos adicionais no modelo n˜ao melhorar sensivelmente o ajuste, ent˜ao o AIC e o BIC (e qualquer outro crit´erio de informa¸ca˜o) ser˜ ao maiores. Para uma revis˜ ao geral destes e outros crit´erios de informa¸ca˜o no contexto de s´eries temporais ver por exemplo Priestley (1981), Cap´ıtulo 5. Identifica¸c˜ ao Revisitada Vimos que as duas ferramentas b´asicas para identifica¸ca˜o de modelos da classe ARIMA s˜ ao as autocorrela¸co˜es e autocorrela¸co˜es parciais amostrais. Esta etapa envolve algum grau de arbitrariedade por parte do pesquisador ao interpretar estas fun¸co˜es, i.e. comparar subjetivamente seus valores amostrais com os correspondentes valores te´ oricos. Uma abordagem alternativa consiste em usar os crit´erios de informa¸ca˜o de um forma mais abrangente. Neste caso, um conjunto de poss´ıveis modelos competidores ´e definido a priori e aquele que minimiza o AIC ou BIC ´e selecionado. Por exemplo, modelos ARMA(p, q) podem ser estimados sequencialmente variando os valores de p e q entre 0 e 3 digamos. Note que neste caso teremos 16 poss´ıveis modelos sendo comparados e os crit´erios de informa¸ca˜o s˜ ao agora fun¸co˜es de p e q. Analogamente, para modelos AR(p) podemos variar o valor de p, digamos entre 1 e 10. Na pr´atica este procedimento pode ser aplicado de forma semi-autom´ atica j´a que muitos pacotes estat´ısticos fornecem estes valores. Por´em ap´ os um modelo ser selecionado a an´ alise residual ainda deve ser feita antes de se passar `a etapa das previs˜ oes. Outro problema de ordem pr´atica ´e que pode haver dois ou mais modelos com AIC e/ou BIC muito similares de modo que n˜ao seja trivial discriminar entre eles. Nestas situa¸co˜es Burnham & Anderson (1998), Se¸ca˜o 4.2, sugerem o uso de pesos que s˜ ao obtidos subtraindo-se o valor associado com o “melhor” modelo. Os pesos relativos ao AIC s˜ ao dados por wk ∝ exp(−∆AIC(k)/2) ˜ CAP´ITULO 5. PREVISAO 66 sendo ∆AIC(k) = AIC(k) − min(AIC) e k ´e a ordem do modelo. Estes pesos s˜ ao ent˜ao normalizados para somarem 1 de modo que 0 < wk < 1 e a compara¸ca˜o entre os modelos fica mais f´acil. Se M ´e o n´ umero total de modelos a compara¸ca˜o ´e ent˜ao baseada em wi wi∗ = PM , i = 1, . . . , M. j=1 wj Por exemplo, para modelos AR(p) os pesos relativos ao AIC s˜ ao dados por wp ∝ exp(−∆AIC(p)/2), p = 1, . . . , pmax sendo ∆AIC(p) = AIC(p) − min(AIC) e pmax deve ser especificado. Exemplo 5.6 : Na Figura 5.6 ´e apresentada a s´erie com os totais anuais de linces canadenses capturados em armadilhas entre 1821 e 1934. Estes dados tˆem sido modelados na literatura ap´ os uma transforma¸ca˜o que consiste em tomar o logaritmo na base 10 e subtrair a m´edia dos dados transformados. Vamos ajustar modelos AR(p) com p variando de 1 at´e 5 e calcular os crit´erios de informa¸ca˜o e os respectivos pesos para cada modelo. Os resultados est˜ ao na Tabela 5.3. Note que h´a falta de concordˆancia entre os crit´erios de informa¸ca˜o quanto ao melhor modelo. Isto pode ser uma indica¸ca˜o de que na verdade h´a 2 modelos descrevendo bem os dados. Outro problema ´e que o AIC seleciona um modelo com o valor m´ aximo de p e isto pode indicar a necessidade de considerar mais termos autoregressivos. Repetindo o exercicio com p variando de 1 a 15 obteve-se a Tabela 5.4. 1 2 3 4 5 p 1 2 3 4 5 AIC −242.3913 −333.0988 −332.7283 −335.6596 −335.8881 pesos AIC 0.0000 0.1057 0.0878 0.3802 0.4263 BIC −234.9189 −321.8902 −317.7835 −316.9786 −313.4709 pesos BIC 0.0000 0.8137 0.1044 0.0698 0.0121 Tabela 5.3: Crit´erios de informa¸ca˜o AIC e BIC e respectivos pesos para modelos AR(p) ajustados a s´erie Lynx. Os comandos do R utilizados no Exemplo 5.6 seguem abaixo. > > > > > > > > + y = log10(lynx) x = y - mean(y) p = 1:15 n = length(x) crit = matrix(0, nrow = length(p), ncol = 5) colnames(crit) = c("p", "AIC", "pesos AIC", "BIC", "pesos BIC") crit[, 1] = p for (k in p) { ar = arima(x, order = c(k, 0, 0), include.mean = F) ˜ 5.5. PREVISOES USANDO TODOS OS MODELOS + + + > > > > 67 crit[k, 2] = n * log(ar$sigma2) + 2 * (k + 1) crit[k, 4] = n * log(ar$sigma2) + (k + 1) + (k + 1) * log(n) } aicp = bicp = crit[, crit[, exp(-(crit[, 2] - min(crit[, 2]))/2) exp(-(crit[, 4] - min(crit[, 4]))/2) 3] = aicp/sum(aicp) 5] = bicp/sum(bicp) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AIC −242.3913 −333.0988 −332.7283 −335.6596 −335.8881 −334.4484 −338.8427 −338.8505 −338.3849 −341.8678 −354.5690 −354.7117 −353.0609 −351.0895 −349.2335 pesos AIC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0006 0.3581 0.3846 0.1685 0.0629 0.0249 BIC −234.9189 −321.8902 −317.7835 −316.9786 −313.4709 −308.2950 −308.9531 −305.2247 −301.0229 −300.7696 −309.7346 −306.1411 −300.7541 −295.0465 −289.4543 pesos BIC 0.0000 0.8100 0.1039 0.0695 0.0120 0.0009 0.0013 0.0002 0.0000 0.0000 0.0019 0.0003 0.0000 0.0000 0.0000 Tabela 5.4: Crit´erios de informa¸ca˜o AIC e BIC e respectivos pesos para modelos AR(p) ajustados a s´erie Lynx. Finalmente vale notar que se o n´ umero de modelos candidatos for muito grande e a s´erie analisada muito longa o custo computacional deste m´etodo pode ser muito alto. Por exemplo, em modelos SARIMA com pmax = qmax = 5, Pmax = Qmax = 2 e dmax = Dmax = 2 teremos mais de 500 modelos candidatos, sem contar poss´ıveis transforma¸co˜es nos dados, diferentes distribui¸co˜es dos erros, presen¸ca de dados discrepantes, altera¸co˜es estruturais, etc. 5.5 Previs˜ oes Usando Todos os Modelos Suponha que existem k modelos “candidatos” denotados por M1 , M2 , . . . , Mk e desejase fazer a previs˜ ao de Xn+h . Tratando tanto Xn+h quanto Mi como vari´ aveis aleat´ orias ent˜ao pelas regras de esperan¸ca condicional segue que x ˆn (h) = E(Xn+h |x) = k X i=1 E(Xn+h |x, Mi )P (Mi |x). ˜ CAP´ITULO 5. PREVISAO 68 Ou seja, podemos escrever a previs˜ ao pontual como uma mistura discreta de previs˜ oes pontuais sob cada modelo considerado. A mesma l´ ogica se aplica a qualquer fun¸ca˜o de Xn+h , em particular 2 E(Xn+h |x) = k X i=1 2 E(Xn+h |x, Mi )P (Mi |x). que pode ser usado para quantificar a incerteza sobre Xn+h , i.e. 2 V ar(Xn+h |x) = E(Xn+h |x) − [E(Xn+h |x)]2 = = k X i=1 k X i=1 2 E(Xn+h |x, Mi )P (Mi |x) − [E(Xn+h |x)]2 [V ar(Xn+h |x, Mi ) + E 2 (Xn+h |x, Mi )]P (Mi |x) − [ˆ xn (h)]2 Um procedimento para fazer previs˜ oes usando todos os modelos estimados consiste em substituir as probabilidades P (Mi |x) pelos pesos wi padronizados. Por exemplo, para modelos autoregressivos se pmax ´e o n´ umero m´ aximo de defasagens ent˜ao E(Xn+h |x) = 5.6 pX max i=1 E(Xn+h |x, AR(i))wi∗ . Previs˜ ao Bayesiana Na pr´atica, os m´etodos de previs˜ ao em modelos ARIMA s˜ ao aplicados substituindose os parˆ ametros do modelo pelas suas estimativas pontuais. Por´em o fato de n˜ao conhecermos os valores dos parˆ ametros ´e mais uma fonte de incerteza em rela¸ca˜o as previs˜ oes e que em muitas situa¸co˜es pode ser muito grande para ser ignorada. No contexto Bayesiano esta incerteza pode ser levada em conta j´a que a previs˜ ao de valores futuros ´e feita a partir da distribui¸ca˜o preditiva de Xn+h , que ´e dada por Z p(xn+h |x) = p(xn+h |x, θ)p(θ|x)dθ. Neste caso, todos os poss´ıveis valores de θ est˜ ao sendo levados em conta e n˜ao apenas a sua estimativa pontual. Exerc´ıcios 1. No alisamento exponencial simples descreva a papel do parˆ ametro α. 2. No m´etodo de Holt-Winters descreva o papel dos parˆ ametros α, γ e δ. 3. Explique em que situa¸co˜es seriam usados os m´etodos de Holt-Winters aditivo ou multiplicativo. ˜ BAYESIANA 5.6. PREVISAO 69 4. Seja o modelo MA(1), Xt = ǫt + θǫt−1 . (a) Obtenha a previs˜ ao 1 passo `a frente em t = n e mostre que as previs˜ oes k passos ` a frente para k = 2, 3, . . . s˜ ao iguais a zero. (b) Mostre que a variˆ ancia do erro de previs˜ ao k passos `a frente ´e dada por σǫ2 para k = 1 e (1 + θ2 )σǫ2 para k = 2, 3, . . . . 5. Seja o modelo Xt = 90 + ǫt + 0, 8ǫt−1 + 0, 5ǫt−1 . (a) Obtenha as previs˜ oes k passos `a frente em t = n. (b) Obtenha a variˆ ancia do erro de previs˜ ao k passos `a frente. 6. Seja o modelo AR(1), Xt = αXt−1 + ǫt . (a) Mostre que a previs˜ ao k passos `a frente feita em t = n ´e dada por αk xn . (b) Mostre que a variˆ ancia do erro de previs˜ ao k passos `a frente ´e dada por σǫ2 (1 − α2k )/(1 − α2 ). 7. Para o modelo SARIMA(0, 0, 1)×(1, 1, 0)12 obtenha as previs˜ oes no tempo t = n para at´e 12 per´ıodos ` a frente em termos das observa¸co˜es e residuos at´e o tempo t = n. 8. Seja o modelo (1 − B)(1 − 0, 2B)Xt = (1 − 0, 5B)ǫt . (a) Obtenha as previs˜ oes 1 e 2 passos `a frente. (b) Mostre que as previs˜ oes 3 ou mais passos `a frente s˜ ao dadas pela equa¸ca˜o recursiva x ˆn (k) = 1, 2ˆ xn (k − 1) − 0, 2ˆ xn (k − 2). (c) Obtenha a variˆ ancia dos erros de previs˜ ao 1, 2 e 3 passos `a frente. (d) Obtenha a previs˜ ao x ˆn (2) e o erro padr˜ ao do erro de previs˜ ao sabendo que 2 ǫn = 1, xn = 4, xn−1 = 3 e σǫ = 2. 9. Seja o modelo ARIMA(1,0,1) para uma s´erie Xt com m´edia zero. (a) Reescreva o modelo na forma de choques aleat´ orios, i.e. Xt = ǫt + ψ1 ǫt−1 + ψ2 ǫt−2 + . . . obtendo uma express˜ao geral para os coeficientes ψj . (b) Escreva a express˜ao da variˆ ancia do erro de previs˜ ao et (k) = xt+k − x ˆt (k). (c) Obtenha as previs˜ oes x ˆt (k) para horizontes k = 1 e k > 1. 10. Sabe-se que se Y ∼ N (µ, σ 2 ) ent˜ao X = exp(Y ) tem distribui¸ca˜o log-normal 2 2 com E(X) = exp(µ + σ 2 /2) e V ar(X) = e2µ+σ (eσ − 1). Se foram obtidas as previs˜ oes k passos ` a frente de Yt = log(Xt ) e assumindo que Yt ´e normal mostre que as previs˜ oes na escala original s˜ ao dadas por ˆ t (k) = exp(Yˆt (k) + Vy (k)/2) X com variˆ ancia exp(2Yˆt (k) + Vy (k)) [exp(Vy (k)) − 1]. 70 ˜ CAP´ITULO 5. PREVISAO 11. Deseja-se ajustar um modelo ARMA a uma s´erie temporal estacion´aria mas os gr´ aficos das fun¸co˜es de autocorrela¸ca˜o e autocorrela¸ca˜o parcial s˜ ao pouco informativos. Descreva um procedimento de identifica¸ca˜o alternativo (vocˆe tem um pacote estat´ıstico para fazer as contas). 12. Descreva um procedimento para obter previs˜ oes h passos `a frente em modelos autoregressivos com n´ umero m´ aximo de defasagens igual a kmax utilizando todos os modelos estimados. Ilustre situa¸co˜es em que as previs˜oes pontuais m´edias devem muito similares (ou muito diferentes) das previs˜ oes usando somente o melhor modelo. ˜ BAYESIANA 5.6. PREVISAO 10000 11000 12000 plot(ts(c(USAccDeaths, pacc$pred), frequency = 12, start = c(1973, 1)), xlab = "Anos", ylab = "Numero de mortes por acidente", ylim = c(6000, 12000)) abline(v = 1979 - 1/12, lty = 2) lines(pacc$pred + 1.96 * pacc$se, lty = 2) lines(pacc$pred - 1.96 * pacc$se, lty = 2) obs79 = c(7798, 7406, 8363, 8460, 9217, 9316) points(1979 + (0:5)/12, obs79, pch = "*") 9000 ** 8000 ** * 7000 * 6000 Numero de mortes por acidente > + + > > > > > 71 1973 1974 1975 1976 1977 1978 1979 1980 Anos Figura 5.5: Previs˜oes para 1979 com observa¸co˜es do primeiro semestre incluidas. ˜ CAP´ITULO 5. PREVISAO 4000 3000 0 1000 2000 lynx 5000 6000 7000 72 1820 1840 1860 1880 1900 1920 Time Figura 5.6: Totais anuais de linces canadenses capturados em armadilhas entre 1821 e 1934. Cap´ıtulo 6 Modelando a Variˆ ancia 6.1 Introdu¸c˜ ao Nos modelos vistos at´e aqui a variˆ ancia dos erros foi assumida constante ao longo 2 do tempo, i.e. V ar(ǫt ) = E(ǫt ) = σǫ2 . Muitas s´eries temporais no entanto exibem per´ıodos de grande volatilidade seguidos de per´ıodos de relativa tranquilidade. Nestes casos, a suposi¸ca˜o de variˆ ancia constante (homocedasticidade) pode n˜ao ser apropriada. Na verdade, embora a variˆ ancia incondicional dos erros ainda possa ser assumida constante, sua variˆ ancia condicional pode estar mudando ao longo do tempo. Al´em disso, em muitas situa¸co˜es pr´aticas tem-se interesse em prever a variˆ ancia condicional da s´erie al´em da s´erie propriamente dita. Por exemplo, no mercado de a¸co˜es o interesse ´e n˜ao apenas prever a taxa de retorno mas tamb´em a sua variˆ ancia ao longo de um certo per´ıodo. Esta variˆ ancia condicional ´e tamb´em chamada de volatilidade. Algumas referˆencias para este cap´ıtulo s˜ ao Taylor (1986), Franses (1998), e Tsay (2002). Exemplo 6.1 : Na Figura 6.1 os gr´ aficos da esquerda apresentam as taxas de cˆ ambio di´ arias da Libra Esterlina, Dolar Canadense, Marco Alem˜ao e Iene Japones, em rela¸ca˜o ao Dolar Americano, enquanto nos gr´ aficos da direita est˜ ao os logaritmos das taxas de varia¸ca˜o (retornos di´ arios). O per´ıodo amostral vai de janeiro de 1991 a dezembro de 1998. Uma caracter´ıstica comum nestes retornos ´e que embora as m´edias pare¸cam ser aproximadamente constantes as variˆ ancias mudam ao longo do tempo. Na Figura 6.2 est˜ ao os histogramas com uma curva normal superimposta para os mesmos dados (retornos). Pode-se notar que muitos valores aparecem nas caudas das distribui¸co˜es. Finalmente, na Figura 6.3 temos as autocorrela¸co˜es amostrais dos retornos e dos retornos ao quadrado. Note como existe bastante aucorrela¸ca˜o entre os retornos ao quadrado. Todas estas caracter´ısticas s˜ ao em geral verificadas em s´eries reais de retornos e devem ser levadas em conta pelo modelo. A id´eia aqui ´e tentar modelar simultaneamente a m´edia e a variˆ ancia de uma s´erie temporal. Para fixar id´eias, suponha que um modelo AR(1), Xt = αXt−1 + ǫt foi 73 500 1000 1500 2000 0.00 0.015 −0.03 0.000 0.02 −0.015 0.00 −0.03 0.00 −0.04 z.Dolar Canadense z.Libra Esterlina z.Iene Japonesz.Marco Alemao 0.70 0.60 0.50 1.4 1.2 1.8 1.6 1.4 140 120 100 y.Dolar Canadense y.Libra Esterlina y.Iene Japonesy.Marco Alemao 80 0 0.02 ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 74 0 500 1000 1500 2000 Figura 6.1: Taxas de cˆ ambio e retornos di´ arios em rela¸ca˜o ao Dolar Americano da Libra Esterlina, Dolar Canadense, Marco Alem˜ao e Iene Japones, entre janeiro de 1991 a dezembro de 1998. estimado e deseja-se fazer previs˜ oes 1 passo `a frente, x ˆt (1) = E(Xt+1 |xt ) = αxt . A variˆ ancia condicional de Xt+1 ´e dada por V ar(Xt+1 |xt ) = V ar(ǫt+1 |xt ) = E(ǫ2t+1 |xt ). At´e agora assumimos que E(ǫ2t+1 |xt ) = σǫ2 , mas suponha que a variˆ ancia condicional 2 . Uma poss´ ıvel causa disto ´e que os dados n˜ao seja constante, i.e. E(ǫ2t+1 |xt ) = σt+1 se distribuem com caudas muito longas. Para facilitar a nota¸ca˜o vamos denotar por It = {xt , xt−1 , . . . , ǫt , ǫt−1 , . . . }, ou seja σt2 = V ar(ǫt |It−1 ). 6.2 Modelos ARCH Existem v´ arias formas de especificar como a variˆ ancia condicional (volatilidade) varia com o tempo. Uma estrat´egia utilizada para modelar σt2 , proposta em Engle (1982), 75 6.2. MODELOS ARCH Dolar Canadense 0 0 20 50 40 100 60 150 80 Libra Esterlina −0.03 −0.01 0.01 0.03 −0.015 0.010 Iene Japones 0 0 20 20 40 40 60 60 Marco Alemao 0.000 −0.03 −0.01 0.01 0.03 −0.06 −0.02 0.02 Figura 6.2: Histogramas dos retornos di´ arios do Exemplo 6.1. consiste em assumir que ela depende dos quadrados dos erros passados, ǫt−1 , ǫt−2 , . . . atrav´es de uma autoregress˜ao. No caso mais simples, faz-se q ǫt = vt c + αǫ2t−1 (6.1) onde {vt } ´e uma s´erie puramente aleat´ oria com m´edia zero e variˆ ancia igual a 1 e vt e ǫt s˜ ao independentes. Segue que a esperan¸ca e a variˆ ancia condicionais s˜ ao dadas por, q E(ǫt |It−1 ) = E(vt ) c + αǫ2t−1 = 0 E(ǫ2t |It−1 ) = σt2 = c + αǫ2t−1 (6.2) Neste caso dizemos que a variˆ ancia segue um processo autoregressivo condicionalmente heteroced´ astico de ordem 1, ARCH(1). Note que ´e necess´ario impor as restri¸co˜es c > 0 e α ≥ 0 para que σt2 seja sempre positiva. Quando α = 0 a variˆ ancia condicional ´e constante e ǫt ´e um processo condicionalmente homoced´ astico. Al´em disso queremos garantir a estacionariedade da autoregress˜ao de modo que a restri¸ca˜o imposta ´e 0 < α < 1. Note tamb´em que (6.2) n˜ao inclui um termo de erro e portanto n˜ao ´e um processo estoc´ astico. ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 76 −0.04 −0.05 −0.04 15 25 0 5 25 15 25 0 5 25 Marco Alemao^2 15 25 0 5 15 25 Iene Japones^2 0.00 −0.05 0.10 0.25 0.10 Iene Japones 15 −0.05 −0.06 −0.05 0 5 0 5 Marco Alemao 0.00 0.10 Dolar Canadense^2 15 0.10 0 5 Dolar Canadense 0.02 Libra Esterlina^2 0.10 0.04 Libra Esterlina 0 5 15 25 0 5 15 25 Figura 6.3: Correlogramas dos retornos e retornos ao quadrado no Exemplo 6.1 A esperan¸ca e variˆ ancia incondicionais podem ser obtidas como, E(ǫt ) = E[E(ǫt |It−1 )] = 0 V ar(ǫt ) = E(ǫ2t ) = E[E(ǫ2t |It−1 )] = c + αE(ǫ2t−1 ). Se o processo ´e estacion´ario ent˜ao E(ǫ2t ) = E(ǫ2t−1 ) = V ar(ǫt ) e portanto V ar(ǫt ) = c . 1−α Al´em disso, Cov(ǫt , ǫt+k ) = E(ǫt ǫt+k ) = E[E(ǫt ǫt+k )|ǫt+k−1 , . . . , ǫt−1 ] p = E[ǫt E(vt+k c + αǫt+k−1 )] = 0, para k > 0. Ou seja, ao postular o modelo ARCH(1) estamos assumindo que os {ǫt } s˜ ao n˜ao correlacionados. Exemplo 6.2 : Para ilustra¸ca˜o a Figura 6.4 apresenta dois processos ARCH de ordem 1 simulados a partir de uma sequˆencia {vt } de 200 n´ umeros aleat´ orios i.i.d. gerados de uma distribui¸ca˜o N (0, 1). A sequˆencia {ǫt } foi construida usando a equa¸ca˜o (6.1) 77 6.2. MODELOS ARCH com c = 1 e α = 0, 8. Note como a sequˆencia {ǫt } continua tendo m´edia zero mas parece ter tido um aumento de volatilidade em alguns per´ıodos. Em um modelo AR(1), a forma como esta estrutura nos erros afeta a s´erie original depende do valor do parˆ ametro autoregressivo e duas poss´ıveis situa¸co˜es s˜ ao mostradas nos gr´ aficos inferiores da figura. Na Figura 6.5 temos o histograma dos valores {ǫt } gerados, com uma curva normal superimposta, al´em do gr´ afico de probabilidades normais (QQplot normal). Note como h´a um excesso de valores nas caudas ocorrendo com uma frequˆencia maior do que seria esperado na distribui¸ca˜o normal. ε(t) = v(t) 1 + 0.8ε(t − 1)2 10 5 0 −5 −5 0 5 10 processo aleatório 0 50 100 150 200 0 100 150 200 0 5 10 x(t) = 0.9x(t − 1) + ε(t) −5 −5 0 5 10 x(t) = 0.5x(t − 1) + ε(t) 50 0 50 100 150 200 0 50 100 150 200 Figura 6.4: Processos autoregressivos com erros ARCH(1) simulados. Basicamente a equa¸ca˜o (6.2) nos diz que erros grandes (ou pequenos) em valor absoluto tendem a ser seguidos por erros grandes (ou pequenos) em valor absoluto. Portanto o modelo ´e adequado para descrever s´eries aonde a volatilidade ocorre em grupos. Al´em disso, na equa¸ca˜o (6.2) somando ǫ2t e subtraindo σt2 de ambos os lados obtemos que ǫ2t = c + αǫ2t−1 + νt com νt = ǫ2t − σt2 = σt2 (vt2 − 1). Ou seja, o modelo ARCH(1) pode ser reescrito como um AR(1) estacion´ario para ǫ2t com erros n˜ao normais (vt2 ∼ χ21 se vt ∼ N (0, 1)) que tˆem m´edia zero e variˆ ancia n˜ao constante. Portanto, a fun¸ca˜o de autocorrela¸ca˜o do processo {ǫ2t } ´e dada por ρ(k) = αk e o correlograma amostral deve apresentar um ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 0.00 0.15 0.30 densidades 78 −4 −2 0 2 4 6 4 0 −4 quantis amostrais Q−Q plot Normal −3 −2 −1 0 1 2 3 quantis teoricos Figura 6.5: Caracteristicas de um processo ARCH(1) simulado. decaimento exponencial para zero. Se o processo ARCH(1) for estacion´ario n˜ao ´e dif´ıcil calcular o seu coeficiente de curtose que ´e dado por E(ǫ4t ) . κ= [V ar(ǫt )]2 Denotando por E(vt4 ) = λ o quarto momento do erro segue que o quarto momento condicional ´e dado por E(ǫ4t |It−1 ) = E(vt4 σt4 |It−1 ) = λE(σt4 |It−1 ) = λ(c + αǫ2t−1 )2 . (se assumirmos que vt ∼ N (0, 1) ent˜ao λ = 3). Portanto, o quarto momento incondicional fica, E(ǫ4t ) = E[E(ǫ4t |It−1 )] = λE(c2 + α2 ǫ4t−1 + 2cαǫ2t−1 ). Se o processo ´e estacion´ario de quarta ordem ent˜ao podemos escrever E(ǫ4t ) = E(ǫ4t−1 ) = µ4 e portanto,   c 2 2 2 1+α µ4 = λ(c + α µ4 + 2cα ) = λc + λα2 µ4 1−α 1−α e finalmente, µ4 = λc2 (1 + α) . (1 − α)(1 − λα2 ) 79 6.2. MODELOS ARCH O coeficiente de curtose ent˜ao fica, κ= (1 − α)2 λc2 (1 + α) λ(1 − α2 ) = , α2 < 1/λ (1 − α)(1 − λα2 ) c2 1 − λα2 que ´e sempre maior do que λ. Ou seja, qualquer que seja a distribui¸ca˜o de vt o coeficiente de curtose ser´ a maior do que a curtose de vt (desde que α > 0 e λ > 1). Em particular, processos ARCH(1) tˆem caudas mais pesadas do que a distribui¸ca˜o normal e s˜ ao portanto adequados para modelar s´eries temporais com esta caracter´ıstica. S´eries de retornos, como as do Exemplo 6.1, frequentemente apresentam caudas mais pesados do que a normal devido ao excesso de curtose. Previs˜ oes da Volatilidade √ Suponha que uma s´erie temporal Xt segue um processo ARCH(1), i.e. Xt = vt ht , vt ∼ N (0, 1). As previs˜ oes da volatilidade, k passos `a frente, no tempo t = n s˜ ao obtidas como, ˆ n (k) = E(hn+k |In ) = c + αE(X 2 h n+k−1 |In ). 2 2 Para k = 1 segue que E(Xn+k−1 |In ) = Xn+k−1 e para k > 1 temos que 2 2 E(Xn+k−1 |In ) = E(hn+k−1 vn+k−1 |In ) 2 = E(hn+k−1 |In )E(vn+k−1 |In ) ˆ n (k − 1) = E(hn+k−1 |In ) = h pois hn+k−1 e vn+k−1 s˜ ao independentes. As previs˜ oes ent˜ao ficam, ( c + αXn2 , k = 1 ˆ n (k) = h ˆ n (k − 1), k = 2, 3, . . . c + αh O Modelo ARCH(p) Estas id´eias podem ser generalizadas para processos mais gerais ARCH(p) em que a variˆ ancia condicional depende dos quadrados de p erros passados, i.e. q (6.3) ǫt = vt c + α1 ǫ2t−1 + · · · + αp ǫ2t−p e ent˜ao a variˆ ancia condicional ´e modelada como, σt2 = E(ǫ2t |It−1 ) = c + α1 ǫ2t−1 + · · · + αp ǫ2t−p . Neste caso, para garantir que σt2 seja sempre positiva ´e necess´ario impor a seguintes restri¸co˜es c > 0 e α1 ≥ 0, . . . , αp ≥ 0 e para garantir estacionariedade ´e necess´ario tamb´em que as ra´ızes de 1 − α1 B − · · · − αp B p = 0 estejam fora do c´ırculo unit´ ario. Pp Juntando estas restri¸co˜es equivale a impor a restri¸ca˜o c > 0 e i=1 αi < 1. Analogamente podemos reescrever o modelo ARCH(p) como um modelo AR(p) para ǫ2t definindo os erros νt como anteriormente, i.e. ǫ2t = c + α1 ǫ2t−1 + · · · + αp ǫ2t−p + νt . com νt = σt2 (vt2 − 1). ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 80 Identifica¸c˜ ao A caracter´ıstica chave dos modelos ARCH ´e que a variˆ ancia condicional dos erros ǫt se comporta como um processo autoregressivo. Portanto deve-se esperar que os res´ıduos de um modelo ARMA ajustado a uma s´erie temporal observada tamb´em sigam este padr˜ ao caracter´ıstico. Em particular, se o modelo ajustado for adequado ent˜ao a FAC e a FACP dos res´ıduos devem indicar um processo puramente aleat´ orio, no entanto se a FAC dos quadrados dos res´ıduos, ǫˆ2t , tiver um decaimento caracter´ıstico de uma autoregress˜ao isto ´e uma indica¸ca˜o de que um modelo ARCH pode ser apropriado. A ordem p do modelo pode ser identificada atrav´es da FACP dos quadrados dos res´ıduos. Previs˜ oes da Volatilidade Suponha que uma s´erie temporal Xt segue um processo ARCH (p). As previs˜ oes da volatilidade, k passos ` a frente, no tempo t = n s˜ ao obtidas como, ˆ n (k) = E(hn+k |In ) = c + h p X i=j 2 αj E(Xn+k−j |In ). 2 2 Para k ≤ j segue que E(Xn+k−j |In ) = Xn+k−j e para k > j temos que 2 2 E(Xn+k−j |In ) = E(hn+k−j vn+k−j |In ) 2 = E(hn+k−j |In )E(vn+k−j |In ) ˆ n (k − j) = E(hn+k−j |In ) = h j´a que hn+k−1 e vn+k−1 s˜ ao independentes. 6.3 Modelos GARCH Uma generaliza¸ca˜o natural dos modelos ARCH consiste em assumir que a variˆ ancia condicional se comporta como um processo ARMA, i.e. depende tamb´em de seus √ valores passados. Fazendo ǫt = vt ht onde ht = c + p X i=1 αi ǫ2t−i + q X βj ht−j j=1 segue que a esperan¸ca condicional de ǫt ´e zero e a variˆ ancia condicional ´e σt2 = ht . Este modelo ´e chamado ARCH generalizado, ou GARCH, de ordem (p, q). Aqui as restri¸co˜es impostas sobre os parˆ ametros s˜ ao dadas por c > 0 e Pp Pq i=1 αi + j=1 βj < 1. Embora a primeira vista pare¸ca um modelo mais complexo, sua vantagem sobre os modelos ARCH ´e basicamente a parcimˆ onia. Assim como um modelo ARMA pode ser mais parcimonioso no sentido de apresentar menos parˆ ametros a serem estimados do que modelos AR ou MA, um modelo GARCH pode ser usado para descrever a volatilidade com menos parˆ ametros do que modelos ARCH. 81 6.3. MODELOS GARCH Em termos de identifica¸ca˜o dos valores de p e q as ferramentas b´asicas s˜ ao mais uma vez a FAC e a FACP dos quadrados dos res´ıduos. Assim, se o modelo ajustado for adequado a FAC e a FACP dos res´ıduos devem indicar um processo puramente aleat´ orio, no entanto quando estas fun¸co˜es s˜ ao aplicadas aos quadrados dos res´ıduos elas devem indicar um processo ARMA(p, q). A identifica¸ca˜o pode n˜ao ser muito f´acil em algumas aplica¸co˜es embora na maioria dos casos um modelo GARCH(1,1) seja suficiente. Na pr´atica recomenda-se tamb´em tentar outros modelos de ordem baixa como GARCH(1,2) e GARCH(2,1). As previs˜ oes da volatilidade em modelos GARCH s˜ ao obtidas de forma similar a de um modelo ARMA. Por exemplo, ap´ os estimar os parˆ ametros de um modelo GARCH(1,1) e assumindo-se que ǫ0 = h0 = 0 pode-se construir as sequˆencias ǫ1 , . . . , ǫt e h1 , . . . , ht e a previs˜ ao 1 passo `a frente da volatilidade fica σ ˆt2 (1) = c + αǫ2t + βht . 6.3.1 Estima¸c˜ ao Para uma s´erie x1 , . . . , xn observada e um modelo GARCH(p, q), denotando-se o vetor de parˆ ametros por θ=(c, α1 , . . . , αp , β1 , . . . , βq ) e destacando-se a densidade conjunta das p primeiras realiza¸co˜es segue que p(x1 , . . . , xn |θ) = p(x1 , . . . , xp |θ) n Y t=p+1 p(xt |xt−1 , . . . , xt−p , θ). Assumindo normalidade segue que Xt |xt−1 , . . . , xt−p ∼ N (0, ht ) e portanto p(x1 , . . . , xn |θ) = p(x1 , . . . , xp |θ) n Y (2πht )−1/2 exp(−(1/2)x2t /ht ). t=p+1 Em geral o n´ umero de observa¸co˜es ser´ a grande o suficiente para que o termo p(x1 , . . . , xp |θ) possa ser desprezado. Por exemplo, para um modelo ARCH(1) a fun¸ca˜o log-verossimilhan¸ca fica −0.5 n X   log(2π) + log(c + αx2t−1 ) + x2t /(c + αx2t−1 ) . t=2 Note que algum algoritmo de otimiza¸ca˜o n˜ao linear dever´ a ser utilizado e nada garante sua convergˆencia para um ´ otimo global. No R pode-se usar a fun¸ca˜o garch do pacote tseries para fazer a estima¸ca˜o por m´ axima verossimilhan¸ca. ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 82 6.3.2 Adequa¸ c˜ ao Se um modelo ARCH ou GARCH foi ajustado a uma s´erie Xt n˜ao correlacionada ent˜ao os res´ıduos padronizados s˜ ao dados por Xt ˜t = √ X ht e formam uma sequˆencia i.i.d. com distribui¸ca˜o normal padr˜ ao. Assim, a adequac¸a˜o do modelo pode ser verificada aplicando os testes usuais de normalidade a estes residuos padronizados e os testes de aleatoriedade (Box-Pierce e Ljung-Box) aos quadrados dos res´ıduos. 5000 1993 1994 1995 1996 1997 1998 1992 1993 1994 1995 1996 1997 1998 0.00 1992 −0.10 retornos 2000 DAX Exemplo 6.3 : Na parte superior da Figura 6.6 est˜ ao os pre¸cos di´ arios no fechamento de um indice de mercado da Alemanha (DAX), entre 1991 e 1998. O interesse ´e em analisar os chamados retornos dados por log(xt /xt−1 ) e estes est˜ ao no gr´ afico inferior da Figura 6.6. Existe evidˆencia na literatura que modelos GARCH(1,1) conseguem captar bem os movimentos caracter´ısticos dos retornos. Figura 6.6: Pre¸cos di´arios no fechamento de um indice de mercado da Alemanha (DAX), entre 1991 e 1998 e respectivos retornos. ´ 6.4. VOLATILIDADE ESTOCASTICA 83 Usando a fun¸ca˜o garch no pacote tseries do R o modelo ajustado obtido foi Yt = vt p ht , vt ∼ N (0, 1) 2 ht = 0.000005 + 0.068Yt−1 + 0.889ht−1 sendo todos os coeficientes significativos. O teste de Ljung-Box aplicado nos quadrados dos residuos indicou aleatoriedade (p-valor = 0,71), no entanto o teste de normalidade de Jarque-Bera aplicado aos residuos rejeitou a hip´ otese nula (p-valor<0,001). Assim a hip´ otese de normalidade condicional parece estar sendo violada. Na Figura 6.7 est˜ ao os histogramas, gr´ aficos de probabilidades normais dos retornos e res´ıduos do modelo GARCH(1,1) estimado, al´em dos correlogramas dos quadrados dos retornos e res´ıduos. Use os comandos abaixo para estimar o modelo. > > > > > > > library(tseries) data(EuStockMarkets) x = EuStockMarkets dax = diff(log(x))[, "DAX"] dax.garch = garch(dax, trace = F) r = dax.garch$residuals round(dax.garch$coef, 6) a0 a1 b1 0.000005 0.068329 0.889067 Um fato estilizado presente em s´eries temporais financeiras ´e que o mercado tem baixa volatilidade quando est´ a em alta e alta volatilidade quando est´ a em baixa. Tal assimetria n˜ao ´e levada em conta pelos modelos GARCH e para contornar esta limita¸ca˜o outros modelos foram propostos na literatura. Por exemplo, no modelo EGARCH (ou GARCH exponencial) modela-se o logaritmo da volatilidade como, log(σt2 ) ǫt−1 2 + γ ǫt−1 + βσt−1 . = c + α σt−1 σt−1 Em termos de estima¸ca˜o uma vantagem deste modelo ´e que os parˆ ametros c, α e β s˜ ao irrestritos j´a que estamos modelando o logaritmo da volatilidade. A u ´nica restri¸ca˜o ´e γ < 0 pois assim a volatilidade aumenta quando ǫt−1 < 0. 6.4 Volatilidade Estoc´ astica As f´ormulas para modelar σt2 vistas at´e agora foram todas determin´ısticas, i.e. sem uma componente de erro aleat´ orio. No entanto, pode ser mais razo´avel assumir que a variˆ ancia condicional varia estocasticamente ao longo do tempo ao inv´es de deterministicamente, especialmente se existem mudan¸cas abruptas na volatilidade (e.g. como resultado de greves, guerras, etc.). ˆ CAP´ITULO 6. MODELANDO A VARIANCIA 84 Residuos 0.0 0 10 0.2 30 DAX −0.10 −0.05 0.00 0.05 −10 −5 5 Residuos −0.10 −5 0 0.00 5 0.10 DAX 0 −3 −2 −1 0 1 2 3 −3 −2 0 1 2 3 25 30 0.4 0.0 0.0 0.4 0.8 Residuos^2 0.8 DAX^2 −1 0 5 10 15 20 25 30 0 5 10 15 20 Figura 6.7: Histogramas e probabilidades normais dos retornos do indice de mercado da Alemanha (DAX) e res´ıduos do modelos GARCH(1,1) e correlogramas dos seus quadrados. Assim, uma alternativa aos modelos ARCH ou GARCH consiste em assumir que segue um processo estoc´ astico. Geralmente modela-se o logaritmo de σt2 . Em sua forma mais simples um modelo de volatilidade estoc´ astica (VE) ´e dado por σt2 Xt = vt exp(ht /2), vt ∼ N (0, 1) ht = c + αht−1 + ηt , ηt ∼ N (0, ση2 ) com |α| < 1 e ht = log(σt2 ). Note que n˜ao h´a necessidade de restri¸co˜es de positividade nos parˆ ametros pois estamos modelando o logaritmo da volatilidade. O modelo pode ser estendido para uma estrutura AR(p) em ht , ou seja Xt = vt exp(ht /2), vt ∼ N (0, 1) p X ht = c + αi ht−i + ηt , ηt ∼ N (0, ση2 ) i=1 Propriedades 1. E(Xt ) = E(vt eht /2 ) = E(eht /2 )E(vt ) = 0, j´a que ht e vt s˜ ao independentes. ´ 6.4. VOLATILIDADE ESTOCASTICA 85 2. V ar(Xt ) = E(Xt2 ) = E(eht vt2 ) = E(eht )E(vt2 ) = E(eht ). Mas, como estamos assumindo que ht ´e estacion´aria segue que, E(ht ) = µ e V ar(ht ) = σh2 = τ 2 /(1 − φ2 ) e a distribui¸ca˜o incondicional do log-volatilidade ´e ht ∼ N (µ, σh2 ). Portanto, eht ´e log-normal e segue que 2 V ar(Xt ) = E(eht ) = eµ+σh /2 . 2 3. E(Xt4 ) = E(vt4 e2ht ) = 3 e2µ+2σh e a curtose ´e dada por 2 K= 3 e2µ+2σh 2 2µ+σh e 2 = 3eσh > 3. Exerc´ıcios 1. Um modelo ARIMA foi identificado e estimado para uma s´erie temporal observada mas h´a indica¸ca˜o de que a variˆ ancia condicional deve ser modelada por um processo GARCH(1,1). Explique como se chegou a esta conclus˜ao. 2. Refa¸ca o exemplo da Figura 6.4 e estime um modelo AR(1) para a s´erie Xt . Verifique se existe estrutura autoregressiva nos quadrados dos res´ıduos e identifique um modelo ARCH para os erros. 3. Obtenha as previs˜ oes 1, 2 e 3 passos a frente para um modelo GARCH(1,2). 4. Descreva duas vantagens de modelos EGARCH sobre modelos GARCH. Cap´ıtulo 7 Modelos Lineares Dinˆ amicos A classe de modelos lineares dinˆ amicos (MLD), tamb´em conhecidos como modelos de espa¸co de estados tem sido utilizada com sucesso em an´ alise e previs˜ ao de s´eries temporais. Neste cap´ıtulo ser˜ ao apresentadas as formas mais comumente utilizadas de MLD, maiores detalhes podem ser obtidos em West & Harrison (1997) e Pole, West, & Harrison (1994). 7.1 Introdu¸c˜ ao Um modelo linear dinˆ amico pode ser caracterizado pelo seguinte par de equa¸co˜es yt = F ′t θ t + ǫt θ t = Gt θ t−1 + ω t (7.1) chamadas equa¸co˜es de observa¸ca˜o e evolu¸ca˜o respectivamente, onde θ t denota o vetor de estados no tempo t, F ´e um vetor de constantes conhecidadas ou regressores, G ´e uma matrix de evolu¸ca˜o conhecida. Os erros ǫt e ω t s˜ ao geralmente assumidos n˜ao correlacionados em todos os per´ıodos de tempo e serialmente n˜ao correlacionados com m´edia zero. Em muitas aplica¸co˜es pr´aticas pode-se assumir tamb´em que ǫt ∼ N (0, σǫ2 ) e ω t tem distribui¸ca˜o normal multivariada com m´edia zero e matriz de variˆ anciacovariˆ ancia W t . A id´eia aqui ´e que a “idade” da informa¸ca˜o que se tem sobre θ seja levada em conta no sentido de que nossa incerteza a respeito de θ deve aumentar com o passar do tempo. Neste sentido, a forma do modelo ´e apropriada apenas “localmente” no tempo e ´e necess´ario caracterizar algum tipo de evolu¸ca˜o temporal de θ. O que se tem ent˜ao ´e uma sequˆencia de modelos ou um modelo dinˆ amico parametrizado por θt (o estado do processo no tempo t). Considere um modelo em que uma vari´ avel y est´ a relacionada a uma outra vari´ avel X de acordo com a seguinte forma param´etrica y = Xθ + ǫ. Al´em disso, a incerteza do pesquisador em rela¸ca˜o ao parˆametro θ ´e descrita em termos de uma distribui¸ca˜o de probabilidades p(θ). 86 ˜ 7.1. INTRODUC ¸ AO 87 Em um per´ıodo t qualquer, Dt representa o conjunto de informa¸co˜es dispon´ıveis sobre θ. Por simplicidade vamos assumir que Dt = {y1 , . . . , yt }. Neste sentido, D0 representa toda a informa¸ca˜o inicial (antes de observar os dados) relevante sobre θ incluindo a pr´opria defini¸ca˜o do modelo. No tempo t − 1, ap´ os observar y1 , . . . , yt−1 , toda a informa¸ca˜o sobre o estado do processo est´ a resumida probabilisticamente na distribui¸ca˜o a posteriori p(θt−1 |Dt−1 ). No tempo t, antes de observar yt , toda a informa¸ca˜o hist´ orica Dt−1 est´ a resumida probabilisticamente na distribui¸ca˜o a priori de θt obtida como Z p(θt |Dt−1 ) = p(θt |θt−1 )p(θt−1 |Dt−1 )dθt−1 que ´e atualizada ap´ os observar yt para a posteriori θt , combinando-se com o modelo amostral p(yt |θt ) via teorema de Bayes p(θt |Dt ) = sendo p(yt |Dt−1 ) = Z p(yt |θt )p(θt |Dt−1 ) p(yt |Dt−1 ) p(yt |θt )p(θt |Dt−1 )dθt ´e a distribui¸ca˜o preditiva de yt . Esquematicamente, θt−1 |Dt−1 Posteriori −→ θt |Dt−1 Priori ↓ Yt |Dt−1 Previs˜ ao −→ θt |Dt Posteriori Estas equa¸co˜es fornecem um sistema de aprendizado sequencial sobre os parˆ ametros do processo (n˜ ao observ´ aveis) e tamb´em uma sequˆencia de distribui¸co˜es preditivas (1 passo a frente) para as quantidades observ´ aveis. Por´em a sua implementa¸ca˜o pr´atica envolve a resolu¸ca˜o de integrais que pode ser um problema de dif´ıcil solu¸ca˜o em casos mais gerais. Um caso particular, onde as equa¸co˜es podem ser escritas em forma fechada, ´e o de modelos lineares dinˆ amicos (MLD) normais onde a distribui¸ca˜o amostral ´e definida pela equa¸ca˜o das observa¸co˜es yt = Xt θt + ǫt , ǫt ∼ N (0, Vt ) e os parˆ ametros se relacionam em per´ıodos sucessivos atrav´es da equa¸ca˜o do sistema θt = Gθt−1 + ωt , ωt ∼ N (0, Wt ) onde as sequˆencias ǫt e ωt s˜ ao independentes, mutuamente independentes e ambas s˜ ao independentes da informa¸ca˜o inicial θ0 |D0 ∼ N (m0 , C0 ). A matriz G descreve a evolu¸ca˜o (determin´ıstica) dos parˆ ametros. Modelos nesta classe ser˜ ao analisados nas pr´oximas se¸co˜es. 88 7.2 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS Modelos Polinomiais No MLD mais simples as observa¸co˜es s˜ ao representadas por yt = µt + ǫt , ǫt ∼ N (0, Vt ) onde µt ´e o n´ıvel da s´erie no tempo t. A evolu¸ca˜o do n´ıvel ´e modelada como um passeio aleat´ orio simples, i.e. µt = µt−1 + ωt , ωt ∼ N (0, Wt ). Estas equa¸co˜es podem ser reescritas como yt |µt ∼ N (µt , Vt ) µt |µt−1 ∼ N (µt−1 , Wt ) e a informa¸ca˜o inicial ´e µ0 |D0 ∼ N (m0 , C0 ). Vamos assumir por enquanto que as variˆancias Vt e Wt s˜ ao conhecidas. Este modelo pode ser pensado como uma aproxima¸ca˜o a de Taylor de 1 ordem para uma fun¸ca˜o suave do tempo µ(t) de modo que µ(t + δt) = µ(t) + termos de ordem mais alta e o modelo descreve os termos de ordem mais alta simplesmente como ru´ıdos de m´edia zero. Como saber ent˜ao se este modelo ´e adequado a uma particular aplica¸ca˜o? No tempo t, o valor esperado da s´erie k per´ıodos a frente condicional ao n´ıvel atual ´e k X ωt+i |µt ) = µt E(Yt+k |µt ) = E(µt+k |µt ) = E(µt + i=1 e denotando a m´edia da distribui¸ca˜o a posteriori de µt por mt ent˜ao a fun¸ca ˜o de previs˜ ao ´e constante ft (k) = E(Yt+k |Dt ) = E[E(Yt+k |µt , Dt )] = E(µt |Dt ) = mt , ∀k > 0. Assim, este modelo ´e u ´til para previs˜ oes de curto prazo, particularmente quando a varia¸ca˜o das observa¸co˜es (medida por Vt ) ´e muito maior do que a varia¸ca˜o do n´ıvel (medida por Wt ). Exemplo 7.1 : Foram gerados 100 valores de um modelo polinomial de primeira ordem com variˆ ancias constantes (Vt = V e Wt = W ). Na Figura 7.1 est˜ ao os valores gerados com as rela¸co˜es V /W iguais a 20, 2 e 0,2. Seguem os comandos do R para produ¸ca˜o dos gr´ aficos. > mld.sim = function(n, V, W, mu0) { + mu = mu0 + cumsum(rnorm(n, sd = sqrt(W))) + obs = mu + rnorm(n, sd = sqrt(V)) + ts(cbind(obs, mu)) + } 7.2. MODELOS POLINOMIAIS 7.2.1 89 An´ alise Sequencial e Previs˜ oes A m´edia inicial m0 ´e uma estimativa pontual do n´ıvel da s´erie e a variˆ ancia inicial C0 mede a incerteza associada. Assumindo que µt−1 |Dt−1 ∼ N (mt−1 , Ct−1 ), ent˜ao condicionalmente a Dt−1 , µt ´e a soma de 2 quantidades normais e independentes µt−1 e ωt e portanto ´e tamb´em normal com m´edia e variˆ ancia dadas por E(µt |Dt−1 ) = E(µt−1 |Dt−1 ) + E(ωt |Dt−1 ) = mt−1 V ar(µt |Dt−1 ) = V ar(µt−1 |Dt−1 ) + V ar(ωt |Dt−1 ) = Ct−1 + Wt = Rt Yt |Dt−1 ´e tamb´em a soma de quantidades normais independentes e portanto tem distribui¸ca˜o normal com E(Yt |Dt−1 ) = E(µt |Dt−1 ) + E(ǫt |Dt−1 ) = mt−1 V ar(Yt |Dt−1 ) = V ar(µt |Dt−1 ) + V ar(ǫt |Dt−1 ) = Rt + Vt = Qt Ap´ os observar yt , a distribui¸ca˜o atualizada do n´ıvel ´e obtida via teorema de Bayes combinando-se a verossimilhan¸ca p(yt |µt , Dt−1 ) = (2πVt )−1/2 exp{−(yt − µt )2 /2Vt } com a priori p(µt |Dt−1 ) = (2πRt )−1/2 exp{−(µt − mt−1 )2 /2Rt } de modo que    1 (yt − µt )2 (µt − mt−1 )2 p(µt |Dt ) ∝ exp − + 2 Vt Rt     1 2 −1 −1 −1 −1 ∝ exp − µt (Vt + Rt ) − 2µt (Vt yt + Rt mt−1 ) 2     C −1 C −1 ∝ exp − t (µ2t − 2µt mt ) ∝ exp − t (µt − mt )2 2 2 onde mt = Ct (Vt−1 yt + Rt−1 mt−1 ) Ct−1 = Vt−1 + Rt−1 e todos os termos que n˜ao dependem de µt foram colocados na constante de proporcionalidade. Portanto, µt |Dt ∼ N (mt , Ct ). A m´edia a posteriori pode ser reescrita de 2 formas alternativas definindo-se o coeficiente adaptativo At = Ct Vt−1 = Rt /Qt ∈ (0, 1) e o erro de previs˜ ao 1 passo a frente et = yt − mt−1 . Assim mt = (1 − At )mt−1 + At yt = mt−1 + At et . Note a similaridade com a equa¸ca˜o de previs˜ ao do m´etodo de alisamento exponencial simples visto no Cap´ıtulo 5. Aqui At faz o papel da constante de alisamento por´em 90 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS agora variando no tempo. A variˆ ancia a posteriori tamb´em pode ser reescrita como fun¸ca˜o do coeficiente adaptativo como Ct = Rt − A2t Qt < Rt . Podemos utilizar as equa¸co˜es das observa¸co˜es e de evolu¸ca˜o para obter a distribui¸ca˜o preditiva k passos a frente. Fazendo substitui¸co˜es sucessivas obtemos que µt+k = µt + k X ωt+j j=1 Yt+k = µt + k X ωt+j + ǫt+k j=1 e como todos os termos s˜ ao normais e independentes segue que Yt+k ´e tamb´em normal com E(Yt+k |Dt ) = E(µt |Dt ) = mt V ar(Yt+k |Dt ) = Ct + k X Wt+j + Vt+k j=1 A fun¸ca˜o abaixo estima um modelo com tendencia polinomial de 1a ordem fazendo a analise sequencial usando as equa¸co˜es dadas no texto com variˆ ancias fixas e conhecidas. > mld = function(Y, V, W, m0, C0) { + n = length(Y) + m = C = R = Q = f = A = e = ts(rep(NA, length = n), start = start(Y)) + Y = ts(c(NA, Y), end = end(Y)) + C[1] = C0 + m[1] = m0 + for (t in 2:n) { + R[t] = C[t - 1] + W[t] + f[t] = m[t - 1] + Q[t] = R[t] + V[t] + A[t] = R[t]/Q[t] + e[t] = Y[t] - f[t] + m[t] = m[t - 1] + A[t] * e[t] + C[t] = A[t] * V[t] + } + return(list(m = m, C = C, R = R, f = f, Q = Q)) + } Exemplo 7.2 : A fun¸ca˜o mld pode ser usada para estimar sequencialmente o nivel da serie de vaz˜oes do rio Nilo. Primeiro vamos permitir que o nivel varie bastante ao 91 7.2. MODELOS POLINOMIAIS longo do tempo especificando um valor grande para W e depois reestimar com pouca varia¸ca˜o temporal (W bem pequeno). Usaremos a variancia amostral da serie como estimativa de V . Como informa¸ca˜o inicial usaremos uma estimativa do nivel igual a 1000 mas com uma grande incerteza associada. O gr´ afico da s´erie com os n´ıveis superimpostos aparece na Figura 7.2. 7.2.2 Variˆ ancias de Evolu¸c˜ ao e das Observa¸ c˜ oes Tipicamente, Wt ´e desconhecida. Sua estima¸ca˜o entretanto leva a uma intratabilidade anal´ıtica que pode ser evitada atrav´es de sua especifica¸ca˜o subjetiva. O fator de desconto ´e o parˆ ametro b´asico que controla o grau de “envelhecimento” da informa¸ca˜o de uma observa¸ca˜o. Por exemplo, podemos quantificar o envelhecimento da informa¸ca˜o sobre o parˆ ametro µt como um aumento de 5% em sua variˆ ancia a priori (no tempo t), i.e. V ar(µt |Dt−1 ) = (1 + δ)V ar(µt−1 |Dt−1 ) ou Rt = (1 + δ) Ct−1 com δ = 0.05. Por outro lado, informa¸ca˜o ´e em geral medida em termos de precis˜ ao (o inverso da variˆ ancia) e podemos escrever Precis˜ ao(µt |Dt−1 ) = (1 + δ)−1 Precis˜ ao(µt−1 |Dt−1 ) −1 ou Rt−1 = (1 + δ)−1 Ct−1 . Nesta escala, o fator de desconto λ = (1 + δ)−1 varia entre 0 e 1 e δ = 5% implica em λ ≈ 0.95. Vale notar que o fator de desconto n˜ao depende da escala na qual as observa¸co˜es s˜ ao medidas. Se λ = 1 ent˜ao n˜ao existe mudan¸ca ao longo do tempo no n´ıvel da s´erie e quanto menor ´e o valor de λ maiores s˜ ao as altera¸co˜es esperadas e maior ´e a perda de informa¸ca˜o contida em observa¸co˜es mais “antigas”. Assim, para um valor fixo do fator de desconto λ temos que Rt = Ct−1 /λ = Ct−1 + Wt ou equivalentemente Wt = Ct−1  1−λ λ  = δCt−1 . Como Rt = Ct−1 + Wt podemos interpretar esta especifica¸ca˜o intuitivamente como um aumento de incerteza, ao evoluir de t−1 para t, quantificado como uma propor¸ca˜o de Ct−1 . A sequˆencia de variˆ ancias Vt tamb´em ´e, em geral, desconhecida embora o pesquisador possa ter alguma informa¸ca˜o a priori sobre caracter´ısticas desta sequˆencia. Por exemplo, Vt = V (variˆ ancia constante e desconhecida), Vt = V kt onde os pesos kt s˜ ao conhecidos, Vt = V k(µt ) onde k(·) ´e uma fun¸ca˜o de variˆ ancia do n´ıvel da s´erie ou em p particular Vt = V µt . Impondo-se uma particular estrutura para a sequˆencia Wt e para a informa¸ca˜o inicial obtem-se um procedimento de atualiza¸ca˜o sequencial para V al´em de µt . Para 92 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS isto redefine-se o modelo, agora condicionalmente em V , como yt = µt + ǫt , ǫt ∼ N (0, V ), µt = µt−1 + ωt , ωt ∼ N (0, V Wt∗ ), µ0 |V, D0 ∼ N (m0 , V C0∗ )   n0 n0 S0 −1 , V |D0 ∼ Gama 2 2 ou n0 S0 V −1 ∼ χ2n0 sendo que m0 , C0∗ , n0 e S0 ser˜ ao especificados. Surgiu assim mais um item na informa¸ca˜o inicial com 1 n0 /2 = E(V −1 |D0 ) = n0 S0 /2 S0 e S0 ´e a estimativa pontual a priori da variˆ ancia V . Com esta defini¸ca˜o pode-se mostrar que a distribui¸ca˜o inicial marginal de µ0 ´e µ0 |D0 ∼ tn0 (m0 , C0 ) com C0 = S0 C0∗ . Se a distribui¸ca˜o a posteriori (incondicional) do n´ıvel em t − 1 ´e µt−1 |Dt−1 ∼ tnt−1 (mt−1 , Ct−1 ) ent˜ao pode-se mostrar que as distribui¸co˜es a priori, preditiva e a posteriori no tempo t s˜ ao dadas por µt |Dt−1 ∼ tnt−1 (mt−1 , Rt ) Yt |Dt−1 ∼ tnt−1 (mt−1 , Qt ) µt |Dt ∼ tnt (mt , Ct ) onde os parˆ ametros atualizados s˜ ao Qt = Rt + St−1 mt = mt−1 + At et Ct = (St /St−1 )(Rt − A2t Qt ) nt = nt−1 + 1 nt St = nt−1 St−1 + St−1 e2t /Qt . A fun¸ca˜o mld1 abaixo faz a an´ alise sequencial com a variˆ ancia das observa¸co˜es fixa e desconhecida. A especifica¸ca˜o de Wt ´e feita via fator de desconto. Note que agora tanto o nivel quanto a variˆ ancia e os graus de liberdade s˜ ao atualizados sequencialmente. > mld1 = function(Y, delta, m0, C0, n0, S0) { + N = length(Y) + m = n = C = R = Q = S = f = A = e = rep(NA, length = N) + Y = c(NA, Y) 7.2. MODELOS POLINOMIAIS + + + + + + + + + + + + + + + + + + } 93 C[1] = C0 m[1] = m0 S[1] = S0 n[1] = n0 for (i in 2:N) { n[i] = n[i - 1] + 1 R[i] = C[i - 1]/delta f[i] = m[i - 1] Q[i] = R[i] + S[i - 1] A[i] = R[i]/Q[i] e[i] = Y[i] - f[i] S[i] = S[i - 1] + (S[i - 1]/n[i]) * (e[i]^2/Q[i] - 1) m[i] = m[i - 1] + A[i] * e[i] C[i] = A[i] * S[i] } return(list(m = m, C = C, R = R, f = f, Q = Q, n = n, S = S, e = e)) Exemplo 7.3 : Novamente vamos examinar a s´erie de vaz˜oes do rio Nilo, agora usando diferentes fatores de desconto na fun¸ca˜o mld1. > res1 = mld1(y, delta = 0.98, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) > res2 = mld1(y, delta = 0.7, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) Os gr´ aficos na Figura 7.3 mostram a s´erie original, as estimativas do nivel obtidas √ com descontos 0,70 e 0,98 e estas mesmas estimativas com um intervalo de ±1, 5 Ct . Os gr´ aficos foram feitos com os seguintes comandos do R, Os modelos podem ser comparados calculando-se o erro quadr´ atico m´edio e o desvio absoluto m´edio. Usando os comandos abaixo percebe-se que o modelo com fator de desconto 0,70 ´e melhor segundo estes crit´erios. > > + + + + + > eqm = dam = rep(0, 2) for (i in 2:length(y)) { eqm[1] = eqm[1] + (y[i] - res1$m[i - 1])^2 dam[1] = dam[1] + abs(y[i] - res1$m[i - 1]) eqm[2] = eqm[2] + (y[i] - res2$m[i - 1])^2 dam[2] = dam[2] + abs(y[i] - res2$m[i - 1]) } eqm [1] 2681716 2375484 > dam [1] 13258.47 11904.16 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS 94 7.3 Modelo de Crescimento Linear Considere agora que a descri¸ca˜o “local” mais apropriada ´e uma tendˆencia polinomial de 2a ordem. Um modelo um pouco mais elaborado ´e ent˜ao obtido criando-se um parˆ ametro extra para descrever o crescimento do n´ıvel do processo observado. A equa¸ca˜o das observa¸co˜es fica inalterada, i.e. yt = µt + ǫt , ǫt ∼ N (0, Vt ) e a evolu¸ca˜o do n´ıvel e do crescimento ´e modelada como µt = µt−1 + βt−1 + ω1t βt = βt−1 + ω2t . Usando a representa¸ca˜o matricial temos que o vetor de regress˜ ao e a matriz de evolu¸ca˜o s˜ ao dados por ! 1 1 . Xt = ( 1 0 ) e Gt = 0 1 Nesta nota¸ca˜o, definindo θt = (µt , βt )′ obtemos os momentos das distribui¸co˜es a priori e preditiva como E(θt |Dt−1 ) = at = GE(θt−1 |Dt−1 ) = Gmt−1 = (mt−1 + bt−1 , bt−1 )′ V ar(θt |Dt−1 ) = Rt = GCt−1 G′ + Wt E(Yt |Dt−1 ) = ft = Xt at = mt−1 + bt−1 V ar(Yt |Dt−1 ) = Qt = Xt Rt Xt′ + St−1 . Os momentos da distribui¸ca˜o a posteriori de θt s˜ ao uma generaliza¸ca˜o matricial daqueles obtidos para o modelo anterior, E(θt |Dt ) = mt = at + At et V ar(θt |Dt ) = Ct = (St /St−1 )(Rt − At A′t Qt ) N˜ ao ´e dif´ıcil verificar que a fun¸ca˜o de previs˜ ao ´e dada por ft (k) = Xt Gk mt = mt + kbt sendo que mt e bt s˜ ao as estimativas pontuais do n´ıvel µt e do crescimento βt . Portanto, assim como no caso anterior, este modelo tamb´em ´e apropriado para previs˜ oes de curto prazo. As variˆ ancias Wt s˜ ao mais uma vez especificadas indiretamente atrav´es de um fator de desconto λ. Neste caso, Rt = GCt−1 G′ /λ implica que Wt = GCt−1 G′ (λ−1 − 1). 95 7.4. MODELOS SAZONAIS 7.4 Modelos Sazonais Um comportamento peri´ odico ou c´ıclico pode ser encontrado em v´ arias s´eries tem´ porais. E importante que se consiga descrever o padr˜ ao sazonal da s´erie atrav´es de quantidades que possam ser estimadas incluindo-se assim este padr˜ ao na fun¸ca˜o previs˜ ao. Nos modelos aqui analisados define-se um componente sazonal descrevendo desvios sazonais em torno de um n´ıvel dessazonalizado ou tendˆencia. 7.4.1 Modelos sem Crescimento A id´eia aqui ´e fazer a superposi¸ca˜o de um modelo polinomial de 1a ordem (para o n´ıvel dessazonalizado) com um modelo de efeitos sazonais. As equa¸co˜es das observa¸co˜es e de evolu¸ca˜o s˜ ao dadas por yt = µt + φt0 + ǫt , ǫt ∼ N (0, Vt ) µt = µt−1 + ωt φtr = φt−1,r+1 + ωt,r , φt,p−1 = φt−1,0 + ωt,p−1 r = 0, · · · , p − 2 P e o per´ıodo sazonal da s´erie. Por exemplo, com a restri¸ca˜o p−1 r=0 φtr = 0, ∀t e onde p ´ p = 12 para uma s´erie com observa¸co˜es mensais e p = 4 para observa¸co˜es trimestrais. Para fixar id´eias, considere uma s´erie trimestral e suponha que t − 1 ´e o segundo trimestre de um determinado ano. Ent˜ao o vetor de parˆ ametros consiste de 4 efeitos sazonais, um para cada trimestre, φt−1    =  φt0 φt1 φt2 φt3       =   trim. trim. trim. trim. 2 3 4 1      e ao passar de t − 1 para t ocorre simplesmente uma rota¸ca˜o nos elementos deste vetor,     trim. 3 φt0  φ   trim. 4    t1   φt =  . =  φt2   trim. 1  trim. 2 φt3 A fun¸ca˜o de previs˜ ao assume a forma ft (k) = mt + htj onde mt ´e o valor esperado do n´ıvel dessazonalizado no tempo t + k e htj ´e o desvio sazonal esperado em torno deste n´ıvel. O desvio utilizado na fun¸ca˜o de previs˜ ao ´e tal que j ´e o resto da divis˜ ao k/p. Por exemplo, se p = 12, e φt0 refere-se ao mˆes de janeiro ent˜ao a previs˜ ao 1 passo a frente (k = 1) feita em dezembro ´e mt + E(φt0 |Dt ), com j = 1. Se o horizonte de previs˜ ao for k = 2 ent˜ao j = 2 e o desvio sazonal refere-se a fevereiro, i.e. ft (2) = mt + E(φt1 |Dt ). ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS 96 7.4.2 Modelos com Crescimento Novamente a id´eia ´e fazer a superposi¸ca˜o de um modelo para os efeitos sazonais mas agora com um modelo polinomial de 2a ordem onde se tem um parˆ ametro que representa o crescimento do n´ıvel dessazonalizado. O modelo pode ser escrito como yt = µt + φt0 + ǫt , ǫt ∼ N (0, Vt ) µt = µt−1 + βt−1 + ωt βt = βt−1 + ωt∗ φtr = φt−1,r+1 + ωt,r , φt,p−1 = φt−1,0 + ωt,p−1 com a restri¸ca˜o forma Pp−1 r=0 r = 0, · · · , p − 2 φtr = 0, ∀t. A fun¸ca˜o de previs˜ ao agora assume a seguinte ft (k) = mt + kbt + htj , com p−1 X htj = 0 j=0 onde htj tem a mesma interpreta¸ca˜o anterior. 7.5 Representa¸c˜ ao de Fourier Uma forma alternativa de se representar padr˜ oes c´ıclicos ´e atrav´es de combina¸co˜es lineares de fun¸co˜es peri´ odicas. Em particular a utiliza¸ca˜o de fun¸co˜es trigonom´etricas leva a representa¸co˜es de Fourier da sazonalidade. O modelo (com crescimento) ´e representado pelas seguintes equa¸co˜es yt = µt + p/2 X αj,t + ǫt , j=1 ǫt ∼ N (0, Vt ) µt = µt−1 + βt−1 + ωt , βt = βt−1 + ωt∗ ,  #" # " # " αj,t αj,t−1 wj,t cos 2πj/p sin 2πj/p   + , j = 1, . . . , p/2 − 1   = ∗ ∗ αj,t−1 wj,t − sin 2πj/p cos 2πj/p ∗ αj,t  e αj,t = −αj,t−1 + ωj,t para j = p/2. A fun¸ca˜o de previs˜ ao ´e dada por ft (k) = p/2 X j=1 Sjk = p/2 X [at,j cos(2πjk/p) + a∗t,j sen(2πjk/p) j=1 ∗ . onde at,j e a∗t,j s˜ ao as estimativas pontuais de coeficientes de Fourier αt,j e αt,j Como no cap´ıtulo anterior, as variˆ ancias dos erros de evolu¸ca˜o s˜ ao especificadas indiretamente atrav´es de um fator de desconto. A estrat´egia recomendada em (Pole, West, & Harrison 1994) e West & Harrison (1997) consiste em especificar um fator de ˜ 7.6. ILUSTRAC ¸ AO 97 desconto para cada componente do modelo. No modelo com uma tendˆencia polinomial mais um componente sazonal teremos ent˜ao 2 fatores de desconto. Em geral, o fator de desconto do componente sazonal ´e maior do que o da tendˆencia. Neste sentido estamos assumindo que o padr˜ ao sazonal da s´erie, embora possa estar sujeito a altera¸co˜es, ´e mais est´ avel do que a sua tendˆencia. 7.6 Ilustra¸c˜ ao A Figura ?? apresenta o total de vendas trimestrais (em milhares) de perus na Irlanda entre o primeiro trimestre de 1974 e o terceiro trimestre de 1982. A s´erie exibe um crescimento sistem´ atico ao longo de todo o per´ıodo juntamente com um padr˜ ao sazonal acentuado. Outra caracter´ıstica interessante ´e que a forma do padr˜ ao sazonal se alterou a partir de 1978. Vamos fazer a estima¸ca˜o sequencial de um modelo para os efeitos sazonais superpostos a uma tendˆencia de crescimento linear e verificar o comportamento das previs˜ oes 1 passo a frente. Suponha que a informa¸ca˜o a priori foi acessada examinando-se as vendas dos anos anteriores a 1974. Esta informa¸ca˜o est´ a resumida na Tabela 7.1. Note a restri¸ca˜o de soma zero na especifica¸ca˜o a priori dos efeitos sazonais e tamb´em que a especifica¸ca˜o equivalente em termos de fatores sazonais seria 11, 19, 19 e 11 para os fatores e (11+19+19+11)/4 = 15 para o n´ıvel. Tabela 7.1: Informa¸ca˜o a priori. Componente N´ıvel Crescimento Efeito sazonal 1 Efeito sazonal 2 Efeito sazonal 3 Efeito sazonal 4 D.P. das observa¸co˜es M´edia (Desvio padr˜ ao) 15 (0.75) 0 (0.3) -4 (0.5) 4 (0.5) 4 (0.5) -4 (0.5) 1 com 1 g.l. A performance preditiva do modelo foi investigada para fatores de desconto variando nos intervalos (0.9,1.0) para a tendˆencia e (0.6,1.0) para os fatores sazonais. Estes intervalos est˜ ao coerentes com a id´eia de que espera-se um padr˜ ao sazonal mais est´ avel do que a tendˆencia. Entretanto os valores encontrados ap´ os esta “busca” foram 0.90 para a tendˆencia e 0.80 para os fatores sazonais. Uma id´eia intuitiva ´e a altera¸ca˜o no padr˜ ao sazonal ocorrida em 1978 deve ter contribuido para este resultado at´ıpico. Os 2 gr´ aficos a seguir apresentam as previs˜ oes pontuais (1 passo a frente) juntamente com intervalos de 90% de probabilidade e os valores observados da s´erie. O primeiro gr´ afico refere-se ao modelo est´ atico (ambos os fatores de desconto iguais a 1). 98 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS Note que a mudan¸ca no padr˜ ao sazonal ocorre muito lentamente no modelo est´ atico e no final da s´erie o padr˜ ao estimado ´e apenas ligeiramente diferente do padr˜ ao inicial. J´a no modelo dinˆ amico o padr˜ ao sazonal evolui para uma forma completamente diTabela 7.2: Descontos 0.90 e 0.80 1.00 e 1.00 EQM 3.11 4.23 DAM 1.34 1.64 LLIK -71.1 -77.6 ferente melhorando a performance preditiva. Este fato pode ser notado por inspe¸ca˜o visual e ´e confirmado pelos indicadores na Tabela 7.2. A explica¸ca˜o intuitiva para este fato, lembrando da defini¸ca˜o de fator de desconto, ´e que no modelo dinˆ amico um peso maior ´e dado para as observa¸co˜es mais recentes ao fazer previs˜ oes. Com isto a altera¸ca˜o no padr˜ ao sazonal ´e “incorporada” mais rapidamente do que no modelo est´ atico. As previs˜ oes de vendas para o quarto trimestre de 1982 e para 1983 tamb´em levar˜ ao em conta os diferentes padr˜ oes sazonais do final da s´erie. 7.7 Modelos de Regress˜ ao Para completar o nosso modelo dinˆ amico podemos pensar em incluir na equa¸ca˜o das observa¸co˜es efeitos de vari´ aveis regressoras. Considere por exemplo a regress˜ ao linear da var´ avel yt em uma cole¸ca˜o de p vari´ aveis independentes X1t , . . . , Xpt . Se um termo constante for incluido no modelo ent˜ao X1t = 1, ∀t. Denotando o vetor de regress˜ ao e o vetor de coeficientes de regress˜ ao no tempo t por Xt = (X1t , . . . , Xpt ) e ′ θt = (θ1t , . . . , θpt ) respectivamente ent˜ao as equa¸co˜es do modelo s˜ ao dadas por yt = Xt θt + ǫt , θt = θt−1 + ωt , ǫt ∼ N (0, Vt ) ωt ∼ N (0, Wt ). Assim, os coeficientes da regress˜ ao evoluem segundo um passeio aleat´ orio, como a no modelo polinomial de 1 ordem, i.e., a matriz de evolu¸ca˜o G = Ip . O vetor de regress˜ ao ´e formado pelas pr´oprias vari´ aveis regressoras e note que a equa¸ca˜o das observa¸co˜es pode ser reescrita como yt = p X θit Xit + ǫt i=1 de modo que o modelo pode ser visto como uma superposi¸ca˜o de p regress˜ oes simples pela origem. Todas as distribui¸co˜es envolvidas s˜ ao an´ alogas aos casos anteriores e as equa¸co˜es dadas na Se¸ca˜o 2.3 podem ser utilizadas para obter os momentos das distribui¸co˜es a 99 7.8. MONITORAMENTO priori, preditiva e a posteriori fazendo-se G = Ip . Assim, at = mt−1 Rt = Ct−1 + Wt ft = Xt mt−1 e as outras equa¸co˜es permanecem inalteradas. ´ interessante notar como fica a fun¸ca˜o de previs˜ E ao ft (k) neste caso. Primeiro reescreva a equa¸ca˜o de evolu¸ca˜o para θt+k fazendo k substitui¸co˜es sucessivas obtendo θt+k = θt + k X ωt+j j=1 de modo que at+k = mt Rt+k = Ct + k X Wt+j . j=1 Ent˜ao, usando a equa¸ca˜o das observa¸co˜es obtemos que ft (k) = Xt+k mt ′ Qt+k = Xt+k Rt+k Xt+k + St . Assim, a previs˜ ao pontual k passos a frente ´e a pr´opria fun¸ca˜o de regress˜ ao avaliada na estimativa dos coeficientes no tempo t e nos valores futuros dos regressores (que nem sempre est˜ ao dispon´ıveis). A sequˆencia de variˆ ancias Wt ´e mais uma vez estruturada usando um fator de desconto. 7.8 Monitoramento Ao comparar sequencialmente as previs˜ oes com os valores observados pode-se julgar a adequa¸ca˜o relativa de modelos alternativos com base em sua performance preditiva. Observa¸co˜es ocorrendo nas caudas da distribui¸ca˜o preditiva s˜ ao sempre poss´ıveis por defini¸ca˜o por´em improv´ aveis. Quanto mais afastada em uma das caudas mais ´ preciso ent˜ao estabelecer um crit´erio para julgar que improv´ avel ´e a observa¸ca˜o. E tipo de inconsistˆencia entre observa¸ca˜o e previs˜ ao deve ser sinalizada pelo sistema. No entanto, sinalizar uma observa¸ca˜o como improv´ avel apenas indica uma poss´ıvel ´ preciso saber em que sentido o modelo ´e deficiente, deficiˆencia geral do modelo. E i.e. verificar que modelos alternativos, com diferentes distribui¸co˜es preditivas, teriam uma performance melhor. O fator de Bayes, definido a seguir, ´e a ferramenta utilizada para fazer esta compara¸ca˜o de modelos. ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS 100 Se pA (yt |Dt−1 ) ´e a densidade preditiva 1 passo a frente de um modelo alternativo ent˜ao o fator de Bayes ´e definido como Ht = p(yt |Dt−1 ) , pA (yt |Dt−1 ) i.e. a raz˜ao das densidades preditivas avaliadas no valor observado yt . Outra forma de comparar a performance preditiva de dois modelos ´e considerer um grupo de observa¸co˜es ao inv´es de uma u ´nica e se basear no fator de Bayes acumulado Ht (k) = p(yt |Dt−1 )p(yt−1 , . . . , yt−k+1 |Dt−k ) p(yt , . . . , yt−k+1 |Dt−k ) = pA (yt , . . . , yt−k+1 |Dt−k ) pA (yt |Dt−1 )pA (yt−1 , . . . , yt−k+1 |Dt−k ) = Ht Ht−1 (k − 1) = k−1 Y Ht−j . j=0 Pode-se assim sinalizar evidˆencias de altera¸ca˜o lenta na estrutura da s´erie. A id´eia ´e que, individualmente, estas evidˆencias n˜ao s˜ ao suficientes para se “questionar” as previs˜ oes do modelo em uso mas quando consideradas conjuntamente a evidˆencia acumulada pode ser grande e deve ser sinalizada. A quest˜ ao agora ´e como construir um sistema de monitoramento autom´ atico da s´erie a partir destas id´eias intuitivas. Quando as observa¸co˜es est˜ ao cada vez mais afastadas das previs˜ oes ent˜ao um fator de Bayes individual Ht pode n˜ao ser suficientemente pequeno e precisa ser acumulado para indicar alguma evidˆencia contra o modelo padr˜ ao. Neste caso, o monitor identifica o grupo mais discrepante de observa¸co˜es consecutivas calculando Vt and lt da seguinte forma, Vt = min Ht (k) = Ht (lt ) 1≤k≤t sendo calculado sequencialmente com as seguintes recurs˜ oes, ( lt−1 + 1, se Lt−1 < 1 Vt = Ht min{1, Lt−1 } e lt = 1, se Lt−1 ≥ 1 conforme mostrado em West (1986). O modelo padr˜ ao ´e aceito como sendo satisfat´ orio at´e a ocorrˆencia de um valor Lt menor do que um valor pr´e-especificado τ < 1 (o limite inferior para aceita¸ca˜o de Lt ) quando a ocorrˆencia de uma descontinuidade na s´erie ´e sinalizada. Se lt = 1 ent˜ao uma u ´nica observa¸ca˜o discrepante ´e identificada como a causa mais prov´ avel de falha, embora o in´ıcio de uma mudan¸ca tamb´em seja uma possibilidade. Por outro lado, lt > 1 indica que uma mudan¸ca come¸cou a ocorrer lt periods atr´ as em t − lt + 1. Al´em disso, se uma mudan¸ca estrutural lenta est´ a ocorrendo na s´erie as observa¸co˜es mais recentes indicar˜ ao evidˆencia contra o modelo padr˜ ao que n˜ao ser´ a suficiente para fazer Lt < τ . Assim, para aumentar a sensibilidade do monitor a estas mudan¸cas uma descontinuidade deve ser sinalizada se lt > 3 ou 4. Para especificar o modelo alternativo assume-se que as densidades preditivas s˜ ao normais com m´edia comum ft e variˆ ancias Qt e Qt /ρ onde 0 < ρ < 1, de modo que o fator de Bayes fica r    r  (yt − ft )2 1 1 1 2 Ht = exp − (1 − ρ) = exp − (1 − ρ)et ρ 2Qt ρ 2 7.8. MONITORAMENTO 101 onde et ´e o erro de previs˜ ao um passo a frente padronizado. A escolha de ρ pode ser facilitada reescrevendo-se o fator de Bayes como Ht = exp(−0.5 log ρ + (1 − ρ)e2t ). Claramente Ht = 1 ou equivalentemente e2t = −(log ρ)/(1 − ρ) indica nenhuma evidˆencia para discriminar entre os modelos. O valor de ρ, pode ser escolhido de modo a fornecer o valor m´ aximo de |et | que n˜ao indica evidence contra o modelo padr˜ ao. Por exemplo, ρ ∈ (0.1, 0.3) implica que a evidˆencia contra o modelo padr˜ ao deve ser acumulada para 1.3 < |et | < 1.6 que s˜ ao aproximadamente os percentil 0.90 e 0.95 distribui¸ca˜o normal padr˜ ao. ´ claro que para ρ fixo, a evidˆencia contra o modelo padr˜ao aumenta com |et |. E West & Harrison (1997) ilustraram como a escolha de ρ tem pouca influˆencia quando o erro se torna muito grande em rela¸ca˜o ao modelo alternativo. Este pode ser visto como um modelo geral no sentido de levar em conta v´ arios tipos de mudan¸cas al´em de observa¸co˜es discrepantes. Essencialmente, este procedimento pode ser visto como um m´etodo explorat´orio gerando informa¸ca˜o sobre o tipo e o per´ıodo mais prov´ avel de mudan¸ca estrutural. ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS 102 > > > > + + + w = c(0.05, 0.5, 5) g = list(col = 1:2, xlab = "tempo", ylab = "y") par(mfrow = c(2, 2)) for (i in w) { ts.plot(mld.sim(100, 1, i, 25), gpars = g, main = paste("V/W=", 1/i)) } V/W= 2 21 18 23 22 y y 25 26 27 30 V/W= 20 0 20 40 60 80 100 tempo 0 20 40 60 80 100 tempo 10 20 y 30 40 V/W= 0.2 0 20 40 60 80 100 tempo Figura 7.1: 100 valores simulados do modelo polinomial de 1a ordem com (a) V /W = 20, (b) V /W = 2, (c) V /W = 0, 2. 103 7.8. MONITORAMENTO 1400 y = Nile n = length(y) res = mld(y, V = rep(var(y), n), W = rep(50, n), m0 = 1000, C0 = 1000) plot(y, xlab = "Anos", ylab = "Medi¸ co ~es", type = "p") lines(res$m, col = 2) lines(res$m - 2 * sqrt(res$C), col = 2, lty = 1) lines(res$m + 2 * sqrt(res$C), col = 2, lty = 1) res = mld(y, V = rep(var(y), n), W = rep(0.05, n), m0 = 1000, C0 = 1000) lines(res$m, col = 4) legend(1940, 1350, c("obs", "W=50", "W=.05"), col = c(1, 2, 4), bty = "n") 800 1000 1200 obs W=50 W=.05 600 Medições > > > > > > > > + > > + 1880 1900 1920 Anos Figura 7.2: 1940 1960 ˆ CAP´ITULO 7. MODELOS LINEARES DINAMICOS 104 Serie original 1400 1000 obs desconto=.98 desconto=.70 600 1880 1920 1960 1880 1920 600 800 1000 600 1200 1000 1400 1400 Desconto 0.70 0.98 1880 1900 1920 Time Figura 7.3: 1940 1960 1960 Apˆ endice A Lista de Distribui¸ c˜ oes Neste apˆendice s˜ ao listadas as distribui¸co˜es de probabilidade utilizadas no texto para facilidade de referˆencia. S˜ao apresentadas suas fun¸co˜es de (densidade) de probabilidade al´em da m´edia e variˆ ancia. Uma revis˜ ao exaustiva de distribui¸co˜es de probabilidades pode ser encontrada em Johnson et al. (1994), Johnson et al. (1995) e Johnson et al. (1992). A.1 Distribui¸c˜ ao Normal X tem distribui¸ca˜o normal com parˆ ametros µ e σ 2 , denotando-se X ∼ N (µ, σ 2 ), se sua fun¸ca˜o de densidade ´e dada por p(x|µ, σ 2 ) = (2πσ 2 )−1/2 exp[−(x − µ)2 /2σ 2 ], −∞ < x < ∞, para −∞ < µ < ∞ e σ 2 > 0. Quando µ = 0 e σ 2 = 1 a distribui¸ca˜o ´e chamada normal padr˜ ao. A distribui¸ca˜o log-normal ´e definida como a distribui¸ca˜o de eX . No caso vetorial, X = (X1 , . . . , Xp ) tem distribui¸ca˜o normal multivariada com vetor de m´edias µ e matriz de variˆ ancia-covariˆ ancia Σ, denotando-se X ∼ N (µ, Σ) se sua fun¸ca˜o de densidade ´e dada por p(x|µ, Σ) = (2π)−p/2 |Σ|−1/2 exp[−(x − µ)′ Σ−1 (x − µ)/2] para µ ∈ Rp e Σ positiva-definida. A.2 Distribui¸c˜ ao Gama X tem distribui¸ca˜o Gama com parˆ ametros α e β, denotando-se X ∼ Ga(α, β), se sua fun¸ca˜o de densidade ´e dada por p(x|α, β) = β α α−1 −βx x e , Γ(α) x > 0, para α, β > 0. E(X) = α/β e V (X) = α/β 2 . 105 ˆ ˜ APENDICE A. LISTA DE DISTRIBUIC ¸ OES 106 Casos particulares da distribui¸ca˜o Gama s˜ ao a distribui¸ca˜o de Erlang, Ga(α, 1), a distribui¸ca˜o exponencial, Ga(1, β), e a distribui¸ca˜o qui-quadrado com ν graus de liberdade, Ga(ν/2, 1/2). A.3 Distribui¸c˜ ao Wishart Diz-se que uma matriz aleat´ oria Ω (n × n) segue uma distribui¸ca˜o Wishart com parˆ ametro Σ e ν graus de liberdade, denotando-se Ω ∼ W (Σ, ν), se sua fun¸ca˜o de densidade ´e dada por, p(Ω|Σ, ν) ∝ |Ω|(ν−n−1)/2 exp(−(1/2)tr(ΣΩ)) sendo ν ≥ n, Σ positiva-definida e tr(A) indica o tra¸co de uma matriz A. Uma propriedade u ´til ´e que AΩA′ ∼ W (AΣA′ , ν). A.4 Distribui¸c˜ ao Gama Inversa X tem distribui¸ca˜o Gama Inversa com parˆ ametros α e β, X ∼ GI(α, β), se sua fun¸ca˜o de densidade ´e dada por p(x|α, β) = β α −(α+1) −β/x x e , Γ(α) para α, β > 0. E(X) = β α−1 e V (X) = denotando-se x > 0, β2 . (α − 1)2 (α − 2) N˜ ao ´e dif´ıcil verificar que esta ´e a distribui¸ca˜o de 1/X quando X ∼ Ga(α, β). A.5 Distribui¸c˜ ao Wishart Invertida Diz-se que uma matriz aleat´ oria Ω (n × n) segue uma distribui¸ca˜o Wishart-Invertida com parˆ ametro Σ e ν graus de liberdade, denotando-se Ω ∼ W I(Σ, ν) se sua fun¸ca˜o de densidade ´e dada por, p(Ω|Σ, ν) ∝ |Ω|−(ν+n+1)/2 exp(−(1/2)tr(ΣΩ)) sendo ν ≥ n, Σ positiva-definida e tr(A) indica o tra¸co de uma matriz A. N˜ ao ´e dif´ıcil −1 ′ ′ verificar que Ω ∼ W (Σ, ν). Outra propriedade ´e que AΩA ∼ W I(AΣA , ν). A.6 Distribui¸c˜ ao Beta X tem distribui¸ca˜o Beta com parˆ ametros α e β, denotando-se X ∼ Be(α, β), se sua fun¸ca˜o de densidade ´e dada por p(x|α, β) = Γ(α + β) α−1 x (1 − x)β−1 , Γ(α)Γ(β) 0 < x < 1, ˜ DE DIRICHLET A.7. DISTRIBUIC ¸ AO 107 para α, β > 0. E(X) = A.7 α α+β αβ . (α + β)2 (α + β + 1) e V (X) = Distribui¸c˜ ao de Dirichlet O vetor aleat´ orio X = (X1 , . . . , Xk ) tem distribui¸ca˜o de Dirichlet com parˆ ametros α1 , . . . , αk , denotada por Dk (α1 , . . . , αk ) se sua fun¸ca˜o de densidade conjunta ´e dada por k X Γ(α0 ) p(x|α1 , . . . , αk ) = xi = 1, xα1 1 −1 . . . xkαk −1 , Γ(α1 ), . . . , Γ(αk ) i=1 para α1 , . . . , αk > 0 e α0 = E(Xi ) = αi , α0 Pk i=1 αi . V (Xi ) = (α0 − αi )αi , α02 (α0 + 1) e Cov(Xi , Xj ) = − αi αj 2 α0 (α0 + 1) Note que a distribui¸ca˜o Beta ´e obtida como caso particular para k = 2. A.8 Distribui¸c˜ ao t de Student X tem distribui¸ca˜o t de Student (ou simplesmente t) com m´edia µ, parˆ ametro de escala 2 σ e ν graus de liberdade, denotando-se X ∼ tν (µ, σ ), se sua fun¸ca˜o de densidade ´e dada por  −(ν+1)/2 (x − µ)2 Γ((ν + 1)/2)ν ν/2 √ ν+ p(x|ν, µ, σ ) = , σ2 Γ(ν/2) πσ 2 para ν > 0, µ ∈ R e σ 2 > 0. E(X) = µ, para ν > 1 e V (X) = ν , ν−2 x ∈ R, para ν > 2. Um caso particular da distribui¸ca˜o t ´e a distribui¸ca˜o de Cauchy, denotada por C(µ, σ 2 ), que corresponde a ν = 1. A.9 Distribui¸c˜ ao F de Fisher X tem distribui¸ca˜o F com ν1 e ν2 graus de liberdade, denotando-se X ∼ F (ν1 , ν2 ), se sua fun¸ca˜o de densidade ´e dada por p(x|ν1 , ν2 ) = Γ((ν1 + ν2 )/2) ν1 /2 ν2 /2 ν1 /2−1 ν ν2 x (ν2 + ν1 x)−(ν1 +ν2 )/2 Γ(ν1 /2)Γ(ν2 /2) 1 x > 0, e para ν1 , ν2 > 0. E(X) = ν2 , ν2 − 2 para ν2 > 2 e V (X) = 2ν22 (ν1 + ν2 − 2) , ν1 (ν2 − 4)(ν2 − 2)2 para ν2 > 4. ˆ ˜ APENDICE A. LISTA DE DISTRIBUIC ¸ OES 108 A.10 Distribui¸c˜ ao Binomial X tem distribui¸ca˜o binomial com parˆ ametros n e p, denotando-se X ∼ bin(n, p), se sua fun¸ca˜o de probabilidade ´e dada por   n x p(x|n, p) = p (1 − p)n−x , x = 0, . . . , n x para n ≥ 1 e 0 < p < 1. E(X) = np e V (X) = np(1 − p) e um caso particular ´e a distribui¸ca˜o de Bernoulli com n = 1. A.11 Distribui¸c˜ ao Multinomial O vetor aleat´ orio X = (X1 , . . . , Xk ) tem distribui¸ca˜o multinomial com parˆ ametros n e probabilidades θ1 , . . . , θk , denotada por Mk (n, θ1 , . . . , θk ) se sua fun¸ca˜o de probabilidade conjunta ´e dada por p(x|θ1 , . . . , θk ) = n! θx1 , . . . , θkxk , x1 !, . . . , xk ! 1 xi = 0, . . . , n, k X xi = n, i=1 P para 0 < θi < 1 e ki=1 θi = 1. Note que a distribui¸ca˜o binomial ´e um caso especial da multinomial quando k = 2. Al´em disso, a distribui¸ca˜o marginal de cada Xi ´e binomial com parˆ ametros n e θi e E(Xi ) = nθi , A.12 V (Xi ) = nθi (1 − θi ), e Cov(Xi , Xj ) = −nθi θj . Distribui¸c˜ ao de Poisson X tem distribui¸ca˜o de Poisson com parˆ ametro θ, denotando-se X ∼ P oisson(θ), se sua fun¸ca˜o de probabilidade ´e dada por p(x|θ) = θx e−θ , x! x = 0, 1, . . . para θ > 0. E(X) = V (X) = θ. A.13 Distribui¸c˜ ao Binomial Negativa X tem distribui¸ca˜o de binomial negativa com parˆ ametros r e p, denotando-se X ∼ BN (r, p), se sua fun¸ca˜o de probabilidade ´e dada por   r+x−1 r p(x|r, p) = p (1 − p)x , x = 0, 1, . . . x ˜ BINOMIAL NEGATIVA A.13. DISTRIBUIC ¸ AO 109 para r ≥ 1 e 0 < p < 1. E(X) = r(1 − p)/p e V (X) = r(1 − p)/p2 . Um caso particular ´e quando r = 1 e neste caso diz-se que X tem distribui¸ca˜o geom´etrica com parˆ ametro p. Referˆ encias Bauwens, L., Lubrano, M. & Richard, J. (1999). Bayesian Inference in Dynamic Econometric Models. Oxford University Press. Box, G. E. P. & Jenkins, G. M. (1970). Time Series Analysis, Forecasting and Control. Holden-Day, San Francisco, California. Box, G. E. P., Jenkins, G. M. & Reinsel, G. C. (1994). Time Series Analysis: Forecasting and Control (Third ed.). Englewood Cliffs NJ: Prentice-Hall. Brockwell, P. & Davis, R. (1991). Time Series: Theory and Methods (2nd ed.). New York: Springer-Verlag. Burnham, K. P. & Anderson, D. R. (1998). Model Selection and Inference: A Practical Information-Theoretic Approach. Springer: New York. Diggle, P. (1990). Time Series: A Biostatistical Introduction. Oxford University Press: New York. Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation. Econometrica 50, 987–1007. Franses, P. H. (1998). Time Series Models for Business and Economic Forecasting. Cambridge University Press. Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1994). Continuous Univariate Distributions (2nd ed.), Volume 1. John Wiley, New York. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley, New York. Johnson, N. L., Kotz, S. & Kemp, A. W. (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York. Kendall, M. G., Stuart, A. & Ord, J. K. (1983). Advanced theory of statistics (4th ed.), Volume 3. Griffin: London. Pole, A., West, M. & Harrison, J. (1994). Applied Bayesian Forecasting and Time Series Analysis. Texts in Statistical Sciences. Chapman & Hall. Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic Press. Taylor, S. (1986). Modelling Financial Time Series. Wiley. 110 References. 111 Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley. West, M. & Harrison, P. J. (1997). Bayesian Forecasting and Dynamic Models. Springer Verlag, New York.