Modelos de séries temporais de dados de contagem baseados na distribuição Poisson Dupla [thesis]

Davi Casale Aragon
Dedicoà Fernanda e ao pequeno Gabriel, com amor e gratidão, por compreenderem meus momentos de ausência e me apoiarem sempre, sendo os meus maiores incentivadores na elaboração deste trabalho e na vida. Obrigado por serem a minha família! Agradecimentos A Deus, por me fazer enxergar os caminhos corretos a serem percorridos nessa jornada. Aos meus pais, pelos conselhos, apoio e amor incondicional. Ao meu orientador, e grande amigo, Prof. Dr. Edson Zangiacomi Martinez, pelo incentivo, dedicação e
more » ... entivo, dedicação e paciência em me ensinar muito do que sei hoje. Qualquer agradecimento sempre será pouco para expressar minha gratidão. Ao Prof. Dr. Jorge Alberto Achcar, pelas valiosas contribuições. Aos meus irmãos, já doutores, pelo incentivo e eterna amizade. Aos meus amigos, espalhados por tantas cidades, que me mostram que o tempo e a distância nunca nos fazem esquecer os bons momentos passados juntos. "And in the end, the love you take is equal to the love you make." Lennon/ McCartney RESUMO ARAGON, D. C. Modelos de séries temporais de dados de contagem baseados na distribuição Poisson Dupla. Ribeirão Preto, 2016, 142 p. Tese (Doutorado). Faculdade de Medicina de Ribeirão Preto. Universidade de São Paulo. Dados de séries temporais são originados a partir de estudos em que se reportam, por exemplo, taxas de mortalidade, número de hospitalizações, de infecções por alguma doença ou outro evento de interesse, em períodos definidos (dia, semana, mês ou ano), objetivando-se observar tendências, sazonalidades ou fatores associados. Dados de contagem são aqueles representados pelas variáveis quantitativas discretas, ou seja, observações que assumem valores inteiros, no intervalo {0, 1, 2, 3, ...}, por exemplo, o número de filhos de casais residentes em um bairro. Diante dessa particularidade, ferramentas estatísticas adequadas devem ser utilizadas, e modelos baseados na distribuição de Poisson apresentam-se como opções mais indicadas do que os baseados nos métodos propostos por Box e Jenkins (2008) , usualmente utilizados para análise de dados contínuos, mas empregados para dados discretos, após transformações logarítmicas. Uma limitação da distribuição de Poissoné que ela assume média e variância iguais, sendo um obstáculo nos casos em que há superdispersão (variância maior que a média) ou subdispersão (variância menor que a média). Diante disso, a distribuição Poisson Dupla, proposta por Efron (1986), surge como alternativa, pois permite se estimarem os parâmetros de média e variância, nos casos em que a variância dos dadosé menor, igual ou maior que a média, fornecendo grande flexibilidade aos modelos. Este trabalho teve como objetivo principal o desenvolvimento de modelos Bayesianos de séries temporais para dados de contagem, utilizando-se distribuições de probabilidade para variáveis discretas, tais como de Poisson e Poisson Dupla. Além disso, foi introduzido um modelo baseado na distribuição Poisson Dupla para dados de contagem com excesso de zeros. Os resultados obtidos pelo ajuste dos modelos de séries temporais baseados na distribuição Poisson Dupla foram comparados com aqueles obtidos por meio do uso da distribuição de Poisson. Como aplicações principais, foram apresentados resultados obtidos pelo ajuste de modelos para dados de registros de acidentes com picadas de cobras, no Estado de São Paulo, e picadas de escorpiões, na cidade de Ribeirão Preto, SP, entre os anos de 2007 e 2014. Com relação a estaúltima aplicação, foram consideradas covariáveis referentes a dados climáticos, como temperaturas máximas e mínimas médias mensais e precipitação. Nas situações em que a variância era diferente da média, modelos baseados na distribuição Poisson Dupla mostraram melhor ajuste aos dados, quando comparados aos modelos de Poisson. ABSTRACT ARAGON, D. C. Count data time series models based on Double Poisson distribution. Ribeirão Preto, 2016, 142 p. Thesis (Doctorate). Ribeirão Preto Medical School. University of São Paulo. Time series data are derived from studies in which there are reported mortality, number of hospitalizations infections by disease or other event of interest per day, week, month or year, in order to observe trends, seasonality or associated factors. Count data are represented by discrete quantitative variables, i.e. observations that take integer values in the range {0, 1, 2, 3, ...}. In view of this particular characteristic, such data must be analyzed by adequate statistical tools and the Poisson distribution is an option for modeling, being more suitable than models based on methods proposed by Box and Jenkins (2008) , usually applied for continuous data, but used in the modeling of discrete data after logarithmic transformation. A limitation of the Poisson distribution is that it assumes equal mean and variance being an obstacle in cases which there are data overdispersion (variance higher than mean) or underdispersion (variance lower than mean). Therefore the Double Poisson distribution, proposed by Efron (1986), is an alternative because it allows to estimate the mean and variance parameters in cases wich variance of the data is lower, equal, or higher than mean providing great flexibility to the models. This work aims to develop time series models for count data, under Bayesian approach using probability distributions for discrete variables such as Poisson and Double Poisson. Furthermore it will be introduced a zero-inflated Double Poisson model to excess zeros counting data. The results obtained by adjusting the time series models based on Double Poisson distribution are compared with those obtained by considering the Poisson distribution. As main applications modeling of snake bites reports in the State of São Paulo and scorpion stings in the city of Ribeirão Preto considering covariates as maximum and minimum average monthly temperatures and rainfall among the years 2007 and 2014 will be presented. Regression models based on double Poisson distribution showed a better fit to the data, when compared to Poisson models.
doi:10.11606/t.17.2017.tde-06062017-170620 fatcat:2rcz6isb65cvpbiumd3j7nbl6i