Professional Documents
Culture Documents
INTRODUO
Em muitos problemas de climatologia, os valores relevantes de uma determinada resposta ou
varivel aleatria so os parmetros de uma distribuio de probabilidades. Na anlise de sries de
precipitao para a caracterizao de secas ou enchentes, pode ser de interesse as respostas a partir
das quais podemos identificar situaes extremas. Na avaliao da distribuio de probabilidades de
valores acumulados mensais ou sazonais de precipitao seria necessrio um conjunto de dados
com os valores observados, durante no mnimo 30 anos. No caso da anlises de curto prazo (horrio
ou dirio) realizadas em algumas estaes meteorolgicas, o ideal seria processar simulaes
aleatrias independentes com o tempo de durao da anlise de curto prazo (proposta de um gerador
estocstico de sries sintticas de dados climticos) e tomar o valor acumulado obtido em cada uma
1
Instituto Nacional de Meteorologia (INMET) Coordenao de Desenvolvimento e Pesquisa (CDP)
Eixo Monumental Sul Via S1 Setor Sudoeste
70680-900 Braslia DF - Brasil
e-mail*: paulo.lucio@inmet.gov.br
e-mails: ismael.voigt@inmet.gov.br, tiago.pereira@inmet.gov.br
delas para formar uma amostra da populao dos totais mensais de precipitao e proceder a um
ajuste da distribuio de probabilidades correspondente.
Na prtica, dados de precipitao no constituem uma amostragem significativa para se
proceder da forma acima mencionada. Um dos desafios da estatstica, uma vez que na prtica em
meteorologia, trabalhamos com amostras finitas da varivel aleatria, o processo conhecido como
inferncia estatstica, que tenta determinar a preciso de estimativas de parmetros estatsticos
obtidas a partir de uma dada amostra ou conjunto de dados. Existem na literatura procedimentos
tericos para avaliao de incertezas associadas a vrios parmetros estatsticos de uma amostra. No
entanto, no que tange aos parmetros de ordem, como os quantis, mnimos e mximos, as
expresses analticas normalmente tornam-se bastante complicadas.
Efron (1979) props uma tcnica de simulao numrica chamada Bootstrap para avaliar tais
incertezas. O Bootstrap um procedimento robusto de simulao estatstica (SSP) para atribuir
medidas de preciso a estimativas de parmetros estatsticos. Um dos atrativos deste mtodo que
ele consegue responder muitas questes estatsticas reais sem termos que lanar mo de frmulas
matemticas complexas.
Dada uma estimativa de um determinado parmetro estatstico, calculado a partir de uma
amostra de dados, dois dos objetivos principais do Bootstrap so: (a) estimar o erro-padro da
referida estimativa e (b) estimar um intervalo de confiana apropriado. Neste trabalho propomos
fazer uma descrio sucinta da tcnica Bootstrap e mostrar a sua aplicao avaliao de incertezas
estatsticas de amostragem na anlise de sries mensais de precipitao. Especificamente, o trabalho
concentrou-se nas incertezas da distribuio emprica dos percentis extremos das sries temporais.
Ilustra-se esta tcnica atravs de estudos de casos reais para o estado do Rio Grande do Sul (RS).
REAMOSTRAGEM BOOTSTRAP
Os conceitos e a teoria apresentados nesta sesso baseiam-se em Efron e Tibshirani (1993). A
inferncia estatstica procura estabelecer as propriedades da populao a partir da anlise de uma
amostra aleatria retirada da mesma. Os problemas de inferncia estatstica consistem, portanto, em
estimar algum aspecto da distribuio de probabilidade F da populao com base numa amostra
aleatria da mesma. Neste estudo, F pode ser considerado a funo probabilidades acumulada ou
qualquer outra descrio completa do comportamento probabilstico da varivel aleatria em
questo. O mtodo Bootstrap 2 um procedimento computacional concebido para fornecer uma
medida do nvel de preciso de uma inferncia estatstica.
A idia bsica do mtodo Bootstrap muito simples. Dados uma amostra de uma populao,
um estimador de um determinado parmetro da populao obtido atravs da amostra e
admitindo-se que no se conhece a distribuio da populao ou do estimador, levantam-se as
questes seguintes: Como podemos avaliar a qualidade do estimador, construir testes de hipteses e
determinar os intervalos de confiana (IC) para o parmetro?
A tcnica Bootstrap pode ser empregada para construir ICs para um parmetro ou uma
caracterstica, (escalar), da populao = t ( F ) - esta notao enfatiza que o valor do parmetro
obtido aplicando algum procedimento de avaliao numrica funo de distribuio F . Ainda
que F seja desconhecida, a forma de = t ( F ) fornece o mapeamento funcional que tem F como
entrada e como sada. importante observar que, se a nica informao disponvel sobre F
provm da amostra X , a qualidade do estimador de = t ( F ) no pode ser melhorada no sentido
assinttico usual da teoria estatstica. Portanto, o estimador plug-in - o princpio plug-in um
mtodo simples para estimar parmetros a partir de amostras. Por este princpio, a estimativa do
parmetro feita aplicando-se o mesmo procedimento de avaliao numrica funo de
distribuio emprica - ser o melhor estimador (mnima varincia) do parmetro . A tcnica de
reamostragem Bootstrap permite precisamente usar uma amostra para estimar a quantidade de
interesse atravs de uma estatstica e avaliar tambm as propriedades da distribuio dessa
estatstica, ou seja fornecem tambm estimativas para a distribuio, vis, desvio-padro e ICs da
estatstica.
A hiptese fundamental subjacente tcnica Bootstrap de reamostragem de que a amostra
observada deve ser representativa da populao (conjunto de experincias ou realizaes) sob
estudo. Desta forma, na terminologia bootstrapping as R amostras aleatrias construdas a partir
da populao finita correspondem a amostrar com reposio a partir do conjunto X = X 1 ,..., X n .
Atentemos ao fato de que X * = X *1 ,..., X *R no um novo conjunto de dados, mas sim uma verso
reamostrada, de X = X 1 ,..., X n . A cada conjunto de dados Bootstrap corresponder uma replicao
2
A tcnica Bootstrap basicamente uma tcnica de reamostragem, que permite aproximar a distribuio de uma
INTERVALO DE CONFIANA BOOTSTRAP
Estimar ICs tem sido uma das nfases principais dos trabalhos tericos sobre Bootstrap. O
intervalo percentlico 1 - 2 definido pelos percentis e 1 de uma determinada distribuio
emprica. O IC refere-se situao ideal (assinttica) do Bootstrap na qual o nmero de replicaes
Bootstrap infinito. Na prtica, devemos usar algum nmero finito R de replicaes. So
gerados, portanto, R conjuntos independentes de dados Bootstrap e so calculadas as replicaes
Bootstrap e o percentil 100 % da distribuio Bootstrap pode ser associado ao correspondente
100 -simo percentil emprico obtido atravs da lista ordenada das R replicaes. Se a distribuio
Bootstrap for aproximadamente Normal, os intervalos Normal padro e percentlico sero
aproximadamente iguais. Todavia, para pequenas amostras de dados podemos ter distribuies que
se afastem bastante da Normal, neste caso, os intervalos Normal padro e percentlico sero
diferentes e o segundo produzir um IC geralmente mais apropriado.
Para cada amostra Bootstrap calculamos o valor da estatstica de interesse, a qual denotamos
por F (b ) . Assim, podemos usar a distribuio emprica de F (b ) como uma aproximao para a
funo das observaes pela distribuio emprica dos dados, baseado em uma amostra de tamanho finito.
setembro-outubro-novenbro (SON) consecutivos considerados os mais chuvosos de cada ano
hidrolgico completo. Para atender grande variabilidade interanual da precipitao este
manuscrito contempla trs diferentes cenrios pluviomtricos (Tab.1): "anos secos" aqueles em que
o total de precipitao foi igual ou menor que o valor correspondente a probabilidade de 15%
(valores abaixo de 5% so considerados eventos extremos de seca severa); "anos chuvosos" aqueles
cujo total de precipitao acumulado superior ao valor correspondente probabilidade de 85%
(valores acima de 95% so considerados extremos de chuva abundante); "anos regulares" aqueles
no classificados nas categorias anteriores.
Tab.1: Caracterizao climatolgica emprica e bootstrapping dos percentis da precipitao acumulada (mm) nos
meses de setembro-outubro-novembro (SON) nas estaes meteorolgicas, sob estudo, no Rio Grande do Sul.
Cidade Estao p (15%) p R (15%)bootstrapping p (85%) p R (85%)bootstrapping
IRA 83881 99,97 100,64 254,63 241,90
SO LUIZ GONZAGA 83907 82,49 84,29 269,15 270,56
CRUZ ALTA 83912 83,65 89,93 272,84 273,58
PASSO FUNDO 83914 91,93 93,49 276,67 279,58
BOM JESUS 83919 73,40 72,85 231,35 235,94
URUGUAIANA 83927 54,17 53,50 206,11 202,95
SANTA MARIA 83936 58,12 55,99 233,0 231,80
CAXIAS DO SUL 83942 85,86 83,95 245,59 245,87
TORRES 83948 59,58 59,77 202,28 203,51
ENCRUZILHADAS DO SUL 83964 63,04 62,54 212,0 216,20
PORTO ALEGRE 83967 56,02 55,61 192,90 192,18
BAG 83980 61,71 61,78 190,89 189,03
RIO GRANDE 83995 46,33 46,88 160,11 159,48
SANTA VITRIA DO PALMAR 83997 40,98 41,74 153,44 155,71
Fig.1: Regime percentlico bootstrapping (referente Tab.1) da precipitao acumulada no Rio Grande do Sul.
CONCLUSES E PERSPECTIVAS
Apresentamos estudos de casos do Bootstrap no-paramtrico para a precipitao em
estaes meteorolgicas do Rio Grande do Sul - Brasil. Os parmetros de interesse escolhidos
foram os quantis da distribuio de da srie temporal mensal. Para estimar o intervalo de confiana
(IC) Bootstrap ao nvel de confiana 95%, foi usado o intervalo baseado no mtodo BCa, que
corrige algumas deficincias do intervalo percentil (Tab.2). Os ICs fornecem informaes que so
necessrias ao prognstico climtico. Um trabalho futuro envolvendo algum outro parmetro
estatstico da distribuio de probabilidades de extremos da precipitao poderia fornecer dados
adicionais de relevncia. Como extremos so eventos raros, a utilizao de Bootstrap uma
alternativa para construir ICs que tm uma melhor performance que os intervalos obtidos atravs da
teoria assinttica Normal.
Tab.2: Limites de confiana do Effron (BCa). Caracterizao climatolgica bootstrapping dos ICs referentes aos
percentis caudais de precipitao acumulada (mm) de SON nas estaes meteorolgicas do Rio Grande do Sul.
p R (15%)bootstrapping p R (85%)bootstrapping
Cidade Estao 2,5% 97,5% 2,5% 97,5%
IRA 83881 91,34 106,08 230,60 290,90
SO LUIZ GONZAGA 83907 68,80 90,57 237,60 288,52
CRUZ ALTA 83912 52,86 89,60 236,40 292,82
PASSO FUNDO 83914 74,60 113,95 240,00 303,85
BOM JESUS 83919 63,40 89,41 191,85 243,82
URUGUAIANA 83927 44,60 68,90 182,60 245,34
SANTA MARIA 83936 47,76 82,31 217,30 253,60
CAXIAS DO SUL 83942 69,51 103,08 220,92 270,26
TORRES 83948 51,70 73,37 178,19 213,74
ENCRUZILHADAS DO SUL 83964 54,20 74,08 179,70 234,56
PORTO ALEGRE 83967 50,18 67,10 167,80 228,60
BAG 83980 48,62 67,20 177,89 224,33
RIO GRANDE 83995 39,31 54,40 144,90 182,60
SANTA VITRIA DO PALMAR 83997 27,72 49,75 133,36 166,10
Fig.2: Regime IC percentlico bootstrapping (referente Tab.2) da precipitao acumulada no Rio Grande do Sul.
REFERNCIAS BIBLIOGRFICAS
Dudewicz, E. J. and Mishra, S. N. (1988). Modern Mathematical Statistics. New York: John
Willey & Sons.
Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics, 7, 1-26.
Efron, B., Tibshirani, R. J., (1993). An Introduction to the Bootstrap. New York: Chapman and
Hall.
Gibbs, W. J., Maher, J. V., (1967). Rainfall deciles as drought indicators. Bureau of Meteorology,
Bulletin 48, Commonwealth of Australia, Melbourne.