You are on page 1of 7

BOOTSTRAP APLICADO AVALIAO DE INCERTEZAS ESTATSTICAS NO

PROGNSTICO DE QUANTIS EXTREMOS DE PRECIPITAO.

Paulo S. Lucio*1 , Ismael V. Leandro1, Tiago P. de Paula1

Resumo: Mtodos de Bootstrap so mtodos computacionais intensivos de anlise estatstica que


usa simulao para calcular erros-padro e intervalos de confiana. Os mtodos so aplicados
qualquer nvel de modelagem, e assim podem ser usados tanto na anlise paramtrica quanto na no
paramtrica. Este manuscrito faz uma descrio do procedimento Bootstrap e mostra a sua
aplicao avaliao de incertezas estatsticas de amostragem na anlise de ndices de precipitao
de sries temporais mensais e sazonais. Especificamente, o trabalho concentrou-se nas incertezas
dos quantis (fractis) da distribuio de probalididades de uma srie temporal. O procedimento
permite estimar o erro-padro do valores mdios ou modais dos decis e um intervalo de confiana
para esses parmetros. Esta anlise pode ser entendida a quantis mais (menos) discretizados, por
exemplo, aos percentis. Ilustra-se a tcnica Bootstrap atravs de estudos de casos reais para a srie
de precipitao no estado do Rio Grande do Sul (RS) - Brasil.
Abstract: Bootstrap methods are computer-intensive methods of statistical analysis that use
simulation to calculate standard errors, confidence intervals and significance tests. The methods
apply for any level of modeling, and so can be used for fully parametric, semiparametric, and
completely nonparametric analysis. This manuscript describes the Bootstrap technique and shows
its application in the evaluation of sampling statistical uncertainties in the analysis of the
precipitation indices associated to monthly and seasonal time series. Specifically, the work is
concentrated in the evaluation of the quantile uncertainties related to the most probable value of the
deciles distribution of a random time series. The procedure allows us to estimate the standard error
of the mean or the most probable values (mode) and a confidence interval for these parameters. This
analysis can be extended to more (less) discretized quantiles, e.g., the percentiles. The Bootstrap
technique is illustrated by means of some real case studies of precipitation through the Rio Grande
do Sul (RS) - Brazil.
Palavras-chave: intervalo de confiana, reamostragem, erro-padro.

INTRODUO
Em muitos problemas de climatologia, os valores relevantes de uma determinada resposta ou
varivel aleatria so os parmetros de uma distribuio de probabilidades. Na anlise de sries de
precipitao para a caracterizao de secas ou enchentes, pode ser de interesse as respostas a partir
das quais podemos identificar situaes extremas. Na avaliao da distribuio de probabilidades de
valores acumulados mensais ou sazonais de precipitao seria necessrio um conjunto de dados
com os valores observados, durante no mnimo 30 anos. No caso da anlises de curto prazo (horrio
ou dirio) realizadas em algumas estaes meteorolgicas, o ideal seria processar simulaes
aleatrias independentes com o tempo de durao da anlise de curto prazo (proposta de um gerador
estocstico de sries sintticas de dados climticos) e tomar o valor acumulado obtido em cada uma

1
Instituto Nacional de Meteorologia (INMET) Coordenao de Desenvolvimento e Pesquisa (CDP)
Eixo Monumental Sul Via S1 Setor Sudoeste
70680-900 Braslia DF - Brasil
e-mail*: paulo.lucio@inmet.gov.br
e-mails: ismael.voigt@inmet.gov.br, tiago.pereira@inmet.gov.br
delas para formar uma amostra da populao dos totais mensais de precipitao e proceder a um
ajuste da distribuio de probabilidades correspondente.
Na prtica, dados de precipitao no constituem uma amostragem significativa para se
proceder da forma acima mencionada. Um dos desafios da estatstica, uma vez que na prtica em
meteorologia, trabalhamos com amostras finitas da varivel aleatria, o processo conhecido como
inferncia estatstica, que tenta determinar a preciso de estimativas de parmetros estatsticos
obtidas a partir de uma dada amostra ou conjunto de dados. Existem na literatura procedimentos
tericos para avaliao de incertezas associadas a vrios parmetros estatsticos de uma amostra. No
entanto, no que tange aos parmetros de ordem, como os quantis, mnimos e mximos, as
expresses analticas normalmente tornam-se bastante complicadas.
Efron (1979) props uma tcnica de simulao numrica chamada Bootstrap para avaliar tais
incertezas. O Bootstrap um procedimento robusto de simulao estatstica (SSP) para atribuir
medidas de preciso a estimativas de parmetros estatsticos. Um dos atrativos deste mtodo que
ele consegue responder muitas questes estatsticas reais sem termos que lanar mo de frmulas
matemticas complexas.
Dada uma estimativa de um determinado parmetro estatstico, calculado a partir de uma
amostra de dados, dois dos objetivos principais do Bootstrap so: (a) estimar o erro-padro da
referida estimativa e (b) estimar um intervalo de confiana apropriado. Neste trabalho propomos
fazer uma descrio sucinta da tcnica Bootstrap e mostrar a sua aplicao avaliao de incertezas
estatsticas de amostragem na anlise de sries mensais de precipitao. Especificamente, o trabalho
concentrou-se nas incertezas da distribuio emprica dos percentis extremos das sries temporais.
Ilustra-se esta tcnica atravs de estudos de casos reais para o estado do Rio Grande do Sul (RS).

REAMOSTRAGEM BOOTSTRAP
Os conceitos e a teoria apresentados nesta sesso baseiam-se em Efron e Tibshirani (1993). A
inferncia estatstica procura estabelecer as propriedades da populao a partir da anlise de uma
amostra aleatria retirada da mesma. Os problemas de inferncia estatstica consistem, portanto, em
estimar algum aspecto da distribuio de probabilidade F da populao com base numa amostra
aleatria da mesma. Neste estudo, F pode ser considerado a funo probabilidades acumulada ou
qualquer outra descrio completa do comportamento probabilstico da varivel aleatria em
questo. O mtodo Bootstrap 2 um procedimento computacional concebido para fornecer uma
medida do nvel de preciso de uma inferncia estatstica.
A idia bsica do mtodo Bootstrap muito simples. Dados uma amostra de uma populao,
um estimador de um determinado parmetro da populao obtido atravs da amostra e
admitindo-se que no se conhece a distribuio da populao ou do estimador, levantam-se as
questes seguintes: Como podemos avaliar a qualidade do estimador, construir testes de hipteses e
determinar os intervalos de confiana (IC) para o parmetro?
A tcnica Bootstrap pode ser empregada para construir ICs para um parmetro ou uma
caracterstica, (escalar), da populao = t ( F ) - esta notao enfatiza que o valor do parmetro
obtido aplicando algum procedimento de avaliao numrica funo de distribuio F . Ainda
que F seja desconhecida, a forma de = t ( F ) fornece o mapeamento funcional que tem F como
entrada e como sada. importante observar que, se a nica informao disponvel sobre F
provm da amostra X , a qualidade do estimador de = t ( F ) no pode ser melhorada no sentido
assinttico usual da teoria estatstica. Portanto, o estimador plug-in - o princpio plug-in um
mtodo simples para estimar parmetros a partir de amostras. Por este princpio, a estimativa do
parmetro feita aplicando-se o mesmo procedimento de avaliao numrica funo de
distribuio emprica - ser o melhor estimador (mnima varincia) do parmetro . A tcnica de
reamostragem Bootstrap permite precisamente usar uma amostra para estimar a quantidade de
interesse atravs de uma estatstica e avaliar tambm as propriedades da distribuio dessa
estatstica, ou seja fornecem tambm estimativas para a distribuio, vis, desvio-padro e ICs da
estatstica.
A hiptese fundamental subjacente tcnica Bootstrap de reamostragem de que a amostra
observada deve ser representativa da populao (conjunto de experincias ou realizaes) sob
estudo. Desta forma, na terminologia bootstrapping as R amostras aleatrias construdas a partir
da populao finita correspondem a amostrar com reposio a partir do conjunto X = X 1 ,..., X n .

Atentemos ao fato de que X * = X *1 ,..., X *R no um novo conjunto de dados, mas sim uma verso
reamostrada, de X = X 1 ,..., X n . A cada conjunto de dados Bootstrap corresponder uma replicao

Bootstrap de . No processo de estimao usam-se uma estatstica T(X) como estimador de


(F) cuja qualidade deve ser avaliada considerando as seguintes medidas:
Erro T(X) (F) ,

Erro Sistemtico Bias F (T) = E F (T) (F) ,

Responsvel pelos Erros Aleatrios VarF (T) = E F (T 2 (X)) E 2F (T(X)) .


Observe que o mtodo Bootstrap tem uma grande vantagem com relao aos mtodos tradicionais,
quando usado no modo no paramtrico, ele dispensa a necessidade do analista fazer hipteses
sobre o tipo de distribuio da populao envolvida.

2
A tcnica Bootstrap basicamente uma tcnica de reamostragem, que permite aproximar a distribuio de uma
INTERVALO DE CONFIANA BOOTSTRAP
Estimar ICs tem sido uma das nfases principais dos trabalhos tericos sobre Bootstrap. O
intervalo percentlico 1 - 2 definido pelos percentis e 1 de uma determinada distribuio
emprica. O IC refere-se situao ideal (assinttica) do Bootstrap na qual o nmero de replicaes
Bootstrap infinito. Na prtica, devemos usar algum nmero finito R de replicaes. So
gerados, portanto, R conjuntos independentes de dados Bootstrap e so calculadas as replicaes
Bootstrap e o percentil 100 % da distribuio Bootstrap pode ser associado ao correspondente
100 -simo percentil emprico obtido atravs da lista ordenada das R replicaes. Se a distribuio
Bootstrap for aproximadamente Normal, os intervalos Normal padro e percentlico sero
aproximadamente iguais. Todavia, para pequenas amostras de dados podemos ter distribuies que
se afastem bastante da Normal, neste caso, os intervalos Normal padro e percentlico sero
diferentes e o segundo produzir um IC geralmente mais apropriado.
Para cada amostra Bootstrap calculamos o valor da estatstica de interesse, a qual denotamos

por F (b ) . Assim, podemos usar a distribuio emprica de F (b ) como uma aproximao para a

verdadeira distribuio da estatstica F , e portanto fazer inferncia sobre o parmetro de interesse

(princpio plug-in). Seja G (x) a funo distribuio acumulada de F , G ( x) = P [ F x] . O


intervalo de confiana Bootstrap percentlico de nvel 1 - 2 calculado como

[G 1 ( ) ; G 1 (1 )] . Na prtica, gera-se R amostras Bootstrap independentes e estima-se F


para cada uma delas. Os limites inferior e superior do intervalo percentlico so dados por:
[ F R( ) , F R(1 ) ] , onde FR( ) o R -simo valor ordenado das replicaes FR (b). Observemos que
o intervalo percentlico , com nvel de confiana 1 - 2 , obtido diretamente das replicaes.
Para melhorar a preciso obtida com o mtodo percentlico utilizamos o procedimento
denominado BCa (Bias-Corrected and accelerated). De acordo com Efron e Tibshirani (1993), o
BCa fornece limites de confiana mais precisos e prefervel na prtica. Os percentis usados
dependem de dois nmeros chamados acelerao (refere-se taxa de variao do erro-padro em
relao ao verdadeiro valor do parmetro) e correo do vis.

ESTUDO DE CASO - ANLISE DOS QUANTIS DE PRECIPITAO NO RS


Muitas medidas que sintetizam as propriedades do conjunto de dados usam os chamados
quantis ou fractis. Estes termos so essencialmente equivalentes ao termo percentil, que uma
medida da posio relativa (separatriz) de uma unidade observacional em relao a todas as outras.
Para a identificao dos cenrios pluviomtricos no Rio Grande do Sul foram inicialmente
estabelecidos, para cada posto pluviomtrico, o total de precipitao registrado nos trs meses

funo das observaes pela distribuio emprica dos dados, baseado em uma amostra de tamanho finito.
setembro-outubro-novenbro (SON) consecutivos considerados os mais chuvosos de cada ano
hidrolgico completo. Para atender grande variabilidade interanual da precipitao este
manuscrito contempla trs diferentes cenrios pluviomtricos (Tab.1): "anos secos" aqueles em que
o total de precipitao foi igual ou menor que o valor correspondente a probabilidade de 15%
(valores abaixo de 5% so considerados eventos extremos de seca severa); "anos chuvosos" aqueles
cujo total de precipitao acumulado superior ao valor correspondente probabilidade de 85%
(valores acima de 95% so considerados extremos de chuva abundante); "anos regulares" aqueles
no classificados nas categorias anteriores.

Tab.1: Caracterizao climatolgica emprica e bootstrapping dos percentis da precipitao acumulada (mm) nos
meses de setembro-outubro-novembro (SON) nas estaes meteorolgicas, sob estudo, no Rio Grande do Sul.
Cidade Estao p (15%) p R (15%)bootstrapping p (85%) p R (85%)bootstrapping
IRA 83881 99,97 100,64 254,63 241,90
SO LUIZ GONZAGA 83907 82,49 84,29 269,15 270,56
CRUZ ALTA 83912 83,65 89,93 272,84 273,58
PASSO FUNDO 83914 91,93 93,49 276,67 279,58
BOM JESUS 83919 73,40 72,85 231,35 235,94
URUGUAIANA 83927 54,17 53,50 206,11 202,95
SANTA MARIA 83936 58,12 55,99 233,0 231,80
CAXIAS DO SUL 83942 85,86 83,95 245,59 245,87
TORRES 83948 59,58 59,77 202,28 203,51
ENCRUZILHADAS DO SUL 83964 63,04 62,54 212,0 216,20
PORTO ALEGRE 83967 56,02 55,61 192,90 192,18
BAG 83980 61,71 61,78 190,89 189,03
RIO GRANDE 83995 46,33 46,88 160,11 159,48
SANTA VITRIA DO PALMAR 83997 40,98 41,74 153,44 155,71

Fig.1: Regime percentlico bootstrapping (referente Tab.1) da precipitao acumulada no Rio Grande do Sul.

CONCLUSES E PERSPECTIVAS
Apresentamos estudos de casos do Bootstrap no-paramtrico para a precipitao em
estaes meteorolgicas do Rio Grande do Sul - Brasil. Os parmetros de interesse escolhidos
foram os quantis da distribuio de da srie temporal mensal. Para estimar o intervalo de confiana
(IC) Bootstrap ao nvel de confiana 95%, foi usado o intervalo baseado no mtodo BCa, que
corrige algumas deficincias do intervalo percentil (Tab.2). Os ICs fornecem informaes que so
necessrias ao prognstico climtico. Um trabalho futuro envolvendo algum outro parmetro
estatstico da distribuio de probabilidades de extremos da precipitao poderia fornecer dados
adicionais de relevncia. Como extremos so eventos raros, a utilizao de Bootstrap uma
alternativa para construir ICs que tm uma melhor performance que os intervalos obtidos atravs da
teoria assinttica Normal.
Tab.2: Limites de confiana do Effron (BCa). Caracterizao climatolgica bootstrapping dos ICs referentes aos
percentis caudais de precipitao acumulada (mm) de SON nas estaes meteorolgicas do Rio Grande do Sul.
p R (15%)bootstrapping p R (85%)bootstrapping
Cidade Estao 2,5% 97,5% 2,5% 97,5%
IRA 83881 91,34 106,08 230,60 290,90
SO LUIZ GONZAGA 83907 68,80 90,57 237,60 288,52
CRUZ ALTA 83912 52,86 89,60 236,40 292,82
PASSO FUNDO 83914 74,60 113,95 240,00 303,85
BOM JESUS 83919 63,40 89,41 191,85 243,82
URUGUAIANA 83927 44,60 68,90 182,60 245,34
SANTA MARIA 83936 47,76 82,31 217,30 253,60
CAXIAS DO SUL 83942 69,51 103,08 220,92 270,26
TORRES 83948 51,70 73,37 178,19 213,74
ENCRUZILHADAS DO SUL 83964 54,20 74,08 179,70 234,56
PORTO ALEGRE 83967 50,18 67,10 167,80 228,60
BAG 83980 48,62 67,20 177,89 224,33
RIO GRANDE 83995 39,31 54,40 144,90 182,60
SANTA VITRIA DO PALMAR 83997 27,72 49,75 133,36 166,10

Fig.2: Regime IC percentlico bootstrapping (referente Tab.2) da precipitao acumulada no Rio Grande do Sul.

REFERNCIAS BIBLIOGRFICAS
Dudewicz, E. J. and Mishra, S. N. (1988). Modern Mathematical Statistics. New York: John
Willey & Sons.
Efron, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of Statistics, 7, 1-26.
Efron, B., Tibshirani, R. J., (1993). An Introduction to the Bootstrap. New York: Chapman and
Hall.
Gibbs, W. J., Maher, J. V., (1967). Rainfall deciles as drought indicators. Bureau of Meteorology,
Bulletin 48, Commonwealth of Australia, Melbourne.

You might also like