Professional Documents
Culture Documents
13 de fevereiro de 2007
2
Sumário
1 Teoria da Probabilidade 7
1.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Classes e Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Probabilidade: Axiomas e Modelo Probabilístico . . . . . . . . . . . . . . . . . 12
1.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Independência de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Função Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Variáveis Aleatórias Discretas e Contínuas . . . . . . . . . . . . . . . . . . . . . 21
1.9 Mudança de Variável: Caso Univariado . . . . . . . . . . . . . . . . . . . . . . 23
1.10 Várias Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . 34
1.12 Mudança de Variável: Caso Multivariado . . . . . . . . . . . . . . . . . . . . . 37
2 Momentos 41
2.1 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Outros Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3 Conceitos de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4 Variância Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5.1 Melhor Previsor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5.2 Melhor Previsor Linear (BLP) . . . . . . . . . . . . . . . . . . . . . . . 55
3 Amostras Aleatórias 59
3.1 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.1 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3
4 SUMÁRIO
4 Teoria Assintótica 71
4.0.2 Convergência em Quase Certeza . . . . . . . . . . . . . . . . . . . . . . 73
4.0.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.0.4 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5 Estatísticas de Ordem 83
7 Estimação 91
7.0.1 Julgamento de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.0.2 Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 92
7.0.3 Propriedades do Estimador de Máxima Verossimilhança . . . . . . . . . 94
7.0.4 Estimação de um intervalo . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.1 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.1 Testes de Hipóteses: Simples versus Simples . . . . . . . . . . . . . . . . 103
7.2 Testes de Hipóteses: Simples versus Composto . . . . . . . . . . . . . . . . . . 105
7.3 Testes de Hipóteses: Composto versus Composto . . . . . . . . . . . . . . . . . 108
Parte I
5
Capítulo 1
Teoria da Probabilidade
Definição 1.1.1 (Espaço Amostral) Um espaço amostral (Ω) é o conjunto de todos os pos-
síveis resultados de um experimento.
Exemplos O experimento lançamento de um dado tem como espaço amostral {1, 2, 3, 4, 5, 6}.
O experimento sortear um habitante da cidade do Rio de Janeiro e medir seu peso em
quilogramas tem como um espaço amostral Ω = R. Contudo, este não é o único espaço amostral
possível para este experimento. É difícil imaginar que algum habitante do Rio de Janeiro (ou
do planeta Terra!) pese −10 quilogramas. Portanto, poderíamos definir o espaço amostral
deste experimento como o conjunto Ω = [0, +∞). Ainda assim, nosso espaço espaço amostral
contém valores que nunca iríamos observar ao realizar o experimento. Outra alternativa seria
definidir Ω = [ 13 , 103 ]. Já Ω = [0, 20] não é um espaço amostral, pois certamente existem
pessoas que pesam mais que 20 quilos.
O relevante, na definição espaço amostral, é que ele contenha todos os possíveis re-
sultados de um experimento. Para o experimento de lançamento de dados, um possível
espaço amostral é o conjunto {0, 1, 2, 3, 4, 5, 6, 7}. No caso do experimento de medir o peso de
um morador do Rio, seria difícil, senão impossível, chegar a um consenso acerca do valor máx-
imo e mínimo que poderíamos encontrar. Então, por convência, podemos adotar como espaço
amostral um conjunto que certamente contém todos os resultados possíveis do experimento,
como o conjunto dos números reais, mesmo que neste conjunto existam elementos que não são
possíveis.
7
8 CAPÍTULO 1. TEORIA DA PROBABILIDADE
• Distância entre o ponto escolhido e o ponto (0,0) é menor que 12 , representado por
½ ¾
2 2 2 1
A = (x, y) ∈ R : x + y ≤ ⊂ Ω.
4
B = {(x, y) ∈ Ω : x < y} ⊂ Ω.
Exemplos
Figura 1
1.1. ESPAÇO AMOSTRAL E EVENTOS 9
A teoria da probabilidade tem como objetivo assinalar números aos eventos. Estes números
são chamados de probabilidades. Uma pergunta: a quais eventos (sub-conjuntos do espaço
amostral) vamos atribuir probabilidade? Ora, por que não a todos os possíveis sub-conjuntos
de Ω? Deste modo a teoria seria a mais completa possível. O problema é, pelo incrível
de pareça há alguns sub-conjuntos de alguns Ωs aos quais não se pode assinalar números
de maneira consistente.1 Isto não ocorre quando Ω é finito ou contável, mas ocorre para
sub-conjunto de um tão simples quanto Ω = {x ∈ R : 0 ≤ x ≤ 1}. Por isto temos uma nova
definição:
Deixemos o pouco da discussão de quais eventos recebem a honra de ter uma probabilidade
assinalada para um pouco depois. Ou seja, já decidimos qual é conjunto de eventos aos quais
é assinalada probabilidade. Como é atrbuída esta probabilidade?
Para o caso em que Ω é um conjunto finito de elementos, uma maneira de atribuir proba-
bilidades a um evento A é por meio da definição clássica, ou frequentista, de probabilidade:
números de elementos de A
P (A) = .
número de elementos de Ω
Mas este método não funciona quando Ω = {x ∈ R : 0 ≤ x ≤ 1} e A = {w ∈ Ω : 0 ≤ w ≤
1
3 }. Neste caso, recorremos a definição geométrica:
comprimento de A
P (A) = .
comprimento de Ω
Perceba que não importa a unidade de medida do comprimento de Ω, desde que utilizemos
a mesma unidade para auferir o comprimento de A.
No caso em que Ω não é subconjunto de R, mas sim de R2 , a definição geométrica de
probabilidade nos é dada por:
área de A
P (A) = .
área de Ω
Agora vamos discutir (um pouco) como são construídos os conjuntos de eventos de Ω aos
quais é assinalada probabilidade.
1
Esses sub-conjuntos são chamados de não-mensuráveis. A compreensão da não-mensurabilidade depende
do Axioma da Escolha, e é tema de Teoria da Medida. No nosso curso não veremos nenhum deles e, para todos
os efeitos práticos, não importa muito que haja eventos que não podem ser medidos.
10 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Uma classe é como um clube. Para pertencer a ela há que obedecer certas regras. Considere
novamente o exemplo do lançamento do dado. Defina Acomo o clube mais inclusivo possível:
a classe de Ω que contém todos subconjuntos possíveis do espaço amostral,
Sendo o espaço amostral finito, a construção do conjunto que contém todos os subconjuntos
de Ω é fácil: simplesmente elencamos todos os possiveis sub-conjuntos de Ω (são 2k , sendo k
o número de elementos de Ω). Quando Ω é infinito porém enumerável ainda podemos (quase
por definição) “contar” todos os elementos. Não podemos escrever numa folha de papel os
conjuntos todos mas podemos visualizá-los de uma certa forma.
Quando o espaço amostral não é enumerável (e.g., Ω = {x ∈ R : 0 ≤ x ≤ 1}), a definição
de A não é imediata porque não se pode simplesmente elencar todos os possíveis sub-conjuntos
de Ω. Uma tentativa poderia ser
[ µ 1 1
¶
C= 1 − n , 1 − n+1
2 2
n∈ N
A1. Ω ∈ A.
A2. A ∈ A ⇒ Ac ∈ A.
A3. A ∈ A, B ∈ A ⇒ A ∪ B ∈ A.
Definição 1.2.2 (Álgebra) Seja Ω um conjunto não vazio. Uma classe A de subconjuntos
de Ω que satisfaça A1, A2 e A3 é chamada de Álgebra.
1.2. CLASSES E ÁLGEBRAS 11
Parece razoável, não? Começamos impondo que vamos atribuir um número ao conjunto
espaço amostral Ω, o que no fundo é uma normalização. Depois, impomos que, se podemos
atribuir probabilidade a um evento A, temos que conseguir a atribuir probabilidade ao evento
não A. Finalmente, impomos que, se somo capazes de assinalar probabilidade a dois eventos
A e B, podemos também dizer algo a respeito de A ou B.Como se decide o que é imposto
a priori? Do ponto de vista epistemológico2 , queremos impor o menos possível de forma
arbitrária, e produzir o máximo de coisas de parecem razoáveis. Vocês podem perguntar:
não seria trazoável impor que se podemos assinalar probabilidade ao evento A e ao evento B,
também somos capazes de atribuir probabilidade ao evento A e B? Claro que sim!!
A4. ∅ ∈ A
A5. A1 , . . . , An ∈ A ⇒ ∩ni=1 Ai ∈ A.
Ωc ∈ A ⇒ ∅ ∈ A.
Provaremos A5 por indução. Considere A1 , . . . , An ∈ A. Por A2, temos que Ac1 , . . . , Acn ∈ A.
Pela propriedade A3,
Ac1 ∪ Ac2 ∈ A.
Tomando como hipótese de indução que, para k < n, ∪ki=1 Aci ∈ A, mostraremos que
∪k+1 c
i=1 Ai ∈ A. Por A3,
Portanto, ∪ni=1 Aci ∈ A. Isto implica que (∪ni=1 Aci )c ∈ A. Finalmente, utilizando a regra de
De Morgan,
Exemplo Para Ω = [0, 1], A = {toda união finita de subintervalos de [0, 1]} é uma Álgebra.
+∞
[
0
A3 . A1 , A1 , . . . , An , . . . ∈ A ⇒ An ∈ A.
i=1
Se uma Álgebra A atende A1, A2 e A03 diz-se que A é uma σ−Álgebra. Como qualquer
união finita de conjuntos pode ser escrita como uma união infinita, isto é,
∞
[
An = A1 ∪ A2 . . . ∪ An ∪ ∅ . . . ∪ ∅ . . . ,
i=1
então toda σ−Álgebra é uma Álgebra. O contrário não é necessáriamente verdade. Tome
como exemplo Ω = [0, 1] e
A atende as propriedades A1 e A2, mas não atende A30 . Considere o conjunto dos racionais
rn em [0, 1]. rn ∈ A pois rn é finito. Todavia, ∪+∞
i=1 rn não pertence à A pois o conjunto dos
Para todo elemento A ∈ A vamos assinalar um único número real, P (A). Considere as
seguintes restrições sobre P (A).
1.3. PROBABILIDADE: AXIOMAS E MODELO PROBABILÍSTICO 13
AP 1. P (A) ≥ 0
AP 2. P (Ω) = 1
AP 3. Se A1 , . . . , An ∈ A tais que Ai ∩ Aj = ∅, ∀ i, j ≤ n, i 6= j
[ Xn
então P ( ni=1 Ai ) = P (Ai ) [Aditivdade Finita]
i=1
0
AP 3 Se A1 , . . . , An , . . . ∈ A tais que Ai ∩ Aj = ∅, ∀ i, j ≤ n, i 6= j
[ +∞
X
+∞
então P ( i=1 Ai ) = P (Ai ) [σ−Aditivdade]
i=1
Observação Uma sequência de conjuntos tal An+1 ⊂ An para todo n ∈ A decresce para o
T
vazio se +∞
i=1 An = ∅.
Figura 2
14 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Prova (⇒) Suponha que AP 30 seja verdade. Seja {An }n≥1 ∈ A uma sequência de conjuntos
que decresce para o vazio. Note que
[ [ +∞
[
A1 = (A1 − A2 ) (A2 − A3 ) . . . = (Ak − Ak+1 ).
k=1
Para todo o k ∈ N o conjunto (Ak − Ak+1 ) ∈ A é disjunto de (Ak+1 − Ak+2 ). Logo, por
AP 30 ,
+∞
X
P (A1 ) = P (Ak − Ak+1 )
k=1
n
X
= lim P (Ak − Ak+1 ) (1.1)
n→+∞
k=1
\
P (Ak − Ak+1 ) = P (Ak Ack+1 )
[
= 1 − P (Ack Ak+1 )
= 1 − [1 − P (Ak ) + P (Ak+1 )]
n
X
P (A1 ) = lim [P (Ak ) − P (Ak+1 )]
n→+∞
k=1
= lim [P (A1 ) − P (An+1 )]
n→+∞
lim P (An+1 ) = 0
n→+∞
P (A ∩ B)
P (A|B) = , ∀ A ∈ A.
P (B)
Figura 3
Definição 1.4.2 Deixamos para o leitor demonstrar que, dado que P é uma medida de prob-
abilidade, P (A|B) atende aos Axiomas de Kolmogorov (AP 1, AP 2, AP 30 ).
Prova Prova por indução. Como primeiro passo, demonstraremos o teorema para n = 3.
Sejam A1 , A2 e A3 ∈ A. Defina B = A1 ∩ A2 . Pela definição de probabilidade condicional,
P (A1 ∩ . . . ∩ Ak ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . . . P (Ak |A1 ∩ . . . ∩ Ak−1 ). (1.3)
= P (Ak+1 |A1 ∩ . . . ∩ Ak )P (Ak |A1 ∩ . . . ∩ Ak−1 )...P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 )
Teorema 1.4.2 (Bayes) Seja {Ai }i≥1 uma partição de Ω e considere B ∈ A, com P (B) > 0.
Então,
Exemplo Tome 3 moedas, duas honestas e uma com duas caras. Qual a probabilidade da
moeda ser de duas caras dado que observamos cara quando escolhemos, ao acaso, uma das
moedas?
Defina A1 como o evento a moeda é honesta, A2 a moeda é desonesta, C1 o evento observa-se
cara e C2 observa-se coroa. Pela regra de Bayes,
P (A2 ∩ C1 )
P (A2 |C1 ) =
P (C1 )
P (C1 |A2)P (A2 )
=
P (C1 |A2 )P (A2 ) + P (C1 |A1 )P (A1 )
1 × 13
=
1 × 13 + 12 × 23
1
=
2
18 CAPÍTULO 1. TEORIA DA PROBABILIDADE
1. A ⊥ B c .
2. Ac ⊥ B.
3. Ac ⊥ B c .
Prova Provaremos somente 1, deixando como exercício para o leitor a demonstração das
outras afirmações.
Para qualquer evento A podemos escrever
P (A) = P (A ∩ B) + P (A ∩ B c ) ⇒
P (A ∩ B c ) = P (A) − P (A ∩ B)
= P (A) (1 − P (B))
= P (A)P (B c ) ⇒
A ⊥ Bc
Exemplo Considere dois lançamento de uma moeda com lados 1 e 2. Sejam A o evento
ímpar no primeiro lançamento, B o evento ímpar no segundo lançamento e C o evento soma
dos resultados dos lançamentos é impar. Note que A ⊥ B e que
P (B ∩ C) = P (B)P (C)
∀ 1 ≤ ii ≤ i2 ≤ . . . ≤ im ≤ n e ∀ m ∈ {2, 3, . . . , n}.
Observação Note que, por definição, independência coletiva implica independência dois a
dois (se você não está convencido leia novamente as duas definições). Por outro lado,o último
exemplo mostra claramente que independência dois a dois não implica independência coletiva
Definição 1.6.1 (Variável Aleatória I) Uma variável aleatória X é uma função do espaço
amostral na reta real, isto é, X : Ω → R.
Exemplos Considere o seguinte experimento: lançar um dado duas vezes e observar a se-
quência de números. Seja ω um elemento de
Ω = {(1, 1); (1, 2), . . . , (1, 6), . . . , (6, 1), . . . , (6, 6)}.
Uma variável aleatória criada a partir de Ω é a soma dos resultados dos lançamentos. Desta
forma,
Já para o experimento selecionar um ponto no intervalo [0, 1], que tem como espaço
amostral Ω = [0, 1], uma variável aleatória é o quadrado do número sorteado. Neste caso,
X(ω) = ω2 .
Definição 1.6.2 (Variável Aleatória II) Uma variável aleatória X num espaço de proba-
bilidade (Ω, A, P ) é uma função real definida em Ω tal que, dado x ∈ R, X ≤ x é um evento
aleatório. Isto é,
A ≡ [ω ∈ Ω : X(ω) ≤ x] ⇒ A ∈ A.
As definições I e II são equivalentes. A definição I diz que ama variável aleatória é uma
transformação do espaço amostral da reta, ou seja uma função. Para tanto, esta função tem
que ser bem definida sob um certo critério. Este critério é o da definição II. Vamos à imagem
(o conjunto dos números reais) e escolhemos um conjunto bem definido, neste caso X ≤ x .
Agora nos perguntamos: quais os ω ∈ Ω que fazem com que X(ω) ≤ x seja verdade. Estes
elementos ω ∈ Ω formam um subconjunto de Ω. Aí nos perguntamos, este subconjunto faz
parte da álgebra de sub-conjuntos aos quais atribuímos probabilidade? Se a reposta for sim,
então a função é bem definida.3
Para cada variável aleatória, associa-se uma função distribuição cumulativa (fdc).
FX (x) = P [X ≤ x] ∀ x ∈ R.
Definição 1.8.1 (Variável Aleatória Discreta) Uma variável aleatória é discreta se toma
um número finito ou enumerável de valores, isto é, se existe um subconjunto finito ou enu-
merável {x1 , x2 , . . .} ∈ R tal que x(ω) ∈ {x1 , x2 , . . .} para qualquer ω ∈ Ω.
Z x
P rob[X ≤ x] ≡ FX (x) = f (t)dx ∀x ∈ R.
−∞
⎧
⎪
⎪ 0, se x < 0;
⎪
⎨
FX (x) = x, se x ∈ [0, 1];
⎪
⎪
⎪
⎩ 1, se x > 1.
A função
⎧
⎨ 1, se x ∈ [0, 1];
f (x) =
⎩ 0, se x > 1 ou x < 0.
Rx
é tal que FX (x) = −∞ f (t)dt para todo x ∈ R. Portanto, X é uma variável aleatória
absolutamente contínua.
22 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 4
© ª
Agora considere Y = min X, 12 , X ∼ U [0, 1]. Verifique que esta variável tem a seguinte
fdc:
⎧
⎪
⎪ 0, se y < 0;
⎪
⎨ £ ¢
FY (y) = y, se y ∈ 0, 12 ;
⎪
⎪
⎪
⎩ 1, se y ≥ 1 .
2
Figura 5
Seja X uma variável aletatória contínua, FX (x) a sua fdc e Y = Φ(X), Φ : R → R. Suponha
Φ continuamente diferenciável. Queremos encontrar, a partir da fdp de X (f (x)), a f dp de Y
(g(y)).
¯ −1 ¯
¯ dΦ ¯
g(y) = f (Φ−1
(y)) ¯¯ ¯,
dy ¯
¯ −1 ¯
¯ ¯
onde ¯ dΦdy ¯ é o jacobiano da transformação.
FY (y) = P rob[Y ≥ y]
= P rob[Φ(x) ≥ y]
= FX (Φ−1 (y)).
dFY (y)
g(y) =
dy
dFX (Φ−1 (y))
=
dy
dΦ−1
= f (Φ−1 (y)) .
dy
FY (y) = P rob[Y ≤ y]
= P rob[Φ(X) ≤ y]
= 1 − FX (Φ−1 (y)).
Assim,
dFY (y)
g(y) =
dy
dFX (Φ−1 (y))
= −
dy
µ ¶
dΦ−1
= f (Φ−1 (y)) − .
dy
Colorário Seja X uma variável contínua que possui densidade de probabilidade f (x). Con-
sidere a variável aleatória Y = a + bX, b > 0. Então Y possui uma densidade (i.e, Y é
¡ ¢
contínua) e g(y) = 1b f y−a
b .
1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 25
Prova A forma funcional de g(y) é aplicação direta do teorema anterior. Vamos provar que
Y possui densidade. Suponha que Φ é estritamente crescente. Então:
FY (y) = P rob[Y ≤ y]
= P rob[Φ(x) ≤ y]
= FX (Φ−1 (y))
Z Φ−1 (y)
= f (x)dx
−∞
Z y
0
= f (Φ−1 (t))Φ−1 (t)dt.
−∞
Exemplos Considere a variável aleatória X ∼ exp(λ = 1). X tem fdp dada por:
⎧
⎨ e−x , se x > 0;
f (x) = .
⎩ 0, caso contrário.
⎧
⎨ 1 √
√
2 y exp(− y), se y > 0;
g(y) =
⎩ 0, caso contrário.
4
Lembre-se da fórmula de mudança de variável. Seja g (·) uma função diferenciável com derivada não nula
no intervalo [t1 , t2 ]. Seja f (·) uma função e F (·) sua primitiva. Então:
Z g(t2 )
f (x) dx =
g(t1 )
Z t2
F (g (t2 )) − F (g (t1 )) = h (y) dy
t1
onde h (·) = F (g (·)) g 0 (·). Usa-se o Teorema Fundamental do Cálculo duas vezes.
26 CAPÍTULO 1. TEORIA DA PROBABILIDADE
FY (y) = P rob[Y ≤ y]
= P rob[X 2 ≤ y]
√
= P rob[X ≤ y]
Z √y
= exp(−x)dx
0
√
y
= − exp(−x)|0
√
= − exp(− y) + 1.
⎧
⎨ 1
2, se −1 < x < 1;
f (x) =
⎩ 0, caso contrário.
e defina Y como
⎧
⎨ X, se X ≤ 0.
Y =
⎩ X 2 , se X > 0.
Perceba que neste caso a função que define Y não é monótona. Logo, não podemos aplicar
o teorema 2.1.
Para calcular FY (y) faça,
FY (y) = P rob[Y ≤ y]
√
= P rob[− y ≤ X ≤ y]
Z y
1
= √ 2
dx
− y
√
y+ y
= .
2
Portanto,
⎧
⎪
⎪ 0, se y ≤ 0;
⎪
⎨ √
y+ y
FY (y) = 2 , se y ∈ (0, 1);
⎪
⎪
⎪
⎩ 1, se y > 1.
Derivando a função acima em relação a y obtemos a fdp:
⎧
⎨ 1
+ 1
4 y, se 0 ≤ y ≤ 1;
√
2
g(y) =
⎩ 0, caso contrário.
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 27
Suponha que observamos várias características (cada uma delas uma variável aleatória) das
pessoas. Entre elas: salário, raça, idade, número de anos de escolaridade,etc. Nesta seção,
buscaremos respostas para os seguintes tipos de pergunta:
• (Distribuição Condicional) Dado que uma pessoa é branca e tem entre 40 e 50 anos, qual
é a probabilidade de ganhar menos de 500?
Definição 1.10.1 (Vetor Aleatório) Um vetor aleatório é uma função que leva de uma
σ−Álgebra A para um vetor do Rn .
Exemplo Leve em conta o seguinte experimento: jogar dois dados aleatoriamente e observar
a soma dos resultados e o valor absoluto da diferença. O espaço de probabilidades (Ω, A, P ) é
dado por:
⎛ ⎞ ⎛ ⎞
X1 (w1 , w2 ) w1 + w2
⎝ ⎠=⎝ ⎠.
X2 (w1 , w2 ) |w1 − w2 |
1
P rob[X1 = 5, X2 = 3] = P rob[(4, 1), (1, 4)] =
18
e
28 CAPÍTULO 1. TEORIA DA PROBABILIDADE
1
P rob[X1 = 5] = P rob[(4, 1), (1, 4), (2, 3), (3, 2)] = .
9
X2
0 1 2 3 4 5 P (X2 )
1 1
2 36 36
1 1
3 18 18
1 1 3
4 36 18 36
1 1 2
5 18 18 18
1 1 1 5
6 36 18 18 36
1 1 1 3
X1 7 18 18 18 18
1 1 1 5
8 36 18 18 36
1 1 2
9 18 18 18
1 1 3
10 36 18 36
1 1
11 18 18
1 1
12 36 36
1 5 4 3 2 1
P (X2 ) 6 18 18 18 18 18 1
X X X X X
PXi (xi ) = ... ... PX1 ,...,Xn (X1 = x1 , . . . , Xn = xn ).
x1 ∈ R x2 ∈ R xi−1 ∈ R xi+1 ∈ R xn ∈ R
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 29
Definição 1.10.4 (Vetor Aleatório Contínuo) Um vetor aleatório (X1 , . . . , Xn ) é dito (ab-
solutamente) contínuo se existe uma função f : Rn → R+ tal que para qualquer subconjunto5
A ∈ Rn
Z Z Z
P rob[A] = . . . f (x1 , . . . , xn )dx1 . . . dxn .
A
| {z }
n vezes
Z x1 Z x2 Z Z
P rob(X1 ≤ x1 , X2 ≤ x2 ) = f (x1 , x2 )dx2 dx1 = f (x1 , x2 )dx1 dx2 ,
−∞ −∞ A
em que A = {(x1 , x2 ) ∈ R2 : X1 ≤ x1 , X2 ≤ x2 }.
Z +∞ Z +∞
fXi (xi ) = ... fX1 ,...,Xn (x1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn .
−∞ −∞
| {z }
n−1 vezes
Z xn Z x1
FX1 ,...,Xn (x1 , . . . , xn ) = ... fX1 ...Xn (x1 , . . . , xn )dx1 . . . dxn .
−∞ −∞
⎧
⎨ 6xy 2 , se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1;
f (x, y) =
⎩ 0, caso contrário.
Graficamente,
5
Na verdade é qualquer sub-conjunto mensurável mas não quero entrar nesta discussão...
30 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 6
Note que o ponto B tem probabilidade maior que A, pois a função densidade é crescente.
A probabilidade, neste caso, não é dada somente pela área, mas também pelo volume.
A fdp marginal de X é:
Z 1
f (x) = 6xy 2 dy
0
= 2x, ∀ 0 ≤ x ≤ 1.
Z 1Z 1
P rob[Y > X] = 6xy 2 dydx.
p x
Z 1 Z 1−x
P rob[X + Y < 1] = 6xy 2 dydx.
0 0
Z z Z z−x
GZ (z) = 6xy 2 dydx.
0 0
Para z > 1,
Z z−1 Z 1 Z 1 Z z−x
GZ (z) = 6xy 2 dydx + 6xy2 dydx.
0 0 z−1 0
Definição 1.10.7 (Distribuição condicional: caso discreto) Seja PX,Y (x, y) a função fre-
quência. Para cada x tal que PX (x) > 0, a função frequência de Y dado x é dada por:
PX,Y (x, y)
PY (y|x) = .
PX (x)
Definição 1.10.8 (Distribuição condicional: caso contínuo) Suponha que (X, Y ) tenha
uma densidade conjunta f (x, y). Seja S um evento aleatório tal que P (S) > 0. Então, a
densidade condicional conjunta de (X, Y ) dado que (X, Y ) ∈ S é
⎧
⎨ f (x,y)
P (S) , se (x, y) ∈ S;
f (x, y|S) =
⎩ 0, caso contrário.
Figura 7
Suponha também que P ((X, Y ) ∈ S) > 0. A densidade condicional de X dado S, denotada
f (x|S), é definida por:
R g(x)
h(x) f (x, y)dy
f (x|S) = .
P ((X, Y ) ∈ S)
Caso h(x) = y1 e g(x) = y2 , sendo y2 > y1 temos,
Z +∞ Z y2
P (S) = f (x, y)dydx
−∞ y1
R y2
y f (x, y)dy
f (x|y1 ≤ Y ≤ y2 ) = R +∞ R1 y2
−∞ y1 f (x, y)dydx
R x2 hR y2 i
x1 y1 f (x, y)dy dx
P rob[x1 < X < x2 |y1 < Y < y2 ] = R +∞ R y2 .
−∞ y1 f (x, y)dydx
Z x2
P rob[x1 < X < x2 |Y = a + bX] = f (x|Y = a + bX)dx.
x1
f (x, a + bx)
f (x|Y = a + bX) = R +∞ .
−∞ f (x, a + bx)dx
Prova
P rob[x1 < X < x2 |Y = a + bX] = lim P rob[x1 < X < x2 |a + bX < Y < a + ∆a + bX]
∆a→0
R x R a+∆a+bx
R x2 R a+∆a+bx 2
x1 a+bx f (x,y)dydx
f (x, y)dydx
= lim R x1 Ra+bx = lim R +∞ R a+∆a+bx
∆a
∆a→0 +∞ a+∆a+bx f (x, y)dydx ∆a→0 −∞ a+bx f (x,y)dydx
−∞ a+bx
∆a
Sob condições gerais de regularidade6 :
R x2 R a+∆a+bx Z Ã R a+∆a+bx !
f (x, y)dydx x2 f (x, y)dy
x1 a+bx a+bx
lim = lim dx (1.5)
∆a→0 ∆a x1 ∆a→0 ∆a
Tratando x como uma constante, podemos escrever h (y; x) = f (x, y). Seja H (y; x) a
primitiva de h (y; x). Usando o teorema fundamental do cálculo e a definição de derivada:
R a+∆a+bx
a+bx f (x, y)dy H (a + ∆a + bx) − H (a + bx)
lim = lim
∆a→0 ∆a ∆a→0
¯ ∆a
dH (y; x) ¯¯
= ¯ = f (x, a + bx)
dy y=a+bx
Substituindo em (1.5), temos
R x2
x1 f (x, a + bx)dx
P rob[x1 < X < x2 |Y = a + bx] = R +∞
−∞ f (x, a + bx)dx
Z x2 Ã !
f (x, a + bx)
= R +∞ dx
x1 −∞ f (x, a + bx)dx
Z x2
= f (x|Y = a + bX)dx.
x1
6
São as condições que nos permitem trocar as operações limite e integração ou, na realidade, trocar a ordem
dos limites. Mais sobre isto depois...
34 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Onde:
f (x, a + bx)
f (x|Y = a + bX) = R +∞
−∞ f (x, a + bx)dx
¤
f (x, y) f (x, y)
f (x|y) = R +∞ =
f (y)
−∞ f (x, y) dx
e aparece o resultado que vocês provavelmente já conhecem.
Observação Suponha que seja possível escrever fXY (x, y) = h(x)g(y). A priori, h(x) e g(y)
são funções quaisquer (não necessariamente as densidades de X e Y ). Se o suporte de (X, Y )
for um retângulo com os lados paralelos aos eixos e podemos escrever fXY (x, y) = h(x)g(y),
temos que X e Y são funções independenes.
Exemplo Tome a densidade f (x, y) = 1 para qualquer 0 < x < 1 e 0 < y < 1. Defina
h(x) = 1 e g(y) = 1. Então, f (x, y) = h(x)g(y) e, pela observação acima, X e Y são
independentes.
Exemplos Seja f (x, y) = 24xy uma função densidade definida no suporte 0 < x < 1 e
0 < y < 1 − x.
£ ¤
Qual é o valor de P rob 0 < Y < 14 |X = 12 ?
Primeiramente, calculamos a densidade marginal de X.
Z 1−x
fX (x) = f (x, y)dy = 12x(1 − x)2 ∀ 0 < x < 1
0
fXY (x, y)
fY |X (y|x) =
fX (x)
24xy
=
12x(1 − x)2
2y
= ∀ 0 < y < 1 − x.
(1 − x)2
Portanto,
µ ¶
1
fY |X y|X = = 8y,
2
e,
∙ ¸ Z 1
1 1 4
P rob 0 < Y < |X = = 8ydy
4 2 0
1
= .
4
1
Agora, seja f (x, y) = 2 uma densidade que tem como suporte o retângulo de vértices
(1, 0), (0, 1), (−1, 0), (0, −1).
36 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 8
⎧ R
⎪
⎪
1−y 1
dx, se 0 < y < 1;
⎪
⎨ R−1+y 2
1+y 1
fY (y) = −1−y 2 , se −1 < y < 0.
⎪
⎪
⎪
⎩ 0, caso contrário.
Mais um exemplo: tome a densidade f (x, y) = 1 definida no suporte 0 < x < 1 e 0 < y < 1.
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 37
Figura 9
Neste caso,
R g(x)=x
h(x)=0 1dy
f (x|X > Y ) = R 1 R g(x)=x
0 h(x)=0 1dydx
R1
1dy
f (x|X < Y ) = R 1 Rx 1
0 x dydx
Sejam (X, Y ) um vetor aleatório com densidade fXY (x, y) e T (X, Y ) : R2 → R2 , tal que
⎛ ⎞ ⎛ ⎞
Z g(X, Y )
⎝ ⎠=⎝ ⎠ = T (X, Y ).
W h(X, Y )
Suponha g e f funções monótonas e diferenciáveis. Então,
¯ ¯
¯ ∂g −1 ∂g −1 ¯
¯ ¯
fZW (z, w) = fXY (g (z, w), h (z, w)) det ¯¯
−1 −1 ∂z ∂w ¯
¯
¯ ∂h−1 ∂h−1 ¯
∂z ∂w
38 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Este método para efetuar a mudança de variável é conhecido como método jacobiano.
Exemplos Tome f (x, y) = 1 com suporte 0 < x < 1 e 0 < y < 1. Defina Z = max(X, Y )
Vamos aplicar o método direto (a partir das definições). Note que o evento max(X, Y ) < z
é equivalente ao evento X < z e Y < z.
= P rob[max(X, Y ) < z]
= z2
Portanto,
Y
Defina agora W = X.
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 39
Figrua 10
Computando a densidade de W pelo método direto,
Portanto,
⎧
⎨ 1
2z 2 , se z > 1;
fZ (z) =
⎩ 1
2, se 0 < z < 1.
Seja fX1 X2 (x1 , x2 ), definida no quadrado unitário e, considere o vetor:
⎛ ⎞ ⎛ ⎞⎛ ⎞
Y1 1 1 X1
⎝ ⎠=⎝ ⎠⎝ ⎠.
Y2 1 −1 X2
Deixamos para o leito encontrar a fdc do vetor (Y1 , Y2 ). Utilize o método jacobiano e o
método direto. Qual método é o mais conveniente?
40 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Capítulo 2
Momentos
2.1 Esperança
Definição 2.1.1 (Esperança) Seja X uma variável aleatória contínua (discreta) e f (x) sua
densidade (função probabilidade). O valor esperado da variável aleatória g(X), que denotamos
E[g(x)], é
Z +∞
g(x)f (x)dx se g(X) é absolutamente contínua e
−∞
X
g(x)P rob[X = x] se g(X) é discreta.
x∈χ
caso a soma ou integral existam. Se E[|g(X)|] = +∞, então dizemos que E[g(X)] não
existe. χ é o conjunto (finito ou contável) dos valores de que recebem probabilidade positiva no
caso discreto.
1 −x
f (x) = e λ , se x > 0, λ > 0.
λ
Z ∞
E[X] = xf (x)dx
−∞
Z +∞
1 x
= x e− λ dx
0 λ
¯ Z +∞
x ¯+∞ x
= −xe− λ ¯ − e− λ dx
0 0
¯
x ¯+∞
−λ
= −λe ¯
0
= λ.
41
42 CAPÍTULO 2. MOMENTOS
A seguir, computaremos a esperança de uma variável discreta. Seja X ∼ B(n, p), isto é,
⎛ ⎞
n
P [X = x] = ⎝ ⎠ px (1 − p)n−x .
x
⎛ ⎞
n
X n
E[X] = x⎝ ⎠ px (1 − p)n−x
x=0 x
n
X n!
= x px (1 − p)n−x
x=1
x!(n − x)!
n
X n(n − 1)!
= px (1 − p)n−x
x=1
(x − 1)!(n − x)!
Suponha que um pesquisador esteja interessado em fazer previsões a cerca do valor de uma
variável aleatória X. Seja x a realização desta variável e b o "chute"do pesquisador. Um
dos possíveis critérios para a formulação deste chute é a minização da esperança do erro
quadráticos médio, isto é,
Note que (E[X] − b)E[(X − E[X])] = (E[X] − b)(E [X] − E[X]) = 0. (E[X] − b) saiu para
fora do operador esperança porque é um número fixo. Portanto:
O melhor que podemos fazer é atingir o valor 0 para a função objetivo. Escolhendo b =
E[X] alcançamos 0. Dessa forma:
Z +∞
EXY = EXY [Φ(x, y)] = Φ(x, y)f (x, y)dxdy.
−∞
Definição 2.2.1 (Momentos) Para cada número natural n, o enésimo momento não cen-
trado (centrado) de X, denotado μ0n (μn ) é definido como:
h i
V ar[X] = E (X − E [X])2 = E[X 2 ] − E[X]2
V ar[aX + b] = a2 V ar[X], ∀ a, b ∈ R
Cov(X, Y )
ρ(X, Y ) = p .
V ar[X]V ar[Y ]
Cov(X,Y )
Em particular, faça λ = V ar[Y ] , obtendo:
Cov(X, Y )2 Cov(X, Y )2
V ar[X] − 2 + V ar[Y ] ≥ 0⇒
V ar[Y ] V ar[Y ]2
Cov(X, Y )2
V ar[X] − ≥ 0⇒
V ar[Y ]
V ar[Y ] Cov(X, Y )2
≥ ⇒
V ar[Y ] V ar[X]V ar[Y ]
ρ(X, Y )2 ≤ 1.
Z +∞ Z +∞
EXY [g(X)h(Y )] = g(x)h(y)f (x, y)dxdy
−∞ −∞
Z +∞ Z +∞
independência
= g(x)h(y)fX (x)fY (y)dxdy
−∞ −∞
Z +∞ ∙ Z +∞ ¸
= g(x) h(y)fY (y)dy fX (x)dx
−∞ −∞
Z +∞
= EY [h(Y )]fX (x)dx
−∞
Z +∞
= EY [h(Y )] E[g(Y )]fX (x)dx
−∞
= EX [g(X)]EY [h(Y )].
Definição 2.3.1 Duas variáveis aleatórias X e Y são ditas linearmente independentes (ou
ortogonais) se Cov(X, Y ) = 0.
Cov (X, Y ) ; X ⊥ Y f (x, y) = 1 é uma densidade no suporte −1 < x < 0, 0 < y < −x,
0 < x < 1 e 0 < y < x.
46 CAPÍTULO 2. MOMENTOS
Figura 11
Claramente, X e Y não são independentes (é possível aprender algo sobre Y quando fixamos
X). Contudo,
E[X] = 0
Z 0 Z x Z 1Z x
E[XY ] = xydydx + xydydx
−1 0 0 0
Z 0 Z 1
x3 x3
= dx + dx
−1 2 0 2
1 1
= − +
8 8
= 0
Logo, Cov(X, Y ) = 0.
Z
E[g(Y )|X = x] = g(y)f (y|x)dy.
A
2.3. CONCEITOS DE INDEPENDÊNCIA 47
Teorema 2.3.2 (Lei das Expectativas Iteradas) Seja Z = Φ(X, Y ) uma variável aleatória.
Então,
Prova
Z +∞ Z +∞
E[Φ(X, Y )] = Φ(X, Y )f (x, y)dydx
−∞ −∞
Z +∞ Z +∞
= Φ(X, Y )f (y|x)f (x)dydx
−∞ −∞
Z +∞ ∙Z +∞ ¸
= Φ(X, Y )f (y|x)dy f (x)dx
−∞ −∞
Z +∞
= EY [Φ(X, Y )|X = x]f (x)dx
−∞
= EX [EY [Φ(X, Y )|X = x].
1
Exemplo Considere X ∈ {0, 1} com P rob[X = 1] = 2 e Y tal que
f (y|X = 1) ∼ U [1, 2]
f (y|X = 0) ∼ U [0, 1]
1
Como E[y|X = 0] = 2 e E[Y |X = 1] = 32 , pela lei das expectativas iteradas,
1 1
E[Y ] = E[Y |X = 0] + E[Y |X = 1] = 1.
2 2
EW [W ] = EW [W |S = 4] Pr (S = 4) + ES [S|E = 8] Pr (E = 8)
= EE [S|E]
48 CAPÍTULO 2. MOMENTOS
Z +∞
EY [Y |X = x] = fY (y|x)dy
−∞
Z +∞
= yfY (y)dy
−∞
= E[Y ].
Teorema 2.3.4 (Independência em Média II) Se duas variáveis aleatórias são indepen-
dentes em média, então também são linearmente independentes.
Prova Suponha que X e Y são independentes em média. Isso implica que EY [Y |X] = E[Y ].
Usando a lei das expectativas iteradas,
= EX [XEY [Y |X]]
= EX [X]EY [Y ]
Deve-se ter atenção ao aplicar os teoremas acimas. Vimos que independência implica
em independência em média que, por sua vez, implica em indenpendência linear. As
recíprocas não são verdadeiras, isto é, independência linear não implica em independência em
média, esta última não sendo sinônimo de independência. Dois exemplos ajudam:
Figura 12
As distribuições de condicionais são (como fica claro pela figura 13):
50 CAPÍTULO 2. MOMENTOS
⎧
⎨ U [−1 − x, 1 + x] , se −1 ≤ x ≥ 0
Y |X = x ∼
⎩ U [−1 + x, 1 − x] , se 0 ≤ x ≥ 1
⎧
⎨ U [−1 − y, 1 + y] , se −1 ≤ y ≤ 0
X|Y = y ∼
⎩ U [−1 + y, 1 − y] , se 0 ≤ y ≤ 1
Figura 13
Portanto
⎧
⎨ −1−x+1+x
= 0,se −1 ≤ x ≥ 0
2
E [Y |X = x] = = E [Y ] ∀x
⎩ −1+x+1−x
= 0,se 0 ≤ x ≥ 1
2
⎧
⎨ −1−y+1+y
= 0,se −1 ≤ y ≥ 0
2
E [X|Y = y] = = E [X] ∀y
⎩ −1+y+1−y
= 0,se 0 ≤ y ≥ 1
2
⎧
⎨ ((−1−x)−(1+x))2
12 ,se −1 ≤ x ≥ 0
V AR [Y |X = x] = 2
⎩ ((1−x)−(−1+x))
,se 0≤x≥1
12
Em particular, temos
Prova
= EY [Y 2 |X] − EY [Y |X 2 ].
EX (V arY (Φ(X, Y )|X)) = EX [EY [Φ(X, Y )2 |X]] − EX [(EY [Φ(X, Y )|X])2 ] (2.2)
£ ¤
= EXY Φ(X, Y )2 − EX [(EY [Φ(X, Y )|X])2 ] (2.3)
onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no primeiro
termo.
Note que EY [Φ(X, Y )|X] nada mais é que uma função da variável aletória X. Usando a
definição de variância, sabemos que
V arX (EY [Φ(X, Y )|X]) = EX [(EY [Φ(X, Y )|X])2 ] − (EX [EY [Φ(X, Y )|X]])2 (2.4)
onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no segundo
termo.
Somando (1.4) e (1.5),
Figura 14
Agora note a diferença da variação de W quando o segundo termo é igual a zero, i.e.
V arS [EW [W |S]].
1
Há outras características da distribuição que são normalmente estudadas, como o famoso índice de Gini.
54 CAPÍTULO 2. MOMENTOS
Figura 15
2.5 Previsão
Vimos anteriormente que fixado uma variável aleatória X, o melhor previsor de X quando
minimizamos a esperança do erro quadrático de previsão é a sua esperança. Suponha agora
que um pesquisador esteja interessado em estudar um vetor aleatório (X, Y ). Ele observa o
comportamento de X e deseja fazer previsões sobre a realização de Y . Seja h(x) a função que
descreve a regra de "chute"para Y dado os valores de X observados. Define-se erro quadrático
de previsão como (y − h(x))2 . Qual é o melhor previsor de Y dado X (h(x)), sob o critério de
minimização do erro quadrático médio de previsão?
min EXY [(Y − h(X))2 ] ≡ min EXY [(Y − EY [Y |X] + EY [Y |X] − h(X))2 ]
h(X) h(X)
Note que o primeiro termo da função objetivo acima não depende de h(X). Portanto,
podemos reescrever o programa como
2.5. PREVISÃO 55
min 2EXY [(Y − EY [Y |X])(EY [Y |X] − h(X))] + EXY [(EY [Y |X] − h(X))2 ]
h(X)
= min 2[EXY [Y ] − EXY [EY [Y |X]]]EXY (EY [Y |X] − h(X)) + EXY [(EY [Y |X] − h(X))2 ]
h(X)
= min 2[EXY [Y ] − EXY [Y ]]EXY (EY [Y |X] − h(X)) + EXY [(EY [Y |X] − h(X))2 ]
h(X)
A função objetivo é não negativa e atinge o valor zero somente se h(X) = EY [Y |X].
Portanto,
Deixamos para o leito provar que o erro quadrático médio de previsão é igual a EY [Y 2 ] −
EX [EY [Y |X]2 ]. (Dica: utilize a lei da decomposição da variância e a lei das expectativas
iteradas)
Suponha agora que queremos encontrar o melhor previsor de Y dado X, ainda sob o critério de
minimização do erro quadrático médio de previsão, mas nos restringimos a previsores lineares.
Nosso problema passa a ser
−2E[(Y − α∗ − β ∗ X)] = 0
−2βE[(Y − α∗ − β ∗ X)X] = 0
Cov(X, Y )
β∗ =
V ar(X)
α∗ = E[Y ] − β ∗ E[X].
U = Y − Ŷ .
= E[Y ] − α∗ − β ∗ E[X]
= 0.
Além disso, uma propriedade importante de Ŷ é que ele é não correlacionado com o resíduo.
Cov(Ŷ , U ) = Cov(α∗ + β ∗ X, U )
= β ∗ Cov(X, U )
= β ∗ (E[XU ] − E[X]E[U])
Perceba que EXU [XU ] = 0 por construção e que E[X]E[U ] = 0, pois o resíduo tem
esperança nula. Portanto,
Cov(Ŷ , U ) = 0.
V ar[Y ] = V ar[Ŷ + U ]
= V ar[Ŷ ] + V ar[U ] ⇒
= V ar[Y ] − β ∗2 V ar[X]
Cov(X, Y )2
= V ar[Y ] −
V ar[X]
Cov(X, Y )2
= V ar[Y ] − V ar[Y ]
V ar[X]V ar[Y ]
= V ar[Y ] − ρ2 V ar[Y ]
= (1 − ρ2 )V ar[Y ].
58 CAPÍTULO 2. MOMENTOS
Capítulo 3
Amostras Aleatórias
59
60 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
trabalhar destas mulheres depende de seu custo de oportunidade (salário que ganhariam se
“trabalhasse”) contra custo de adquirir os bens domésticos (lavagem de roupa, comida, etc) no
mercado (lavanderia, restaurante,etc). Dentre esse grupo de mulheres, somente aquelas com
alta habilidade (ou com muita motivação) vão ir ao mercado de trabalho. As observações das
mulheres do primeiro grupo não são distribuídas da mesma forma que as observações vindas do
segundo grupo. Em particular, o pesquisador encentrará que as mães solteiras (e os homens)
são muito menos competentes, esforçadas ou habilidosas que as mulheres casadas, quando na
realidade não são. Foi violado o segundo i, retiradas das mesma distribuição (observações
identicamente distribuídas)..
O exemplo mais trivial de estatística é a média amostral. Outros exemplos são a variância
amostral, a observação de menor valor, a obsevação de maior valor, mediana etc.
Pn Pn
Teorema 3.0.1 mina i=1 (xi − a)2 = i=1 (xi − x)2 .
Prova
n
X n
X
2
min (xi − a) ≡ min (xi − x + x − a)2
a a
i=1 i=1
n
X n
X n
X
2
≡ min (xi − x) + 2 (xi − x)(x − a) + (x − a)2
a
i=1 i=1 i=1
n
X n
X
≡ min 2(x − a) (xi − x) + (x − a)2 .
a
i=1 i=1
Note que
n
X n
X Pn
xi
(xi − x) = xi − n i=1 = 0.
n
i=1 i=1
Logo,
n
X n
X
min (xi − a)2 ≡ min (x − a)2 .
a a
i=1 i=1
3.1. DISTRIBUIÇÕES AMOSTRAIS 61
O que resulta em
n
X
x = arg min (xi − a)2 .
a
i=1
¤
Pn Pn
Colorário i=1 (xi − x)2 = 2
i=1 xi − nx2 .
n
X n
X
(xi − x)2 = (xi − a + a − x)2
i=1 i=1
n
X n
X n
X
= (xi − a)2 + 2 (xi − a)(x − a) + (a − x)2
i=1 i=1 i=1
n
X n
X
2
= (xi − a) − (a − x)2
i=1 i=1
1 Pn
Lema Seja T = n i=1 g(Xi ) uma estatística da amostra.
E[T ] = E[g(Xi )]
V ar[g(Xi )]
V ar[T ] =
n
Prova
Xn
E[T ] = E[ g(Xi )]
i=1
n
X
= E[g(Xi )]
i=1
= E[g(Xi )]
62 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
n
1X
V ar[T ] = V ar[ g(Xi )]
n
i=1
⎛ ⎞
Xn n X
X
1 ⎝
= V ar[g(Xi )] + Cov(g(Xi ), g(Xj )⎠
n2
i=1 i=1 j6=i
V ar[g(Xi )]
V ar[T ] =
n
¤
Teorema 3.1.1 Considere uma amostra aleatória retirada de uma população com média μ e
variância σ 2 . As seguintes afirmações são verdadeiras:
1. E[X] = μ.
σ2
2. V ar[X] = n.
Pn 2
i=1 (xi −x)
3. Seja S 2 = (n−1) . Então, E[S 2 ] = σ 2 .
Prova
1.
n
1X
E[X] = E[ xi ]
n
i=1
n
1X
= E[Xi ]
n
i=1
nμ
=
n
= μ.
2.
n
" #
1X
V ar[X] = V ar xi
n
i=1
" n #
1 X
= V ar xi
n2
i=1
nσ 2
=
n2
σ2
= .
n
3.1. DISTRIBUIÇÕES AMOSTRAIS 63
3.
Xn
2 1
E[S ] = E[ x2i − nx2 ]
(n − 1)
i=1
1
= (n(σ 2 + μ2 ) − nE[x2 ]).
(n − 1)
Note que,
" n #
2 1 X
2
E[X ] = E ( Xi )
n2
i=1
n
X n X
X
= E[Xi2 ] + E[Xi Xj ]
i=1 i=1 j6=i
1 ¡ ¢
= 2
n(σ 2 + μ2 ) + n(n − 1)μ2
¡n 2 ¢
σ + μ2 ) + (n − 1)μ2
= .
n
Portanto,
1 ¡ ¢
E[S 2 ] = (n(σ 2 + μ2 ) − (σ 2 + μ) + (n − 1)μ2 )
(n − 1)
(n − 1) 2
= σ
(n − 1)
= σ2 .
Teorema 3.1.2 Ao retirar uma amostra aleatória de uma distribuição normal com média μ
e variância σ 2 ,
³ 2
´
1. X ∼ N μ, σn .
2. X e S 2 são independentes.
Prova
64 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
( "µ ¶ µ ¶ #)
1 1 x − μX 2 y − μY 2 (y − μY )(x − μX )
f (x, y) = p exp − + − 2ρ
2πσ X σ Y 1 − ρ2 2(1 − ρ2 ) σX σY σY σX
(a) X ∼ N (μX , σ 2X ),
(c) Cov(X, Y ) = ρσ X σ Y .
Prova Defina
½ µ ¶¾
1 1 σY
f1 (x, y) = √ p exp − 2 y − μY + ρ (x − μX )
2πσ Y 1 − ρ2 2σ Y (1 − ρ2 ) σX
½ ¾
1 1 2
f2 (x) = √ exp − 2 (x − μX )
2πσ X 2σ X
Z +∞
f (x) = f (x, y)dy
−∞
Z +∞
= f2 (x)f1 (x, y)dy
−∞
Z +∞
= f2 (x) f1 (x, y)dy
−∞
3.1. DISTRIBUIÇÕES AMOSTRAIS 65
R +∞
Como f1 (x, y) é uma densidade, −∞ f1 (x, y)dy = 1. Portanto, f (x) = f2 (x), que
é justamente a densidade de uma distribuição normal com média μX e variância σ 2X ,
provando (a).
Além disso,
= EX [XEY [Y |X]]
σY
= EX [X(μy + ρ (x − μX ))]
σX
σY σY 2
= μX μY + ρ E[X 2 ] − ρ μ
σX σX X
= μX μY + ρσ Y σ X .
Assim,
= μX μY + ρσ Y σ X − μX μY
= ρσ Y σ X ,
provando (c).
Deixamos para o leitor provar (d) (Dica: em f (x, y) definido acima, faça ρ = 0 e verifique
que é possível escrevê-la como um produto de uma função de x e outra de y que são
densidades de distribuições normais). ¤
Primeiramente,
66 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
Z +∞
g(z) = f (z − αx|x)f (x) dx
−∞
Z ( µ ¶2 )
+∞
1 1 σY
= √ p exp − 2 z − αx − (μy + ρ (x − μX )) f (x)dx.
+∞ 2πσ Y 1 − ρ2 2σ Y (1 − ρ2 ) σX
Z +∞
1
g(z) = √ p (3.1)
+∞ 2πσ Y 1 − ρ2
( µ µ ¶¶2 )
1 σY
= exp − 2 z − αμX − μY − (x − μX ) α + ρ f (x)dx
2σ Y (1 − ρ2 ) σX
σ 2Z = α2 σ 2X + σ 2Y + 2αρσ X σ Y ,
podemos calcular,
Cov(X, Y )
ρZX =
σZ σX
ασ 2X + ρσ X σ Y
=
σX σZ
ασ X + ρσ Y
=
σZ
Portanto,
3.1. DISTRIBUIÇÕES AMOSTRAIS 67
à µ ¶2 !
ασ X + ρσ Y
σ 2Z (1 − ρ2XZ ) = (α2 σ 2X + σ 2Y + 2αρσ X σ Y ) 1 − (3.2)
σX
= σ 2Y (1 − ρ2 ),
σZ ασ X + ρσ Y σ Z
ρXZ = (3.3)
σX σZ σX
σY
= α+ρ .
σX
Agora, defina
μZ = αμX + μY . (3.4)
Z +∞
1
g(z) = √ q
+∞ 2πσ Z 1 − ρ2ZX
( µ µ ¶¶2 )
1 σY
exp − 2 z − μZ − (x − μX ) α + ρ f (x)dx.
2σ Z (1 − ρ2ZX ) σX
2. Suponha, sem perda de generalidade, que a distribuição normal tem média zero e var-
iância 1. O primeiro passo é escrever S 2 como a soma de (n − 1) desvios:
n
1 X
S 2
= (xi − x)2
n−1
i=1
" n
#
1 X
= (x1 − x)2 + (xi − x)2 .
n−1
i=2
Perceba que
68 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
n
X n
X
(xi − x) = −(n − 1)x + xi + x1 − x1
i=2 i=2
= x − x1 .
Logo,
⎡Ã !2 ⎤
Xn n
X
1 ⎣
S2 = (xi − x) + (xi − x)2 ⎦ .
n−1
i=2 i=2
Yn ½ ¾
2 1 1 2
f (x1 , . . . , xn |μ, σ ) = √ exp − (xi ) .
2π 2
i=1
E note que
= X − [X2 + · · · + Xn − (n − 1)X]
= X − [X1 + X2 + · · · + Xn − X1 − (n − 1)X]
= X + X1 − X
= X1
Como o suporte de Yi é paralelo aos eixos para qualquer i ∈ {1, . . . , n} e conseguimos sep-
arar a densidade em uma função de y1 e outra de Y2 , . . . , Yn , Y1 = X e S 2 = f (Y2 , . . . , Yn )
são independentes.
¤
70 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
Capítulo 4
Teoria Assintótica
Até agora, trabalhamos com uma amostra aleatória finita. Vimos que se X é normal, a
esperança (X) de uma amostra aleatória e sua variância (S 2 ) também possuem distribuições
normais. A distribuição normal é bastante conveniente pois ela é definida apenas pelos seus
dois primeiros momentos. Todavia, se X não é normal, nada podemos afirmar, a princípio,
sobre a distribuição de X e S 2 . Felizmente, para o caso de amostras aleatórias, podemos
fazer afirmações sobre as distribuições destas estatísicas quando n tende ao infinito, isto é, é
possível desenvolver uma teoria assintótica para o caso de amostras iid. O primeiro passo
neste sentido é estudar os teoremas de convergência e sua principais implicações.
Teorema 4.0.3 (Lei Fraca dos Grandes Números) Seja {Xi }ni=1 uma amostra aleatória
P
tal que E[xi ] = μ < +∞ e V ar[Xi ] = σ 2 < +∞. Defina X n = n1 ni=1 Xi . Então,
p lim X = μ.
71
72 CAPÍTULO 4. TEORIA ASSINTÓTICA
V ar(X n )
Pr[(X n − μ)2 ] ≤ 2
σ2
=
n2
σ2
Como limn→+∞ n 2
= 0, p lim X = μ. ¤
Observação A lei dos grandes números diz algo muito intuitivo. Sob condições razoavelmente
fracas - que a média populacional (μ) exista e que a quantidade de ruído nos dados seja
finita -, informação infinita (n → ∞) deveria nos permitir saber exatamente qual é a média
populacional a partir de um análogo, a média amostral (X). Também diz que a média amostral
tem esta característica interessante, qual seja, que ela aproxima arbitrariamente bem a média
populacional quando a quantidade de informação tende ao infinito.
Teorema 4.0.4 (Convergência Contínua) Suponha que {Xi }ni=1 converge em probabili-
dade para X e seja h uma função contínua. Então {h(Xi )}ni=1 converge em probabilidade
para h(X).
Prova Fixe > 0. Para todo δ > 0 defina, Bδ ≡ {conjuntos dos x tais que existe y com
d(x, y) < δ mas d(h(x), h(y)) ≥ }.
Se x não pertence a Bδ e d(h(xn ), h(x)) ≥ , então d(xn , x) ≥ δ. Logo, Bδ e {d(xn , x) ≥ δ}
são disjuntos, isto é,
Bδ ∩ {d(xn .x) ≥ δ} = ∅.
¤
73
Definição 4.0.2 A sequência de variáveis aleatórias {Xi }ni=1 converge em quase certeza para
a variável aleatória X se:
Exemplo Seja (Ω, A,P ) um modelo probabilístico com Ω = {ω : ω ∈ [0, 1] ⊂ R}, A = todos
os intervalos mensuráveis, e P a medida de probabilidade uniforme. Seja X (ω) = ω Defina
a sequência Xn (ω) = ω + ω n . Para qualquer ω ∈ [0, 1), limn→+∞ Xn (ω) = X(ω), mas Xn (1)
não converge para X(1). Entretanto, como Pr[X = 1] = 0, Xn converge em quase certeza para
X.
[
An = {ω : d(Xm (ω) , X (ω)) > }
m≥n
Por construção,
Ân ⊆ An ,
o que implica
Pr[Ân ] ≤ P rob[An ] ⇒
Por que a convergência em quase certeza é mais forte que convergência em probabilidade?
A primeira se refere a uma sequência de conjuntos, e ao “tamanho” (dado pela probabilidade)
destes conjuntos quando n → ∞. A última se refere a uma sequência de números (Pr (·)). Se
não ficou claro o próximo exemplo deveria ajudar
Exemplo Seja Ω = [0, 1], e a medida P a uniforme. Defina X (ω) = ω, e a seguinte sequência
de variáveis aleatórias:
Primeiro, veja que Pr (|Xn − X| < ε) = Pr (ω : |Xn (ω) − X (ω)| < ε) = 0 porque os ωs
que fazem com que |Xn (ω) − X (ω)| < ε seja verdadeiro são aqueles nos intervalos [f (n) , 1],
com f (·) sendo uma função de estritamente crescente de n e limn→∞ f (n) = 1. Xn (ω), no
entanto não converge em quase certeza para X (ω). Fixe um ω, por exemplo 34 . A sequência
© ¡ 3 ¢ªn
Xi 4 i=1 é:
µ ¶
3 3 7
X1 = +1 =
4 4 4
µ ¶
3 3 3
X2 = +0 =
4 4 4
µ ¶
3 3 7
X3 = +1 =
4 4 4
µ ¶
3 3 3
X4 = +0 =
4 4 4
µ ¶
3 3 3
X5 = +0 =
4 4 4
µ ¶
3 3 7
X6 = +1 =
4 4 4
..
.
3 7 7
Ou seja, infinitas repetições de 4 e 4. É verdade que 4 ocorre que modo cada vez mas
infrequente, mas ainda assim infinitas vezes. Portanto, @ ω ∈ [0, 1] tal que Xn (ω) convirga
para X (ω). Logo,
³ ´
Pr ω : lim |Xn (ω) − X (ω)| < ε = 0
n→∞
75
Teorema 4.0.6 (Lei Forte dos Grandes Números) Seja {Xi }ni=1 uma amostra aleatória
P
tal que E[Xi ] = μ e V ar[Xi ] = σ 2 < 0 para todo i ∈ {1, . . . , n}. Defina X n = n1 ni=1 Xi .
Então, a sequência {X n } converge em quase certeza para μ.
Exemplo Seja {Xi }ni=1 uma amostra aleatória tal que Xi ∼ U [0, θ]. Queremos testar a
hipótese H0 : θ = 1 versus H1 : θ 6= 1. Note que se observarmos algum Xi > 1 H0 certamente
não é verdadeira. Mais ainda, mostraremos a seguir que a estatística de ordem n converge em
probabilidade para θ.
∙ ¸ µ ¶
t t n
Pr |X(n) − 1| > = 1−
n n
¡ ¢n
Valendo-se do limite fundamental limn→+∞ 1 − nt = e−t ,
76 CAPÍTULO 4. TEORIA ASSINTÓTICA
Suponha que o nível de significância de nosso teste seja 5%, o que resulta em
1 − e−t = 0, 05 ⇒
e−t = 0, 95 ⇒
−t = ln 0, 95 ⇒
t = − ln 0, 95.
Dada uma amostra de tamanho n, observado X(n) e calculado t de acordo com o nível de
significância do teste, rejeitamos H0 caso
d
1. Xn + Yn −→ α + Y.
d
2. Xn Yn −→ αY .
Yn d Y
3. Xn −→ α (se α 6= 0).
⎞ ⎛ ⎛ ⎞
Y1n Y1
⎜ ⎟ ⎜ ⎟
p ⎜ . ⎟ d ⎜ .. ⎟
Teorema 4.0.9 (Slutsky Generalizado) Se Xn −→ α e Yn = ⎜ .. ⎟ −→ ⎜ . ⎟=
⎝ ⎠ ⎝ ⎠
YT n YT
⎛ ⎞ ⎛ ⎞
Xn d ⎝ α ⎠
Y, então ⎝ ⎠ −→
Yn Y
Teorema 4.0.10 (Teorema do Limite Central de Lindberg-Lévy) Seja {Xi }ni=1 uma amostra
aleatória tal que E[Xi ] = μ e V ar[Xi ] = σ 2 < +∞ para todo i ∈ {1, . . . , n}. Então,
(X n − μ) d
Zn = q −→ N (0, 1).
V ar(X n )
⎧
⎨ 1, se Xi = 1;
Yi =
⎩ 0, caso contrário.
Assim,
n
X 1X
= Yi = Y
n n
i=1
Sendo {Yi } é uma amostra aleatória com primeiro momento definido e variância finita,
pode-se aplicar o teorema de limite central de Lindberg-Lévy.
¡X ¢
− E[Yi ]
n d
q ¡ ¢ −→ N (0, 1) ⇒
V ar Y
¡X ¢
√ n −p d
np −→ N (0, 1).
(1 − p)p
p d p
Como (1 − p)p −→ (1 − p)p, aplicando Slutsky,
¡X ¢
p √ − p LD p
n
(1 − p)p n p = (1 − p)pZ
(1 − p)p
LD
Onde Z ∼ N (0, 1) e = significa que as duas expressões tem a mesma distribuição assin-
tótica.
Agora usamos aproximações,
µ ¶
1 √ X A 1 p
√ n −p ∼ √ (1 − p)pZ ⇒
n n n
µ ¶
X A 1 p
∼ √ (1 − p)pZ + p ⇒
n n
µ ¶
A 1 p
X ∼ n √ (1 − p)pZ + p
n
78 CAPÍTULO 4. TEORIA ASSINTÓTICA
³ p ´
É direto verificar que n √1 (1 − p) pZ + p ∼ N (np, np(1 − p)) .
n
Portanto,
A
X ∼ N (np, np(1 − p)) ,
A
sendo ∼ um símbolo que denota distribuição assintótica.
Exemplo Sejam {Xi }ni=1 e {Yi }ni=1 duas amostras independentes, sendo que Xi ⊥Yj para
todo i, j ∈ {1, . . . , n}. Além disso, E[Xi ] = μX , E[Yi ] = μY , V ar[Xi ] = σ 2X < +∞ e V ar[Yi ] =
Xn
σ 2Y < +∞. Defina Tn = Yn
. Qual é a distribuição assintótica de Tn ?
p p
Pelo teorema do limite central, X n −→ μX e Y n −→ μY . Por Slutsky,
X n p μX
−→ .
Yn μY
Agora, parta de
µ ¶ µ ¶
√ X μ √ XμY − Y μX
n − X = n
Y μY Y μY
LD 1 √ ¡ ¢
= 2 n XμY − Y μX
μY
à n n
!
√ ¡ ¢ √ 1X 1X
n XμY − Y μX = n μY Xi − μX Yi
n n
i=1 i=1
µ ¶
√ 1
= n (−μX Yi + μY Xi ) .
n
à n
!
√ 1X √
n wi − E[wi ] = n (w − E[wi ])
n
i=1
p
V ar(wi ) √
= p n (w − E[wi ])
V ar(wi )
p
V ar(wi ) √ LD p
p n (w − E[wi ]) = V ar(wi )Z,
V ar(wi )
onde Z ∼ N (0, 1).
79
Assim,
µ ¶ p
√ Y μX LD V ar(wi )Z
n − = ⇒
X μ Y μ2Y
µ ¶ µ ¶
√ Y μ d (μ2 σ 2 + μ σ 2 )
n − X −→ N 0, X Y 4 Y X .
X μY μY
n
1X
S2 = (Xi − X)2
n
i=1
n
1X
= (Xi − μ + μ − X)2
n
i=1
n n n
1X 2 2 X 1X
= (Xi − μ) + (−X + μ) (Xi − μ) + (μ − X)2
n n n
i=1 i=1 i=1
n
1X
= (Xi − μ)2 − (X − μ)2
n
i=1
p
Pela lei fraca dos grandes números e o teorema da convergência contínua, (X − μ)2 −→ 0.
Pela lei fraca dos grandes números novamente:
p
S 2 −→ E[(Xi − μ)2 ] = σ 2 .
à n
!
√ √ 1X
n(S 2 − σ 2 ) = n (Xi − μ)2 − (X − μ)2 − σ 2
n
i=1
à n !
LD √ 1X 2 2
= n (Xi − μ) − σ
n
i=1
porque
√ √
n(X − μ)2 = n(X − μ)(X − μ)
LD ¡ ¢
= Y × (X − μ), onde Y ∼ N 0, σ 2
D
→0
80 CAPÍTULO 4. TEORIA ASSINTÓTICA
à n
!
√ 1X 2 2 LD p
n (Xi − μ) − σ = V ar[wi ]Z ⇒
n
i=1
√ D
n(S 2 − σ 2 ) → N(0, E[(Xi − μ)4 ] − E 2 [(Xi − μ)2 ]),
ln Y p αβ
−→ = β.
ln X α
Para achar a distribuição assintótica, partimos de
√ ln Y √
n( − β) = n(g(X, Y ) − β)
ln X
Pelo teorema do valor médio,
∗ ∗ ∗ ∗
g(X, Y ) − g(E[X], E[Y ]) = g1 (X , Y )(X − E(X)) + g2 (X , Y )(Y − E(Y )),
∗ ¡ ¢ ∗ ¡ ¢
onde X ∈ I [X, E(X)] , Y ∈ I [Y , E[Y ]] , g1 é a derivada de g em relação ao primeiro
argumento e g2 é a derivada de g em relação ao segundo argumento.
Logo,
µ ¶
√ ln Y √ 1 ∗ ∗
n( − β) = n ∗ ∗ (X − E(X)) + Y ln X (Y − E(Y ))
ln X X ln Y
µ ¶
√ 1 √ ³ ∗ ∗
´
= n ∗ ∗ (X − E(X)) + n Y ln X (Y − E(Y ))
X ln Y
µ ¶
LD √ 1 √ ¡ ¢
= n (X − E(X)) + n exp(α)αβ(Y − E(Y )) (4.1)
exp(αβ)α
Sabemos que se duas variáveis tem distribuição normal e são independentes então uma
combinação linear dessas variáveis também é normal.
Assim,
81
à !
√ ln Y A 1
n( − β) ∼ N 0, σ2 + (exp(α)αβ)2 σ 2Y .
ln X 2 X
(exp(αβ ) α)
µ ¶
√ 1 √ ¡ ¢
n (X − E(X)) + n exp(α)αβ(Y − E(Y ))
exp(αβ)α
à n µ ¶!
√ X Xi E [X]
= n + exp(α)αβYi − + exp(α)αβE [Y ]
exp(αβ)α exp(αβ)α
i=1
à n µ ¶!
√ X Xi 1
= n + exp(α)αβYi − + exp(α)2 αβ
exp(αβ)α α
i=1
Xi 1
Defina Wi = exp(αβ)α + exp(α)αβYi . Então, E [Wi ] = α + exp(α)2 αβ. Agora é só aplicar
o teorema central do limite de Lindberg-Lévy em:
à n !
√ X
= n Wi − E [Wi ]
i=1
O que fizemos no exemplo anterior nada mais é que a aplicação de algo conhecido como Método
Delta.
Teorema 4.0.11 (Método Delta - Caso Univariado) Seja g : R → R uma função con-
tínua em todo o suporte de X e diferenciável em μX com g0 (μX ) 6= 0. Suponha ainda
que
√ d
n(X − μx ) −→ N (0, σ 2X ).
Então,
√ d
n(g(X) − g(μx )) −→ N (0, g0(μX )2 σ 2X ).
82 CAPÍTULO 4. TEORIA ASSINTÓTICA
Prova Pelo teorema do valor médio, existe μ∗X ∈ [X, μX ], tal que
p p
Como X −→ μX e μ∗X ∈ [X, μX ], μ∗X −→ μX . Pelo teorema da convergência contínua,
p
g0(μX ) −→ g0(μX ). Portanto,
√ LD √
n(g(X) − g(μx )) = g 0 (μX ) n(X − μX ) ⇒
√ d
n(g(X) − g(μx )) −→ N(0, g0(μX )2 σ 2X )