You are on page 1of 33

Probabilidad y Estadística – Resumen Teórico 1

Experimento Aleatorio

Tiene tres características:

A- Es posible repetirlo en forma indefinida sin cambiar


esencialmente las condiciones.

B- Podemos describir el conjunto de todos los resultados posibles


del experimento.

C- Al repetir el experimento un gran número de veces aparece un


patrón definido.

Espacio muestral

Es el conjunto de todos los resultados posibles del experimento aleatorio (


ε ), según la cantidad de elementos que posea el Espacio Muestral puede ser:

 Finito: “Se lanza un dado y se anota la cara superior”.

 Infinito Numerable: “Se fabrican artículos hasta producir 10 no


defectuosos” {10,11,12,13....}.

 Infinito No Numerable: “Se anota la duración de una lampara”


{T T ≥ 0}

Eventos

Un evento A (respecto de un espacio muestral S asociado a un experimento


ε ) es un conjunto de resultados posibles ( A ⊂ S ).

Definición: Dos eventos A y B son mutuamente excluyentes si no pueden


ocurrir juntos. Expresamos esto escribiendo A ∩ B = φ .
Probabilidad y Estadística – Resumen Teórico 2

Frecuencia Relativa

Si se repite n veces el experimento ε y sea A y B dos eventos asociados a él.


Sea nA y nB el número de veces que ocurrió el evento A y el B respectivamente de las n

nA
repeticiones, llamaremos a fA = frecuencia relativa del evento A en las n
n
repeticiones del experimento ε . La f A tiene las siguientes propiedades:

i) 0 ≤ f A ≤ 1 .

ii) f A = 1 si y solo si A ocurre cada vez en las n repeticiones.

iii) f A = 0 si y solo si A nunca ocurre en las n repeticiones.

iv) Si A y B son eventos mutuamente excluyentes entonces f A∪ B = f A + f B


.

v) f A , basada en las n repeticiones de ε y considerada para una función de

n, “converge” en cierto sentido probabilístico a P(A) cuando n ∞ .

Probabilidad

Lo que queremos es acercarnos al número de la f A sin recurrir a la


experimentación. Para llegar a ello el número de repeticiones debe ser muy grande
y procedemos como sigue:

Con cada evento A asociamos un número real, designado con P(A) y


llamando probabilidad de A, el cual satisface las siguientes propiedades:

i) 0 ≤ P ( A) ≤ 1 .

ii) P(S) = 1.

iii) Si A y B son eventos que se excluyen mutuamente,


P ( A ∪ B ) = P ( A) + P ( B ) .
Probabilidad y Estadística – Resumen Teórico 3

iv) Si A1 ,A2, A3..............An son eventos que se excluyen mutuamente de par

 n  n
P
en par, entonces:  A  = ∑ P ( Ai ) .
i 
 i =1  i =1

Teorema 1.1: Si φ es el conjunto vacío, entonces P( φ ) = 0.

Demostración: Podemos escribir A = A ∪ φ y como A y φ son

mutuamente excluyentes escribimos P( A) = P( A ∪ φ ) = P ( A) + P( φ ) .

Nota: No vale la recíproca. Esto es, si P(A) = 0 no significa que A = φ .

Teorema 1.2: Si à es el evento complementario de A, entonces:

P ( A) = 1 − P ( Ã ) .

Demostración: Podemos sustituir S = A∪ Ã , entonces

P( S ) = P ( A ∪ Ã ) = P ( A) + P ( Ã ) , así tenemos 1 = P( A) + P ( Ã ) .

Teorema 1.3: Si A y B son dos eventos cualesquiera, entonces:


P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .

Demostración:
S
A B
A∪ B = A∪ (B ∩ Ã)

B = ( A ∩ B) ∪ ( B ∩ à ) A∩B Ã∩B

Por lo tanto:

P ( A ∪ B ) = P ( A) + P ( B ∩ Ã )

P( B ) = P( A ∩ B ) + P ( B ∩ Ã )
Probabilidad y Estadística – Resumen Teórico 4

Si restamos las dos ecuaciones:

P ( A ∪ B ) − P ( B ) = P ( A) − P ( A ∩ B )

Teorema 1.4: Si A, B y C son tres eventos cualesquiera, entonces:

P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P ( C ) − P ( A ∩ B ) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C )

Demostración: Consiste en escribir A ∪ B ∪ C como ( A ∪ B ) ∪ C y


aplicar el resultado del teorema anterior.

Teorema1.5: Si A ⊂ B , entonces P( A) ≤ P( B ) .

Demostración: Podemos escribir a B como dos eventos excluyentes

B = A ∪ ( B ∩ Ã ) . Por lo tanto P( B ) = P( A) + P ( B ∩ Ã ) y como por propiedad

P ( B ∩ Ã ) ≥ 0 entonces fácil apreciar que P( A) ≤ P( B ) .

Métodos de Conteo
Principio de la Multiplicación:

Para ir del punto P a la recta L1 hay n1 maneras, y para ir de L1 a L2 hay n2

maneras. Entonces para ir de P a L2 hay n1* n2 maneras.

P
L1
n1 Principio de la
Adición:
L1 n2 n1

L2 Para ir de un punto p
P
a la recta L1 hay n1 maneras,
n2

L2
Probabilidad y Estadística – Resumen Teórico 5

y para ir de P a la recta L2 hay n2 maneras. Entonces, para ir de el punto P a

cualesquiera de las rectas hay n1 + n2 maneras.

Permutaciones:
Agrupar (ó permutar) n objetos es equivalente a ponerlos en algún orden
específico, en una caja de n lugares. La primera casilla 1 2 3 4 .... n
se puede llenar de cualesquiera de las n maneras, la
segunda de (n-1) maneras.....y así obtendremos, por el principio de la
multiplicación, que la caja se puede llenar de n( n − 1)( n − 2)  1 maneras. Entonces
las maneras de permutar los n objetos son n!.

Si ahora quiero elegir r de esos n objetos ( 0 ≤ r ≤ n ) y permutarlos,


recurriremos nuevamente a la caja de n compartimientos. Así el primer
compartimiento se puede llenar de n maneras, el segundo de (n-1)... y el r-ésimo
compartimiento con n − ( r − 1) maneras y así, usando el principio de la

multiplicación encontramos que hay n( n − 1)( n − 2)  ( n − r + 1) maneras. Usando

n n!
notación factorial: P  =
 r  ( n − r )!

Combinaciones:
Consideremos nuevamente n objetos diferentes.
1 2 ... r .... n
Esta vez queremos contar cuantas maneras hay de
escoger r de esos n objetos pero sin que nos importe el orden. Sea C el número de
maneras de escoger r objetos sin orden, sabemos que hay r! Maneras de
permutarlos, entonces:

n! n n!
Cr! = ⇒ C =   =
( n − r )!  r  r! ( n − r )!
Probabilidad y Estadística – Resumen Teórico 6

Las dos propiedades fundamentales son:

1- ( nr ) = ( n n- r)
2- ( nr ) = ( nr -- 11 ) ( n r- 1)
+

Permutaciones cuando no todos los objetos son diferentes:


En los métodos hasta ahora enunciados suponíamos que los objetos son distintos
(distinguibles). Supongamos ahora que de los n objetos hay n1 de una clase, n2 de
otra... y así hay k clases, donde n1+n2+...+nK = n. Entonces el número de

n!
permutaciones esta dado por: .
n1 ! n 2 ! n K !

Probabilidad Condicional

Sean A y B dos eventos asociados con un experimento ε . Indicaremos con

PB( A) la probabilidad condicional del evento B, dado que A ha ocurrido.


( )
Cada vez que calculamos P B A , esencialmente estamos calculando P( B )

respecto del espacio muestral reducido A, en vez del espacio muestral original S.

Podemos escribir:

B = B∩S

y sabemos que :

P( B ) = P( B ∩ S ) = P( B ) P ( S ) ⇒ P B ( S ) = P(PB( ∩S )S )
Si ahora reducimos el espacio Muestral de S a A:

PB( A) = P(PB( ∩A)A) puesto que P( A) > 0


Probabilidad y Estadística – Resumen Teórico 7

La consecuencia más importante de la definición de probabilidad


condicional es:

( A ) P ( A)
P( A ∩ B ) = P B

( B ) P( B )
P( A ∩ B ) = P A

Esto también se conoce como el teorema de la multiplicación de


probabilidades.

S S S S
A B B A A B
A B

i ) A∩ B =φ ii ) A ⊂ B iii ) B ⊂ A iv ) Ninguno anterior

( )
i ) P A B = 0 ≤ P( A) puesto que A no puede ocurrir si ocurrió B.

P ( A ∩ B ) P ( A)
( )
ii ) P A B =
P( B )
=
P( B )
≥ P ( A) puesto que 0 < P( B ) ≤ 1 .

P( A ∩ B ) P( B )
( )
iii ) P A B =
P( B )
=
P( B )
= 1 ≥ P ( A) .

iv ) No se puede hacer porque ninguna afirmación acerca de la magnitud

( )
relativa de P A B y P( A) .

Definición: Decimos que los eventos B1, B2, B3,...,Bk representan una
partición de S si:

a) Bi ∩ B j = φ , ∀i ≠ j . B1 B2 B3

B4
A B5 B6
Probabilidad y Estadística – Resumen Teórico 8

k
b) Bi = S .
i =1

c) P( Bi ) > 0, ∀i

En otras palabras, cuando se efectúa el experimento ε , ocurre uno y sólo


uno de los eventos Bj.

Sea A algún evento de S y sea B1, B2, B3,...,Bk una partición de S. Por lo
tanto podemos escribir:

A = ( A ∩ B1 ) ∪ ( A ∩ B 2 ) ∪  ∪ ( A ∩ B k ) vemos que todos los pares

A ∩ B j son mutuamente excluyentes, por lo tanto podemos aplicar la propiedad

aditiva:
P( A) = P ( A ∩ B1 ) + P ( A ∩ B 2 ) +  + P ( A ∩ B k )

Sin embargo, cada término P( A ∩ B j ) se puede escribir como

P A  P ( B j ) , y así obtenemos el teorema de la probabilidad Total:


 
 Bj 

P( A) = P A  P ( B1 ) + P A  P( B 2 ) +  + P A  P ( B k )


 B1   B2   Bk 

Teorema de Bayes:

Sean B1, B2, B3,...,Bk una partición de S y A un evento asociado a él.


Aplicando la definición de probabilidad condicional, podemos escribir:

P A  P ( Bi )
 Bi 
P i  = k
B
, con i = 1, 2, 3....,k
 A
∑ P
A 
 B  P ( B j )
j =1  j 

También se le llama fórmula para la probabilidad de las “causas”. Puesto


que las Bi son una partición del espacio muestral, uno y sólo uno de los eventos Bi
ocurre. Por lo tanto, la fórmula anterior nos da la probabilidad de un Bi particular
(esto es, una “causa”), dado que el evento A ocurrió.
Probabilidad y Estadística – Resumen Teórico 9

Eventos Independientes: Sabemos que si dos eventos son


independientes, el que suceda uno no indica nada para el otro. Entonces

PA( B ) = P( A) y P( B A) = P( B ) . Hay otro método más fácil, esto es:


P( A ∩ B ) = P A ( B ) P ( B ) = P ( A) P ( B )
P( A ∩ B ) = P B ( A) P ( A) = P ( A) P ( B )

Definición: A y B son eventos independientes si y sólo si


P ( A ∩ B ) = P ( A) P ( B ) .

Definición: Decimos que los tres eventos A, B y C son mutuamente


independientes si y sólo si todas las condiciones siguientes se mantienen:

i ) P ( A ∩ B ) = P ( A) P ( B )

ii ) P( A ∩ C ) = P ( A) P ( C )

iii ) P( B ∩ C ) = P ( B ) P ( C )

iv ) P( A ∩ B ∩ C ) = P ( A) P ( B ) P( C )

Definición: Los n eventos A1, A2, A3,...,An son mutuamente


independientes si y sólo si tenemos para cada k = 2, 3, 4.....n

P( Ai1 ∩ Ai 2 ∩  ∩ Aik ) = P( Ai 2 ) P ( Ai 2 )  P( Aik )


Probabilidad y Estadística – Resumen Teórico 10

Variable Aleatoria

Sea un experimento ε y S el espacio muestral asociado a él. Una función X

que a cada uno de los elementos s ∈ S , un número real X ( S ) , se llama variable


aleatoria.

El espacio R X , es decir, el conjunto de todos los valores posibles de X,


algunas veces es llamado recorrido.

Definición: Sea ε un experimento y S su espacio muestral. Sea X una

variable aleatoria definida en S y sea R X su recorrido. Sea B un evento respecto a

R X , esto es, B ⊂ R X . Supongamos que A se define como:

A = { s ∈ S X S ∈ B}

Es decir, A consta de todos los resultados en S para los cuales X S ∈ B .


Entonces A y B son eventos equivalentes:

S A B RX

S XS

Definición: Sea B un evento en el recorrido R X , entonces definimos P( B )


como sigue:

P ( B ) = P ( A) A = { s ∈ S X S ∈ B}

Es decir, la probabilidad de dos eventos equivalentes es la misma. De esta


manera, desde aquí podremos ignorar el espacio muestral S que dio lugar a esas
probabilidades.
Probabilidad y Estadística – Resumen Teórico 11

Variables Aleatorias Discretas

Sea X una variable aleatoria. Si el número de valores posibles de X ( R X ) es


finita o infinita numerable, llamamos a X una variable aleatoria discreta. Esto es,
se pueden anotar los valores posibles de X como X1, X2, X3,....,Xn.

Definición: Sea X una variable aletoria discreta, con cada resultado posible

xi asociamos un número p ( x i ) = P[ X = x i ] , llamado probabilidad de xi.

Propiedades:

i ) p ( x i ) ≥ 0, ∀i .


ii ) ∑ p( x ) = 1 .
i =1
i

La función p antes mencionada se llama función de probabilidad puntual de


la variable X.

p( x )

X1 X2 X3 X4 Xn

Sea B un evento asociado con la variable aleatoria X. Esto es, B ⊂ R X

( B = { x1 , x 2 ,  , x n } ) . Por lo tanto:
P( B ) = P[ S X S ∈ B ] (puesto que son equivalentes)

P( B ) = P[ S X S = x i ; i = 1,2,3,  , n]

P( B ) = ∑ p ( x j )
n

j =1

Distribución Binomial: Sea un experimento ε y un evento A asociado

a él. Suponemos P( A) = p (por ende, P ( Ã ) = 1 − p ). Consideramos n repeticiones


Probabilidad y Estadística – Resumen Teórico 12

independientes de ε . Por lo tanto, S consiste de las sucesiones posibles


{ a1 , a 2 ,  , a n } donde cada ai es A o Ã, según ocurra A o à en la i-ésima repetición.
Supongamos que P( A) = p es el mismo para todas las repeticiones y
definimos X = “número de veces que ocurrió A”. Llamamos a X una variable
aleatoria Binomial con parámetros n y p. Las repeticiones individuales de ε se
llamarán ensayos de Bernoullí.

Teorema 4.1: Sea X una variable Binomial con base en n repeticiones.


Entonces:

n
P[ X = k ] =   p k (1 − p )
n−k

k 

Demostración: Consideremos que en las n repeticiones de ε ocurre k


veces A. Así:

      
AAAAAAA  AÃÃÃÃÃÃÃÃ
     
 
 Ã
k n−k

Si P( A) = p y como todas las repeticiones son independientes, la


n
probabilidad de esta sucesión particular sería p k (1 − p ) n − k . Pero como hay  
k 
maneras de agruparlas:
n
P[ X = k ] =   p k (1 − p )
n−k

k 
Probabilidad y Estadística – Resumen Teórico 13

Variables Aleatorias Continuas

Se dice que X es una variable aleatoria continua, si existe una función f ,


llamada función de densidad de probabilidad (fdp) de X, que satisface las
siguientes condiciones:

i ) f ( X ) ≥ 0, ∀X .

f ( X ) dx = 1 .
+∞
ii ) ∫
−∞

iii ) Para cualquier a, b tal que − ∞ < a < b < +∞ , tenemos

P[ a ≤ X ≤ b] = ∫ f ( X ) dx .
b

fdp

P[ a ≤ X ≤ b ]

a b

No existen, en este tipo de variables la probabilidad puntual del tipo

P[ X = x 0 ] , puesto que P[ X = x 0 ] = ∫ f ( X ) dx = 0 .
x0

x0

Si X toma valores en un intervalo finito [a, b], establecemos


f ( X ) = 0, ∀X ∉ [ a, b] .

Función de distribución acumulada: Sea X una variable aleatoria,


discreta o continua. Definimos que F es la función de distribución acumulativa de
la variable aleatoria X (fda) como F ( X ) = P[ X ≤ x ] .
Probabilidad y Estadística – Resumen Teórico 14

Teorema 4.2:

Si X es una variable aleatoria discreta:

F ( X ) = ∑ p( x j ) ∀j x j < X
j

Si X es una variable aleatoria continua:

F( X ) = ∫ f ( s ) ds
X

−∞

Teorema 4.3:

a- La función F es no decreciente. Esto es si x 1 ≤ x 2 , tenemos

F ( x1 ) ≤ F ( x2 ) .

b- xlim F( X ) = 0 y lim F ( X ) = 1 (A menudo se escribe como


→ −∞ x → +∞

F ( − ∞ ) = 0 y F ( + ∞ ) = 1 ).

Demostración:

a- Definimos los eventos A y B como sigue: A = { x ≤ x1 } y

B = { x ≤ x 2 } . Entonces, puesto que x 1 ≤ x 2 , tenemos A ⊂ B y

por el teorema 1.5, P( A) ≤ P( B ) .

b- Para el caso continuo:

i. F ( − ∞ ) = lim f ( s ) ds = 0
X

x → −∞ − ∞ .

ii. F ( + ∞ ) = lim f ( s ) ds = 1
x

x → +∞ − ∞ .

Teorema 4.4:
Probabilidad y Estadística – Resumen Teórico 15

a- Sea F la fda de una variable aleatoria continua con fdp f. Luego,

dF ( x )
f ( x) = para toda X en la cual F es diferenciable.
dx

b- Sea X una variable aleatoria discreta con valores posibles x1 , x 2 , 


y supongamos que es posible rotular esos valores de modo que
x1 < x 2 <  . Sea F la fda de X. Entonces:

[ ]
p ( x j ) = P X = x j = F ( x j ) − F ( x j −1 ) .

Demostración:

F ( x ) = P( X ≤ x ) = ∫ f ( s )ds .
x
a- Así, aplicando el teorema
−∞

fundamental del cálculo tenemos que F ′( x ) = f ( x ) .

b- Puesto que supusimos x1 < x 2 <  , tenemos:

[
F ( x j ) = P X = x j ∪ X = x j −1 ∪ X = x j − 2 ∪  ∪ X = x1 ]
= P ( x j ) + P ( x j −1 ) + P ( x j − 2 ) +  P( x1 )

[
F ( x j −1 ) = P X = x j −1 ∪ X = x j − 2 ∪  ∪ X = x1 ]
= P ( x j −1 ) + P ( x j − 2 ) +  P ( x1 )

[ ]
Por lo tanto, F ( x j ) − F ( x j −1 ) = P X = x j = p ( x j ) .

Variables aleatorias distribuidas uniformemente: Supongamos


que X es una variable aleatoria continua que toma todos los valores en el intervalo
[a,b], donde a y b son finitos. Si la fdp de X está dada por:

1 a+b
f ( x) = , a ≤ x ≤b. E( x) = ,esperanza
b−a 2
Probabilidad y Estadística – Resumen Teórico 16

f ( x) = 0 , en caso contrario. V ( x) =
( b − a)
2
, varianza
12

Decimos que X esta distribuida uniformemente en el intervalo [a, b].


Probabilidad y Estadística – Resumen Teórico 17

Valor esperado de una variable aleatoria

Sea X una variable aleatoria discreta con valores posibles x1 , x 2 ,  , x n y

[ ]
sea p ( x j ) = P X = x j con i = 1, 2, 3,...,n. Entonces el valor esperado de X (o

esperanza matemática de X) que se anota E ( x ) y se define como:

n
E ( x ) = ∑ xi p( xi )
i =1

Si la serie converge absolutamente. Este número también se designa como

valor promedio de X. Consideramos una variable aleatoria y sean x1 , x 2 ,  , x n los


resultado obtenido en las n repeticiones de ε ; y sea X el promedio aritmético de
esos n números; si n es suficientemente grande, X estará cerca de E ( x ) .

Teorema 7.1: Sea X ~ B ( n, p ) , entonces E ( x ) = np .

Demostración: Puesto que

n
P[ X = k ] =   p k (1 − p )
n−k

k 

Tenemos:
n
n!
E( x) = ∑ k p k (1 − p )
n−k

k =0 k! ( n − k )!

n
n!
E( x) = ∑ p k (1 − p )
n−k
(ya que con k = 0 se hace cero).
k =1 ( k − 1)! ( n − k )!

Sea S = k − 1 en la suma anterior. Como k toma valores de 1 a n, S toma

valores de 0 a ( n − 1) .Sustituyendo k por ( S + 1) tenemos:

La suma de la última expresión es simplemente la suma de probabilidades


n −1 n −1
E( x) = ∑ n n-1 p s+1
(1-p) n-s-1
= np ∑ n-1 p s (1-p) n-s-1
s =0 s =0
s s
binomiales con n sustituida por ( n − 1) . Por lo tanto es igual a uno.
Probabilidad y Estadística – Resumen Teórico 18

Definición: Sea X una variable aleatoria continua con fdp f. El valor


esperado de X se define como:

E ( x ) = ∫ xf ( x ) dx
+∞

−∞

Puede suceder que la integral impropia no converja. Por lo tanto decimos


que E ( x ) existe si y solo si:

x f ( x ) dx , es finita
+∞
∫ −∞

Teorema 7.2: Supongamos X ~ [ a, b] entonces:

a+b
E( x) =
2

1
Demostración: La fdp de X está dada por f ( x ) = , a ≤ x ≤ b por
b−a
lo tanto:
b
x 1 x2 a+b
E( x) = ∫
b
dx = =
a b−a b−a 2 a
2

Propiedades de la Esperanza

i ) Si X = C , donde C es una constante, F ( x)


entonces E ( X ) = C . F ( x) = 1
Demostración:
X =C
E ( x ) = ∫ Cf ( x ) dx = C ∫ f ( x ) dx = C
+∞ +∞

−∞ −∞

ii ) Sea C una constante y X una variable aleatoria entonces E ( Cx ) = CE ( x )


.

Demostración:
Probabilidad y Estadística – Resumen Teórico 19

E ( Cx ) = ∫ Cxf ( x ) dx = C ∫ xf ( x ) dx = CE ( x )
+∞ +∞

−∞ −∞

iii ) Sean X e Y dos variables aleatorias, entonces E ( X + Y ) = E ( X ) + E ( Y )

o dicho más generalmente, sean las variables aleatorias X 1 , X 2 , X 3 , X 4 ,  , X n


entonces:
E( X 1 , X 2 , X 3 , X 4 , , X n ) = E( X 1 ) + E( X 2 ) + E( X 3 ) + E( X 4 ) +  + E( X n )

La Varianza de una variable aleatoria

Sea X una variable aleatoria. Definimos la varianza de X, que se denota con

V ( x ) o con σ 2 ( x ) como sigue:

V ( x ) = E[ x − E ( x ) ]
2

La Raíz cuadrada positiva de V ( x ) se llama desviación estándar de X y se

designa con σ ( x ) .

Teorema 7.5:

( )
V ( x) = E x 2 − [ E( x) ]
2

Demostración:

V ( x ) = E[ x − E ( x ) ]
2

{
= E x 2 − 2 xE ( x ) + [ E ( x ) ]
2
}
( )
= E x 2 − 2E ( x ) E ( x ) + [ E ( x ) ]
2

( )
= E x 2 − [ E( x) ]
2
Probabilidad y Estadística – Resumen Teórico 20

Propiedades de La Varianza

i ) Si C es una constante, entonces V ( x + C ) = V ( x ) .

Demostración:

V ( x + C ) = E[ ( x + C ) − E ( x + C ) ] = E[ x + C − E ( x ) − C ] = E[ x − E ( x ) ] = V ( x )
2 2 2

ii ) ) Si C es una constante, entonces V ( Cx ) = C 2V ( x ) .

Demostración:
2 2
[
V ( Cx ) = E ( Cx ) − [ E ( Cx ) ] = C 2 E ( x ) − C 2 E [ ( x ) ] = C 2 E ( x ) − [ E ( x ) ]
2 2 2 2
] = C V ( x)
2

iii ) Sea X una variable aleatoria con varianza finita. Luego, para cualquier
número real α .

V ( x) = E( x − α ) − [ E( x − α ) ]
2 2

Distribución de Poisson:

e −α α x
P[ X = x ] = , donde α = λT y λ = veces que ocurre.
x!

T = Unidad de tiempo.

Teorema 8.1: Si X ~ Ρ(α ) (si X tiene aproximadamente una

distribución de Poisson ( Ρ(α ) ).), entonces:

E( x) = V ( x) = α

Demostración:


ke −α α k ∞ e −α α k
E( x) = ∑ =∑ , si s = k –1 tenemos
k =0 k! k =1 ( k − 1)!


e −α α s +1 ∞
e −α α s
E( x) = ∑ =α∑ =α .
s =0 s! s =1 s!

Del mismo modo:


Probabilidad y Estadística – Resumen Teórico 21

k 2 e −α α k ∞ ke −α α k
( )

E x2 = ∑ =∑ , si s = k –1 tenemos
k =0 k! k =1 ( k − 1)!

( )
E x2 = ∑

( s + 1) e −α α s +1 =α∑

se −α α s ∞ e −α α s
+∑ =
s =0 s!     
s =0 s! s =0 s !
E ( x ) =α

( ) ( )
= αα + α1 = E x 2 = α 2 + α ∴V ( x ) = E x 2 − [ E ( x ) ] = α 2 + α − α 2 = α .
2

Aproximación de la Binomial por Poisson:

Sea X una variable aleatoria discreta distribuida binomialmente con


parámetros n y p. Si n → ∞ entonces la variable X tiene un comportamiento de
Poisson.

X ~ B ( n, p ) ⇒ E ( x ) = np

np = α

X ~ Ρ( α ) ⇒ E ( x ) = α

Demostración: Si X ~ B ( n, p ) , entonces:

n α
P[ X = x ] =   p x (1 − p )
n−x
Como np = α ⇒ p
 x n

n( n − 1)  1  α 
x n −x
 α  α
f ( x) =   1 −  1 −  =
( n − x )! x!  n   n  n
n( n − 1)  1
n −x
αx 1  α  α
= 1 −  1 −  =
x! ( n − x )( n − x − 1)  1 n x  n   n 

Ahora, si n → ∞ y hacemos cálculos auxiliares:

n( n − 1)  1 1
A ) nlím =1
→∞ ( n − x )( n − x − 1) 1 n x
−x
 α
B ) lím 1 −  =1
n→∞
 n
Probabilidad y Estadística – Resumen Teórico 22

n
n − ( −α )
n     α
C ) lím 1 − α  = lím 1 + 1  = lím 1 + 1 
n →∞
 − n  n → ∞
 − n 
n →∞
 n
 α  α

 n −α 
−   n −α
− 
  α    α
 1    1   −α
= lím 1 +    = lím 1 +   =e
n →∞ n
 − α   
n → ∞ n
 − α  
             
e

α x e −α
Juntando los puntos A, B y C Tenemos: f ( x ) =
x!

Distribución Geométrica

Repetimos el experimento de Bernoulli hasta que el evento A ocurra por


primera vez:

P[ X = x ] = p ( 1 − p ) ó, p k −1 (1 − p )
k −1

1 q
E( x) = V ( x) =
p p2

Distribución Hipergeométrica

Repetimos el experimento de Bernoulli hasta que el evento A ocurra un


número de veces dado. Supongamos un lote de N objetos, de los cuales r son de
una clase1 y ( N − r ) son de la clase2.

Ahora escogemos n de esos artículos al azar ( n ≤ N ) sin reposición. Sea X


= {“Número de artículos de la clase1”}. Puesto que X = k si y sólo si obtendremos
k artículos de la clase1 (De los r existentes) y ( n − k ) de la clase2 (de los N – r
existentes) tenemos:

r N-r
P[X = k] = k n-k
N
n
Probabilidad y Estadística – Resumen Teórico 23

r
Teorema 8.6: Sea X una variable Hipergeométrica y sean p = y
N
q = 1 − p tenemos:

N −n
E ( x ) = np V ( x ) = npq
N −1

Para N grande,

n
P[ X = k ] ≅   p k (1 − p )
n −k

k
 

NOTA: Si el problema es con sustitución vale la Binomial; pero si es sin


sustitución vale la Hipergeométrica.

Distribución Normal

Una variable aleatoria X que toma todos los valores reales tiene
distribución Normal Gaussiana si su fdp es de la siguiente forma:

 1  x−µ 2 

( )
− 
1  2  σ  
f ( x) = e   X ~ N µ,σ 2
2π σ

con la condición de que σ > 0

Propiedades:

f ( x ) dx = 1
+∞
i) ∫
−∞

ii ) E ( x ) = µ

iii ) V ( x ) = σ 2

iv ) la gráfica es simétrica respecto de µ


Probabilidad y Estadística – Resumen Teórico 24

v ) Si X ~ N ( 0,1) decimos que X tiene una distribución Normal Tipificada y


se escribe así:

x2
1 −2
ϕ ( x) = e

La ventaja de esta última es que se encuentra tabulada:

x2
1
P[ a ≤ x ≤ b ] =
b −


∫ a
e 2
dx

Como la integral no puede resolverse por el teorema fundamental del

x2
cálculo (ya que no hay función que derivada sea igual a e − 2 ) usamos los métodos

de integración numérica para evaluar dicha integral ( P[ X ≤ s ] ha sido tabulada ).


Esta fda se denota con Φ : es decir:

x2
1 −
Φ( s ) =
s



−∞
e 2
dx

( X − µ)
(
Por lo tanto, si X ~ N µ , σ 2 entonces z = ) σ
tiene una distribución

N ( 0,1) , así:

a−µ b−µ  b−µ  a−µ 


P ( a ≤ X ≤ b ) = P ≤z≤  = Φ  − Φ 
 σ σ   σ   σ 

Distribución exponencial

Se dice que una variable aleatoria continua X que toma todos los valores no
negativos tiene una distribución exponencial con parámetros α > 0 si su fdp está
dada por:

αe −αx si x > 0

f ( x) =

0 si x ≤ 0
Probabilidad y Estadística – Resumen Teórico 25

Propiedades:

i ) F ( x ) = P[ X ≤ x ] = ∫ αe −αT dT = 1 − e −αx ; x ≥ 0
x

ii ) E ( x ) = ∫ αxe −αx dx (integrando por partes u = x ; dv = αe −αx dx )


1
E ( x ) = − xe −αx + ∫ e −αx dx =

0 α

iii ) Integrando encontramos que E x =


2
( ) 2
y por lo tanto:
α2

( )
V ( x) = E x 2 − [ E( x) ] =
2 1
α2

iv ) Para cualquier s tomamos un T > 0 y hacemos:

 x > s + T  P( x > s + T ) e
−α ( s + T )
P = = = e −αT = P( X > T )
 x>s  P( x > s ) e −αs

Así vemos que esta distribución “no tiene memoria”.

Ley de los grandes Números

Sea ε un experimento de Bernoulli y A un evento asociado a él.


Considerando n repeticiones independientes de ε ; sea nA el número de veces que

nA
ocurre el evento A en las n repeticiones y sea f A = . Sea p = P( A) igual en las
n
n repeticiones, entonces:

p (1 − p )
i ) P[ f A − p ≥ ε ] ≤ donde ε es cualquier número mayor que 0
ne 2

ó en forma equivalente:

p (1 − p )
ii ) P[ f A − p < ε ] ≥ 1 −
ne 2
Probabilidad y Estadística – Resumen Teórico 26

Demostración: Sea nA el número de veces que ocurre A, ésta es una

variable aleatoria Binomial. Entonces E ( n A ) = np y V ( n A ) = np(1 − p ) . Como

nA p (1 − p )
fA = , entonces E ( f A ) = p y V ( f A ) = .
n n

Aplicando la desigualdad de Chebyschev o fA tenemos:

 p (1 − p )  1
P f A − p < k  ≥ 1− 2
 n  k

p (1 − p ) nε 2

. Luego k =
2
Sea ε = k .
n p (1 − p )

desigualdad de Chebyschev

Sea X una variable aleatoria con E ( x ) = µ y sea c un número real

cualquiera. Entonces, si E ( x − c ) 2 es finita y ε es cualquier número positivo,


tenemos:

P[ X − c ≥ ε ] ≤
1
E( x − c)
2

ε 2

i ) Al considerar el complemento tenemos

P[ X − c < ε ] > 1 −
1
E ( x − c)
2

ε 2

ii ) Si elegimos c = µ tenemos

V ( x)
P[ X − µ ≥ ε ] ≤
ε2

iii ) Al elegir c = µ y ε = kσ (si V ( x ) = σ 2 )

P[ X − µ ≥ kσ ] ≤
1
k2
Probabilidad y Estadística – Resumen Teórico 27

Demostración: Consideremos

P[ X − c ≥ ε ] = ∫ f ( x ) dx es decir, estamos entre − ∞ y c − ε ; y entre


x x − c ≥ε

c+ε y +∞.

Ahora, x − c ≥ ε equivalente a
( x − c) 2 ≥ 1 y por lo tanto la integral
ε2

( x − c ) 2 f ( x ) dx
anterior es ≤ ∫ donde R = { x x − c ≥ ε } .
R ε 2

Esta integral a su vez es:

+∞( x − c ) 2 f ( x ) dx
∫−∞ 2 ε

Lo que es igual a

1
E ( x − c ) que es lo que buscábamos
2

ε 2

Aproximación Normal a la Binomial

X − np
Si X ~ B ( n, p ) y si Y = luego, para una n grande, Y tiene
np(1 − p )

aproximadamente una distribución N ( 0,1) . Esto es para n > 10 si p está cerca de


0,5.

Como estamos pasando de una variable discreta a una continua habrá que
usar la corrección por continuidad:

i ) P[ X = k ] ≅ P[ k − 0,5 ≤ X ≤ k + 0,5]

ii ) P[ a ≤ X ≤ b] ≅ P[ a − 0,5 ≤ X ≤ b + 0,5]
Probabilidad y Estadística – Resumen Teórico 28

Teorema del Límite Central

Recordamos que una X ~ B ( n, p ) se puede representar como la suma de


las variables:

Xi = 1 si A ocurre en la i-ésima repetición

= 0 en caso contrario
n
Por lo tanto X = ∑ x i . Ya demostramos que E ( x ) = np y V ( x ) = np(1 − p )
i =1

X − np
,y además si n es grande tiene distribución Normal N ( 0,1) .
np (1 − p )

Definición: Sea X 1 , X 2 , X 3 , X 4 ,  , X n una sucesión de variables

aleatorias independientes con E ( x i ) = µ i y V ( x i ) = σ i con i = 1, 2, 3,...,n. Sea


2

X = X 1 + X 2 + X 3 +  + X n , entonces:

n
X − ∑ µi
i =1
z=
n

∑σ 2
i
i =1

Muestras Aleatorias

Tenemos que considerar una población de tamaño N, pero como toda la


población no se puede tomar, hay que elegir muestras; todas las posibles de
tamaño n, donde n ≤ N .

Si ahora designamos las N objetos (1, 2, 3,...,N) y tenemos Xi “Valor


poblacional del i-ésimo objeto” i = 1, 2, 3,...,n.

La distribución de las variables X 1 , X 2 , X 3 , X 4 ,  , X n depende de cómo


escogimos los n objetos.
Probabilidad y Estadística – Resumen Teórico 29

Si el muestreo es con sustitución, escogiendo cada vez un objeto al azar, las


variables son independientes e idénticamente distribuidas. Así, para cada Xi
tenemos:

1
P[ x i = j ] = con j = 1,2,3,4..., N
N

Si el muestreo es sin sustitución las variables Xi ya no son independientes.


Entonces:

1
P[ x1 = j1 , x 2 = j 2 , x 3 = j 3 ,  , x n = j n ] =
N ( N − 1)  ( N − n + 1)

donde j1  j n son n valores cualesquiera de 1,  , N .

Definición: Sean X 1 , X 2 , X 3 , X 4 ,  , X n variables aleatorias


independientes con las misma distribución de X ; llamaremos entonces a
( X 1 , X 2 , X 3 , X 4 , , X n ) muestra aleatoria de X.

Estadísticos: Sean X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y

x1 , x 2 , x 3 , x 4 ,  , x n los valores tomados por la muestra. Sea H una función

definida para x1 , x 2 , x 3 , x 4 ,  , x n . Definimos Y = H ( x1 , x 2 , x 3 , x 4 ,  , x n ) como

un estadístico que toma valor y = H ( x1 , x 2 , x 3 , x 4 ,  , x n ) . En palabras, un


estadístico es una función real de la muestra.

Estadísticos Importantes: Sea ( X 1 , X 2 , X 3 , X 4 , , X n ) una


muestra:

1 n
i) X = ∑ xi se llama Promedio Muestral.
n i =1

1 n
ii ) S =
2
∑ ( X i − X ) 2 se llama Varianza Muestral.
n − 1 i =1

iii ) K = mín( X 1 , X 2 , X 3 , X 4 ,  , X n ) se llama Mínimo Muestral (Es el


mínimo observado).
Probabilidad y Estadística – Resumen Teórico 30

iv ) M = máx( X 1 , X 2 , X 3 , X 4 ,  , X n ) se llama Máximo Muestral (Es el


máximo observado).

v ) R = M − K se llama Recorrido Muestral.

vi ) x n = j-ésima observación mayor en la muestra, j = 1,  , n (tenemos


j

X n1 = M y X nn = K ).

Teorema 13.1: Sea X una variable aleatoria con E ( x ) = µ y varianza

V ( x ) = σ 2 . Sea X el promedio muestral de una muestra aleatoria de tamaño n.


Entonces:

i ) E( X ) = µ .

σ2
ii ) V ( X ) = .
n

( X − µ)
iii ) Para n grande, σ tiene aproximadamente la distribución N ( 0,1) .
n

Demostración:

1 n  1 n 1
i ) E ( X ) = E  ∑ x i  = ∑ E ( x i ) = nµ = µ .
 n i =1  n i =1 n

 1 n
 1 n
1 σ2
ii ) V ( X ) = V  2 ∑ xi  = 2 ∑ V ( xi ) = σ =
2
n
n i =1  n i =1 n2 n

Teorema 13.2: Sea X una variable aleatoria continua con fdp f y fda F.

Sea X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y sean K y M en mínimo y


el máximo respectivamente. Luego:

i ) la fdp de M es: g ( m ) = n[ F ( m ) ] n −1 f ( m ) .

ii ) la fdp de K es: h( k ) = n[ F ( k ) ] n −1 f ( k ) .
Probabilidad y Estadística – Resumen Teórico 31

Demostración: Sea G ( m ) = P ( M ≤ m ) la fda de M; ahora { M ≤ m} es

equivalente al evento { X i ≤ m , para toda i}. Por lo tanto, puesto que Xi son
independientes encontramos:

G ( m ) = P[ X 1 ≤ m  X n ≤ m ] = [ F ( m ) ]
n

Por ende

g ( m ) = G ′( m ) = n[ F ( m ) ] f ( m)
n −1

NOTA: Demostración análoga para K.

Estimación de parámetros: Si sabemos que P( X = 1) = p y que

P( X = 0 ) = 1 − p ¿Cómo calculamos p? Usando algunos criterios:

Definición: Sea X una variable con parámetro desconocido φ . Sea

X 1 , X 2 , X 3 , X 4 ,  , X n una muestra de X y x1 , x 2 , x 3 , x 4 ,  , x n los valores

correspondientes. Si g ( X 1 , X 2 , X 3 , X 4 ,  , X n ) es una función de la mestra que se

utilizará para estimar φ , nos referimos a g como un estimador de φ . El valor que

toma g se conoce como estimado de φ . El valor que toma g se conoce como

estimado de φ y se denota φˆ .

Estimador Insesgado: Sea φˆ un estimado del parámetro φ asociado

con X. Entonces φˆ es un estimador insesgado para φ si E (φˆ ) = φ para toda φ .

Intervalo de Confianza: Sabemos que X tiene distribución N µ , σ 2 , donde ( )


σ2 se supone conocida y µ es el parámetro desconocido. Sea

X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y X el promedio puntual.


Probabilidad y Estadística – Resumen Teórico 32

( ) X −µ
Sabemos que X ~ N µ , σ n . Por lo tanto z = 
2

 σ 
 n tiene distribución

N ( 0,1) . Aunque z depende de µ , si fdp no, entonces:

 X −µ 
2Φ( z ) − 1 = P − z ≤   ≤ z 
  σ  

 zσ zσ 
= P − − X ≤ −µ ≤ +X
 n n 

 zσ zσ 
= P X − ≤ −µ ≤ X + 
 n n

Esto no significa que µ cae en el intervalo 2Φ( z ) − 1 ; sino que 2Φ( z ) − 1

 zσ zσ 
es igual a la probabilidad que el intervalo aleatorio  X − ,X +  contenga a
 n n
µ . Como z queda a nuestro criterio podemos elegirlo de modo que

α K
2Φ( z ) − 1 = 1 − α . Así Φ ( z ) = 1 − ese valor de z, denotado con 1−α se obtiene
2 2

 
de la tabla. Es decir tenemos Φ K α  = 1− α
 2
 1− 2 

Φ( z )

z = k1−α 2
Probabilidad y Estadística – Resumen Teórico 33

 zσ zσ 
Resumiendo: el intervalo  X − ,X +  es un intervalo de
 n n

confianza para el parámetro µ con coeficiente de confianza (1 − α ) , ó un

(1 − α )100% el intervalo de confianza.

Ejemplo:

(1 − α )100% = 95%
1 − α = 0,95

α = 0,05