Ax 9 G 5 MVFL 78532 U 8 H 2 A 4

Probabilidad y Estadística – Resumen Teórico 1
Experimento Aleatorio
Tiene tres características:
A- Es posible repetirlo en forma indefinida sin cambiar

esencialmente las condiciones.
B- Podemos describir el conjunto de todos los resultados posibles

del experimento.
C- Al repetir el experimento un gran número de veces aparece un

patrón definido.
Espacio muestral
Es el conjunto de todos los resultados posibles del experimento aleatorio (

ε ), según la cantidad de elementos que posea el Espacio Muestral puede ser:
 Finito: “Se lanza un dado y se anota la cara superior”.
 Infinito Numerable: “Se fabrican artículos hasta producir 10 no

defectuosos” {10,11,12,13....}.
 Infinito No Numerable: “Se anota la duración de una lampara”

{T T ≥ 0}
Eventos
Un evento A (respecto de un espacio muestral S asociado a un experimento

ε ) es un conjunto de resultados posibles ( A ⊂ S ).
Definición: Dos eventos A y B son mutuamente excluyentes si no pueden

ocurrir juntos. Expresamos esto escribiendo A ∩ B = φ .
Frecuencia Relativa
Si se repite n veces el experimento ε y sea A y B dos eventos asociados a él.

Sea nA y nB el número de veces que ocurrió el evento A y el B respectivamente de las n
nA
repeticiones, llamaremos a fA = frecuencia relativa del evento A en las n
n
repeticiones del experimento ε . La f A tiene las siguientes propiedades:
i) 0 ≤ f A ≤ 1 .
ii) f A = 1 si y solo si A ocurre cada vez en las n repeticiones.
iii) f A = 0 si y solo si A nunca ocurre en las n repeticiones.
iv) Si A y B son eventos mutuamente excluyentes entonces f A∪ B = f A + f B

.
v) f A , basada en las n repeticiones de ε y considerada para una función de
n, “converge” en cierto sentido probabilístico a P(A) cuando n ∞ .
Probabilidad
Lo que queremos es acercarnos al número de la f A sin recurrir a la

experimentación. Para llegar a ello el número de repeticiones debe ser muy grande
y procedemos como sigue:
Con cada evento A asociamos un número real, designado con P(A) y

llamando probabilidad de A, el cual satisface las siguientes propiedades:
i) 0 ≤ P ( A) ≤ 1 .
ii) P(S) = 1.
iii) Si A y B son eventos que se excluyen mutuamente,

P ( A ∪ B ) = P ( A) + P ( B ) .
iv) Si A1 ,A2, A3..............An son eventos que se excluyen mutuamente de par
 n  n
P
en par, entonces:  A  = ∑ P ( Ai ) .
i 
 i =1  i =1
Teorema 1.1: Si φ es el conjunto vacío, entonces P( φ ) = 0.
Demostración: Podemos escribir A = A ∪ φ y como A y φ son
mutuamente excluyentes escribimos P( A) = P( A ∪ φ ) = P ( A) + P( φ ) .
Nota: No vale la recíproca. Esto es, si P(A) = 0 no significa que A = φ .
Teorema 1.2: Si Ã es el evento complementario de A, entonces:
P ( A) = 1 − P ( Ã ) .
Demostración: Podemos sustituir S = A∪ Ã , entonces
P( S ) = P ( A ∪ Ã ) = P ( A) + P ( Ã ) , así tenemos 1 = P( A) + P ( Ã ) .
Teorema 1.3: Si A y B son dos eventos cualesquiera, entonces:

P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .
Demostración:
S
A B
A∪ B = A∪ (B ∩ Ã)
B = ( A ∩ B) ∪ ( B ∩ Ã ) A∩B Ã∩B
Por lo tanto:
P ( A ∪ B ) = P ( A) + P ( B ∩ Ã )
P( B ) = P( A ∩ B ) + P ( B ∩ Ã )
Si restamos las dos ecuaciones:
P ( A ∪ B ) − P ( B ) = P ( A) − P ( A ∩ B )
Teorema 1.4: Si A, B y C son tres eventos cualesquiera, entonces:
P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P ( C ) − P ( A ∩ B ) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C )
Demostración: Consiste en escribir A ∪ B ∪ C como ( A ∪ B ) ∪ C y

aplicar el resultado del teorema anterior.
Teorema1.5: Si A ⊂ B , entonces P( A) ≤ P( B ) .
Demostración: Podemos escribir a B como dos eventos excluyentes
B = A ∪ ( B ∩ Ã ) . Por lo tanto P( B ) = P( A) + P ( B ∩ Ã ) y como por propiedad
P ( B ∩ Ã ) ≥ 0 entonces fácil apreciar que P( A) ≤ P( B ) .
Métodos de Conteo
Principio de la Multiplicación:
Para ir del punto P a la recta L1 hay n1 maneras, y para ir de L1 a L2 hay n2
maneras. Entonces para ir de P a L2 hay n1* n2 maneras.
P
L1
n1 Principio de la
Adición:
L1 n2 n1
L2 Para ir de un punto p
P
a la recta L1 hay n1 maneras,
n2
L2
y para ir de P a la recta L2 hay n2 maneras. Entonces, para ir de el punto P a
cualesquiera de las rectas hay n1 + n2 maneras.
Permutaciones:
Agrupar (ó permutar) n objetos es equivalente a ponerlos en algún orden
específico, en una caja de n lugares. La primera casilla 1 2 3 4 .... n
se puede llenar de cualesquiera de las n maneras, la
segunda de (n-1) maneras.....y así obtendremos, por el principio de la
multiplicación, que la caja se puede llenar de n( n − 1)( n − 2)  1 maneras. Entonces
las maneras de permutar los n objetos son n!.
Si ahora quiero elegir r de esos n objetos ( 0 ≤ r ≤ n ) y permutarlos,

recurriremos nuevamente a la caja de n compartimientos. Así el primer
compartimiento se puede llenar de n maneras, el segundo de (n-1)... y el r-ésimo
compartimiento con n − ( r − 1) maneras y así, usando el principio de la
multiplicación encontramos que hay n( n − 1)( n − 2)  ( n − r + 1) maneras. Usando
n n!
notación factorial: P  =
 r  ( n − r )!
Combinaciones:
Consideremos nuevamente n objetos diferentes.
1 2 ... r .... n
Esta vez queremos contar cuantas maneras hay de
escoger r de esos n objetos pero sin que nos importe el orden. Sea C el número de
maneras de escoger r objetos sin orden, sabemos que hay r! Maneras de
permutarlos, entonces:
n! n n!
Cr! = ⇒ C =   =
( n − r )!  r  r! ( n − r )!
Las dos propiedades fundamentales son:
1- ( nr ) = ( n n- r)
2- ( nr ) = ( nr -- 11 ) ( n r- 1)
+
Permutaciones cuando no todos los objetos son diferentes:

En los métodos hasta ahora enunciados suponíamos que los objetos son distintos
(distinguibles). Supongamos ahora que de los n objetos hay n1 de una clase, n2 de
otra... y así hay k clases, donde n1+n2+...+nK = n. Entonces el número de
n!
permutaciones esta dado por: .
n1 ! n 2 ! n K !
Probabilidad Condicional
Sean A y B dos eventos asociados con un experimento ε . Indicaremos con
PB( A) la probabilidad condicional del evento B, dado que A ha ocurrido.

( )
Cada vez que calculamos P B A , esencialmente estamos calculando P( B )
respecto del espacio muestral reducido A, en vez del espacio muestral original S.
Podemos escribir:
B = B∩S
y sabemos que :
P( B ) = P( B ∩ S ) = P( B ) P ( S ) ⇒ P B ( S ) = P(PB( ∩S )S )
Si ahora reducimos el espacio Muestral de S a A:
PB( A) = P(PB( ∩A)A) puesto que P( A) > 0

La consecuencia más importante de la definición de probabilidad

condicional es:
( A ) P ( A)
P( A ∩ B ) = P B
( B ) P( B )
P( A ∩ B ) = P A
Esto también se conoce como el teorema de la multiplicación de

probabilidades.
S S S S
A B B A A B
A B
i ) A∩ B =φ ii ) A ⊂ B iii ) B ⊂ A iv ) Ninguno anterior
( )
i ) P A B = 0 ≤ P( A) puesto que A no puede ocurrir si ocurrió B.
P ( A ∩ B ) P ( A)
( )
ii ) P A B =
P( B )
=
P( B )
≥ P ( A) puesto que 0 < P( B ) ≤ 1 .
P( A ∩ B ) P( B )
( )
iii ) P A B =
P( B )
=
P( B )
= 1 ≥ P ( A) .
iv ) No se puede hacer porque ninguna afirmación acerca de la magnitud
( )
relativa de P A B y P( A) .
Definición: Decimos que los eventos B1, B2, B3,...,Bk representan una
partición de S si:
a) Bi ∩ B j = φ , ∀i ≠ j . B1 B2 B3
B4
A B5 B6
k
b) Bi = S .
i =1
c) P( Bi ) > 0, ∀i
En otras palabras, cuando se efectúa el experimento ε , ocurre uno y sólo

uno de los eventos Bj.
Sea A algún evento de S y sea B1, B2, B3,...,Bk una partición de S. Por lo
tanto podemos escribir:
A = ( A ∩ B1 ) ∪ ( A ∩ B 2 ) ∪  ∪ ( A ∩ B k ) vemos que todos los pares
A ∩ B j son mutuamente excluyentes, por lo tanto podemos aplicar la propiedad
aditiva:
P( A) = P ( A ∩ B1 ) + P ( A ∩ B 2 ) +  + P ( A ∩ B k )
Sin embargo, cada término P( A ∩ B j ) se puede escribir como
P A  P ( B j ) , y así obtenemos el teorema de la probabilidad Total:

 
 Bj 
P( A) = P A  P ( B1 ) + P A  P( B 2 ) +  + P A  P ( B k )

 B1   B2   Bk 
Teorema de Bayes:
Sean B1, B2, B3,...,Bk una partición de S y A un evento asociado a él.

Aplicando la definición de probabilidad condicional, podemos escribir:
P A  P ( Bi )
 Bi 
P i  = k
B
, con i = 1, 2, 3....,k
 A
∑ P
A 
 B  P ( B j )
j =1  j 
También se le llama fórmula para la probabilidad de las “causas”. Puesto

que las Bi son una partición del espacio muestral, uno y sólo uno de los eventos Bi
ocurre. Por lo tanto, la fórmula anterior nos da la probabilidad de un Bi particular
(esto es, una “causa”), dado que el evento A ocurrió.
Eventos Independientes: Sabemos que si dos eventos son

independientes, el que suceda uno no indica nada para el otro. Entonces
PA( B ) = P( A) y P( B A) = P( B ) . Hay otro método más fácil, esto es:

P( A ∩ B ) = P A ( B ) P ( B ) = P ( A) P ( B )
P( A ∩ B ) = P B ( A) P ( A) = P ( A) P ( B )
Definición: A y B son eventos independientes si y sólo si

P ( A ∩ B ) = P ( A) P ( B ) .
Definición: Decimos que los tres eventos A, B y C son mutuamente

independientes si y sólo si todas las condiciones siguientes se mantienen:
i ) P ( A ∩ B ) = P ( A) P ( B )
ii ) P( A ∩ C ) = P ( A) P ( C )
iii ) P( B ∩ C ) = P ( B ) P ( C )
iv ) P( A ∩ B ∩ C ) = P ( A) P ( B ) P( C )
Definición: Los n eventos A1, A2, A3,...,An son mutuamente

independientes si y sólo si tenemos para cada k = 2, 3, 4.....n
P( Ai1 ∩ Ai 2 ∩  ∩ Aik ) = P( Ai 2 ) P ( Ai 2 )  P( Aik )

Variable Aleatoria
Sea un experimento ε y S el espacio muestral asociado a él. Una función X
que a cada uno de los elementos s ∈ S , un número real X ( S ) , se llama variable

aleatoria.
El espacio R X , es decir, el conjunto de todos los valores posibles de X,

algunas veces es llamado recorrido.
Definición: Sea ε un experimento y S su espacio muestral. Sea X una
variable aleatoria definida en S y sea R X su recorrido. Sea B un evento respecto a
R X , esto es, B ⊂ R X . Supongamos que A se define como:
A = { s ∈ S X S ∈ B}
Es decir, A consta de todos los resultados en S para los cuales X S ∈ B .

Entonces A y B son eventos equivalentes:
S A B RX
S XS
Definición: Sea B un evento en el recorrido R X , entonces definimos P( B )

como sigue:
P ( B ) = P ( A) A = { s ∈ S X S ∈ B}
Es decir, la probabilidad de dos eventos equivalentes es la misma. De esta

manera, desde aquí podremos ignorar el espacio muestral S que dio lugar a esas
probabilidades.
Variables Aleatorias Discretas
Sea X una variable aleatoria. Si el número de valores posibles de X ( R X ) es

finita o infinita numerable, llamamos a X una variable aleatoria discreta. Esto es,
se pueden anotar los valores posibles de X como X1, X2, X3,....,Xn.
Definición: Sea X una variable aletoria discreta, con cada resultado posible
xi asociamos un número p ( x i ) = P[ X = x i ] , llamado probabilidad de xi.
Propiedades:
i ) p ( x i ) ≥ 0, ∀i .
∞
ii ) ∑ p( x ) = 1 .
i =1
i
La función p antes mencionada se llama función de probabilidad puntual de

la variable X.
p( x )
X1 X2 X3 X4 Xn
Sea B un evento asociado con la variable aleatoria X. Esto es, B ⊂ R X
( B = { x1 , x 2 ,  , x n } ) . Por lo tanto:
P( B ) = P[ S X S ∈ B ] (puesto que son equivalentes)
P( B ) = P[ S X S = x i ; i = 1,2,3,  , n]
P( B ) = ∑ p ( x j )
n
j =1
Distribución Binomial: Sea un experimento ε y un evento A asociado
a él. Suponemos P( A) = p (por ende, P ( Ã ) = 1 − p ). Consideramos n repeticiones

independientes de ε . Por lo tanto, S consiste de las sucesiones posibles

{ a1 , a 2 ,  , a n } donde cada ai es A o Ã, según ocurra A o Ã en la i-ésima repetición.
Supongamos que P( A) = p es el mismo para todas las repeticiones y
definimos X = “número de veces que ocurrió A”. Llamamos a X una variable
aleatoria Binomial con parámetros n y p. Las repeticiones individuales de ε se
llamarán ensayos de Bernoullí.
Teorema 4.1: Sea X una variable Binomial con base en n repeticiones.

Entonces:
n
P[ X = k ] =   p k (1 − p )
n−k
k 
Demostración: Consideremos que en las n repeticiones de ε ocurre k

veces A. Así:
      
AAAAAAA  AÃÃÃÃÃÃÃÃ
     
 
 Ã
k n−k
Si P( A) = p y como todas las repeticiones son independientes, la

n
probabilidad de esta sucesión particular sería p k (1 − p ) n − k . Pero como hay  
k 
maneras de agruparlas:
n
P[ X = k ] =   p k (1 − p )
n−k
k 
Variables Aleatorias Continuas
Se dice que X es una variable aleatoria continua, si existe una función f ,

llamada función de densidad de probabilidad (fdp) de X, que satisface las
siguientes condiciones:
i ) f ( X ) ≥ 0, ∀X .
f ( X ) dx = 1 .
+∞
ii ) ∫
−∞
iii ) Para cualquier a, b tal que − ∞ < a < b < +∞ , tenemos
P[ a ≤ X ≤ b] = ∫ f ( X ) dx .
b
fdp
P[ a ≤ X ≤ b ]
a b
No existen, en este tipo de variables la probabilidad puntual del tipo
P[ X = x 0 ] , puesto que P[ X = x 0 ] = ∫ f ( X ) dx = 0 .
x0
x0
Si X toma valores en un intervalo finito [a, b], establecemos

f ( X ) = 0, ∀X ∉ [ a, b] .
Función de distribución acumulada: Sea X una variable aleatoria,

discreta o continua. Definimos que F es la función de distribución acumulativa de
la variable aleatoria X (fda) como F ( X ) = P[ X ≤ x ] .
Teorema 4.2:
Si X es una variable aleatoria discreta:
F ( X ) = ∑ p( x j ) ∀j x j < X
j
Si X es una variable aleatoria continua:
F( X ) = ∫ f ( s ) ds
X
−∞
Teorema 4.3:
a- La función F es no decreciente. Esto es si x 1 ≤ x 2 , tenemos
F ( x1 ) ≤ F ( x2 ) .
b- xlim F( X ) = 0 y lim F ( X ) = 1 (A menudo se escribe como

→ −∞ x → +∞
F ( − ∞ ) = 0 y F ( + ∞ ) = 1 ).
Demostración:
a- Definimos los eventos A y B como sigue: A = { x ≤ x1 } y
B = { x ≤ x 2 } . Entonces, puesto que x 1 ≤ x 2 , tenemos A ⊂ B y
por el teorema 1.5, P( A) ≤ P( B ) .
b- Para el caso continuo:
i. F ( − ∞ ) = lim f ( s ) ds = 0
X
∫
x → −∞ − ∞ .
ii. F ( + ∞ ) = lim f ( s ) ds = 1
x
∫
x → +∞ − ∞ .
Teorema 4.4:
a- Sea F la fda de una variable aleatoria continua con fdp f. Luego,
dF ( x )
f ( x) = para toda X en la cual F es diferenciable.
dx
b- Sea X una variable aleatoria discreta con valores posibles x1 , x 2 , 

y supongamos que es posible rotular esos valores de modo que
x1 < x 2 <  . Sea F la fda de X. Entonces:
[ ]
p ( x j ) = P X = x j = F ( x j ) − F ( x j −1 ) .
Demostración:
F ( x ) = P( X ≤ x ) = ∫ f ( s )ds .
x
a- Así, aplicando el teorema
−∞
fundamental del cálculo tenemos que F ′( x ) = f ( x ) .
b- Puesto que supusimos x1 < x 2 <  , tenemos:
[
F ( x j ) = P X = x j ∪ X = x j −1 ∪ X = x j − 2 ∪  ∪ X = x1 ]
= P ( x j ) + P ( x j −1 ) + P ( x j − 2 ) +  P( x1 )
[
F ( x j −1 ) = P X = x j −1 ∪ X = x j − 2 ∪  ∪ X = x1 ]
= P ( x j −1 ) + P ( x j − 2 ) +  P ( x1 )
[ ]
Por lo tanto, F ( x j ) − F ( x j −1 ) = P X = x j = p ( x j ) .
Variables aleatorias distribuidas uniformemente: Supongamos

que X es una variable aleatoria continua que toma todos los valores en el intervalo
[a,b], donde a y b son finitos. Si la fdp de X está dada por:
1 a+b
f ( x) = , a ≤ x ≤b. E( x) = ,esperanza
b−a 2
f ( x) = 0 , en caso contrario. V ( x) =
( b − a)
2
, varianza
12
Decimos que X esta distribuida uniformemente en el intervalo [a, b].

Valor esperado de una variable aleatoria
Sea X una variable aleatoria discreta con valores posibles x1 , x 2 ,  , x n y
[ ]
sea p ( x j ) = P X = x j con i = 1, 2, 3,...,n. Entonces el valor esperado de X (o
esperanza matemática de X) que se anota E ( x ) y se define como:
n
E ( x ) = ∑ xi p( xi )
i =1
Si la serie converge absolutamente. Este número también se designa como
valor promedio de X. Consideramos una variable aleatoria y sean x1 , x 2 ,  , x n los

resultado obtenido en las n repeticiones de ε ; y sea X el promedio aritmético de
esos n números; si n es suficientemente grande, X estará cerca de E ( x ) .
Teorema 7.1: Sea X ~ B ( n, p ) , entonces E ( x ) = np .
Demostración: Puesto que
n
P[ X = k ] =   p k (1 − p )
n−k
k 
Tenemos:
n
n!
E( x) = ∑ k p k (1 − p )
n−k
k =0 k! ( n − k )!
n
n!
E( x) = ∑ p k (1 − p )
n−k
(ya que con k = 0 se hace cero).
k =1 ( k − 1)! ( n − k )!
Sea S = k − 1 en la suma anterior. Como k toma valores de 1 a n, S toma
valores de 0 a ( n − 1) .Sustituyendo k por ( S + 1) tenemos:
La suma de la última expresión es simplemente la suma de probabilidades

n −1 n −1
E( x) = ∑ n n-1 p s+1
(1-p) n-s-1
= np ∑ n-1 p s (1-p) n-s-1
s =0 s =0
s s
binomiales con n sustituida por ( n − 1) . Por lo tanto es igual a uno.
Definición: Sea X una variable aleatoria continua con fdp f. El valor

esperado de X se define como:
E ( x ) = ∫ xf ( x ) dx
+∞
−∞
Puede suceder que la integral impropia no converja. Por lo tanto decimos

que E ( x ) existe si y solo si:
x f ( x ) dx , es finita
+∞
∫ −∞
Teorema 7.2: Supongamos X ~ [ a, b] entonces:
a+b
E( x) =
2
1
Demostración: La fdp de X está dada por f ( x ) = , a ≤ x ≤ b por
b−a
lo tanto:
b
x 1 x2 a+b
E( x) = ∫
b
dx = =
a b−a b−a 2 a
2
Propiedades de la Esperanza
i ) Si X = C , donde C es una constante, F ( x)

entonces E ( X ) = C . F ( x) = 1
Demostración:
X =C
E ( x ) = ∫ Cf ( x ) dx = C ∫ f ( x ) dx = C
+∞ +∞
−∞ −∞
ii ) Sea C una constante y X una variable aleatoria entonces E ( Cx ) = CE ( x )

.
Demostración:
E ( Cx ) = ∫ Cxf ( x ) dx = C ∫ xf ( x ) dx = CE ( x )
+∞ +∞
−∞ −∞
iii ) Sean X e Y dos variables aleatorias, entonces E ( X + Y ) = E ( X ) + E ( Y )
o dicho más generalmente, sean las variables aleatorias X 1 , X 2 , X 3 , X 4 ,  , X n

entonces:
E( X 1 , X 2 , X 3 , X 4 , , X n ) = E( X 1 ) + E( X 2 ) + E( X 3 ) + E( X 4 ) +  + E( X n )
La Varianza de una variable aleatoria
Sea X una variable aleatoria. Definimos la varianza de X, que se denota con
V ( x ) o con σ 2 ( x ) como sigue:
V ( x ) = E[ x − E ( x ) ]
2
La Raíz cuadrada positiva de V ( x ) se llama desviación estándar de X y se
designa con σ ( x ) .
Teorema 7.5:
( )
V ( x) = E x 2 − [ E( x) ]
2
Demostración:
V ( x ) = E[ x − E ( x ) ]
2
{
= E x 2 − 2 xE ( x ) + [ E ( x ) ]
2
}
( )
= E x 2 − 2E ( x ) E ( x ) + [ E ( x ) ]
2
( )
= E x 2 − [ E( x) ]
2
Propiedades de La Varianza
i ) Si C es una constante, entonces V ( x + C ) = V ( x ) .
Demostración:
V ( x + C ) = E[ ( x + C ) − E ( x + C ) ] = E[ x + C − E ( x ) − C ] = E[ x − E ( x ) ] = V ( x )
2 2 2
ii ) ) Si C es una constante, entonces V ( Cx ) = C 2V ( x ) .
Demostración:
2 2
[
V ( Cx ) = E ( Cx ) − [ E ( Cx ) ] = C 2 E ( x ) − C 2 E [ ( x ) ] = C 2 E ( x ) − [ E ( x ) ]
2 2 2 2
] = C V ( x)
2
iii ) Sea X una variable aleatoria con varianza finita. Luego, para cualquier
número real α .
V ( x) = E( x − α ) − [ E( x − α ) ]
2 2
Distribución de Poisson:
e −α α x
P[ X = x ] = , donde α = λT y λ = veces que ocurre.
x!
T = Unidad de tiempo.
Teorema 8.1: Si X ~ Ρ(α ) (si X tiene aproximadamente una
distribución de Poisson ( Ρ(α ) ).), entonces:
E( x) = V ( x) = α
Demostración:
∞
ke −α α k ∞ e −α α k
E( x) = ∑ =∑ , si s = k –1 tenemos
k =0 k! k =1 ( k − 1)!
∞
e −α α s +1 ∞
e −α α s
E( x) = ∑ =α∑ =α .
s =0 s! s =1 s!
Del mismo modo:

k 2 e −α α k ∞ ke −α α k
( )
∞
E x2 = ∑ =∑ , si s = k –1 tenemos
k =0 k! k =1 ( k − 1)!
( )
E x2 = ∑
∞
( s + 1) e −α α s +1 =α∑
∞
se −α α s ∞ e −α α s
+∑ =
s =0 s!     
s =0 s! s =0 s !
E ( x ) =α
( ) ( )
= αα + α1 = E x 2 = α 2 + α ∴V ( x ) = E x 2 − [ E ( x ) ] = α 2 + α − α 2 = α .
2
Aproximación de la Binomial por Poisson:
Sea X una variable aleatoria discreta distribuida binomialmente con

parámetros n y p. Si n → ∞ entonces la variable X tiene un comportamiento de
Poisson.
X ~ B ( n, p ) ⇒ E ( x ) = np
np = α
X ~ Ρ( α ) ⇒ E ( x ) = α
Demostración: Si X ~ B ( n, p ) , entonces:
n α
P[ X = x ] =   p x (1 − p )
n−x
Como np = α ⇒ p
 x n
n( n − 1)  1  α 
x n −x
 α  α
f ( x) =   1 −  1 −  =
( n − x )! x!  n   n  n
n( n − 1)  1
n −x
αx 1  α  α
= 1 −  1 −  =
x! ( n − x )( n − x − 1)  1 n x  n   n 
Ahora, si n → ∞ y hacemos cálculos auxiliares:
n( n − 1)  1 1
A ) nlím =1
→∞ ( n − x )( n − x − 1) 1 n x
−x
 α
B ) lím 1 −  =1
n→∞
 n
n
n − ( −α )
n     α
C ) lím 1 − α  = lím 1 + 1  = lím 1 + 1 
n →∞
 − n  n → ∞
 − n 
n →∞
 n
 α  α
 n −α 
−   n −α
− 
  α    α
 1    1   −α
= lím 1 +    = lím 1 +   =e
n →∞ n
 − α   
n → ∞ n
 − α  
             
e
α x e −α
Juntando los puntos A, B y C Tenemos: f ( x ) =
x!
Distribución Geométrica
Repetimos el experimento de Bernoulli hasta que el evento A ocurra por

primera vez:
P[ X = x ] = p ( 1 − p ) ó, p k −1 (1 − p )
k −1
1 q
E( x) = V ( x) =
p p2
Distribución Hipergeométrica
Repetimos el experimento de Bernoulli hasta que el evento A ocurra un

número de veces dado. Supongamos un lote de N objetos, de los cuales r son de
una clase1 y ( N − r ) son de la clase2.
Ahora escogemos n de esos artículos al azar ( n ≤ N ) sin reposición. Sea X

= {“Número de artículos de la clase1”}. Puesto que X = k si y sólo si obtendremos
k artículos de la clase1 (De los r existentes) y ( n − k ) de la clase2 (de los N – r
existentes) tenemos:
r N-r
P[X = k] = k n-k
N
n
r
Teorema 8.6: Sea X una variable Hipergeométrica y sean p = y
N
q = 1 − p tenemos:
N −n
E ( x ) = np V ( x ) = npq
N −1
Para N grande,
n
P[ X = k ] ≅   p k (1 − p )
n −k
k
 
NOTA: Si el problema es con sustitución vale la Binomial; pero si es sin

sustitución vale la Hipergeométrica.
Distribución Normal
Una variable aleatoria X que toma todos los valores reales tiene
distribución Normal Gaussiana si su fdp es de la siguiente forma:
 1  x−µ 2 
( )
− 
1  2  σ  
f ( x) = e   X ~ N µ,σ 2
2π σ
con la condición de que σ > 0
Propiedades:
f ( x ) dx = 1
+∞
i) ∫
−∞
ii ) E ( x ) = µ
iii ) V ( x ) = σ 2
iv ) la gráfica es simétrica respecto de µ

v ) Si X ~ N ( 0,1) decimos que X tiene una distribución Normal Tipificada y

se escribe así:
x2
1 −2
ϕ ( x) = e
2π
La ventaja de esta última es que se encuentra tabulada:
x2
1
P[ a ≤ x ≤ b ] =
b −
2π
∫ a
e 2
dx
Como la integral no puede resolverse por el teorema fundamental del
x2
cálculo (ya que no hay función que derivada sea igual a e − 2 ) usamos los métodos
de integración numérica para evaluar dicha integral ( P[ X ≤ s ] ha sido tabulada ).

Esta fda se denota con Φ : es decir:
x2
1 −
Φ( s ) =
s
2π
∫
−∞
e 2
dx
( X − µ)
(
Por lo tanto, si X ~ N µ , σ 2 entonces z = ) σ
tiene una distribución
N ( 0,1) , así:
a−µ b−µ  b−µ  a−µ 

P ( a ≤ X ≤ b ) = P ≤z≤  = Φ  − Φ 
 σ σ   σ   σ 
Distribución exponencial
Se dice que una variable aleatoria continua X que toma todos los valores no
negativos tiene una distribución exponencial con parámetros α > 0 si su fdp está
dada por:
αe −αx si x > 0
f ( x) =
0 si x ≤ 0
Propiedades:
i ) F ( x ) = P[ X ≤ x ] = ∫ αe −αT dT = 1 − e −αx ; x ≥ 0
x
ii ) E ( x ) = ∫ αxe −αx dx (integrando por partes u = x ; dv = αe −αx dx )

∞
1
E ( x ) = − xe −αx + ∫ e −αx dx =
∞
0 α
iii ) Integrando encontramos que E x =

2
( ) 2
y por lo tanto:
α2
( )
V ( x) = E x 2 − [ E( x) ] =
2 1
α2
iv ) Para cualquier s tomamos un T > 0 y hacemos:
 x > s + T  P( x > s + T ) e
−α ( s + T )
P = = = e −αT = P( X > T )
 x>s  P( x > s ) e −αs
Así vemos que esta distribución “no tiene memoria”.
Ley de los grandes Números
Sea ε un experimento de Bernoulli y A un evento asociado a él.

Considerando n repeticiones independientes de ε ; sea nA el número de veces que
nA
ocurre el evento A en las n repeticiones y sea f A = . Sea p = P( A) igual en las
n
n repeticiones, entonces:
p (1 − p )
i ) P[ f A − p ≥ ε ] ≤ donde ε es cualquier número mayor que 0
ne 2
ó en forma equivalente:
p (1 − p )
ii ) P[ f A − p < ε ] ≥ 1 −
ne 2
Demostración: Sea nA el número de veces que ocurre A, ésta es una
variable aleatoria Binomial. Entonces E ( n A ) = np y V ( n A ) = np(1 − p ) . Como
nA p (1 − p )
fA = , entonces E ( f A ) = p y V ( f A ) = .
n n
Aplicando la desigualdad de Chebyschev o fA tenemos:
 p (1 − p )  1
P f A − p < k  ≥ 1− 2
 n  k
p (1 − p ) nε 2
. Luego k =
2
Sea ε = k .
n p (1 − p )
desigualdad de Chebyschev
Sea X una variable aleatoria con E ( x ) = µ y sea c un número real
cualquiera. Entonces, si E ( x − c ) 2 es finita y ε es cualquier número positivo,

tenemos:
P[ X − c ≥ ε ] ≤
1
E( x − c)
2
ε 2
i ) Al considerar el complemento tenemos
P[ X − c < ε ] > 1 −
1
E ( x − c)
2
ε 2
ii ) Si elegimos c = µ tenemos
V ( x)
P[ X − µ ≥ ε ] ≤
ε2
iii ) Al elegir c = µ y ε = kσ (si V ( x ) = σ 2 )
P[ X − µ ≥ kσ ] ≤
1
k2
Demostración: Consideremos
P[ X − c ≥ ε ] = ∫ f ( x ) dx es decir, estamos entre − ∞ y c − ε ; y entre

x x − c ≥ε
c+ε y +∞.
Ahora, x − c ≥ ε equivalente a
( x − c) 2 ≥ 1 y por lo tanto la integral
ε2
( x − c ) 2 f ( x ) dx
anterior es ≤ ∫ donde R = { x x − c ≥ ε } .
R ε 2
Esta integral a su vez es:
+∞( x − c ) 2 f ( x ) dx
∫−∞ 2 ε
Lo que es igual a
1
E ( x − c ) que es lo que buscábamos
2
ε 2
Aproximación Normal a la Binomial
X − np
Si X ~ B ( n, p ) y si Y = luego, para una n grande, Y tiene
np(1 − p )
aproximadamente una distribución N ( 0,1) . Esto es para n > 10 si p está cerca de

0,5.
Como estamos pasando de una variable discreta a una continua habrá que
usar la corrección por continuidad:
i ) P[ X = k ] ≅ P[ k − 0,5 ≤ X ≤ k + 0,5]
ii ) P[ a ≤ X ≤ b] ≅ P[ a − 0,5 ≤ X ≤ b + 0,5]
Teorema del Límite Central
Recordamos que una X ~ B ( n, p ) se puede representar como la suma de

las variables:
Xi = 1 si A ocurre en la i-ésima repetición
= 0 en caso contrario
n
Por lo tanto X = ∑ x i . Ya demostramos que E ( x ) = np y V ( x ) = np(1 − p )
i =1
X − np
,y además si n es grande tiene distribución Normal N ( 0,1) .
np (1 − p )
Definición: Sea X 1 , X 2 , X 3 , X 4 ,  , X n una sucesión de variables
aleatorias independientes con E ( x i ) = µ i y V ( x i ) = σ i con i = 1, 2, 3,...,n. Sea

2
X = X 1 + X 2 + X 3 +  + X n , entonces:
n
X − ∑ µi
i =1
z=
n
∑σ 2
i
i =1
Muestras Aleatorias
Tenemos que considerar una población de tamaño N, pero como toda la

población no se puede tomar, hay que elegir muestras; todas las posibles de
tamaño n, donde n ≤ N .
Si ahora designamos las N objetos (1, 2, 3,...,N) y tenemos Xi “Valor

poblacional del i-ésimo objeto” i = 1, 2, 3,...,n.
La distribución de las variables X 1 , X 2 , X 3 , X 4 ,  , X n depende de cómo

escogimos los n objetos.
Si el muestreo es con sustitución, escogiendo cada vez un objeto al azar, las

variables son independientes e idénticamente distribuidas. Así, para cada Xi
tenemos:
1
P[ x i = j ] = con j = 1,2,3,4..., N
N
Si el muestreo es sin sustitución las variables Xi ya no son independientes.

Entonces:
1
P[ x1 = j1 , x 2 = j 2 , x 3 = j 3 ,  , x n = j n ] =
N ( N − 1)  ( N − n + 1)
donde j1  j n son n valores cualesquiera de 1,  , N .
Definición: Sean X 1 , X 2 , X 3 , X 4 ,  , X n variables aleatorias

independientes con las misma distribución de X ; llamaremos entonces a
( X 1 , X 2 , X 3 , X 4 , , X n ) muestra aleatoria de X.
Estadísticos: Sean X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y
x1 , x 2 , x 3 , x 4 ,  , x n los valores tomados por la muestra. Sea H una función
definida para x1 , x 2 , x 3 , x 4 ,  , x n . Definimos Y = H ( x1 , x 2 , x 3 , x 4 ,  , x n ) como
un estadístico que toma valor y = H ( x1 , x 2 , x 3 , x 4 ,  , x n ) . En palabras, un

estadístico es una función real de la muestra.
Estadísticos Importantes: Sea ( X 1 , X 2 , X 3 , X 4 , , X n ) una

muestra:
1 n
i) X = ∑ xi se llama Promedio Muestral.
n i =1
1 n
ii ) S =
2
∑ ( X i − X ) 2 se llama Varianza Muestral.
n − 1 i =1
iii ) K = mín( X 1 , X 2 , X 3 , X 4 ,  , X n ) se llama Mínimo Muestral (Es el

mínimo observado).
iv ) M = máx( X 1 , X 2 , X 3 , X 4 ,  , X n ) se llama Máximo Muestral (Es el

máximo observado).
v ) R = M − K se llama Recorrido Muestral.
vi ) x n = j-ésima observación mayor en la muestra, j = 1,  , n (tenemos

j
X n1 = M y X nn = K ).
Teorema 13.1: Sea X una variable aleatoria con E ( x ) = µ y varianza
V ( x ) = σ 2 . Sea X el promedio muestral de una muestra aleatoria de tamaño n.

Entonces:
i ) E( X ) = µ .
σ2
ii ) V ( X ) = .
n
( X − µ)
iii ) Para n grande, σ tiene aproximadamente la distribución N ( 0,1) .
n
Demostración:
1 n  1 n 1
i ) E ( X ) = E  ∑ x i  = ∑ E ( x i ) = nµ = µ .
 n i =1  n i =1 n
 1 n
 1 n
1 σ2
ii ) V ( X ) = V  2 ∑ xi  = 2 ∑ V ( xi ) = σ =
2
n
n i =1  n i =1 n2 n
Teorema 13.2: Sea X una variable aleatoria continua con fdp f y fda F.
Sea X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y sean K y M en mínimo y

el máximo respectivamente. Luego:
i ) la fdp de M es: g ( m ) = n[ F ( m ) ] n −1 f ( m ) .
ii ) la fdp de K es: h( k ) = n[ F ( k ) ] n −1 f ( k ) .
Demostración: Sea G ( m ) = P ( M ≤ m ) la fda de M; ahora { M ≤ m} es
equivalente al evento { X i ≤ m , para toda i}. Por lo tanto, puesto que Xi son
independientes encontramos:
G ( m ) = P[ X 1 ≤ m  X n ≤ m ] = [ F ( m ) ]
n
Por ende
g ( m ) = G ′( m ) = n[ F ( m ) ] f ( m)
n −1
NOTA: Demostración análoga para K.
Estimación de parámetros: Si sabemos que P( X = 1) = p y que
P( X = 0 ) = 1 − p ¿Cómo calculamos p? Usando algunos criterios:
Definición: Sea X una variable con parámetro desconocido φ . Sea
X 1 , X 2 , X 3 , X 4 ,  , X n una muestra de X y x1 , x 2 , x 3 , x 4 ,  , x n los valores
correspondientes. Si g ( X 1 , X 2 , X 3 , X 4 ,  , X n ) es una función de la mestra que se
utilizará para estimar φ , nos referimos a g como un estimador de φ . El valor que
toma g se conoce como estimado de φ . El valor que toma g se conoce como
estimado de φ y se denota φˆ .
Estimador Insesgado: Sea φˆ un estimado del parámetro φ asociado
con X. Entonces φˆ es un estimador insesgado para φ si E (φˆ ) = φ para toda φ .
Intervalo de Confianza: Sabemos que X tiene distribución N µ , σ 2 , donde ( )

σ2 se supone conocida y µ es el parámetro desconocido. Sea
X 1 , X 2 , X 3 , X 4 ,  , X n una muestra aleatoria de X y X el promedio puntual.

( ) X −µ
Sabemos que X ~ N µ , σ n . Por lo tanto z = 
2
 σ 
 n tiene distribución
N ( 0,1) . Aunque z depende de µ , si fdp no, entonces:
 X −µ 
2Φ( z ) − 1 = P − z ≤   ≤ z 
  σ  
 zσ zσ 
= P − − X ≤ −µ ≤ +X
 n n 
 zσ zσ 
= P X − ≤ −µ ≤ X + 
 n n
Esto no significa que µ cae en el intervalo 2Φ( z ) − 1 ; sino que 2Φ( z ) − 1
 zσ zσ 
es igual a la probabilidad que el intervalo aleatorio  X − ,X +  contenga a
 n n
µ . Como z queda a nuestro criterio podemos elegirlo de modo que
α K
2Φ( z ) − 1 = 1 − α . Así Φ ( z ) = 1 − ese valor de z, denotado con 1−α se obtiene
2 2
 
de la tabla. Es decir tenemos Φ K α  = 1− α
 2
 1− 2 
Φ( z )
z = k1−α 2
 zσ zσ 
Resumiendo: el intervalo  X − ,X +  es un intervalo de
 n n
confianza para el parámetro µ con coeficiente de confianza (1 − α ) , ó un
(1 − α )100% el intervalo de confianza.
Ejemplo:
(1 − α )100% = 95%
1 − α = 0,95
α = 0,05

Ax 9 G 5 MVFL 78532 U 8 H 2 A 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Ax 9 G 5 MVFL 78532 U 8 H 2 A 4

Uploaded by

Copyright:

Available Formats

Probabilidad y Estadística – Resumen Teórico 1

Tiene tres características:

A- Es posible repetirlo en forma indefinida sin cambiar

B- Podemos describir el conjunto de todos los resultados posibles

C- Al repetir el experimento un gran número de veces aparece un

Es el conjunto de todos los resultados posibles del experimento aleatorio (

 Finito: “Se lanza un dado y se anota la cara superior”.

 Infinito Numerable: “Se fabrican artículos hasta producir 10 no

 Infinito No Numerable: “Se anota la duración de una lampara”

Un evento A (respecto de un espacio muestral S asociado a un experimento

Definición: Dos eventos A y B son mutuamente excluyentes si no pueden

Si se repite n veces el experimento ε y sea A y B dos eventos asociados a él.

ii) f A = 1 si y solo si A ocurre cada vez en las n repeticiones.

iii) f A = 0 si y solo si A nunca ocurre en las n repeticiones.

iv) Si A y B son eventos mutuamente excluyentes entonces f A∪ B = f A + f B

v) f A , basada en las n repeticiones de ε y considerada para una función de

n, “converge” en cierto sentido probabilístico a P(A) cuando n ∞ .

Lo que queremos es acercarnos al número de la f A sin recurrir a la

Con cada evento A asociamos un número real, designado con P(A) y

iii) Si A y B son eventos que se excluyen mutuamente,

iv) Si A1 ,A2, A3..............An son eventos que se excluyen mutuamente de par

Teorema 1.1: Si φ es el conjunto vacío, entonces P( φ ) = 0.

Demostración: Podemos escribir A = A ∪ φ y como A y φ son

mutuamente excluyentes escribimos P( A) = P( A ∪ φ ) = P ( A) + P( φ ) .

Nota: No vale la recíproca. Esto es, si P(A) = 0 no significa que A = φ .

Teorema 1.2: Si Ã es el evento complementario de A, entonces:

Demostración: Podemos sustituir S = A∪ Ã , entonces

Teorema 1.3: Si A y B son dos eventos cualesquiera, entonces:

Si restamos las dos ecuaciones:

Teorema 1.4: Si A, B y C son tres eventos cualesquiera, entonces:

Demostración: Consiste en escribir A ∪ B ∪ C como ( A ∪ B ) ∪ C y

Demostración: Podemos escribir a B como dos eventos excluyentes

B = A ∪ ( B ∩ Ã ) . Por lo tanto P( B ) = P( A) + P ( B ∩ Ã ) y como por propiedad

P ( B ∩ Ã ) ≥ 0 entonces fácil apreciar que P( A) ≤ P( B ) .

Para ir del punto P a la recta L1 hay n1 maneras, y para ir de L1 a L2 hay n2

maneras. Entonces para ir de P a L2 hay n1* n2 maneras.

y para ir de P a la recta L2 hay n2 maneras. Entonces, para ir de el punto P a

cualesquiera de las rectas hay n1 + n2 maneras.

Si ahora quiero elegir r de esos n objetos ( 0 ≤ r ≤ n ) y permutarlos,

multiplicación encontramos que hay n( n − 1)( n − 2)  ( n − r + 1) maneras. Usando

Las dos propiedades fundamentales son:

Permutaciones cuando no todos los objetos son diferentes:

Sean A y B dos eventos asociados con un experimento ε . Indicaremos con

PB( A) la probabilidad condicional del evento B, dado que A ha ocurrido.

PB( A) = P(PB( ∩A)A) puesto que P( A) > 0

La consecuencia más importante de la definición de probabilidad

Esto también se conoce como el teorema de la multiplicación de

i ) A∩ B =φ ii ) A ⊂ B iii ) B ⊂ A iv ) Ninguno anterior

iv ) No se puede hacer porque ninguna afirmación acerca de la magnitud

En otras palabras, cuando se efectúa el experimento ε , ocurre uno y sólo

A = ( A ∩ B1 ) ∪ ( A ∩ B 2 ) ∪  ∪ ( A ∩ B k ) vemos que todos los pares

A ∩ B j son mutuamente excluyentes, por lo tanto podemos aplicar la propiedad

Sin embargo, cada término P( A ∩ B j ) se puede escribir como

P A  P ( B j ) , y así obtenemos el teorema de la probabilidad Total:

P( A) = P A  P ( B1 ) + P A  P( B 2 ) +  + P A  P ( B k )

Sean B1, B2, B3,...,Bk una partición de S y A un evento asociado a él.

También se le llama fórmula para la probabilidad de las “causas”. Puesto

Eventos Independientes: Sabemos que si dos eventos son

PA( B ) = P( A) y P( B A) = P( B ) . Hay otro método más fácil, esto es:

Definición: A y B son eventos independientes si y sólo si

Definición: Decimos que los tres eventos A, B y C son mutuamente

Definición: Los n eventos A1, A2, A3,...,An son mutuamente

P( Ai1 ∩ Ai 2 ∩  ∩ Aik ) = P( Ai 2 ) P ( Ai 2 )  P( Aik )