Professional Documents
Culture Documents
Resumen
Las nuevas tecnologías computacionales han permitido utilizar métodos alternativos para
presentar conceptos matemáticos, variando así el paradigma en cuanto a la relación cognitiva
entre el estudiante y el objeto del conocimiento. Se presenta aquí, utilizando la hoja de cálculo
Excel, algunas simulaciones que pretenden ilustrar conceptos particulares de la probabilidad
y la estadística inferencial como son: el cálculo de probabilidades en modelos distribucionales
binomial y normal, además del teorema del límite central y su aplicación en un problema que
ilustra la toma de decisiones soportado en el concepto de probabilidad.
Palabras y Frases Claves: Distribución binomial, distribución normal, teorema del límite
central, simulación, Excel, Probabilidad, Estadística Inferencial.
1. Introducción
1
la herramienta computacional y en particular el de la simulación que con ella se puede realizar,
permite trabajar en contextos de problemas interesantes, dando la posiblidad al estudiante de
generar procesos de re‡exión, razonamiento, planteamiento y solución de problemas y toma de
decisiones que le den sentido a los conceptos aprendidos.
Se presentan a continuación algunos conceptos de probabilidad y estadística inferencial ilustrados
a través de simulaciones realizadas usando la hoja de cálculo Excel, para ello se utilizará la versión
de Excel 20071 , en particular la herramienta Análisis de datos del menú Datos.
Los conceptos tratados e ilustrados a partir de las simulaciones en este escrito son: probabilidades
binomiales, probabilidades normales, teorema del límite central y un ejercicio que pretende ilustrar
la utilización del teorema del límite central en la toma de decisiones.
esta función aparece tabulada en la parte posterior de los libros para valores de r enteros no
negativos2 : Cabe notar que de acuerdo con la de…nición de función de distribución de probabilidad,
r puede ser cualquier número real.
De igual forma, para la distribución binomial se tiene que su media y su varianza están dadas
por:
= np (3)
2
= np(1 p) (4)
A continuación se presenta un ejemplo, tomado de [3], que ilustra la aplicación de cálculo de
probabiliades binomiales y que será objeto de la simulación para esta distribución.
2
Ejemplo 1 La probabilidad de que un paciente se recupere de una rara enfermedad sanguínea es
0;4. Si se sabe que 15 personas contraen tal enfermedad, ¿cuál es la probabilidad de que
Solución
P (3 X 8) = P (X 8) P (X 2)
= B(8; 15; 0;4) B(2; 15; 0;4)
= 0;9050 0;0271
= 0;8778
P (X = 5) = P (X 5) P (X 4)
= B(5; 15; 0;4) B(4; 15; 0;4)
= 0;4032 0;2173
= 0;1859
3
se accede a una caja con funciones para análisis, de ellas se selecciona la función Generación de
números aleatorios, en la caja de diálogo que aparece, se despliega el menú de la opción Distribución
y se elige Binomial, se completa el cuadro como aparece a continuación:
Con ello se le da la orden al programa que genere una variable con 10 mil números aleatorios, que
se distribuyen Binomial, con parámetros p = 0;4 y n = 15 y que los coloque en la columna A, más
especí…camente en el rango de celdas que va desde A2 hasta A10001.
Con esto se obtienen 10 mil datos que en cada caso se interpreta como el número de pacientes
que se recuperan de cierta enfermedad.
Para la simulación que aquí se muestra, se puede observar las 15 primeras réplicas del exper-
imento en donde se recuperan 9 pacientes en el primer caso, 8 en el segundo, 7 en el tercero y
así sucesivamente. No se preocupe si en su simulación los valores no coinciden, esto es debido al
concepto denominado aleatoriedad.
A continuación se construirá una tabla de frecuencia en donde se puede observar el número de
veces que aparece cada valor. La columna C se etiqueta con X y se rellena con los valores enteros
entre 0 y 15, que corresponde a los valores de la variable. En la columna D, etiquetada con f; se
4
quiere generar frente a cada valor de la variable aleatoria, el número de veces que aparece dicho
valor en los 10 mil datos. Ubicándose en la celda D2, se da clic sobre el botón Insertar función,
encerrada en el círculo en la esquina superior izquierda de la imagen, en la caja Insertar función que
aparece, se selecciona en la cuadro O seleccionar una categoría la opción Todas y luego se busca,
en el cuadro Seleccionar una función, la función CONTAR.SI y se rellena la caja que se despliega
como aparece en la …gura.
Con esta orden se le está indicando al programa que cuente el número de valores cero (0) en el rango
en donde se generaron los números aleatorios, para el caso de la simulación que se muestra, son 4
los valores cero que aparecen allí. Luego de esto se copia la función a las celdas correspondientes a
los otros valores de la variable aleatoria para generar la siguiente tabla de frecuencia.
Al …nal de la columna D donde aparece el conteo, se realiza la suma para veri…car que efectiva-
mente fueron 10 mil los datos que se contaron.
5
A partir de esta tabla se pueden estimar las probabilidades que se calcularon teóricamente en el
ejemplo 1. Por ejemplo, que se recuperen por lo menos 10 pacientes se da en 222 + 81 + 17 + 1 = 321
de 10 mil casos, esto es 0;0321; una buena aproximación al valor teórico que fue de 0;0388. De igual
forma, que sobrevivan de 3 a 8 pacientes se da en 8740 de las 10 mil casos, valor que corresponde
a 0;8740 y que aproxima al valor teórico 0;8778. Por último que sobrevivan exactamente 5 se da
en una proporción de 1834 en 10 mil, esto es 0;1834; que aproxima la probabilidad 0;1859. Esto
signi…ca que dividiendo los valores de la columna f por 10 mil, se puede aproximar la función de
densidad de probabilidad, esto se hace en la columna etiquetada con f r, y acumulando estos valores
en otra columna, por ejemplo F r; se puede aproximar la función de distribución de probabilidad,
tablas que aparecen en la parte posterior de los textos. (Ver [3] página 742 y comparar con la tabla
a continuación)
los valores y son efectivamente su media y su desviación, y la variable toma valores en toda
la recta real, 1 < x < 1: Los cálculos de probabilidades se dan a partir de la integración de la
función en (5) y esta integral permite obtener la función de distribución acumulada. Al pretender
simpli…car esta integral, se acude a un proceso de sustitución que se denomina estandarización de
la variable3 . Al realizar este proceso, la variable obtenida a partir de la transformación se dice que
sigue una distribución normal estándar, y se nota con la letra Z:
3 El proceso de estandarización sobre una variable normal con media y desviación ; acude a la transformación
Z = (X ) = ; la nueva variable aleatoria Z, se distribuye normal, pero con valores = 0 y = 1:
6
Ejemplo 2 Una máquina expendedora de bebidas gaseosas se regula para que sirva un promedio
de 200 mililitros por vaso. Si la cantidad de bebidas se distribuye normalmente con una desviación
estándar igual a 15 mililitros,
Solución
a. Si se denomina la variable aleatoria X como el contenido de los vasos que sirve la máquina, se
tiene entonces que esta variable se distribuye normal con = 200 y = 15; se desea aquí
calcular
X 224 200
P (X > 224) = P >
15
= P (Z > 1;6)
= 1 P (Z < 1;6)
= 1 0;9452 = 0;054 8 (6)
b. en este caso
191 200 209 200
P (191 < X < 209) = P <Z<
15 15
= P ( 0;6 < Z < 0;6)
= P (Z < 0;6) P (Z < 0;6)
= 0;4514 (7)
7
Al oprimir Aceptar se puede observar la generación de los números aleatorios. Una vez generados
éstos aparecen seleccionados (si no es así, se seleccionan sombreándolos) se procede inmediatamente
a ordenarlos dando clic sobre el botón que aparece encerrado en el círculo en el menú Ordenar en
la …gura.
En los datos aquí simulados, aparece como primer valor 139.85 que representa el contenido de un
primer vaso de gaseosa servido por la máquina y que de acuerdo al contexto del problema sería
de 139.85 mililitros. La columna etiquetada con n permite, como se mencionaba con anterioridad,
contar los datos, es así como si se desea contar cuántos datos hay menores a 152, al observar la
…gura, esta columna permite concluir que hay 12 de ellos. No sobra recordar que los resultados de
su simulación muy probablemente di…eran debido a que el trabajo se hace sobre la generación de
números aleatorios.
8
Una forma de observar cómo se comportan los datos es ilustrar esta variable mediante un
histograma, para ello se procede de la siguiente manera. En el menú Análisis de datos se selecciona
la función Histograma,
Se observa que aunque es un histograma, es decir un grá…co compuesto de barras cuya altura
denotan la frecuencia de los datos en este rango, éste presenta la forma acampanada característica
9
de la distribución normal. Se centra aproximadamente en 200 mililitros, la media. El cálculo de
proporciones de datos en algún rango podría hacerse con este histograma, sabiendo la altura exacta
a la que están cada una de las barras del mismo y el intervalo que su frecuencia representa. Para
realizar esta tarea de manera más simple, se volverá a la hoja del archivo Excel en donde se generaron
los datos iniciales.
Para la aproximación a la primera probabilidad en el literal (a) del Ejemplo 2, se debe observar
cuántos valores de la columna etiquetada con x son mayores que 224, para la simulación que aquí se
realiza se observa en la siguiente …gura que el primer valor menor a 224 aparece en la casilla 9452,
de esta forma hay, 10000 9452 = 548 valores menores que 224, esto proporcionalmente equivale a
10000 9452 9452
= 1
10000 10000
= 1 0;9452
= 0;0548
que aproxima de buena manera la probabilidad 0;054 8 obtenida en (6). De la misma forma, para
la aproximación del cálculo en la probabilidad del literal (b) se observa en la siguiente …gura que
El primer valor menor a 209 está en la posición 7208 mientras que el primer valor menor a 191 está
en la casilla 2728, así, la proporción de valores entre 191 y 209 está dada por
7208 2728 7208 2728
=
10000 10000 10000
= 0;7208 0;2728
= 0;448
10
3. El Teorema del Límite Central
El teorema del límite central o teorema central del límite indica que, en condiciones muy gen-
erales, la distribución de la suma de variables aleatorias tiende a una distribución normal cuando
la cantidad de variables es muy grande. Este teorema, perteneciente a la teoría de la probabilidad,
encuentra aplicación en muchos campos relacionados, tales como la inferencia estadística o la teoría
de renovación.
El teorema en un curso de estadística inferencial para pregrado se puede enunciar de la siguiente
forma:
Teorema 3 Sea X1 ; X2 ; :::; Xn una muestra aleatoria de una población cuya distribución tiene por
media y por desviación estándar : Entonces, si n es su…cientemente grande, la variable aleatoria
Pn
Xi
X = i=1
n
p
tiene una distribución aproximadamente normal con media X = y X = = n: De esta forma
la variable
X
Z= p
= n
se distribuye aproximadamente normal estándar, conforme n se hace grande.
Ejemplo 4 Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproxi-
madamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre
la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775
horas.
Solución
De acuerdo con el enunciado, se bautiza la variable Xi como la duración del i ésimo foco en
la muestra tomada. Así, la variable aleatoria Xi provienen de una población con media = 800
horas y desviación = 40 horas. De esta forma, por el teorema del límite central, si se toman
muestras de esta población de tamaño n = 16 y se calculan sus promedios, la variable
p aleatoria X
se distribuye aproximadamente normal con media X = 800 y desviación X = 40= 16 = 10: El
problema requiere el cálculo de la probabilidad
X X 775 800
P X < 775 = P < (8)
X 10
= P (Z < 2;5)
= 0;0062
11
Solución
Siendo X el promedio de impurezas en gramos por gramo de muestras de tamaño 50, por el
teorema del límite central y soportado en las especulaciones sobre la cantidad media de la población
de impurezas,pse puede a…rmar que la variable aleatoria X se distribuye normal con media X = 0;2
y X = 0;1= 50 0;01 414: Ya que la distribución de X se centra en X = 0;2 y el valor que
arroja el promedio de los 50 experimentos realizados es de x = 0;23; valor que queda a la derecha
del centro de la distribución, se calcula la probabilidad
X X 0;23 0;2
P X > 0;23 = P >
X 0;01 414
= P (Z > 2: 121 6)
= 1 P (Z < 2: 121 6)
= 0;0174
A partir de esta probabilidad se puede argumentar que, obtener muestras de tamaño 50 con prome-
dios arriba de 0;23 gramos por gramo es bastante improbable, apenas un 0;0174; en otras palabras,
el valor obtenido a partir del promedio de los 50 experimentos, es decir 0;23, estaría bastante lejano
de la a…rmación de que X = 0;2; es por esto que la evidencia muestral no apoyaría el hecho que
X = 0;2:
12
Lo que se debe tener presente es que los datos generados presentan 10 mil muestras en las 10 mil
…las, desde la …la 2 hasta la …la 10001, de tamaño 16 cada una, de la columna A hasta la P. La
columna Q se etiqueta con la palabra Media, ésta contendrá los valores de X de cada una de las
10 mil muestras, esto se realiza ubicando el cursor en la celda Q2 y en el menú Fórmulas se da clic
sobre Insertar función, en el recuadro Insertar función se busca la función Promedio.
En la línea Número de la caja de dialogo Promedio se escribe el rango de los datos a los cuales se
les quiere calcular el promedio o media, en este caso se quiere calcular el promedio de la primera
muestra de 16 datos que aparece en la …la 2 y que va desde A2 hasta P2.
13
Se da clic en Aceptar y nuevamente se copia la formula en las celdas de la columna Q, de la celda Q2
a la celda Q10001, esto se puede hacer, habiendo seleccionado la celda Q2, posicionando el cursor
en el vértice inferior derecho, allí donde aparece un punto negro, y cuando éste cambie de forma,
dando clic sostenido y arrastrando la formula hasta la celda Q10001 o dando doble clic sobre este
punto.
Al igual que en la simulación de la normal, se etiqueta la columna R con n y se escribirán allí los
números de 1 a 10000, esta variable permitirá contar más fácilmente valores en rangos determinados.
Como la idea es contar facilmente, se etiqueta la columna S con Media ord, esta columna contendrá
las medias pero ordenadas, se procede de la siguiente manera. Se seleccionan los 10 mil promedios de
la columna Media, se da clic derecho y se selecciona la opción copiar y en la posición de la celda S2,
dando nuevamente clic derecho se selecciona la opción Pegado especial, del recuadro que se abre se
selecciona la opción Valores y luego Aceptar, este proceso permite pegar los promedios en la nueva
columna S pero no ligada a cada muestra a través de formula sino como simples valores. Luego de
pegados estos valores se procede a ordenarlos, seleccionandolos y en el menú Datos dando clic sobre
el botón Ordenar de menor a mayor, cuando el programa despliegue la ventana Advertencia antes
de ordenar se selecciona la opción Continuar con la selección actual y luego clic en Ordenar.
Para ver el comportamiento de la variable Media, objeto de estudio en el contexto del Teorema
del Límite Central, se realizará un histograma de esta variable y se calcularán unas estadísticas
descriptivas básicas. El histograma se genera de la misma forma que se hizo en la sección de la
distribución normal, así la grá…ca que ilustra esta simulación se muestra a continuación.
14
El grá…co permite ver el comportamiento aproximadamente normal de la variable aleatoria X:
Este se centra en aproximadamente 800, como reza el Teorema del Límite Central, para analizar la
varianza de la distribución debe acudirse a un análisis minucioso de los datos, esto se realizará a
partir de unas estadísticas básicas. En el menú Análisis de datos se selecciona la función Estadística
descriptiva,
15
las estadísticas básicas que se calculan aparecen en el siguiente cuadro, sombreadas aparecen las
que interesan en el contexto del teorema estudiado.
Así, el número de medias en la simulación que aquí se realizó, muestra que hay 64 menores a 775,
que en proporción equivalen a
64
= 0;0064
10000
que aproxima la probabilidad teórica 0;062 en (8).
Para la última simulación, que ilustra el Ejemplo 5, el procedimiento es similar a la simulación
anterior, y las herramientas utilizadas de Excel son similares a las anteriores, es por eso que, se
concentrará la atención en los resultados y en su interpretación.
16
El procedimiento para esta simulación, como se mencionó, es similar a la anterior, salvo que se
generarán 10 mil muestras de tamaño 50, como lo expresa el Ejemplo 5, es decir se utilizarán las
columnas desde la A hasta la AX, en la columna AY vendrá la Media, en la AZ la variable n y
en la BA la variable Media ord. Se procede de manera similar, esta vez, claro está, se habla de 50
columnas, generadas a partir de una normal con media = 0;20, bajo el supuesto del problema, y
con desviación estándar = 0;1: Por ser la media tan próxima a cero, la simulación puede generar
algunos datos negativos que no deben producir desconcierto, simplemente no tendrían interpretación
en el contexto de problema, es así que el histograma que produjo los datos que aquí surgieron se
puede observar en la …gura.
Lo que se puede observar es que el histograma con forma acampanada, acumula bajas probabilidades
en las colas, es así como valores ubicados en esas colas son muy improbables, estos valores en la
columna etiquetada como Media ord en la hoja de cálculo se acumularán al principio de la columna
o al …nal. Es así que si se observa en que parte de esta columna se ubicará, más o menos, el valor
0; 23; que es el que arroja el experimento, según el Ejemplo 4, en la simulación que aquí se realiza
se observa en la …gura que cae en los últimos valores de la columna, posición 9843 de 10 mil.
17
encontrando la proporción de medias de muestras mayores a 0.23, esto es
10000 9842 9842
= 1
10000 10000
= 1 0;9842
= 0;015 8
4. Conclusiones
Ayudas computacionales a la par del desarrollo teórico de la clase permiten al docente aproximar
al estudiante de manera más intuitiva a conceptos complejos de la teoría de la probabilidad y la
estadística inferencial. Mediante la adaptación de problemas interesantes a procesos de simulación
y convirtiendose el docente en un guía que ayude al estudiante a la interpretación de cada uno de
los resultados generados computacionalmente, se facilitan al estudiante procesos de asimilación y
comprensión de conceptos desarrollados en clase. Además a través de este proceso se presenta una
técnica interesante como herramienta de investigación y análisis como lo es el proceso de simulación
computacional. Por otro lado el trabajo con el uso de la hoja de cálculo por parte del estudiante,
mejora en él el uso de ésta como herramienta avanzada para el diseño, planteamiento y solución de
problemas de carácter estadístico.
Referencias
[1] Lopes, P. Probabilidad & Estadística. Pearson Educación de Colombia. Bogotá. 2000.
[2] Mendenhall, W. Beaver, R. Beaver, B. Introducción a la probabilidad y estadística. Thomson
Learning. 2002.
[3] Walpole, R. Myers, R. Myers, S. Ye, K. Probabilidad y estadística para ingeniería y ciencias.
2007.
18
5. Anexo
Antes de inciar con la simulación, es importante que en el menú de Excel aparezca cargada la
opción ¨ Análisis de Datos¨ .
En caso de que no esté cargada, para activar este menú se da click sobre el ¨ Boton de O¢ ce¨ y en
el menú que se despliega se da click sobre ¨ Opciones de Excel ¨ ,
en la caja de dialogo que se abre se da click sobre el menú de ¨ Complementos¨ y allí estando activa
en el recuadro ¨ Administrar ¨ la opción ¨ Complementos de Excel ¨ se da oprime el boton ¨ Ir...¨ ,
19
en la caja de dialogo complementos se veri…can las dos opciones ¨ Herramientas para análisis -
VBA¨ y ¨ VBA del Ayudante para Internet¨ y luego click sobre ¨ Aceptar ¨ .
20