You are on page 1of 36

Universidad de Oriente.

Núcleo de Anzoátegui.
Escuela de Ingeniería y Ciencias Aplicadas.
Estadística.
Sección 20.

Trabajo de Investigación

Profesor: Bachiller:

Hernan S. Rojas S. Williams D., Claudia V. C.I: 27.301.767

Barcelona, Noviembre de 2017.


Introducción

La estadística es la parte de la matemática que se encarga de recolectar,


organizar, computar datos con el objeto de inferir conclusiones sobre ellos. Se
puede emplear en los problemas de la sociedad actual y en el incesante auge de
la tecnología, ya que esta requiere cada vez en mayor grado el auxilio de la
estadística. Esta ciencia es aplicada a la física, la biología, la medicina, problemas
industriales o empresariales tales como estudio del mercado y control de calidad,
censo de población, sondeos de opinión pública, estudios del comportamiento
humano, entre otros. Esta ciencia al trabajar con base de datos e información se
encarga de agruparlas y darles un orden en forma de tabla, donde también se
especifica la frecuencia con la que cada uno de los datos o fenómenos estudiados
como parte de los datos estadísticos recolectados, a esto se lo conoce como la
distribución de frecuencia.

La estadística una vez conocido las variables de estudio y realizado las


tablas de los datos valores que tiene cada una de estas variables ante una
determinada situación, es capaz de aplicar lo que es conocido como la distribución
de probabilidad, la cual permite tomar una variable y asignarle una función que
cumpla cada suceso definido sobre ella ya su vez determinar la probabilidad de
que dicho suceso ocurra de un manera determinada de acuerdo a como se vienen
dando los valores observados de la variable de estudio.
Distribución de frecuencia.

Es la agrupación de datos en categorías mutuamente excluyentes que


indican el número de observaciones en cada categoría. Esto proporciona un valor
añadido a la agrupación de datos. La distribución de frecuencias presenta las
observaciones clasificadas de modo que se pueda ver el número existente en
cada clase.

Una distribución de frecuencias o tabla de frecuencias es una ordenación


en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia
correspondiente.

Consiste en un formato tabular en la que se organizan los datos en clases,


es decir, en grupos de valores que describen una característica de los datos y
muestra el número de observaciones del conjunto de datos que caen en cada una
de las clases.

La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico.


En principio, en la tabla de frecuencias se detalla cada uno de los valores
diferentes en el conjunto de datos junto con el número de veces que aparece, es
decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la
denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el
total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia
simple y la frecuencia acumulada.

La tabla de frecuencias puede representar gráficamente en un histograma


(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y
en el horizontal los intervalos de valores.

La distribución de frecuencias o tabla de frecuencias es una ordenación en


forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia
correspondiente.
VARIABLE DISCRETA.

Es una variable cuantitativa que toma valores aislados, es decir no admite


valores intermedios entre dos valores específicos.

Por ejemplo:

El número de tomacorrientes de 5 cuartos: 4, 2, 3, 2, 3.

El número de automóviles que tiene una persona es una variable discreta.

Un hombre puede tener, un automóvil, dos automóviles o tres automóviles,


pero no puede tener 1,6 automóviles ni 2,8 automóviles.

En un sentido similar, la cantidad de hijos de una mujer también es una


variable discreta. Se pueden tener 2, 4 o 6 hijos, nunca 2,1 o 5,78 hijos.

VARIABLE CONTINUA.

Es una variable cuantitativa que puede tomar valores comprendidos entre


dos números.

Por ejemplo:

La altura de los 5 deportistas: 1.73, 1.82, 1.77, 1.69, 1.75.

Las variables continuas no son tan fáciles de categorizar como las variables
discretas. A diferencia de las variables discretas, las variables continuas, como su
nombre lo indica, sólo se pueden agrupar en forma arbitraria en categorías,
porque por su naturaleza pueden tomar cualquier valor a lo largo de un continuo (o
de una escala numérica continua).

POBLACIÓN Y MUESTRA.

Las estadísticas de por sí no tienen sentido si no se consideran o se


relacionan dentro del contexto con que se trabajan. Por lo tanto es necesario
entender los conceptos de población y de muestra para lograr comprender mejor
su significado en la investigación educativa o social que se lleva a cabo.

Población, es el conjunto total de individuos, objetos o medidas que


poseen algunas características comunes observables en un lugar y en un
momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe
de tenerse en cuenta algunas características esenciales al seleccionarse la
población bajo estudio.

Entre estas tenemos:

Homogeneidad, que todos los miembros de la población tengan las mismas


características según las variables que se vayan a considerar en el estudio o
investigación.

Tiempo, se refiere al período de tiempo donde se ubicaría la población de


interés. Determinar si el estudio es del momento presente o si se va a estudiar a
una población de cinco años atrás o si se van a entrevistar personas de diferentes
generaciones.

Espacio, se refiere al lugar donde se ubica la población de interés. Un


estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que
limitarlo a un área o comunidad en específico.

Cantidad, se refiere al tamaño de la población. El tamaño de la población es


sumamente importante porque ello determina o afecta al tamaño de la muestra
que se vaya a seleccionar, además que la falta de recursos y tiempo también nos
limita la extensión de la población que se vaya a investigar.

Muestra, es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione


dependerá de la calidad y cuán representativo se quiera sea el estudio de la
población.

Aleatoria, cuando se selecciona al azar y cada miembro tiene igual


oportunidad de ser incluido.

Estratificada, cuando se subdivide en estratos o subgrupos según las


variables o características que se pretenden investigar. Cada estrato debe
corresponder proporcionalmente a la población.

Sistemática, cuando se establece un patrón o criterio al seleccionar la


muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador ya que es imposible


entrevistar a todos los miembros de una población debido a problemas de tiempo,
recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una
parte o un subconjunto de la población, pero que la misma sea lo suficientemente
representativa de ésta para que luego pueda generalizarse con seguridad de ellas
a la población.

El tamaño de la muestra depende de la precisión con que el investigador


desea llevar a cabo su estudio, pero por regla general se debe usar una muestra
tan grande como sea posible de acuerdo a los recursos que haya disponibles.
Entre más grande la muestra mayor posibilidad de ser más representativa de la
población.

Las razones para estudiar muestras en lugar de poblaciones son diversas y


entre ellas puede señalar:

 Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos


tiempo.

 Como consecuencia del punto anterior ahorraremos costes.

 Estudiar la totalidad de los pacientes o personas con una característica


determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de
realizar.

 Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las


observaciones y mediciones realizadas a un reducido número de individuos
pueden ser más exactas y plurales que si las tuviésemos que realizar a una
población.

 La selección de muestras específicas nos permitirá reducir la heterogeneidad


de una población al indicar los criterios de inclusión y/o exclusión.

MEDIA ARITMÉTICA PARA DATOS AGRUPADOS

Si los datos vienen agrupados en una tabla de frecuencia, la expresión de la


media es:

𝑋1𝑓1+𝑋2𝑓2+…+𝑋𝑛𝑓𝑛
𝑥̅ =
N

∑𝑛𝑖=1 𝑋𝑖𝑓𝑖
𝑥̅ =
𝑁
VARIANZA PARA DATOS AGRUPADOS

Es la media aritmética del cuadrado de las desviaciones respecto a la


media de una distribución estadística.

Varianza para datos agrupados

̅)2 𝑓1+(𝑋2 − X
(𝑋1 − X ̅)2 𝑓2+…+(𝑋𝑛 − X
̅)2 𝑓𝑛
2
σ =
N

𝑛 ̅ 2
2
∑𝑖=1(𝑋𝑖 − 𝑋 ) 𝑓𝑖
𝜎 =
𝑁

Para simplificar el cálculo de la varianza para datos agrupados se


utilizan las ecuaciones siguientes:

(𝑋12 𝑓1 + 𝑋22 𝑓2 + ⋯ + 𝑋𝑛2 𝑓𝑛)


2
σ = − 𝑋̅ 2
N

∑𝑛𝑖=1 𝑋𝑖2 𝑓𝑖
2
𝜎 = − 𝑋̅ 2
𝑁

DESVIACIÓN MEDIA PARA DATOS AGRUPADOS

Si los datos vienen agrupados en una tabla de frecuencias , la


expresión de la desviación media es:

̅)𝑓1+(𝑋2 − X
(𝑋 1 − X ̅)𝑓2+…+(𝑋𝑛 − X
̅)𝑓𝑛
𝐷𝑋̅ =
N
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)𝑓𝑖
𝐷𝑋̅ =
𝑁

HISTOGRAMA DE FRECUENCIA

Es una técnica gráfica utilizada para presentar gran cantidad de datos. Se le


atribuye a Karl Pearson en 1895. El histograma puede ser: de frecuencias
absolutas, de frecuencias relativas, de frecuencias absolutas acumuladas y de
frecuencias relativas acumuladas. Para la construcción del histograma se requiere
elaborar una tabla de distribución de frecuencias, lo cual se desarrollará a
continuación.

Un histograma es una representación gráfica de una variable, se utilizan


para variables continuas o para variables discretas, con un gran número de datos,
y que se han agrupado en clases.

El gráfico de la distribución de frecuencias, se llama histograma. El


histograma de frecuencias es una representación visual de los datos en donde se
evidencian fundamentalmente tres características: forma, acumulación o tendencia
posicional y dispersión o variabilidad.

El histograma de frecuencias en si es una sucesión de rectángulos construidos


sobre un sistema de coordenadas de la siguiente manera:

1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud


de la base es igual al ancho del intervalo.

2. Las alturas de los rectángulos se registran sobre el eje vertical y


corresponden a las frecuencias de los intervalos.

3. Las áreas de los rectángulos son proporcionales a las frecuencias de las


clases.

POLÍGONO DE FRECUENCIA.

Es un recurso gráfico para ilustrar el comportamiento de los datos. Este se


construye sobre el sistema de coordenadas cartesianas, al colocar sobre cada
marca de clase un punto a una altura igual a la frecuencia asociada a esa clase;
luego se unen dichos puntos por segmentos de recta.

Otra forma de polígono es la Ojiva, la cual es el polígono que se obtiene de


unir por segmentos de recta los puntos situados a una altura igual a la frecuencia
acumulada a partir de la marca de clase como se hace con el polígono de
frecuencia. Para construir el polígono de frecuencia se toma la marca de clase que
coincide con el punto medio de cada rectángulo.

Fig. 1.- Histograma y polígono de frecuencia.

Si se representan las frecuencias acumuladas de una tabla de datos


agrupados se obtiene el histograma de frecuencias acumuladas o su
correspondiente polígono.

Fig. 2.- Histograma y polígono de frecuencia.


DISTRIBUCIONES DE PROBABILIDAD

Una distribución de probabilidad indica toda la gama de valores que pueden


representarse como resultado de un experimento si éste se llevase a cabo.

Es decir, describe la probabilidad de que un evento se realice en el futuro,


constituye una herramienta fundamental para la prospectiva, puesto que se puede
diseñar un escenario de acontecimientos futuros considerando las tendencias
actuales de diversos fenómenos naturales

Toda distribución de probabilidad es generada por una variable (porque


puede tomar diferentes valores) aleatoria x (porque el valor tomado es totalmente
al azar), estas pueden ser:

 Variable aleatoria discreta (x). Se le denomina variable porque


puede tomar diferentes valores, aleatoria, porque el valor tomado es totalmente al
azar y discreta porque solo puede tomar valores enteros y un número finito de
ellos. Es aquella que sólo puede tomar valores enteros. Por ejemplo: el número de
hijos de una familia, la puntuación obtenida al lanzar un dado.

 Variable aleatoria continua (x). Se le denomina variable porque


puede tomar diferentes valores, aleatoria, porque los valores que toma son
totalmente al azar y continua porque puede tomar tanto valores enteros como
fraccionarios y un número infinito de ellos. Es aquella que puede tomar todos los
valores posibles dentro de un cierto intervalo de la recta real. Por ejemplo: La
altura de los alumnos de una clase.

Una variable continua puede tomar cualquier valor, entero o fraccionario,


una forma de distinguir cuando se trata de una variable continua es que esta
variable nos permite medirla o evaluarla, mientras que una variable discreta no es
medible, es una variable de tipo atributo, cuando se inspecciona un producto este
puede ser defectuoso o no, blanco o negro, cumple con las especificaciones o no
cumple, etc.

PROBABILIDAD

Las probabilidades son números comprendidos entre 0 y 1. Probabilidades


próximas a 1 indican que cabe esperar que ocurran los sucesos en estudio.
Probabilidades próximas a 0 indican que no cabe esperar que ocurran los sucesos
de que se trate. Probabilidades próximas a 0.5 indican que es tan verosímil que el
suceso se produzca como que no.

La teoría de la probabilidad se emplea para sacar conclusiones acerca de


una población, con base en una muestra extraída utilizando métodos estadísticos
llamados métodos inferenciales y para aplicarlos se requiere en el enfoque
paramétrico del conocimiento de la distribución de probabilidad de los datos
poblacionales.

Las variables descritas anteriormente, variable aleatoria discreta y continua,


nos generan una distribución de probabilidad, las que pueden ser.

1) Distribución de probabilidad discreta.

Características:

a. Es generada por una variable discreta (x).

xVariable que solo toma valores enteros


x0, 1, 2, 3, 4, 5, 6, 7, 8.

b.p(xi)0. Las probabilidades asociadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero.

3.p(xi) = 1. La sumatoria de las probabilidades asociadas a cada uno de los


valores que toma x debe ser igual a 1.

2) Distribución de probabilidad continua.

Características:

1. Es generada por una variable continua (x).

x  Es una variable que puede tomar tanto valores enteros como


fraccionarios.

x  1.0, 3.7, 4.0, 4.6, 7.9, 8.0, 8.3, 11.5.

2. f(x)0 Las probabilidades asociadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero. Dicho de otra forma, la función de
densidad de probabilidad deberá tomar solo valores mayores o iguales a
cero. La función de densidad de probabilidad sólo puede estar definida en
los cuadrantes I y II.
3. La sumatoria de las probabilidades asociadas a cada uno de
los valores que toma x debe ser igual a 1. El área definida bajo la función de
densidad de probabilidad deberá ser de 1.

Ejercicio de Probabilidad.

Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y
blanco. Si pulsa dos veces las palancas al azar:

a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?

b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas


la tecla azul?

Solución.

a) Para que las dos veces pulse la roja tiene que ocurrir que la primera vez
pulse la roja y la segunda también pulse la roja, es decir que se verifique el suceso
(R1 ᴖ R2).

Ahora bien, como ambos sucesos son independientes, la probabilidad de


laintersección es igual al producto de las probabilidades de ambos sucesos. La
probabilidad de estos sucesos se determina mediante la regla de Laplace de
casos favorables (uno), partido por casos posibles (tres)

P(R1 ᴖ R2) = P(R1) · P(R2) = 1/3 · 1/3 = 1/9

b) En este apartado, claramente, nos piden la probabilidad de la unión de los


sucesos pulsar azul la primera vez y pulsar azul la segunda. Ahora bien, estos dos
sucesos no son incompatibles, luego la probabilidad de la unión será igual a la
suma de las probabilidades menos la probabilidad de la intersección. La
probabilidad de la intersección, al igual que en el apartado anterior, se calcula
basándonos en el hecho de que son independientes.

P(A1 ᴗ A2) = P(A1) + P(A2) – P(A1 ᴖ A2) = 1/3 + 1/3 – 1/9 = 5/9
DISTRIBUCIÓN NORMAL

La normal es la distribución de probabilidad más importante. Una de las


características más resaltantes es que casi cualquier distribución de probabilidad,
tanto discreta como continua, se puede aproximar por la normal bajo ciertas
condiciones.

La distribución de probabilidad normal y la curva normal que la representa,


tienen las siguientes características:

 La curva normal tiene forma de campana y solo un pico en el centro de la


distribución. De esta manera, la media aritmética, la mediana y la moda de
la distribución son iguales y se localizan en el pico. Así, la mitad del área
bajo la curva se encuenta a la derecha de este punto central y la otra mitad
está a la izquierda de dicho punto.
 La distribución de probabilidad normal es simétrica alrededor de su media.
 La curva normal desciende suavemente en ambas direcciones a partir del
valor central. Es asintótica, lo que quiere decir que la curva se acerca cada
vez más al eje X pero jamás llega a tocarlo. Es decir, las colas de la curva
se extienden de manera indefinida en ambas direcciones.

Una variable aleatoria continua, X, sigue una distribución normal de media


μ y desviación típica σ, y se designa por N(μ, σ), si se cumplen las siguientes
condiciones:

1. La variable puede tomar cualquier valor: (-∞, +∞)

2. La función de densidad, es la expresión en términos de ecuación


matemática de la curva de Gauss:
Curva de la distribución normal

 El campo de existencia es cualquier valor real, es decir, (-∞, +∞).


 Es simétrica respecto a la media µ.
 Tiene un máximo en la media µ.
 Crece hasta la media µ y decrece a partir de ella.
 En los puntos µ − σ y µ + σ presenta puntos de inflexión.
 El eje de abscisas es una asíntota de la curva.
 El área del recinto determinado por la función y el eje de abscisas es
igual a la unidad .
 Al ser simétrica respecto al eje que pasa por x = µ, deja un área igual
a 0.5 a la izquierda y otra igual a 0.5 a la derecha .
 La probabilidad equivale al área encerrada bajo la curva.

p(μ - σ < X ≤ μ + σ) = 0.6826 = 68.26 %

p(μ - 2σ < X ≤ μ + 2σ) = 0.954 = 95.4 %

p(μ - 3σ < X ≤ μ + 3σ) = 0.997 = 99.7 %


Ejercicio de Distribución Normal.

1. Si X es una variable aleatoria de una distribución N(µ, σ), hallar:

p(µ−3σ ≤ X ≤ µ+3σ).

Solución:
𝑥−µ
Sabemos que z= ; como x1 = µ−3σ y x2 = µ+3σ, entonces la P(x 1 ≤ X ≤ x2 )
σ
se define como:
(µ−3σ)−µ (µ+3σ)−µ
P(µ−3σ ≤ X ≤ µ+3σ ) = P( ≤Z≤ )
σ σ

P(-3 ≤ z ≤ 3 ) =P(z≤3) -P(z≤-3)

P(z≤3) –(1-P(z≤3))

P(z≤3) -1 + P(z≤3)n

0.9986 -1 + 0.9986 = 0.9972

Es decir, que aproximadamente el 99.72% de los valores de X están a


más/menos de tres desviaciones típicas de la media.
DISTRIBUCIÓN BINOMIAL

La función de probabilidad de la distribución binomial, también denominada


función de la distribución de Bernoulli, es:

n = es el número de pruebas.

k = es el número de éxitos.

p = es la probabilidad de éxito.

q = es la probabilidad de fracaso.

El número combinatorio número combinatorio

Un experimento sigue el modelo de la distribución binomial o de Bernoulli si:

1. En cada prueba del experimento sólo son posibles dos resultados: el suceso A
(éxito) y su contrario suceso contrario.

2. La probabilidad del suceso A es constante, es decir, que no varía de una prueba


a otra. Se representa por p.
3. El resultado obtenido en cada prueba es independiente de los resultados
obtenidos anteriormente.

Variable aleatoria binomial

La variable aleatoria binomial, X, expresa el número de éxitos obtenidos en


cada prueba del experimento.

La variable binomial es una variable aleatoria discreta, sólo puede tomar los
valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas.

Ejemplo:

k = 6, al lanzar una moneda 10 veces y obtener 6 caras.

Ejercicio de Distribución Binomial.

La última novela de un autor ha tenido un gran éxito, hasta el punto de que


el 80% de los lectores ya la han leído. Un grupo de 4 amigos son aficionados a la
lectura:

¿Cuál es la probabilidad de que del grupo hayan leído la novela 2


personas?

n = 4

p = 0.8

q = 0.2

B(4, 0.8)
¿Y cómo máximo 2?

Parámetros de la distribución binomial .

Media.

Varianza

Desviación típica
Ejercicio de Distribución Binomial.

La probabilidad de que un artículo producido por una fábrica sea defectuoso


es 0.02. Se envió un cargamento de 10.000 artículos a unos almacenes. Hallar el
número esperado de artículos defectuosos, la varianza y la desviación típica.

DISTRIBUCIÓN DE POISSON

Esta distribución es una de las más importantes distribuciones de variable


discreta. Sus principales aplicaciones hacen referencia a la modelización de
situaciones en las que nos interesa determinar el número de hechos de cierto tipo
que se pueden producir en un intervalo de tiempo o de espacio, bajo presupuestos
de aleatoriedad y ciertas circunstancias restrictivas. Otro de sus usos frecuentes
es la consideración límite de procesos dicotómicos reiterados un gran número de
veces si la probabilidad de obtener un éxito es muy pequeña.

Proceso experimental del que se puede hacer derivar.

Esta distribución se puede hacer derivar de un proceso experimental de


observación en el que tengamos las siguientes características:

Se observa la realización de hechos de cierto tipo durante un cierto periodo


de tiempo o a lo largo de un espacio de observación.

Los hechos a observar tienen naturaleza aleatoria, pueden producirse o no


de una manera no determinística.

La probabilidad de que se produzcan un número x de éxitos en un intervalo


de amplitud t no depende del origen del intervalo (Aunque, sí de su amplitud).
La probabilidad de que ocurra un hecho en un intervalo infinitésimo es
prácticamente proporcional a la amplitud del intervalo.

La probabilidad de que se produzcan 2 o más hechos en un intervalo


infinitésimo es un infinitésimo de orden superior a dos.

En consecuencia, en un intervalo infinitésimo podrán producirse O ó 1 hecho


pero nunca más de uno.

 Si en estas circunstancias escogemos, de forma que la variable aleatoria X


signifique o designe el "número de hechos que se producen en un intervalo
de tiempo o de espacio", la variable X se distribuye con una distribución de
parámetro l. Así:

El parámetro de la distribución es, en principio, el factor de proporcionalidad


para la probabilidad de un hecho en un intervalo infinitésimo. Se le suele designar
como parámetro de intensidad, aunque más tarde veremos que se corresponde
con el número medio de hechos que cabe esperar que se produzcan en un
intervalo unitario (media de la distribución); y que también coincide con la varianza
de la distribución.

Por otro lado es evidente que se trata de un modelo discreto y que el campo de
variación de la variable será el conjunto de los números naturales, incluyendo el
cero:
Función de cuantía

A partir de las hipótesis del proceso, se obtiene una ecuación diferencial de


definición del mismo que puede integrarse con facilidad para obtener la función de
cuantía de la variable "número de hechos que ocurren en un intervalo unitario de
tiempo o espacio"

La función de distribución vendrá dada por:


Ejercicio de Distribución de Poisson.

Suponga que se sabe que en un hospital llegan pacientes a la sala de


emergencia a razón de 5 cada dos horas. ¿Cuál es la probabilidad de que:

 Lleguen exactamente cuatro personas en dos horas?

Sea X: número de pacientes que llegan a la sala de emergencia del hospital en


dos horas.
 Lleguen por lo menos tres personas en 1 hora?

Sea Y: número de pacientes que llegan a la sala de emergencias del hospital


en 1 hora.

 Lleguen menos de 8 pacientes en 4 horas?

Sea Z: número de pacientes que llegan a la sala de emergencias del hospital


en 4 horas.
DISTRIBUCION CHI-CUADRADO (X2)

Es una distribución cuadrática de la probabilidad que utiliza básicamente


variables aleatorias continuas y se caracteriza por llevar el nombre de la letra
griega minúscula ji elevada al cuadrado; en otros estudios se define como la suma
de diferencias cuadráticas relativas entre valores experimentales (observados) y
los teóricos (esperados); esta distribución es de gran importancia ya que son la
base de metodologías inferenciales, tales como intervalos de confianza y pruebas
de hipótesis.

En realidad la distribución ji-cuadrada es la distribución muestral de s2. O


sea que si se extraen todas las muestras posibles de una población normal y a
cada muestra se le calcula su varianza, se obtendrá la distribución muestral de
varianzas. X2

Para estimar la varianza poblacional o la desviación estándar, se necesita


conocer el estadístico X2. Si se elige una muestra de tamaño n de una población
normal con varianza (ẟ), el estadístico:

2
(𝑛 − 1)𝑆 2
X =
ẟ2
Donde n es el tamaño de la muestra, s2 la varianza muestral y ẟ la varianza
de la población de donde se extrajo la muestra. El estadístico ji-cuadrada también
se puede dar con la siguiente expresión:

∑(𝑋 − ̅̅𝑋̅̅)
𝑋2 =
ẟ2
Propiedades de las distribuciones ji-cuadrada

1. Los valores de X2 son mayores o iguales que 0.

2. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay


un número infinito de distribuciones X2.

3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.

4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se


extienden a la derecha; esto es, están sesgadas a la derecha.

5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).

6. El valor modal de una distribución X2 se da en el valor (n-3).


Ejemplo:

1. Suponga que los tiempos requeridos por un cierto autobús para alcanzar un
de sus destinos en una ciudad grande forman una distribución normal con
una desviación estándar =1 minuto. Si se elige al azar una muestra de
17 tiempos, encuentre la probabilidad de que la varianza muestral sea
mayor que 2.

Solución:

Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como


sigue:

(𝑛 − 1)𝑆 2 (17 − 1)2


𝑋2 = 2 = = 32
ẟ 1

El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de


libertad y se encuentra que a este valor le corresponde un área a la
derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s2>2)

2. Encuentre la probabilidad de que una muestra aleatoria de 25


observaciones, tenga una varianza muestral:

a. Mayor que 9.1


b. Entre 3.462 y 10.745

Solución.

a. Primero se procederá a calcular el valor de la ji-cuadrada:

(𝑛 − 1)𝑆 2 (25 − 1)9.1


𝑋2 = 2 = = 36
ẟ 6

Al buscar este número en el renglón de 24 grados de libertad nos da un área a


la derecha de 0.05. Por lo que la P(s2 >9.1) = 0.05

1. Se calcularán dos valores de ji-cuadrada:


2
(𝑛 − 1)𝑆 2 (25 − 1)3,462
𝑋 1= = = 13,847
ẟ2 6

2
(𝑛 − 1)𝑆 2 (25 − 1)10,745
𝑋 2= = = 42,98
ẟ2 6

Aquí se tienen que buscar los dos valores en el renglón de 24 grados de


libertad. Al buscar el valor de 13.846 se encuentra un área a la derecha de 0.95. El
valor de 42.98 da un área a la derecha de 0.01. Como se está pidiendo la
probabilidad entre dos valores se resta el área de 0.95 menos 0.01 quedando
0.94.

DISTRIBUCIÓN DE WEIBULL

La distribución de Weibull es una distribución versátil que se puede utilizar


para modelar una amplia gama de aplicaciones en ingeniería, investigación
médica, control de calidad, finanzas y climatología. Por ejemplo, la distribución se
utiliza frecuentemente en análisis de fiabilidad para modelar datos de tiempo para
falla, como la probabilidad de que una parte falle después de uno, dos o más
años. La distribución de Weibull también se utiliza para modelar datos asimétricos
del proceso en el análisis de capacidad.

La distribución de Weibull se describe según los parámetros de forma,


escala y valor umbral. La distribución de Weibull se define solo para variables no
negativas.

Este modelo estadístico representa la probabilidad de fallo después de un


tiempo t (R(t)) en función del tiempo transcurrido o de una variable análoga. Esta
función de probabilidad de fallo o función de fiabilidad vine dada por:

𝑡−𝛾 𝛽
𝑅(𝑡) = 𝑒𝑥𝑝 [− ( ) ]
𝛼

Donde:

Es el parámetro de escala o vida característica. Este parámetro representa


el tiempo (o el valor de la variable análoga usada). Por tanto cuanto mayor se α,
mayor será el intervalo de tiempo en que se producirán fallos.
‘’γ’’, es el parámetro de translación, y se usa cuando inicialmente, durante
un periodo de tiempo T, no se producen fallos y a partir de ese instante la
fiabilidad del producto se puede aproximar por la distribución de Weibull (caso γ>
0) o cuando hay fallos antes de empezarlos ensayos (caso γ <0).

Β, es el parámetro de forma o perfil y determina la forma de la distribución.


En la representación gráfica del modelo, este parámetro coincide con la pendiente
de la recta y de una idea de la dispersión de muestra.

A partir de R(t) se puede definir la probabilidad de que un componente falle


antes del momento t, que se indica como F(t). Esta función es muy útil en el
estudio de fiabilidad de componentes y se puede representar como:

F(t) = 1-R(t)

Para realizar estos cálculos se debe determinar primero la pendiente de los


valores de los tiempos de falla conocida y a continuación determinar los valores de
probabilidad de fallo acumulada, a través de las siguientes formulas:

𝑖 − 0,5
𝐹𝑖 =
𝑛

Ejemplo:

Tenemos un conjunto de componentes que fallan en el siguiente número de


horas: 0.22; 0.5; 0.88; 1; 1.32; 1.33; 1.54; 1.76; 2.5 y 3. A partir de estosvalores
calcular lo siguiente:

- % de fallos a las 3 horas

- tiempo en el que habrán fallado el 5% de los componentes.

Para resolver este problema, primero se obtener la pendiente de la rectra


producida por los tiempos que son los valores de vamos a dibujar el gráfico
(ti,Fi),para ello calculamos los valores de Fi.
X=0,1236

S2=0,589

Γ=0
𝜋
𝛽= = 1,67
𝑆√6
0,5772
𝛼 = 𝑒𝑥𝑝 [𝑋 + ] = 1.59
𝛽

% de fallos a las 3 horas

𝑡−𝛾 𝛽
%𝑓 = 1 − 𝑒𝑥𝑝 [− ( ) ] = 0,96
𝛼
Tiempo de falla
1
𝑡 = 𝛼[−𝑙𝑛(1 − 0,05)]𝛽 = 0,268 ℎ𝑜𝑟𝑎𝑠

Regresión lineal

La regresión lineal o ajuste lineal es un modelo matemático usado para


aproximar la relación de dependencia entre una variable dependiente Y,
las variables independientes Xi y un término aleatorio. El pronóstico de regresión
lineal simple es un modelo óptimo para patrones donde la variable dependiente
posea una tendencia (creciente o decreciente), es decir, patrones que presenten
una relación de linealidad entre la variable dependiente la independiente.

Modelo de Regresión Lineal.


𝑥̂ = 𝑎 + 𝑏𝑡
X representa el Pronóstico del período t; ‘’a’’ la Intersección de la línea con
el eje horizontal; b la Pendiente (positiva o negativa); t es el período de tiempo o el
valor del termino independiente.

El valor de a es calculable a través de la siguiente ecuación:


𝑎 = 𝑋̅ − 𝑏𝑡̅

Donde 𝑋̅ representa Promedio de la variable dependiente (Demanda o eje


vertical); 𝑡̅ por su parte representa Promedio de la variable independiente (Tiempo
o eje horizontal). Y el valor de b es determinado aplicando la siguiente ecuación.

𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑡𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑡𝑖


𝑏= 2
𝑛 ∑𝑛𝑖=1 𝑋𝑖 − [∑𝑛𝑖=1 𝑡𝑖 ]
Ejemplo:

La juguetería Gaby desea estimar mediante regresión lineal simple las


ventas para el mes de Julio de su nuevo carrito infantil "Mate". La información del
comportamiento de las ventas de todos sus almacenes de cadena se presenta en
el siguiente tabulado.

Mes Ventas
1 Enero 7000
2 Febrero 9000
3 Marzo 5000
4 Abril 11000
5 Mayo 10000
6 Junio 13000

El primer paso para encontrar el pronóstico del mes 7 consiste en hallar la


pendiente, para ello efectuamos los siguientes cálculos:
 Luego, y dado que ya tenemos el valor de la pendiente b procedemos a
calcular el valor de a, para ello efectuamos los siguientes cálculos:

Ya por último, determinamos el pronóstico del mes 7, para ello efectuamos


el siguiente cálculo:

Podemos así determinar que el pronóstico de ventas para el período 7 es


equivalente a 13067 unidades.
Correlación lineal

El término “correlación” literalmente significa relación mutua; de este modo,


el análisis de correlación mide e indica el grado en el que los valores de una
variable se relacionan con los valores de otra. Más exactamente, el análisis que se
ocupa de medir la relación entre una sola variable independiente y la variable
dependiente se llama análisis de correlación simple.

En ocasiones nos puede interesar estudiar si existe o no algún tipo de


relación entre dos variables aleatorias. Así, por ejemplo, podemos preguntarnos si
hay alguna relación entre las notas de la signatura Estadística I y las de
Matemáticas I. Una primera aproximación al problema consistiría endibujar en el
plano R2 un punto por cada alumno: la primera coordenada de cada punto sería
su nota en estadística, mientras que la segunda sería su nota en matemáticas.
Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.)
entre ambas notas.

Por su parte el coeficiente de correlación provee una medida de como dos


variables aleatorias están asociadas en una muestra. Es también una medida de
la intensidad de la relación lineal entre las dos variables independientes. Este
coeficiente se calcula aplicando la siguiente ecuación:

𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − ̅̅̅


𝑌)
𝑅=
2 2
√∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∗ ∑𝑛𝑖=1(𝑌𝑖 − ̅̅̅
𝑌)
Ejemplo: Un centro comercial sabe en función de la distancia, en
kilómetros, a la que se sitúe de un núcleo de población, acuden los
clientes, en cientos, que figuran en la tabla:

Nº de Clientes Distancia (Y)


(X)

8 15

7 19

6 25

4 23

2 34

1 40

1.- Calcular el coeficiente de correlación lineal.

xi yi x i ·y i xi2 yi 2

8 15 120 64 225

7 19 133 49 361

6 25 150 36 625
4 23 92 16 529

2 34 68 4 1 156

1 40 40 1 1 600

28 156 603 170 4 496

Correlación negativa muy fuerte .


Conclusión.

La estadística constituye una disciplina con ilimitadas posibilidades de


aplicación en diversos campos de la actividad humana debido a sus múltiples
formas de aplicación y que se ajusta a las necesidades que tenga cada individuo
para realizar el estudio de una determinada variable.

La principal forma de aplicación de la estadística se da realizando la tabla


de distribución de frecuencia para cada una de las variables en estudio, una vez
conocido los datos y utilizando herramientas estadísticas de distribución de
probabilidad para ajustar una función a la variable en estudio para así poder
intentar predecir cuál sería el comportamiento de la misma al resultar alterada por
el efecto de un factor determinado.

Uno de los tipos de distribución de probabilidad más usados por lo general


es la distribución normal la cual como su propio nombre indica tiene una extensa
utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos
tienden a parecerse en su comportamiento a esta distribución. Esta función
ajustada a las variables dependientes o de estudio aleatoria presenta una
densidad cuya grafica tiene forma de campana.

La estadística también brinda la posibilidad de realizar un ajuste de los


datos obtenidos en la distribución de frecuencia y representarlo en una función
lineal ajustada a partir de los datos conocidos de la variable dependiente, a esto
se le conoce como regresión lineal. A su vez también se puede aplicar lo que es
una correlación lineal la cual permite determinar si dos variables dependientes
están relacionadas entre sí y de igual forma determinar cuan relacionada están la
una con la otra.
Bibliografía.

 http://estadisticaeducativaudo.blogspot.com/2014/02/distribucion-de-
frecuencias.html
 http://www.ditutor.com/estadistica/distribuci%C3%B3n_frecuencias.html
 http://definicion.de/variable-discreta/
 http://www.ditutor.com/estadistica/variable_discreta.html
 http://www.ditutor.com/estadistica/variable_continua.html
 http://www.cca.org.mx/cca/cursos/estadistica/html/m7/var_discretas_continu
as.html
 http://metodologiaeninvestigacion.blogspot.com/2010/07/poblacion-y-
muestra.html
 http://www.vitutor.net/1/estadistica.html
 http://www.ditutor.com/estadistica/medidas_dispersion.html
 http://www.vitutor.com/estadistica/descriptiva/a_10.html
 http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_114_
14.html
 ][p9trhttp://www.vitutor.com/estadistica/descriptiva/a_6.html
 http://metodoscuantitativo2.galeon.com/enlaces2218784.html
 http://www.itchihuahua.edu.mx/academic/industrial/sabaticorita/_private/04D
istribuciones%20de%20Probabilidad.htm
 http://www.ditutor.com/distribucion_binomial/distribucion_binomial.html
 http://es.slideshare.net/sevilla_carlos2004/distribucion-de-chi-cuadrado
 http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap03b.html
 https://prezi.com/vm4-qqlyquyk/distribucion-de-ji-cuadrada/
 http://documents.mx/documents/distribucion-de-weibull-55939a5d6f148.html
 http://support.minitab.com/es-mx/minitab/17/topic-library/basic-statistics-
and-graphs/probability-distributions-and-random-data/distributions/weibull-
distribution/
 http://www.ingenieriaindustrialonline.com/herramientas-para-el-ingeniero-
industrial/pron%C3%B3stico-de-ventas/regresi%C3%B3n-lineal/
 http://www.vitutor.com/estadistica/bi/2.html
 http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

You might also like