You are on page 1of 38

Captulo 1

Introduccin
II- 2001

Qu es la estadstica ?
Ciencia dedicada al estudio sistemtico de los datos
Transforma datos en informacin
Contribuye a la generacin de conocimiento

Historia de la estadstica :
Como ciencia de Estado (2600 A.C.)
Como clculo de probabilidades (siglo XVIII)

Rol de la estadstica :
Proporcionar mtodos para evaluar y juzgar la
teora y la realidad

USOS
Ciencias naturales
Ciencias econmicas
Ciencias polticas y sociales
Ciencias mdicas etc.
ABUSOS
Encuestas de opinin
ndices econmicos
Pronsticos

La Estadstica en la era de la Informacin


Destrezas lectoras para la sociedad del
Conocimiento
EL PENSAMIENTO ESTADSTICO
El pensamiento estadstico algn da ser
parte del ciudadano eficiente, y tan necesario
como la habilidad para leer y escribir

W. H. WELLS

DATOS
MODELOS
HECHOS
TEORAS
FENMENOS
INTUICIONES

Dos ejemplos de investigaciones estadsticas


PREGUNTA

Cmo disear un equipo de


mantenimiento

Cmo aumentar el
rendimiento de un proceso

MODELO

Variables:
- Nmero de averas (x1)
- Tiempo reparacin (x2)
Hiptesis: las averas
Se producen
independientemente
La probabilidad de no
avera disminuye
exponencialmente con el
tiempo
Hiptesis:tiempo reparacin
Depende de muchos
pequeos factores

Variables:
- Rendimiento en % (y)
- Temperatura x1
- Concentracin x2
Hiptesis:
El rendimiento aumenta en
promedio linealmente con la
temperatura y la
concentracin
Para valores fijos de x1 y x2
Para
el rendimiento vara
aleatoriamente alrededor de
su valor medio

RECOLECCIN
DE
INFORMACIN

Muestreo de mquinas para


estudiar sus averas y tiempo
de reparacin

Diseo de un experimento
que se varen x1 y x2 y se
mida y

ESTIMACIN
PARMETROS

Estimar:
, tasa media de averas
, tiempo medio de
reparacin
, variabilidad en el
tiempo de reparacin

Estimar:
El efecto de la temperatura
(b) y el de la concentracin
(c) sobre el rendimiento
Variabilidad experimental

CONTRASTES
DE SIMPLIFICACIN

Tienen todos los tipos de


mquinas el mismo ?
Los tipos de averas, el
mismo y ?

Es el efecto de la
temperatura y concentracin
idntico (b=c ) ?

CRTICA DEL
MODELO

Es cierta la independencia
entre las averas?
Son la variabilidad de x1 y
x2 en la muestra consistentes
con las hiptesis ?

Es la relacin entre y
(x1 , x2) lineal?
Es la variabilidad de y para
x1, x2 fijos, independ. de los
valores concretos de x1, x2 ?

Problema real
Planteamiento del problema
Objetos
Objetos yy medios
medios

Modelos Estadsticos
(Clculo
(Clculo de
de probabilidades)
probabilidades)

Recoleccin de informacin muestral


(Tcnicas de muestreo
muestreo ;; diseo
diseo de
de experimentos)
experimentos)

Depuracin de los datos


(Anlisis de datos)
datos)

Estimacin de los parmetros


(Teora
(Teora de
de la
la estimacin)
estimacin)

Contrastes de Simplificacin
(Contrastes de hiptesis)

Crtica y Diagnosis del Modelo


(Anlisis de datos)

Nuevo Conocimiento
Previsiones

Decisiones

La estadstica en el nuevo mundo:


Era Industrial
Era de la informacin
Gestin del Conocimiento

Datos

Estadstica

Informacin

Problemas que resuelve la Estadstica :


Anlisis de datos (Data Mining)
Verificacin de hiptesis (DSS)
Patrones de Reconocimiento
Procesamiento de Imgenes

Muestreo
Costo reducido
Mayor rapidez
Mayor posibilidad (Sistemas complejos)
APLICACIONES:

Mercadotecnia
Anlisis de Imgenes
Modelos de Simulacin

Teora de muestreo
Poblacin finita
Poblacin infinita
Muestreo

Probabilstico
Probabilstico

No
No Probabilstico
Probabilstico

Definicin del conjunto de muestras


Asignacin de Probabilidad ( i )
Seleccin ( i )
Estimacin

Medidas de Probabilidad
Probabilidad una medida de la certidumbre
La confiabilidad de una Inferencia

Aproximacin frecuentista - A Priori


Pr (Ai) = n/N
n = nmero de todas las posibles formas en que Ai puede ser
observado
N = nmero total de posibles resultados

Aproximacin Subjectiva
Una Opinin de Experto

Poblacin
Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador de los cuales se desea conocer ciertos parmetros
de comportamiento caractersticos de la Poblacin.
Cada sujeto o elemento de la Poblacin es una
observacin. Cada uno es una incognita en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta caracterstica.
La Poblacin puede ser:
Finita : si los elementos son contables
Infinita : si los elementos son enumerables

Poblacin: Definicin
La Teora de Muestreo pretende desarrollar
mtodos para obtener un conocimiento
adecuado de ciertas caractersticas de una
Poblacin, mediante el estudio de un
nmero reducido de elementos u objetos
representativos de dicha Poblacin

Planes de Muestreo

Muestreo Aleatorio Simple

Muestreo Estratificado Aleatorio

Muestreo Sistemtico

Muestreo por Conglomerado

Muestreo Mltiple

Muestreo
Experimento:

Un proceso de Observacin

Evento Simple:

Un Resultado de un experimento
que no puede ser descompuesto
-Mutuamente Excluyente
-Idntica Posibilidad

Espacio Muestral: El conjunto de todos los


resultados posibles

Evento A:

El conjunto de todos los


eventos simples que
pertenecen al resultado A

Espacio Muestral
Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento
Puede ser
Discreto
Continuo
Sea
n :
N :
{Si: i = 1, 2, ....
Muestral o Universo

Tamao de la Muestra
Tamao de la Poblacin
N
n

todas las muestras posibles


Si se denomina el Espacio

Clasificacin de Mtodos de Muestreo


1.- Por la Forma de Considerar un Evento
Sin Reposicin
Con Reposicin

2.- Por la Forma de Tomar la Muestra


Juicio

Aletaroria -

Simple
Sistemtica
Estratificada
Conglomerados

3.- Por el nmero de Muestras


Simple

Mltiple

Muestreo Aleatorio
Conjunto de observaciones tomadas de
una Poblacin.
Se dice que la muestra es aleatoria
cuando la manera de seleccin de cada
elemento de la poblacin tiene igual
oportunidad de ser seleccionado.
El mtodo de seleccin es decisivo en las
conclusiones que se pueden obtener de la
muestra.

Tipo de Variable
Tanto en la escala intervalar como en la de razn es posible distinguir
dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de
puntos aislados (subconjunto de valores en R)
Variables Continuas: una que puede tomar sus valores en un conjunto
donde todos sus elementos son puntos de acumulacin (un intervalo en
R). Siempre es posible tratar una variable continua como discreta
mediante la construccin de intervalos de clase representando cada
uno de los intervalos por su valor medio denominado marca de clase
Variables Categricas o Cualitativas

Variables Cuantitativas

Estimacin
Parmetro:
Medida para describir alguna caracterstica de los
elementos de una Poblacin, tal como Valor Esperado,
Moda o Varianza poblacional.
Estos guarismos son valores verdaderos, pero
deconocidos.
Estadstica ( Estadgrafo):
Medida para describir una caracterstica de la Muestra,
tal como Promedio, Varianza o Moda muestral. Estos
valores son calculados a partir de la Muestra, pero son
valores aproximados de los parmetros que
representan

Muestreo Aleatorio Simple: M.A.S.


Es un mtodo de seleccin de n unidades sacadas de
N, de tal manera que cada una de las muestras C(N,n)
tiene la misma probabilidad de ser escogida.
En la prtica un m.a.s. es sacado unidad por unidad:
Las unidades de la poblacin son numerados
del 1 al N.
A continuacin son seleccionados n nmeros
aleatorios entre 1 y N, ya sea de tablas o de una
urna como en la lotera

Muestreo Estratificado Aleatorio


Se emplea cuando la poblacin est agrupada en
pocos estratos, cada uno de ellos con muchos
individuos. Consiste en sacar un m.a.s. de cada uno
de los estratos.
Los Estratos, por lo general, son de diferente tamao;
la muestra, por consiguiente, para ser representativa
debe contener elementos de cada estrato en forma
proporcional a la poblacin. (Esto se llama afijacin
proporcional, la que no siempre resulta ser la ms conveniente
por cuanto los costos de muestreo en cada uno de los estratos
pueden ser distintos).

Muestreo Sistemtico
Se utiliza cuando las unidades de la poblacin estn, de
algn modo, totalmente ordenadas. Para seleccionar una
muestra se aprovecha la ordenacin de las unidades.
Para seleccionar una muestra de tamao n
se divide la poblacin en n subpoblaciones
de tamao K = N/n
se toma una unidad al azar de la primera
subpoblacin y
de ah en adelante cada k-sima unidad.
Si n1 es la unidad seleccionada de la primera poblacin,
entonces las siguientes observaciones sern n2 n1+K,
n3 n2+K n1+2K

Muestreo por Conglomerado


Se emplea cuando la poblacin est dividida en
grupos pequeos.
Consiste en obtener una m.a.s. de algunos grupos y
luego censar cada uno de estos.
Hay dos razones para principales para la extensa
aplicacin de estos planes de muestreo: falta de una
lista confiable de elementos en la poblacin y
consideraciones del tipo econmica.

Muestreo por Mltiple (doble)

La muestra se toma en dos pasos:


en el primero se selecciona la muestra de
unidades primarias y
en la segunda se selecciona una muestra de
elementos a partir de cada unidad primaria
escogida

Ejemplo 1
Se tienen 2000 pernos en una urna
El largo de cada perno puede estar entre 99,5 y
100,5 mm
Se toma una muestra de cinco pernos y se mide
Variable
VariableAleatoria
Aleatoria
Continua
Continua
su largo
observacin
Poblacin

Cada
Poblacin es una variable
Finita
Finita
aleatoria
continua.
TodasMuestral
obedecen a
la misma
Espacio
Finito
Espacio
Muestral

Finito
distribucin y son independientes entre si
Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar as a
habr observado toda la poblacin
Hacer un grfico de barras histograma con la
frecuencia que aparece cada nmero

Ejemplo 2
Se tiene 2000 pernos en una urna
El largo de cada perno puede estar entre 99,5 y
100,5 mm
Variable
Aleatoria

Continua
Variable
Aleatoria
pernos
Continua
Se toma
una muestra
de cinco
y se mide
Poblacin

su largo
Poblacin
Finita
Finita
Cada
es una variable
aleatoria
observacin
Espacio
Muestral

Infinito
Espacio Muestral
Infinito
continua. Todas obedecen a la misma
distribucin y son independientes entre si
Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El
experimento se puede repetir indefinidamente,
porque siempre existirn 2000 pernos en la urna

Extrapolativos

Explicativos

Estticos

Dinmicos

y= +u
(Primera parte)

y = + yt-1 + ut
(Quinta parte)

y= + x+u
(Tercera y cuarta
parte)

y= + x+
yt-1 + ut
(Quinta parte)

Mtodos Estadsticos
en
DATA MINING

Knowledge Discovery in
Data Bases (KDD)
Es un proceso de identificacin de patrones
vlidos, innovativos, potencialmente tiles,
no explcitos y comprensibles a partir de los
datos.

KDD
Etapas del KDD :
1. Data Selection
2. Cleaning
3. Enrichment
4. Coding
5. Data Mining
6. Reporting

KDD
Requiremientos de Informacin
Seleccin de
Datos
Cleaning:
Domain consistency
De-duplication
Outliers detection

Data Bases

Feedback

Enrichment

Datos Externos

Coding
Data Mining
Association
Clustering
Classification
Regression
Reporting

Action

Data Mining (DM)


Etapa de reconocimiento de patrones, a travs de
algoritmos automticos o semiautomticos de
grandes bases de datos con el objeto de apoyar a la
toma de decisiones dentro de una organizacin.

Algoritmos en DM
Existen diversos algoritmos en Data Mining los que se
pueden clasificar
Machine Learning
Pattern Recognition
Actividades de Data Mining:
Preparacin de los datos
Aplicacin de algoritmos de DM
Anlisis de datos

DM
Algoritmos de DM:
Asociacin de datos (ANN)
Pattern recognition (Time Series)
Clustering
Clasificacin
Regresin
Pronsticos

Aplicaciones de DM
Energa: Apoyo a la toma de decisiones en plantas energa
elctrica (centro de despacho de cargas)
Medicina: Mejora de diagnsticos y asignacin de
tratamientos en base a reconocimiento de patrones.
Marketing: informacin demogrfica y sistemas georeferenciados, patrones de compra, segmentacin de mercados.
Finanzas: prediccin de valores y riesgo en el mercado de
opciones.

You might also like