Professional Documents
Culture Documents
Introduccin
II- 2001
Qu es la estadstica ?
Ciencia dedicada al estudio sistemtico de los datos
Transforma datos en informacin
Contribuye a la generacin de conocimiento
Historia de la estadstica :
Como ciencia de Estado (2600 A.C.)
Como clculo de probabilidades (siglo XVIII)
Rol de la estadstica :
Proporcionar mtodos para evaluar y juzgar la
teora y la realidad
USOS
Ciencias naturales
Ciencias econmicas
Ciencias polticas y sociales
Ciencias mdicas etc.
ABUSOS
Encuestas de opinin
ndices econmicos
Pronsticos
W. H. WELLS
DATOS
MODELOS
HECHOS
TEORAS
FENMENOS
INTUICIONES
Cmo aumentar el
rendimiento de un proceso
MODELO
Variables:
- Nmero de averas (x1)
- Tiempo reparacin (x2)
Hiptesis: las averas
Se producen
independientemente
La probabilidad de no
avera disminuye
exponencialmente con el
tiempo
Hiptesis:tiempo reparacin
Depende de muchos
pequeos factores
Variables:
- Rendimiento en % (y)
- Temperatura x1
- Concentracin x2
Hiptesis:
El rendimiento aumenta en
promedio linealmente con la
temperatura y la
concentracin
Para valores fijos de x1 y x2
Para
el rendimiento vara
aleatoriamente alrededor de
su valor medio
RECOLECCIN
DE
INFORMACIN
Diseo de un experimento
que se varen x1 y x2 y se
mida y
ESTIMACIN
PARMETROS
Estimar:
, tasa media de averas
, tiempo medio de
reparacin
, variabilidad en el
tiempo de reparacin
Estimar:
El efecto de la temperatura
(b) y el de la concentracin
(c) sobre el rendimiento
Variabilidad experimental
CONTRASTES
DE SIMPLIFICACIN
Es el efecto de la
temperatura y concentracin
idntico (b=c ) ?
CRTICA DEL
MODELO
Es cierta la independencia
entre las averas?
Son la variabilidad de x1 y
x2 en la muestra consistentes
con las hiptesis ?
Es la relacin entre y
(x1 , x2) lineal?
Es la variabilidad de y para
x1, x2 fijos, independ. de los
valores concretos de x1, x2 ?
Problema real
Planteamiento del problema
Objetos
Objetos yy medios
medios
Modelos Estadsticos
(Clculo
(Clculo de
de probabilidades)
probabilidades)
Contrastes de Simplificacin
(Contrastes de hiptesis)
Nuevo Conocimiento
Previsiones
Decisiones
Datos
Estadstica
Informacin
Muestreo
Costo reducido
Mayor rapidez
Mayor posibilidad (Sistemas complejos)
APLICACIONES:
Mercadotecnia
Anlisis de Imgenes
Modelos de Simulacin
Teora de muestreo
Poblacin finita
Poblacin infinita
Muestreo
Probabilstico
Probabilstico
No
No Probabilstico
Probabilstico
Medidas de Probabilidad
Probabilidad una medida de la certidumbre
La confiabilidad de una Inferencia
Aproximacin Subjectiva
Una Opinin de Experto
Poblacin
Conjunto de elementos u objetos - que obedecen a
reglas de pertenencia definidas por el observador de los cuales se desea conocer ciertos parmetros
de comportamiento caractersticos de la Poblacin.
Cada sujeto o elemento de la Poblacin es una
observacin. Cada uno es una incognita en el
sentido que puede tener uno de los tantos valores
posibles de observar de cierta caracterstica.
La Poblacin puede ser:
Finita : si los elementos son contables
Infinita : si los elementos son enumerables
Poblacin: Definicin
La Teora de Muestreo pretende desarrollar
mtodos para obtener un conocimiento
adecuado de ciertas caractersticas de una
Poblacin, mediante el estudio de un
nmero reducido de elementos u objetos
representativos de dicha Poblacin
Planes de Muestreo
Muestreo Sistemtico
Muestreo Mltiple
Muestreo
Experimento:
Un proceso de Observacin
Evento Simple:
Un Resultado de un experimento
que no puede ser descompuesto
-Mutuamente Excluyente
-Idntica Posibilidad
Evento A:
Espacio Muestral
Conjunto de todos los resultados u observaciones
que se pueden observar al realizar un experimento
Puede ser
Discreto
Continuo
Sea
n :
N :
{Si: i = 1, 2, ....
Muestral o Universo
Tamao de la Muestra
Tamao de la Poblacin
N
n
Aletaroria -
Simple
Sistemtica
Estratificada
Conglomerados
Mltiple
Muestreo Aleatorio
Conjunto de observaciones tomadas de
una Poblacin.
Se dice que la muestra es aleatoria
cuando la manera de seleccin de cada
elemento de la poblacin tiene igual
oportunidad de ser seleccionado.
El mtodo de seleccin es decisivo en las
conclusiones que se pueden obtener de la
muestra.
Tipo de Variable
Tanto en la escala intervalar como en la de razn es posible distinguir
dos tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de
puntos aislados (subconjunto de valores en R)
Variables Continuas: una que puede tomar sus valores en un conjunto
donde todos sus elementos son puntos de acumulacin (un intervalo en
R). Siempre es posible tratar una variable continua como discreta
mediante la construccin de intervalos de clase representando cada
uno de los intervalos por su valor medio denominado marca de clase
Variables Categricas o Cualitativas
Variables Cuantitativas
Estimacin
Parmetro:
Medida para describir alguna caracterstica de los
elementos de una Poblacin, tal como Valor Esperado,
Moda o Varianza poblacional.
Estos guarismos son valores verdaderos, pero
deconocidos.
Estadstica ( Estadgrafo):
Medida para describir una caracterstica de la Muestra,
tal como Promedio, Varianza o Moda muestral. Estos
valores son calculados a partir de la Muestra, pero son
valores aproximados de los parmetros que
representan
Muestreo Sistemtico
Se utiliza cuando las unidades de la poblacin estn, de
algn modo, totalmente ordenadas. Para seleccionar una
muestra se aprovecha la ordenacin de las unidades.
Para seleccionar una muestra de tamao n
se divide la poblacin en n subpoblaciones
de tamao K = N/n
se toma una unidad al azar de la primera
subpoblacin y
de ah en adelante cada k-sima unidad.
Si n1 es la unidad seleccionada de la primera poblacin,
entonces las siguientes observaciones sern n2 n1+K,
n3 n2+K n1+2K
Ejemplo 1
Se tienen 2000 pernos en una urna
El largo de cada perno puede estar entre 99,5 y
100,5 mm
Se toma una muestra de cinco pernos y se mide
Variable
VariableAleatoria
Aleatoria
Continua
Continua
su largo
observacin
Poblacin
Cada
Poblacin es una variable
Finita
Finita
aleatoria
continua.
TodasMuestral
obedecen a
la misma
Espacio
Finito
Espacio
Muestral
Finito
distribucin y son independientes entre si
Los pernos medidos se dejan a un lado y se toma
otra muestra de cinco pernos. De continuar as a
habr observado toda la poblacin
Hacer un grfico de barras histograma con la
frecuencia que aparece cada nmero
Ejemplo 2
Se tiene 2000 pernos en una urna
El largo de cada perno puede estar entre 99,5 y
100,5 mm
Variable
Aleatoria
Continua
Variable
Aleatoria
pernos
Continua
Se toma
una muestra
de cinco
y se mide
Poblacin
su largo
Poblacin
Finita
Finita
Cada
es una variable
aleatoria
observacin
Espacio
Muestral
Infinito
Espacio Muestral
Infinito
continua. Todas obedecen a la misma
distribucin y son independientes entre si
Por pernos medidos se devulven a la urna y se
toma otra muestra de cinco pernos. El
experimento se puede repetir indefinidamente,
porque siempre existirn 2000 pernos en la urna
Extrapolativos
Explicativos
Estticos
Dinmicos
y= +u
(Primera parte)
y = + yt-1 + ut
(Quinta parte)
y= + x+u
(Tercera y cuarta
parte)
y= + x+
yt-1 + ut
(Quinta parte)
Mtodos Estadsticos
en
DATA MINING
Knowledge Discovery in
Data Bases (KDD)
Es un proceso de identificacin de patrones
vlidos, innovativos, potencialmente tiles,
no explcitos y comprensibles a partir de los
datos.
KDD
Etapas del KDD :
1. Data Selection
2. Cleaning
3. Enrichment
4. Coding
5. Data Mining
6. Reporting
KDD
Requiremientos de Informacin
Seleccin de
Datos
Cleaning:
Domain consistency
De-duplication
Outliers detection
Data Bases
Feedback
Enrichment
Datos Externos
Coding
Data Mining
Association
Clustering
Classification
Regression
Reporting
Action
Algoritmos en DM
Existen diversos algoritmos en Data Mining los que se
pueden clasificar
Machine Learning
Pattern Recognition
Actividades de Data Mining:
Preparacin de los datos
Aplicacin de algoritmos de DM
Anlisis de datos
DM
Algoritmos de DM:
Asociacin de datos (ANN)
Pattern recognition (Time Series)
Clustering
Clasificacin
Regresin
Pronsticos
Aplicaciones de DM
Energa: Apoyo a la toma de decisiones en plantas energa
elctrica (centro de despacho de cargas)
Medicina: Mejora de diagnsticos y asignacin de
tratamientos en base a reconocimiento de patrones.
Marketing: informacin demogrfica y sistemas georeferenciados, patrones de compra, segmentacin de mercados.
Finanzas: prediccin de valores y riesgo en el mercado de
opciones.