Outliers Expo

VALORES ATIPICOS
(OUTLIERS)
OUTLIERS
Los casos atpicos son observaciones
caractersticas diferentes de las dems.
con
Estos deben analizarse y evaluar el tipo de informacin

que pueden proporcionar.
Su principal problema es que pueden no ser
representativos de la poblacin pudiendo distorsionar
seriamente el comportamiento de los contrastes
estadsticos.
2
VALORES LEJANOS-ATIPICOS
Distribucin un valor atpico

3
TIPOS DE VALORES ATIPICOS

Los casos atpicos pueden clasificarse en 4 categoras.
La primera categora , casos atpicos que surgen de un error

de procedimiento.
La segunda clase ,es la observacin que ocurre como

consecuencia de un acontecimiento extraordinario.
La tercera clase ,observaciones cuyos valores caen dentro del
rango de las variables observadas pero que son nicas en la
combinacin de los valores de dichas variables.
La cuarta y ltima clase, son las observaciones
extraordinarias para las que el investigador no tiene explicacin
TECNICAS DE IDENTIFICACIN DE LOS

OUTLIERS
Las tcnicas para deteccin de valores atpicos Son las
siguientes:
Prueba de Grubbs.
Prueba de Dixon.
Prueba de Tukey (DIAGRAMA DE CAJAS)).
MOA.
Regresin Lineal Simple.
DIGRAMA DE CAJAS
Esta compuesto por un rectngulo o caja que se construye con
ayuda del el primer y tercer cuartil. Esta zona contiene el 50%
de los datos.
La mediana es la lnea que atraviesa la caja.
Los lmites o extremos se ubican mediante el rango

intercuartlico. Los lmites estn a 1.5*IQR abajo de Q 1 y a
1.5*IQR arriba de Q3.
A os valores que se encuentren fuera 1.5*IQR se considera

valores atpicos leves y a los valores fuera de 3*IQR se les
denomina valores atpicos extremos.
Se marcan con un circulo o asterisco las localizaciones de
valores atpicos, leves o extremos respectivamente
6
FORMULA GENERAL DE LOS CUARTILES:
Ln(Au)
Calculo de Ln de los valores
Media de Ln = 1.284
= e^1.284
9.899=e^(media Ln) *fcs
DATOS AUSENTES
(MISSING)
18
Los datos ausentes son algo habitual en el Anlisis

Multivalente; de hecho, rara es la investigacin en
la que no aparece este tipo de datos.
En estos casos el objetivo del investigador debe
ser determinar las razones que subyacen en el dato
ausente buscando entender el proceso principal de
esta ausencia para seleccionar el curso de accin
ms apropiado.
19
TIPOS DE VALORES AUSENTES

1) Datos ausentes prescindibles:
Son resultado de procesos que se encuentran bajo el control
del investigador y pueden ser identificados explcitamente.
En estos casos no se necesitan soluciones especficas
para la ausencia de datos dado que dicha ausencia es
inherente a la tcnica usada.
2) Datos ausentes no prescindibles:
Son resultado de procesos que no se encuentran bajo el
control del investigador y/o no pueden ser identificados
explcitamente.
20
Datos ausentes completamente aleatorios

(MCAR): este es el mayor grado de aleatoriedad. En
este caso se podra solucionar el problema sin tener
en cuenta el impacto de otras variables.
Datos ausentes aleatorios (MAR): en este caso el
patrn de los datos ausentes en una variable Y no es
aleatorio sino que depende de otras variables de la
muestra X.
21
X
MUESTRA
1
2
Z
W
VARIABLES
.
4
LOCALIZACIN DE DATOS AUSENTES

El primer paso en el tratamiento de datos ausentes consiste
en evaluar la magnitud del problema.

Se comienza analizando el porcentaje de datos ausentes por
variables y por casos. Si existen casos con un alto porcentaje
de datos ausentes se deberan excluir del problema. As
mismo si existe una variable con un alto porcentaje de este
tipo de casos su exclusin depender de la importancia
terica de la misma y la posibilidad de ser reemplazada por
variables con un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es
dependiente debera ser eliminada ya que cualquier proceso
de imputacin de valores puede distorsionar la significacin
estadstica y prctica de los modelos estimados para ella.
23
DIAGNSTICO DE LA ALEATORIEDAD EN EL PROCESO

DE DATOS AUSENTES
EXISTEN 3 MTODOS:
a.-Para
cada variable Y formar dos grupos (observaciones ausentes y

presentes en Y) y aplicar contrastes de comparacin de dos muestras
para determinar si existen diferencias significativas entre los dos
grupos sobre otras variables de inters.
b.- Utilizar correlaciones dicotomizadas para evaluar la correlacin de

los datos ausentes en cualquier par de valores.
c.-Realizar contrastes conjuntos de aleatoriedad que determinen si los

datos ausentes pueden ser clasificados como MCAR. Estos contrastes
analizan el patrn de datos ausentes sobre todas las variables y las
compara con el patrn esperado para un proceso de datos ausentes
aleatorio
24
APROXIMACIONES AL TRATAMIENTO DE DATOS

AUSENTES
Si se encuentran procesos de datos ausentes MAR o no
aleatorios, el investigador debera aplicar slo el mtodo diseado
especficamente para este proceso. Slo si el investigador
determina que el proceso de ausencia de datos puede clasificarse
como MCAR pueden utilizarse las siguientes aproximaciones:
a.- Utilizar slo los casos completos: conveniente si el tamao
muestral no se reduce demasiado
b.- Supresin de casos y/o variables con una alta proporcin de datos
ausentes.
c.- Imputar valores a los datos ausentes utilizando valores vlidos de
otras variables y/o casos de la muestra
25
MTODOS DE IMPUTACIN
Los mtodos de imputacin pueden ser :
1. Imputacin usando la media

En la imputacin usando la media, la media aritmtica de los valores de una
variable que contiene datos faltantes es usada para sustituir los valores
faltantes.
La imputacin de la media (IM) es probablemente la tcnica ms
ampliamente usada y la motivacin para seleccionarla es su rapidez
computacional .Puede usarse con variables tanto de tipo discreto como
continuas que cumplan un patrn MCAR.
2. Imputacin usando la Mediana

Dado que la media es afectada por la presencia de valores extremos,
parece natural usar la mediana en vez de la media con el fin de asegurar
robustez Obviamente tcnicas como la imputacin de la media y la
mediana, slo son aplicables a variables cuantitativas y no pueden usarse
con valores faltantes en una caracterstica categrica.
26
3. Imputacin Hot Deck.

El mtodo tiene como objetivo llenar los registros vacos (receptores) con
informacin de campos con informacin completa (donantes) y los datos
faltantes se reemplazan a partir de una seleccin aleatoria de los valores
observados, lo cual no introduce sesgos en la varianza del estimador .
4. Imputacin por Regresin

En los mtodos basados en regresin, los valores ausentes para un
registro dado son imputados por un modelo de regresin basado en los
valores completos de los atributos para ese registro. Este mtodo
requiere mltiples ecuaciones de regresin, cada una para un conjunto
diferente de atributos completos, lo cual puede conducir a altos costos
computacionales.
27
EJEMPLO APLICATIVO
DEL AED (OUTLIERS Y
MISSING)
28
Primeramente se utilizara el Excel para la evaluacin de los

datos del sondaje y posteriormente el spss, Mediante este
programa de anlisis estadstico se busca evaluar la calidad y
consistencia de los datos, determinar la distribucin de las
variables en estudio en nuestro caso la ley del ORO y detectar
los valores atpicos como los outliers y missing para su
posterior modificacin. Para ellos tenemos una DATA el cual
posee la informacin de sobre leyes de ORO.
29
30
31
32
33
DATOS ORDENADOS POR TALADROS DE MENOR A MAYOR

TALADRO 1
TALADRO 2
TALADRO 3
TALADRO 4
TALADRO 5
TALADRO 6
TALADRO 7
TALADRO 8
TALADRO 9
TALADRO 10
TALADRO 11
TALADRO 12
TALADRO 13
TALADRO 14
TALADRO 15
TALADRO 16
TALADRO 17
TALADRO 18
TALADRO 19
TALADRO 20
TALADRO 21
TALADRO 22
TALADRO 23
TALADRO 24
TALADRO 25
TALADRO 26
0.42
0.28
0.07
0.08
0.49
0.28
0.13
0.14
0.42
0.44
0.61
0.35
0.21
0.29
0.35
0.14
0.42
0.35
0.7
0.42
0.7
0.47
0.77
0.49
1.26
1.05
0.56
0.28
0.21
0.45
1.05
0.35
0.42
0.56
0.49
0.61
0.94
1.12
0.35
0.63
0.63
0.14
0.49
0.49
0.7
0.77
0.77
0.59
0.84
0.91
2.24
1.12
0.63
0.31
0.28
0.47
1.05
0.49
0.47
0.56
0.52
0.74
0.94
1.26
0.49
0.7
0.63
0.28
0.7
1.05
1.12
0.91
1.61
0.67
1.47
1.4
4.06
1.19
0.7
0.42
0.35
2.1
1.12
0.56
0.63
0.56
0.68
0.74
1.07
1.26
0.56
0.7
0.28
0.84
1.05
1.19
0.91
2.31
1.26
2.1
2.1
0.35
1.26
1.26
0.91
1.54
0.63
1.12
0.84
0.93
0.84
1.1
1.47
0.98
0.84
1.26
0.28
1.05
1.12
1.19
0.98
2.8
1.61
2.17
2.24
4.34
1.61
0.7
1.89
1.01
3.85
1.75
0.8
1.47
2.8
0.98
0.98
1.96
1.47
0.91
1.26
0.35
1.54
1.82
1.4
1.12
2.8
3.08
2.24
2.59
1.61
1.61
2.03
2.24
1.21
4.06
2.03
0.98
2.31
3.15
1.43
1.13
1.29
1.96
1.68
1.12
1.82
0.56
1.89
2.17
1.47
1.4
3.01
10.99
2.45
2.87
1.12
1.75
2.38
4.34
1.26
5.95
2.94
1.19
2.8
4.2
1.45
1.26
1.65
2.17
2.17
1.12
2.03
1.82
2.66
3.36
2.31
1.82
5.25
17.29
2.52
3.5
9.73
1.75
2.45
4.41
1.53
6.09
4.97
2.66
6.02
5.11
1.52
1.46
3.92
2.31
6.23
1.12
2.73
2.1
6.3
4.34
2.59
3.36
5.39
26.88
2.66
4.41
1.75
1.82
15.19
20.65
2.73
6.86
11.62
5.6
6.02
7.21
2.31
2.87
6.44
3.5
11.9
1.89
2.87
3.71
6.58
5.88
4.76
4.97
6.79
29.96
5.6
4.97
5.74
2.17
Como se puede observar en la data se existen muchos

valores faltantes por lo que se ha credo conveniente
reemplazarlos por la mediana de cada taladro en las
que existen estos valores ausentes (outliers). usamos
este mtodo debido a que la mediana es mucho mas
acertado que la media en un caso de distribucin no
normal como en este caso. a continuacin se muestra
los datos ya reestablecidos .
35
DATOS REEMPLAZADOS
TALADRO 1
TALADRO 2
TALADRO 3
TALADRO 4
TALADRO 5
TALADRO 6
TALADRO 7
TALADRO 8
TALADRO 9
TALADRO 10
TALADRO 11
TALADRO 12
TALADRO 13
TALADRO 14
TALADRO 15
TALADRO 16
TALADRO 17
TALADRO 18
TALADRO 19
TALADRO 20
TALADRO 21
TALADRO 22
TALADRO 23
TALADRO 24
TALADRO 25
TALADRO 26
0.42
0.28
0.07
0.08
0.49
0.28
0.13
0.14
0.42
0.44
0.61
0.35
0.21
0.29
0.35
0.14
0.42
0.35
0.7
0.42
0.7
0.47
0.77
0.49
1.26
1.05
0.56
0.28
0.21
0.45
1.05
0.35
0.42
0.56
0.49
0.61
0.94
1.12
0.35
0.63
0.63
0.14
0.49
0.49
0.7
0.77
0.77
0.59
0.84
0.91
2.24
1.12
0.63
0.31
0.28
0.47
1.05
0.49
0.47
0.56
0.52
0.74
0.94
1.26
0.49
0.7
0.63
0.28
0.7
1.05
1.12
0.91
1.61
0.67
1.47
1.4
4.06
1.19
0.7
0.42
0.35
2.1
1.12
0.56
0.63
0.56
0.68
0.74
1.07
1.26
0.56
0.7
1.26
0.28
0.84
1.05
1.19
0.91
2.31
1.26
2.1
2.1
0.35
1.26
0.7
1.26
0.91
3.85
1.54
0.63
1.12
0.84
0.93
0.84
1.1
1.47
0.98
0.84
1.26
0.28
1.05
1.12
1.19
0.98
2.8
1.61
2.17
2.24
4.34
1.61
0.7
1.89
1.01
3.85
1.75
0.8
1.47
2.8
0.98
0.98
1.1
1.96
1.47
0.91
1.26
0.35
1.54
1.82
1.4
1.12
2.8
3.08
2.24
2.59
1.61
1.61
2.03
2.24
1.21
4.06
2.03
0.98
2.31
3.15
1.43
1.13
1.29
1.96
1.68
1.12
1.82
0.56
1.89
2.17
1.47
1.4
3.01
10.99
2.45
2.87
1.12
1.75
2.38
4.34
1.26
5.95
2.94
1.19
2.8
4.2
1.45
1.26
1.65
2.17
2.17
1.12
2.03
1.82
2.66
3.36
2.31
1.82
5.25
17.29
2.52
3.5
9.73
1.75
2.45
4.41
1.53
6.09
4.97
2.66
6.02
5.11
1.52
1.46
3.92
2.31
6.23
1.12
2.73
2.1
6.3
4.34
2.59
3.36
5.39
26.88
2.66
4.41
1.75
1.82
15.19
20.65
2.73
6.86
11.62
5.6
6.02
7.21
2.31
2.87
6.44
3.5
11.9
1.89
2.87
3.71
6.58
5.88
4.76
4.97
6.79
29.96
5.6
4.97
5.74
2.17
DATOS ORDENADOS
37
Clase
Frecuencia
Histograma
0.07
1.938125
167
180
3.80625
50
160
5.674375
20
7.5425
13
9.410625
11.27875
13.146875
15.015
60
16.883125
40
18.75125
20.619375
22.4875
24.355625
26.22375
28.091875
y mayor...
140
Frecuencia
120
100
80
Frecuencia
20
0
Clase
38
histograma elaborado en el spss
39
DETECCION DE OUTLIERS MEDIANTE DIAGRAMA DE CAJAS
una vez reemplazados los datos ausentes ,para poder

detectar los outliers o datos atpicos existentes entre los
datos en estudio hemos credo conveniente analizarlos
mediante diagramas de caja. Para ello se procedi a
exportar todos los valores que conforman las leyes de oro
al software
(spss), luego all se realizaron los
procedimientos necesarios para poder detectar los
outliers se obtuvieron los siguientes resultados:
40
Fig. Muestra de resultados de cada parmetro

41
Fig. Muestra de diagrama de cajas de los datos en el spss .
42
En este software ya se puede observar los outliers el cual era el

objetivo para el anlisis del diagrama de cajas y bigotes, estos
valores atpicos que escapan como datos aislados para luego
hacer el anlisis respectivo que se hacer ante el tratamiento de
outliers.
De esta manera se puede confirmar los resultados del spss,
asimismo se puede ver claramente en la parte alta superior del
diagrama muchos visibles outliers tanto simples como
entremos esto nos indica que se comprueba los resultados
obtenidos en la distribucin cabe sealar que sean o no outliers
depender del anlisis de su tratamiento para ver si realmente
se trata de valores atpicos o solo son errores de muestreo o
mala digitacin .
43
Datos Estadsticos
Vlidos
Perdidos
260
0
Media
2.34658
Mediana
1.26000
Mnimo
.070
Mximo
29.960
Percentiles
25
.70000
50
1.26000
75
2.57250
44
La tabla de valores estadsticos muestra que Q1=0.7 y

Q3=2.57, por lo tanto en rango intercuartil ser igual a (Q1Q3)=IQR=1.87.
Si al Q3 le adicionamos 1.5*IQR obtenemos el bigote superior
que seria 5.38, los valores que se encuentren por encima de
este sern considerados atpicos simples, excepto aquellos
valores que se encuentre por encima de 3*IQR ya que estos
son considerados atpicos extremos, lo mismo ocurre cuando
restamos a Q1 los valores de 1.5*IQR y 3*IQR
respectivamente.
A continuacin presentamos los principales outliers existentes

entre los valores de la data:
45
Principales outliers existentes en la data

46
Para la correccin de los outliers estos deberan ser

corroborados y ver de donde se originaron estos datos
, si son errores de muestro en el campo o fueron
errores de digitacin ,etc. Si luego de corroborar se
llega a la conclusin que estos datos existen ,estos
sern considerados ,pero si son producto de errores
simplemente sern desechados .
47
Mediante los histogramas tambin se puede observar la presencia

de outliers.
48
VARIOGRAMA
y mayor...
Variograma
180
120.00%
160
100.00%
140
120
FRECUENCIA
Clase
Frecuencia % acumulado
0.070
1
0.38%
1.938
167
64.62%
3.806
50
83.85%
5.674
20
91.54%
7.543
13
96.54%
9.411
0
96.54%
11.279
2
97.31%
13.147
2
98.08%
15.015
0
98.08%
16.883
1
98.46%
18.751
1
98.85%
20.619
0
98.85%
22.488
1
99.23%
24.356
0
99.23%
26.224
0
99.23%
28.092
1
99.62%
80.00%
100
60.00%
80
60
40.00%
40
20.00%
20
0
0.00%
LEY AU
Frecuencia
% acumulado
100.00%
49
DATA
ID. TALADRO
N
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
X
6084.70654
6084.68457
6084.66162
6084.63818
6084.61377
6084.58838
6084.5625
6084.53565
6084.5083
6084.47998
6035.66113
6035.68164
6035.69043
6035.69824
6035.70508
6035.71094
6035.71533
6035.71826
6035.7207
6035.72168
5987.38477
5987.40674
5987.42529
5987.44287
5987.45996
5987.47559
5987.51758
5987.52979
5987.54053
5987.55078
5986.87891
5986.89844
5986.91553
5986.93262
5986.94971
5986.9668
5986.98389
5987.01807
5987.03516
5987.05225
Y
4998.91553
4997.65332
4996.39258
4995.13428
4993.87744
4992.62207
4991.36914
4990.11768
4988.86865
4987.62109
4903.27246
4900.82471
4899.55566
4898.28809
4897.02246
4895.7583
4894.49609
4893.23584
4891.97705
4890.72022
4928.53955
4927.06738
4925.72998
4924.39404
4923.05908
4921.7251
4917.73145
4916.40283
4915.0752
4913.74854
5053.67627
5052.0669
5050.66797
5049.26856
5047.86914
5046.47022
5045.0708
5042.27246
5040.87305
5039.47412
Z
12.138912
10.58789
9.035358
7.481315
5.925759
4.368689
2.810105
1.250005
-0.311613
-1.874511
61.936905
58.965008
57.419277
55.872147
54.323616
52.773689
51.222359
49.669624
48.11549
46.559948
40.422474
38.787979
37.30093
35.812798
34.323578
32.833263
28.355799
26.861128
25.365362
23.868507
17.911545
16.268265
14.83932
13.410375
11.98143
10.552485
9.123539
6.265648
4.836703
3.407758
LENGTH
2
2
2
2
2
2
2
2
2
2
1.699997
2
2
2
2
2
2
2
2
2
2.399994
2
2
2
2
2
2
2
2
2
2.599991
2
2
2
2
2
2
2
2
2
FROM
227.886902
229.886902
231.886902
233.886902
235.886902
237.886902
239.886902
241.886902
243.886902
245.886902
138.837296
142.537292
144.537292
146.537292
148.537292
150.537292
152.537292
154.537292
156.537292
158.537292
183.317505
185.717499
187.717499
189.717499
191.717499
193.717499
199.717499
201.717499
203.717499
205.717499
236.341202
238.941193
240.941193
242.941193
244.941193
246.941193
248.941193
252.941193
254.941193
256.941193
TO
229.886902
231.886902
233.886902
235.886902
237.886902 239.886902
241.886902
243.886902
245.886902
247.886902
140.537292
144.537292
146.537292
148.537292
150.537292
152.537292
154.537292
156.537292
158.537292
160.537292
185.717499
187.717499
189.717499
191.717499
193.717499
195.717499
201.717499
203.717499
205.717499
207.717499
238.941193
240.941193
242.941193
244.941193 246.941193
248.941193
250.941193
254.941193
256.941193
258.941193
DATOS
REESTABLECIDOS
AU
0.63
0.56
0.7
0.42
2.45
2.03
2.38
15.19
0.7
0.31
20.65
4.41
2.24
4.34
0.28
1.89
1.26
0.42
0.28
0.35
1.26
0.07
0.21
0.28
2.73
0.91
1.21
1.01
1.53
5.95
6.86
2.1
3.85
4.06
6.09
0.45
0.08
0.47
0.63
0.56
0.7
0.42
0.7
2.45
2.03
2.38
15.19
0.7
0.31
20.65
4.41
2.24
4.34
0.28
1.89
1.26
0.42
0.28
0.35
1.26
0.07
0.21
0.28
2.73
0.91
1.21
1.01
1.53
5.95
6.86
2.1
3.85
3.85
4.06
6.09
0.45
0.08
0.47
50
NORMALIZACION DE LA DATA:
Para la normalizacin de los datos sacamos logaritmo a cada valor de las leyes y
seguimos el mismo proceso anterior:
ID. TALADRO N
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
X
6084.70654
6084.68457
6084.66162
6084.63818
6084.61377
6084.58838
6084.5625
6084.53565
6084.5083
6084.47998
6035.66113
6035.68164
6035.69043
6035.69824
6035.70508
6035.71094
6035.71533
6035.71826
6035.7207
6035.72168
5987.38477
5987.40674
5987.42529
5987.44287
5987.45996
5987.47559
5987.51758
5987.52979
5987.54053
5987.55078
Y
4998.91553
4997.65332
4996.39258
4995.13428
4993.87744
4992.62207
4991.36914
4990.11768
4988.86865
4987.62109
4903.27246
4900.82471
4899.55566
4898.28809
4897.02246
4895.7583
4894.49609
4893.23584
4891.97705
4890.72022
4928.53955
4927.06738
4925.72998
4924.39404
4923.05908
4921.7251
4917.73145
4916.40283
4915.0752
4913.74854
LENGTH
12.138912
2
10.58789
2
9.035358
2
7.481315
2
5.925759
2
4.368689
2
2.810105
2
1.250005
2
-0.311613
2
-1.874511
2
61.936905 1.699997
58.965008
2
57.419277
2
55.872147
2
54.323616
2
52.773689
2
51.222359
2
49.669624
2
48.11549
2
46.559948
2
40.422474 2.399994
38.787979
2
37.30093
2
35.812798
2
34.323578
2
32.833263
2
28.355799
2
26.861128
2
25.365362
2
23.868507
2
FROM
227.886902
229.886902
231.886902
233.886902
235.886902
237.886902
239.886902
241.886902
243.886902
245.886902
138.837296
142.537292
144.537292
146.537292
148.537292
150.537292
152.537292
154.537292
156.537292
158.537292
183.317505
185.717499
187.717499
189.717499
191.717499
193.717499
199.717499
201.717499
203.717499
205.717499
TO
229.886902
231.886902
233.886902
235.886902
237.886902 239.886902
241.886902
243.886902
245.886902
247.886902
140.537292
144.537292
146.537292
148.537292
150.537292
152.537292
154.537292
156.537292
158.537292
160.537292
185.717499
187.717499
189.717499
191.717499
193.717499
195.717499
201.717499
203.717499
205.717499
207.717499
DATOS
LOG(DAT. RST.)
REESTABLECIDOS
AU
0.63
0.56
0.7
0.42
2.45
2.03
2.38
15.19
0.7
0.31
20.65
4.41
2.24
4.34
0.28
1.89
1.26
0.42
0.28
0.35
1.26
0.07
0.21
0.28
2.73
0.91
1.21
1.01
1.53
0.63
0.56
0.7
0.42
0.7
2.45
2.03
2.38
15.19
0.7
0.31
20.65
4.41
2.24
4.34
0.28
1.89
1.26
0.42
0.28
0.35
1.26
0.07
0.21
0.28
2.73
0.91
1.21
1.01
1.53
-0.200659451
-0.251811973
-0.15490196
-0.37675071
-0.15490196
0.389166084
0.307496038
0.376576957
1.181557774
-0.15490196
-0.508638306
1.314920056
0.644438589
0.350248018
0.63748973
-0.552841969
0.276461804
0.100370545
-0.37675071
-0.552841969
-0.455931956
0.100370545
-1.15490196
-0.677780705
-0.552841969
0.436162647
-0.040958608
0.08278537
0.004321374
0.184691431
51
Luego de obtener los logaritmos de cada ley, procedemos a realizar su anlisis

estadstico; en este caso lo realizaremos con ayuda de de los programas Exel y SPSS:
PARAMETROS ESTADISTICOS
ANTILOG()
Media
0.13534389
Error tpico
0.02719144
Mediana
0.10037055
Moda
0.10037055
Desviacin estndar
0.43844873
Varianza de la muestra
0.19223729
Curtosis
0.40325346
Coeficiente de asimetra
0.13156322
Rango
2.63144377
Mnimo
-1.15490196
Mximo
1.47654181
Suma
35.1894121
Cuenta
Nivel de confianza(95.0%)
1.3656641
260
0.05354444
52
Luego obtenemos su histograma mediante la ayuda de los programas:

Histograma
50
45
40
35
30
Frecuencia
Clase
Frecuencia
-1.155
1
-0.990
1
-0.826
4
-0.662
2
-0.497
9
-0.333
16
-0.168
28
-0.004
34
0.161
43
0.325
39
0.490
35
0.654
17
0.819
19
0.983
3
1.148
4
1.312
2
y mayor...
3
Tabla de frecuencias
25
Frecuencia
20
15
10
5
0
Log(Leyes)
Histograma obtenido en exel

53
Histograma con curva normal obtenida con SPSS
54
VARIOGRAMA
Variograma
50
120.00%
45
100.00%
40
35
FRECUENCIA
Clase
Frecuencia % acumulado
-1.1549
1
0.38%
-0.9904
1
0.77%
-0.8260
4
2.31%
-0.6615
2
3.08%
-0.4970
9
6.54%
-0.3326
16
12.69%
-0.1681
28
23.46%
-0.0036
34
36.54%
0.1608
43
53.08%
0.3253
39
68.08%
0.4898
35
81.54%
0.6542
17
88.08%
0.8187
19
95.38%
0.9831
3
96.54%
1.1476
4
98.08%
1.3121
2
98.85%
y mayor...
3
100.00%
80.00%
30
25
60.00%
20
40.00%
15
10
20.00%
5
0
. =6.5871
0.00%
CLASE
Frecuencia
% acumulado
55
CONCLUSIONES
El AED es de vital importancia en la minera para la
estimacin de reservas porque es bsicamente la
interpretacin del muestreo, punto iniciador del xito o
fracaso de una operacin minera. Este anlisis es ms
estadstico pero con el se hace inferencias de la estructura
y caractersticas mas posible del yacimiento.
Hacer la distribucin, el organizarlos y procesarlos de
forma correcta es fundamental y nos garantizara el xito de
la secuencia de actividades mineras con eficiencia.
Mediante el grafico de cajas y bigotes se pudo observar los
outliers los cuales debidamente fueron correlacionados.
56
GRACIAS!!!!!!!!!
57

Outliers Expo

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Outliers Expo

Uploaded by

Copyright:

Available Formats

VALORES ATIPICOS

Estos deben analizarse y evaluar el tipo de informacin

Distribucin un valor atpico

TIPOS DE VALORES ATIPICOS

La primera categora , casos atpicos que surgen de un error

La segunda clase ,es la observacin que ocurre como

TECNICAS DE IDENTIFICACIN DE LOS

Prueba de Tukey (DIAGRAMA DE CAJAS)).

Regresin Lineal Simple.

La mediana es la lnea que atraviesa la caja.

Los lmites o extremos se ubican mediante el rango

A os valores que se encuentren fuera 1.5*IQR se considera

FORMULA GENERAL DE LOS CUARTILES:

Calculo de Ln de los valores

9.899=e^(media Ln) *fcs

Los datos ausentes son algo habitual en el Anlisis

TIPOS DE VALORES AUSENTES

Datos ausentes completamente aleatorios

LOCALIZACIN DE DATOS AUSENTES

en evaluar la magnitud del problema.

DIAGNSTICO DE LA ALEATORIEDAD EN EL PROCESO

cada variable Y formar dos grupos (observaciones ausentes y

b.- Utilizar correlaciones dicotomizadas para evaluar la correlacin de

c.-Realizar contrastes conjuntos de aleatoriedad que determinen si los

APROXIMACIONES AL TRATAMIENTO DE DATOS

1. Imputacin usando la media

2. Imputacin usando la Mediana

3. Imputacin Hot Deck.

4. Imputacin por Regresin

Primeramente se utilizara el Excel para la evaluacin de los

DATOS ORDENADOS POR TALADROS DE MENOR A MAYOR

Como se puede observar en la data se existen muchos

histograma elaborado en el spss

DETECCION DE OUTLIERS MEDIANTE DIAGRAMA DE CAJAS

una vez reemplazados los datos ausentes ,para poder

Fig. Muestra de resultados de cada parmetro

Fig. Muestra de diagrama de cajas de los datos en el spss .

En este software ya se puede observar los outliers el cual era el

La tabla de valores estadsticos muestra que Q1=0.7 y

A continuacin presentamos los principales outliers existentes

Principales outliers existentes en la data

Para la correccin de los outliers estos deberan ser

Mediante los histogramas tambin se puede observar la presencia

Luego de obtener los logaritmos de cada ley, procedemos a realizar su anlisis

Luego obtenemos su histograma mediante la ayuda de los programas:

Histograma obtenido en exel

Histograma con curva normal obtenida con SPSS

You might also like