You are on page 1of 15

1.1.1 ¿Qué es EDA?

Enfoque
El Análisis de datos exploratorios (EDA) es un enfoque / filosofía para el análisis de datos
que emplea una variedad de técnicas (principalmente gráficas) para
1. Maximizar el conocimiento de un conjunto de datos;
2. Descubrir la estructura subyacente;
3. Extraer variables importantes;
4. Detectar valores atípicos y anomalías;
5. Probar suposiciones subyacentes;
6. Desarrollar modelos parsimoniosos;
7. Y determinar la configuración óptima del factor.

Atención
El enfoque de EDA es precisamente eso, un enfoque, no un conjunto de técnicas, sino una
actitud / filosofía sobre cómo debe llevarse a cabo un análisis de datos.

Filosofía
La EDA no es idéntica a la gráfica estadística, aunque los dos términos se usan de manera
casi intercambiable. Los gráficos estadísticos son una colección de técnicas, todas basadas
en gráficas y todas enfocadas en un aspecto de caracterización de datos. EDA abarca un lugar
más grande; EDA es un enfoque para el análisis de datos que pospone los supuestos
habituales sobre qué tipo de modelo siguen los datos con el enfoque más directo de permitir
que los datos revelen su estructura y modelo subyacentes. EDA no es una mera colección de
técnicas; EDA es una filosofía sobre cómo diseccionar un conjunto de datos; lo que
buscamos; cómo nos vemos; y cómo interpretamos. Es cierto que EDA usa mucho la
colección de técnicas que llamamos "gráficos estadísticos", pero no es idéntica a los gráficos
estadísticos per se.

Historia
El trabajo seminal en EDA es El Análisis Exploratorio De Datos, Tukey, (1977). A lo largo
de los años se ha beneficiado de otras publicaciones dignas de mención como Análisis de
Datos y la Regresión, Mosteller y Tukey (1977), Análisis Interactivo de Datos, Hoaglin
(1977), El ABC de EDA, Velleman y Hoaglin (1981) y ha ganado un gran número de
seguidores. Como "la" forma de analizar un conjunto de datos.

Técnicas
La mayoría de las técnicas de EDA son de naturaleza gráfica con algunas técnicas
cuantitativas. La razón de la gran dependencia de los gráficos es que, por su propia naturaleza,
la función principal de EDA es explorar con mente abierta, y los gráficos dan a los analistas
el poder incomparable para hacerlo, atrayendo a los datos para revelar sus secretos
estructurales, y estar siempre listos para obtener una nueva percepción, a menudo
insospechada, de los datos. En combinación con las capacidades naturales de reconocimiento
de patrones que todos poseemos, los gráficos proporcionan, por supuesto, una potencia sin
igual para llevarlo a cabo.

Las técnicas gráficas particulares empleadas en EDA son a menudo bastante simples, que
consisten en varias técnicas de:
1. Trazar los datos brutos (como trazas de datos, histogramas, bihistogramas, diagramas de
probabilidad, diagramas de retraso, diagramas de bloques y diagramas de Youden).

2. Trazar estadísticas sencillas, como tramas medias, trazados de desviación estándar,


diagramas de cajas y gráficos de efectos principales de los datos brutos.

3. Posicionar dichos gráficos para maximizar nuestras habilidades naturales de


reconocimiento de patrones, como el uso de múltiples gráficos por página.

1.1.2 ¿Cómo se diferencia el análisis de datos exploratorios del análisis de datos clásicos?
Enfoques de análisis de datos.
EDA es un enfoque de análisis de datos. ¿Qué otros enfoques de análisis de datos existen y
cómo difiere la EDA de estos otros enfoques? Tres enfoques populares de análisis de datos
son:
1. Clásico
2. Exploratorio (EDA)
3. Bayesiano
Paradigmas para técnicas de análisis

Estos tres enfoques son similares en que todos comienzan con un problema general de ciencia
/ ingeniería y todos arrojan conclusiones de ciencia / ingeniería. La diferencia es la secuencia
y el enfoque de los pasos intermedios.
Para el análisis clásico, la secuencia es:
Problema => Datos => Modelo => Análisis => Conclusiones
Para EDA, la secuencia es:
Problema => Datos => Análisis => Modelo => Conclusiones
Para Bayesian, la secuencia es:
Problema => Datos => Modelo => Distribución previa => Análisis => Conclusiones.

El método para tratar el modelo subyacente de los datos distingue los 3 enfoques:
Por lo tanto, para el análisis clásico, la recolección de datos va seguida de la imposición de
un modelo (normalidad, linealidad, etc.) y el análisis, la estimación y las pruebas que siguen
se centran en los parámetros de ese modelo. Para EDA, la recopilación de datos no es seguida
por una imposición del modelo; más bien es seguido inmediatamente por análisis con el
objetivo de inferir qué modelo sería apropiado. Finalmente, para un análisis bayesiano, el
analista intenta incorporar conocimiento / experiencia científica / de ingeniería en el análisis
mediante la imposición de una distribución independiente de los datos en los parámetros del
modelo seleccionado; por lo tanto, el análisis consiste en combinar formalmente tanto la
distribución previa en los parámetros como los datos recopilados para hacer inferencias de
forma conjunta y / o suposiciones de prueba sobre los parámetros del modelo.
En el mundo real, los analistas de datos combinan libremente los elementos de los tres
enfoques anteriores (y otros enfoques). Las distinciones anteriores se hicieron para enfatizar
las principales diferencias entre los tres enfoques.
Discusión adicional de la distinción entre los enfoques clásico y EDA
Centrándose en EDA versus clásico, estos dos enfoques difieren de la siguiente manera:

1. Modelos
2. Atención
3. Técnicas
4. Rigor
5. Tratamiento de datos
6. Suposiciones

1. Modelo
Clásico
El enfoque clásico impone modelos (tanto deterministas como probabilísticos) en los datos.
Los modelos determinísticos incluyen, por ejemplo, modelos de regresión y modelos de
análisis de varianza (ANOVA). El modelo probabilístico más común asume que los errores
sobre el modelo determinista se distribuyen normalmente; esta suposición afecta la validez
de las pruebas ANOVA F.
Exploratorio
El enfoque de Análisis de datos exploratorios no impone modelos determinísticos o
probabilísticos sobre los datos. Por el contrario, el enfoque EDA permite que los datos
sugieran modelos admisibles que se ajusten mejor a los datos.

2. Atención

Clásico
Los dos enfoques difieren sustancialmente en el enfoque. Para el análisis clásico, el foco
está en el modelo: estimar parámetros del modelo y generar valores pronosticados a partir
del modelo.
Exploratorio
Para el análisis exploratorio de datos, la atención se centra en los datos: su estructura, valores
atípicos y modelos sugeridos por los datos.
3. Técnicas
Clásico
Las técnicas clásicas son generalmente de naturaleza cuantitativa. Incluyen ANOVA,
pruebas t, pruebas chi-cuadrado y pruebas F.
Exploratorio
Las técnicas EDA son generalmente gráficas. Incluyen diagramas de dispersión, diagramas
de caracteres, diagramas de cajas, histogramas, bihistogramas, diagramas de probabilidad,
diagramas residuales y diagramas medios.

4. Rigor
Clásico
Las técnicas clásicas sirven como la base probabilística de la ciencia y la ingeniería; la
característica más importante de las técnicas clásicas es que son rigurosas, formales y
"objetivas".
Exploratorio
Las técnicas de EDA no comparten ese rigor o formalidad. Las técnicas de EDA compensan
esa falta de rigor al ser muy sugerentes, indicativas y perspicaces sobre cuál debería ser el
modelo apropiado.
Las técnicas de EDA son subjetivas y dependen de la interpretación, que puede diferir de
analista a analista, aunque los analistas experimentados comúnmente llegan a conclusiones
idénticas.
5. Tratamiento de datos

Clásico
Las técnicas de estimación clásica tienen la característica de tomar todos los datos y mapear
los datos en unos pocos números ("estimaciones"). Esto es a la vez una virtud y un vicio. La
virtud es que estos pocos números se enfocan en características importantes (ubicación,
variación, etc.) de la población. El vicio es que concentrarse en estas pocas características
puede filtrar otras características (asimetría, longitud de cola, auto correlación, etc.) de la
misma población. En este sentido, hay una pérdida de información debido a este proceso de
"filtrado".
Exploratorio
El enfoque EDA, por otro lado, a menudo hace uso de (y muestra) todos los datos disponibles.
En este sentido, no hay una pérdida de información correspondiente

6. Suposiciones
Clásico
La "buena noticia" del enfoque clásico es que las pruebas basadas en técnicas clásicas suelen
ser muy sensibles, es decir, si se produce un verdadero cambio en la ubicación, por ejemplo,
tales pruebas tienen frecuentemente la facultad de detectar dicho cambio y concluir que tal
cambio es "estadísticamente significativo". La "mala noticia" es que las pruebas clásicas
dependen de suposiciones subyacentes (p. Ej., Normalidad) y, por lo tanto, la validez de las
conclusiones de la prueba se vuelve dependiente de la validez de los supuestos subyacentes.
Peor aún, los supuestos subyacentes exactos pueden ser desconocidos para el analista, o si se
conocen, no probados. Por lo tanto, la validez de las conclusiones científicas se vincula
intrínsecamente con la validez de los supuestos subyacentes. En la práctica, si tales
suposiciones son desconocidas o no probadas, la validez de las conclusiones científicas se
vuelve sospechosa.
Exploratorio
Muchas técnicas de EDA hacen pocas suposiciones o ninguna: presentan y muestran los
datos, todos los datos, tal como están, con menos suposiciones engorrosas.

1.1.3 ¿Cómo difiere el análisis de datos exploratorios del análisis de resumen?


Resumen
Un análisis de resumen es simplemente una reducción numérica de un conjunto de datos
históricos. Es bastante pasivo. Su enfoque está en el pasado. Muy comúnmente, su propósito
es simplemente llegar a algunas estadísticas clave (por ejemplo, media y desviación estándar)
que pueden reemplazar el conjunto de datos o agregarse al conjunto de datos en forma de
tabla de resumen.

Exploratorio
Por el contrario, EDA tiene como objetivo más amplio el deseo de obtener información sobre
el proceso de ingeniería / científico detrás de los datos. Mientras que las estadísticas
resumidas son pasivas e históricas, la EDA es activa y futurista. En un intento por
"comprender" el proceso y mejorarlo en el futuro, EDA utiliza los datos como una "ventana"
para mirar en el corazón del proceso que generó los datos. Existe un papel de archivo en el
mundo de la investigación y la fabricación para estadísticas resumidas, pero el enfoque de
EDA tiene un papel enormemente mayor.
1.1.4 ¿Cuáles son los objetivos de EDA?

Metas principales y secundarias

El objetivo principal de EDA es maximizar la visión del analista sobre un conjunto de datos
y dentro de la estructura subyacente de un conjunto de datos, al tiempo que proporciona todos
los elementos específicos que un analista querría extraer de un conjunto de datos, como:
 un modelo ajustado y parsimonioso
 una lista de valores atípicos
 un sentido de robustez de las conclusiones
 estimaciones de parámetros
 incertidumbres para esas estimaciones
 una lista clasificada de factores im portantes
 conclusiones sobre si los factores individuales son estadísticamente significativos
 ajustes óptimos

Información sobre los datos


El conocimiento implica detectar y descubrir la estructura subyacente en los datos. Dicha
estructura subyacente puede no estar encapsulada en la lista de elementos anteriores; tales
elementos sirven como objetivos específicos de un análisis, pero la percepción real y la
"sensación" de un conjunto de datos se produce cuando el analista prueba y explora
juiciosamente las diversas sutilezas de los datos. La "sensación" de los datos proviene casi
exclusivamente de la aplicación de varias técnicas gráficas, cuya recopilación sirve como la
ventana hacia la esencia de los datos. Los gráficos son irremplazables: no existen análogos
cuantitativos que proporcionen la misma información que los gráficos bien elegidos.
Para obtener una "percepción" de los datos, no es suficiente que el analista sepa qué contienen
los datos; el analista también debe saber qué no está en los datos, y la única manera de hacerlo
es recurrir a nuestro propio patrón humano: reconocimiento y habilidades comparativas en el
contexto de una serie de técnicas gráficas juiciosas aplicadas a los datos.

1.1.5 El papel de los gráficos


Cuantitativo / Gráfico

Las estadísticas y los procedimientos de análisis de datos se pueden dividir en dos partes:
 cuantitativo
 gráfico

Cuantitativo
Las técnicas cuantitativas son el conjunto de procedimientos estadísticos que producen
resultados numéricos o tabulares. Los ejemplos de técnicas cuantitativas incluyen:
 evaluación de la hipótesis
 Análisis de variación
 estimaciones puntuales e intervalos de confianza
 regresión de mínimos cuadrados
Estas y otras técnicas similares son todas valiosas y se han generalizado en términos de
análisis clásico.
Gráfico
Por otro lado, hay una gran colección de herramientas estadísticas a las que generalmente
nos referimos como técnicas gráficas. Éstas incluyen:
 gráfico de dispersión
 histogramas
 parcelas de probabilidad
 parcelas residuales
 diagramas de caja
 parcelas de bloques

El enfoque EDA se basa en gran medida en técnicas gráficas


El enfoque de EDA se basa en gran medida en estas y otras técnicas gráficas similares. Los
procedimientos gráficos no son solo herramientas que podríamos usar en un contexto EDA,
sino que son herramientas que debemos usar. Dichas herramientas gráficas son el camino
más corto para obtener información sobre un conjunto de datos en términos de:
 suposiciones de prueba
 selección de modelo
 Modelo de validación
 selección del estimador
 identificación de la relación
 determinación del factor de efecto
 detección de valores atípicos
Si no se utilizan gráficos estadísticos, se está perdiendo la comprensión de uno o más aspectos
de la estructura subyacente de los datos.

1.1.6 Un ejemplo de gráficos EDA

Ejemplo de Anscombe
Un ejemplo simple y clásico (Anscombe) de la función central que juegan los gráficos en
términos de proporcionar información sobre un conjunto de datos comienza con el siguiente
conjunto de datos:

Datos X Y
10.00 8.04
8.00 6.95
13.00 7.58
9.00 8.81
11.00 8.33
14.00 9.96
6.00 7.24
4.00 4.26
12.00 10.84
7.00 4.82
5.00 5.68

Resumen estadístico

Si el objetivo del análisis es calcular estadísticas de resumen y determinar el mejor ajuste


lineal para Y en función de X, los resultados se pueden dar como:
N = 11
Media de X = 9.0
Media de Y = 7.5
Interceptar = 3
Pendiente = 0.5
Desviación estándar residual = 1.237
Correlación = 0.816
El análisis cuantitativo anterior, aunque valioso, nos brinda una visión limitada de los datos.

Gráfico de dispersión
Por el contrario, el siguiente diagrama de dispersión simple de los datos

sugiere lo siguiente:

1. El conjunto de datos "se comporta como" una curva lineal con algo de dispersión;
2. no hay justificación para un modelo más complicado (por ejemplo, cuadrático);
3. no hay valores atípicos;
4. la dispersión vertical de los datos parece ser de igual altura, independientemente del
valor X; esto indica que los datos son igualmente precisos en todo momento, por lo
que un ajuste "regular" (es decir, equi-ponderado) es apropiado.

Tres conjuntos de datos adicionales


Este tipo de caracterización de los datos sirve como núcleo para obtener información /
percepción de los datos. Tal percepción / percepción no proviene de las estadísticas
cuantitativas; por el contrario, los cálculos de estadísticas cuantitativas, como la intersección
y la pendiente, deben ser posteriores a la caracterización y solo tendrán sentido si la
caracterización es verdadera. Para ilustrar la pérdida de información que se produce cuando
se omite el paso de comprensión de gráficos, tenga en cuenta los siguientes tres conjuntos de
datos
X2 Y2 X3 Y3 X4 Y4
10.00 9.14 10.00 7.46 8.00 6.58
8.00 8.14 8.00 6.77 8.00 5.76
13.00 8.74 13.00 12.74 8.00 7.71
9.00 8.77 9.00 7.11 8.00 8.84
11.00 9.26 11.00 7.81 8.00 8.47
14.00 8.10 14.00 8.84 8.00 7.04
6.00 6.13 6.00 6.08 8.00 5.25
4.00 3.10 4.00 5.39 19.00 12.50
12.00 9.13 12.00 8.15 8.00 5.56
7.00 7.26 7.00 6.42 8.00 7.91
5.00 4.74 5.00 5.73 8.00 6.89

Estadísticas cuantitativas para el conjunto de datos 2


Un análisis cuantitativo sobre los rendimientos del conjunto de datos 2
N = 11
Media de X = 9.0
Media de Y = 7.5
Interceptar = 3
Pendiente = 0.5
Desviación estándar residual = 1.237
Correlación = 0.816
Que es idéntico al análisis del conjunto de datos 1. Uno puede suponer ingenuamente que los
dos conjuntos de datos son "equivalentes", ya que eso es lo que nos dicen las estadísticas;
pero, ¿qué nos dicen las estadísticas?
Estadísticas Cuantitativas para los Conjuntos de Datos 3 y 4
Sorprendentemente, un análisis cuantitativo en los conjuntos de datos 3 y 4 también rinde
N = 11
Media de X = 9.0
Media de Y = 7.5
Interceptar = 3
Pendiente = 0.5
Desviación estándar residual = 1.236
Correlación = 0.816 (0.817 para el conjunto de datos 4)

Lo que implica que en cierto sentido cuantitativo, los cuatro conjuntos de datos son
"equivalentes". De hecho, los cuatro conjuntos de datos están lejos de ser "equivalentes" y
un diagrama de dispersión de cada conjunto de datos, que sería el paso 1 de cualquier enfoque
de EDA, nos lo diría de inmediato.
Gráfico de dispersión

Interpretación de parcelas de dispersión


Las conclusiones de los diagramas de dispersión son:
1. el conjunto de datos 1 es claramente lineal con algo de dispersión.
2. el conjunto de datos 2 es claramente cuadrático.
3. el conjunto de datos 3 claramente tiene un valor atípico.
4. El conjunto de datos 4 obviamente es víctima de un diseño experimental pobre con
un solo punto muy alejado del grueso de los datos "moviendo al perro".
Importancia del análisis exploratorio
Estos puntos son exactamente la sustancia que proporciona y define "visión" y "sensación"
para un conjunto de datos. Son los objetivos y los frutos de un enfoque abierto de análisis
exploratorio de datos (EDA) para los datos. Las estadísticas cuantitativas no son incorrectas
per se, pero están incompletas. Son incompletos porque son resúmenes numéricos que en la
operación de resumen hacen un buen trabajo al enfocarse en un aspecto particular de los datos
(p. Ej., Ubicación, intercepto, pendiente, grado de relación, etc.) reduciendo juiciosamente
los datos a unos pocos números. Al hacerlo, también filtra los datos, omitiendo y descartando
necesariamente otra información a veces crucial en la operación de enfoque. Las estadísticas
cuantitativas se enfocan pero también se filtran; y el filtrado es exactamente lo que hace que
el enfoque cuantitativo sea incompleto en el mejor de los casos y engañoso en el peor.
Las intercepciones estimadas (= 3) y las pendientes (= 0.5) para los conjuntos de datos 2, 3
y 4 son engañosas porque la estimación se realiza en el contexto de un modelo lineal supuesto
y esa suposición de linealidad es la falla fatal en este análisis.
El enfoque EDA de posponer deliberadamente la selección del modelo hasta más adelante en
el análisis tiene muchas recompensas, una de las cuales es la convergencia final a un modelo
muy mejorado y la formulación de conclusiones científicas y de ingeniería válidas y
sustentables.

1.1.7 Categorías generales de problemas


Clasificación de problemas La siguiente tabla es una forma conveniente de clasificar los
problemas de EDA.
Univariante y Control
UNIVARIATE CONTROLAR
Datos: Datos:

Una sola columna de números, Y. Una sola columna de números, Y.


Modelo: Modelo:
y = constante + error y = constante + error
Salida: Salida:
Un número (la constante estimada en el Un "sí" o un "no" a la pregunta "¿El sistema
modelo). está fuera de control?".
Una estimación de incertidumbre para la Técnicas:
constante. Gráficos de control
Una estimación de la distribución del error.
Técnicas:
4-Plot
Diagrama de probabilidad
PPCC Parcela

Comparativo y Cribado
COMPARATIVO CRIBADO
Datos: Datos:

Una sola variable de respuesta yk variables Una sola variable de respuesta yk variables
independientes (Y, X1, X2, ..., Xk), el foco independientes (Y, X1, X2, ..., Xk).
primario está en uno (el factor principal) de Modelo:
estas variables independientes. y = f (x1, x2, ..., xk) + error
Modelo: Salida:
y = f (x1, x2, ..., xk) + error Una lista clasificada (de la más importante a
Salida: la menos importante) de los factores.
Un "sí" o un "no" a la pregunta "¿Es La mejor configuración para los factores.
significativo el factor primario?". Una buena ecuación de modelo / predicción
Técnicas: que relaciona Y con los factores.
Diagrama de bloque Técnicas:
Gráfico de dispersión Diagrama de bloque
Diagrama de caja Diagrama de probabilidad
Bihistograma

Optimización y Regresión
MEJORAMIENTO REGRESIÓN
Datos: Datos:

Una sola variable de respuesta yk variables Una sola variable de respuesta yk variables
independientes (Y, X1, X2, ..., Xk). independientes (Y, X1, X2, ..., Xk). Las
Modelo: variables independientes pueden ser
y = f (x1, x2, ..., xk) + error continuas.
Salida: Modelo:
La mejor configuración para las variables de y = f (x1, x2, ..., xk) + error
factor. Salida:
Técnicas: Una buena ecuación de modelo / predicción
Diagrama de bloque que relaciona Y con los factores.
Ajuste de mínimos cuadrados Técnicas:
Dibujo de contorno Ajuste de mínimos cuadrados
Gráfico de dispersión
6-Parcela
Series temporales y multivariante
SERIES DE TIEMPO MULTIVARIADO
Datos: Datos:

Una columna de números dependientes del k variables de factor (X1, X2, ..., Xk).
tiempo, Y. Además, el tiempo es una Modelo:
variable independiente. La variable de El modelo no es explícito.
tiempo puede ser explícita o implícita. Si los Salida:
datos no están equiespaciados, la variable de Identificar la estructura de correlación
tiempo debe proporcionarse explícitamente. subyacente en los datos.
Modelo: Técnicas:
yt = f (t) + error Star Plot
El modelo puede basarse en el dominio del Matriz de trazado de dispersión
tiempo o en el dominio de la frecuencia. Parcela de acondicionamiento
Salida: Parcela de perfil
Una buena ecuación modelo / predicción Componentes principales
que relaciona Y con los valores previos de Agrupación
Y. Discriminación / Clasificación
Técnicas: Tenga en cuenta que el análisis
Parcela de autocorrelación multivariable solo está cubierto ligeramente
Espectro en este Manual.
Diagrama de amplitud de demodulación
compleja
Diagrama de fase de demodulación
compleja
Modelos ARIMA

You might also like