Análisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing 1

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES AL SERVICIO DEL
GEOMARKETING1
Coro Chasco Yrigoyen

Instituto Lawrence R. Klein
Universidad Autónoma de Madrid
coro.chasco@uam.es
ABSTRACT:
El análisis exploratorio de datos espaciales (AEDE) es una disciplina del

análisis exploratorio de datos, también denominado “data mining”, que ha sido
diseñada para el tratamiento específico de los datos espaciales o geográficos. Este
análisis se utiliza para identificar relaciones sistemáticas entre variables cuando no
existen expectativas claras sobre la naturaleza de estas relaciones. Esto último
resulta muy habitual en el ámbito de los estudios del mercado geográfico
(geomarketing), donde se suele trabajar con grandes bases datos cuya estructura no
siempre es bien conocida. En esta ponencia se presentan las principales técnicas
del AEDE, que combinan el análisis estadístico con el gráfico, haciendo posible el
estudio de las distribuciones espaciales y sus valores atípicos, esquemas de
asociación espacial, agrupamientos espaciales y puntos calientes/fríos de negocio
(“hot spots”). En los últimos años, los esfuerzos desarrollados por la investigación en
este campo se han venido centrando en la conexión de los GIS disponibles en el
mercado con paquetes estadísticos tradicionales o específicos de AEDE.
Actualmente, existe en el mercado un nuevo programa informático, GeoDa,
concebido como un producto autosuficiente que no requiere de un sistema
específico de GIS y funciona en cualquiera de los sistemas operativos de Windows y
Mac. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la Universidad de
Illinois, y tiene la ventaja de ser, hasta el momento, un producto “opersource”, es
decir, de libre acceso en Internet.
Palabras clave: Análisis exploratorio de datos espaciales, autocorrelación espacial,

GIS, geomarketing, GeoDa.
1
Ponencia presentada en el III Seminario sobre Nuevas Tecnologías en la Investigación, el Marketing y la
Comunicación. e-Participación.
1. INTRODUCCIÓN
Este artículo pretende llamar la atención de los investigadores sociales sobre

la importancia de llevar a cabo un adecuado análisis estadístico de los datos
geográficos. En efecto, aunque la investigación de mercados suele trabajar con
información de carácter espacial (referida a unidades geográficas), en pocas
ocasiones estos datos suelen ser tratados de forma específica y diferente del
análisis de series temporales, utilizando técnicas adecuadas para el análisis
estadístico-gráfico-cartográfico. Estas herramientas han sido bautizadas con el
nombre de análisis exploratorio de datos espaciales (AEDE) y se conciden como una
disciplina dentro del más general análisis exploratorio de datos (AED), también
denominado “data mining”, que ha sido diseñado para el tratamiento específico de
los datos espaciales o geográficos. El AEDE se utiliza para identificar relaciones
sistemáticas entre variables cuando no existen expectativas claras sobre la
naturaleza de estas relaciones. Esto último resulta muy habitual en el ámbito de los
estudios del mercado geográfico (geomarketing), donde se suele trabajar con
grandes bases datos cuya estructura no siempre es bien conocida.
Por esto, en este artículo se presentan las principales técnicas del AEDE, que
es considerado como una técnica novedosa que supone la unión de dos tecnologías
informáticas muy poderosas: los GIS (sistemas de información geográfica) y los
paquetes estadísticos propios del análisis de datos espaciales. Es decir, las
herramientas del AEDE combinan el análisis estadístico con el gráfico, haciendo
posible el estudio de las distribuciones espaciales y sus valores atípicos, esquemas
de asociación espacial, agrupamientos espaciales y puntos calientes/fríos de
negocio (“hot spots”).
En los últimos años, los esfuerzos desarrollados por la investigación en este

campo se han venido centrando en la conexión de los GIS disponibles en el
mercado con paquetes estadísticos tradicionales o específicos de AEDE.
Actualmente, existe en el mercado un nuevo programa informático, GeoDa,
concebido como un producto autosuficiente que no requiere de un sistema
específico de GIS y funciona en cualquiera de los sistemas operativos de Windows y
Macintosh. GeoDa ha sido desarrollado por el Profesor Luc Anselin de la
Universidad de Illinois y tiene la ventaja de ser, hasta el momento, un producto
“opersource”, es decir, de libre acceso en Internet.
Tras esta introducción, en el Apartado 2, se define el concepto más general

del AED, en concreto, aquellas funcionalidades que mantiene en común con el
AEDE, que se define más ampliamente en el Apartado 3. En el Apartado 4, se
presentan algunas de las técnicas más importantes del AEDE, ilustradas con
ejemplos que permiten exponer con mayor claridad el interés de estas herramientas
dentro del análisis socioeconómico y, en particular, de la investigación de mercados.
Un Apartado 5 de conclusiones y la bibliografía cierran esta exposión.
2. ANÁLISIS EXPLORATORIO DE DATOS (AED)
El origen del análisis exploratorio de datos espaciales se encuentra en el

llamado análisis exploratorio de datos (AED) o minería de datos (“data mining”). El
clásico AED podría definirse como “el conjunto de herramientas gráficas y
descriptivas utilizadas para el descubrimiento de patrones de comportamiento en los
datos y el establecimiento de hipótesis con la menor estructura posible”. Esta
definición fue propuesta por Tukey (1977), que hizo posible la extensión de este tipo
de análisis multivariante y del “software” estadístico moderno.
De este modo, es posible obtener una estructura explicativa de los datos a

través de unas técnicas que combinan herramientas de la estadística básica
(descriptivos, correlaciones, tablas de frecuencias o de correlación cruzada) con
análisis multivariante avanzado, especialmente diseñado para identificar formas en
grandes bases de datos (análisis cluster, escalas multidimensionales, análisis logit,
correlación canónica, análisis de correspondencias, árboles de clasificación, etc.).
Las técnicas de AED suelen estar acompañadas de métodos de visualización

gráfica capaces de identificar conexiones, tendencias o sesgos presentes en las
bases de datos inicialmente desestructuradas. Una de las más conocidas técnicas
propias del AED es el “cepillado” o “brushing”, un método interactivo que permite la
selección en pantalla de un determinado número de datos para la identificación de
características comunes o el examen de efectos o relaciones entre variables
relevantes. Estas relaciones entre variables suelen visualizarse mediante el ajuste
de funciones (líneas, en un plano de dos dimensiones o superficies tridimensionales)
y sus intervalos de confianza, de forma que, por ejemplo, puedan examinarse los
cambios que producen sobre dichas funciones la eliminación o añadido (temporal)
de un determinado número de datos.
Figura 1 Ejemplo de herramientas de AED: matrices de correlación (izda.) y análisis

multivariante (dcha.)
Fuente: Elaboración propia a partir de Statsoft (2000).
Otras técnicas gráficas del AED incluyen el ajuste y representación gráfica de

funciones, alisado de datos, superposición o fusión de múltiples “vistas” (“views”),
añadido de datos en gráficos, identificación y señalización de subconjuntos de datos
que cumplen determinadas condiciones, representación gráfica de intervalos o áreas
de confianza, técnicas de reducción de imágenes, etc. La exploración de los datos
es sólo un primer paso y sus resultados deben ser considerados como una etapa
previa a su “confirmación” (modelización). Si los resultados de la fase exploratoria
sugieren la utilización de un modelo determinado, entonces su validación puede
verificarse aplicando dicho modelo a un nuevo conjunto de datos y contrastando el
ajuste, es decir, su capacidad predictiva.
Es decir, los modernos métodos de AED hacen hincapié en la interacción

existente entre el conocimiento humano y la informática en forma de gráficos
estadísticos dinámicos que permiten al usuario la manipulación directa de diversas
“vistas” de los datos. Algunos programas clásicos de AED, como Matlab, SPSS, SAS
han ido incorporando mapas como nuevas “vistas” integradas de forma dinámica con
el resto de información, a través de sus extensiones Mapping Toolbox, SPSS Mapas
y SAS Bridge for ESRI, respectivamente. Sin embargo, la importancia concedida por
ellos al espacio se reduce prácticamente al tratamiento de la localización como un
simple plano de coordenadas X-Y, dado que las herramientas propias del AED no
suelen ser diseñadas para el tratamiento específico de datos geográficos, ignorando
totalmente los efectos espaciales de dependencia y heterogeneidad. Por este
motivo, surge el análisis exploratorio de datos espaciales (AEDE), como disciplina
dentro del AED, para el tratamiento específico de los datos geográficos.
3. ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES (AEDE) Y GEODA.
El AEDE puede definirse como el conjunto de técnicas que describen y

visualizan las distribuciones espaciales, identifican localizaciones atípicas o “atípicos
espaciales” (“spatial outliers”), descubren esquemas de asociación espacial,
agrupamientos (“clusters”) o puntos calientes (“hot spots”) y sugieren estructuras
espaciales u otras formas de heterogeneidad espacial (Anselin, 1999). Por tanto, el
AEDE se correspondería con los métodos de estadística descriptiva espacial.
De manera particular, cuando no existe un marco formal o teoría previa

acerca del fenómeno que se analiza, deben de utilizarse las técnicas del AEDE. Esta
situación se plantea muy a menudo en el campo de las ciencias sociales, cuando se
analizan grandes bases de datos geográficos cuya distribución no se conoce a priori.
Por ejemplo, parece obvio que la distribución del nivel de instrucción en las
provincias españolas sigue una tendencia de norte (mayor nivel) a sur (menor nivel).
Sin embargo, esta distribución suele ser más desconocida cuando se analiza este
fenómeno para el ámbito de secciones censales en el interior de un municipio. En
los últimos años, el AEDE ha sido introducido en algunas aplicaciones de economía
regional (por ejemplo, Moreno y Vayá, 2000), así como en los ejercicios de
predicción-extrapolación de datos (Chasco, 2003). Sin embargo, son prácticamente
nulas las aplicaciones realizadas en el campo del marketing.
El AEDE combina el análisis estadístico con el gráfico, dando lugar a lo que

podría denominarse una “visualización científica” (Haining et al., 2000) que, a los
contrastes estadísticos sobre los efectos espaciales de dependencia y
heterogeneidad, une un amplio marco de gráficos o “vistas” múltiples y dinámicas
sobre la información geográfica (Unwin, 2000). Por eso, estos métodos de
visualización científica son mucho más que simples mapas o gráficos estáticos de
representación, como podrá apreciarse con mayor detalle en el Apartado siguiente,
siendo fundamental el papel jugado por los paquetes informáticos especializados.
En los últimos años, los esfuerzos desarrollados por la investigación en este
campo del AEDE se han venido centrando en la conexión de los GIS disponibles en
el mercado (Grassland, ESRI, MapInfo) con paquetes estadísticos tradicionales (S-
PLUS, SPSS, Matlab, SAS) o específicos de AEDE. De este modo, a la potente
capacidad de visualización y análisis de los GIS se le une la especialización propia
del análisis espacial estadístico y gráfico (ver Bao et al., 2000). En el momento
presente, junto a estos módulos de enlace, existe también un esfuerzo creciente por
elaborar programas de AEDE en entornos de “opensouce” como R, Java y Python,
que se encuentran libremente disponibles en Internet y cuya “fuente abierta” hace
posible su constante renovación por parte de todo el que lo desee. Muchos de estos
programas pueden consultarse en la página web del Center for Spatially Integrated
Social Science, CSISS: http://www.csiss.org/clearinghouse/.
Según Cressie (1993), el AEDE puede ser abordado desde dos puntos de
vista, según que se trate de un análisis desarrollado por la geoestadística o por la
econometría espacial. El objeto del análisis geoestadístico se encuentra, por lo
general, en el entorno de las ciencias medioambientales (física, geología, hidrología,
etc.) y se centra en una muestra de datos puntuales procedentes de distribuciones
geográficas continuas (por ejemplo, precipitación atmosférica, humedad de la tierra,
altura del océano, etc.). Por su parte, la econometría espacial analiza localizaciones
geográficas discretas de puntos o polígonos (provincias, municipios, etc.). Es lo que
se denomina perspectiva de retícula o “lattice”, y se encuentra mucho más centrado
en el análisis de los fenómenos socioeconómicos (distribución de la renta, clientes,
votantes, etc.). En la Tabla 1, se presentan algunos programas de AEDE reticular
(“lattice”) en entorno “amigable”.
Tabla 1: Paquetes informáticos de AEDE reticular en entorno “amigable”
Paquete informático Empresa/autor Página web

cdv, Cartographic Data
Jason Dykes www.geog.le.ac.uk/jad7/cdv/
Visualizer
http://www.terraseer.com/products/
ClusterSeer Terraseer clusterseer.html
CrimeStat Spatial http://www.icpsr.umich.edu/
Ned Levine & Associates NACJD/crimestat.html
Statistics Program
http://csiss.ncgia.ucsb.edu/
Flow Mapper Waldo Tobler & David Jones clearinghouse/FlowMapper/
Luc Anselin, Universidad de http://sal.agecon.uiuc.edu/geoda
GeoDa main.php
Illinois (USA)
SAS/GIS SAS Institute Inc. http://www.sas.com/products/gis/
STARS, Space Time
Analysis of Regional Sergio Rey http://stars-py.sourceforge.net/
Systems
STIS, Space Time http://www.terraseer.com/products/
Terraseer stis/stis_features.html
Intelligence System
WinGslib, Geostatistical
Statios, LLC http://www.statios.com/WinGslib/
Software Library
Fuente: Elaboración propia.
Del grupo de programas de AEDE reticular, destaca GeoDa, que incluye
también un módulo dedicado al análisis de regresión espacial. GeoDa es muy fácil
de utilizar de forma visual e interactiva y su uso no exige un conocimiento previo de
la tecnología GIS, mucho más compleja. En este artículo, nos valemos de este
programa, que ha sido desarrollado por el Profesor Luc Anselin, de la Universidad de
Illinois, para presentar la capacidad y posibilidades del AEDE. La versión más
reciente del programa, 0.9.5-i5, data de Agosto de 2004 y está siendo muy bien
recibida por todo tipo de usuarios, especialmente los dedicados al mundo académico
y de la investigación, en general (en septiembre de 2004, GeoDa tenía registrados a
3.500 usuarios, que se incrementan en una tasa de 150 nuevos cada mes. Esta
versión está disponible en Internet, http://sal.agecon.uiuc.edu/geoda_main.php y es
de acceso libre. En esta página web, hay diversos materiales de apoyo así como
una película del programa “Quicktime” en la que se hace una demostración de las
características principales de este programa. La versión actual de GeoDa utiliza la
tecnología MapObjetcts LT2 de ESRI, que permite el acceso a datos geográficos, su
representación geográfica y la obtención de nuevas variables mediante funciones de
“query”. Por este motivo, el único formato aceptado para la cartografía digital es el
proporcionado por ESRI, con la extensión “shp” (“shapefile”).
En términos generales, las diferentes funciones de GeoDa podrían ser

clasificadas en 6 cateogorias: tratamiento de datos geográficos, transformación de
datos, representación gráfica en mapas, gráficos estadísticos, dependencia espacial
y regresión espacial. Como se aprecia en la Figura 2, estas funciones pueden ser
activadas a través del menú superior o directamente, tecleando en los iconos de la
barra de herramientas. En cada una de las secciones principales existen varias sub-
aplicaciones relacionadas.
Figura 2 GeoDa: vista principal con funciones del menú y barra de herramientas
Fuente: Elaboración propia a partir de GeoDa.
En el apartado siguiente, se presentan los principales métodos de AEDE con

ayuda de GeoDa. Para ello, se proponen algunos ejemplos ilustrativos de las
capacidades de estas técnicas para el análisis socioeconómico.
4. MÉTODOS GRÁFICOS DEL AEDE
En los últimos años, se han propuesto gran cantidad de métodos gráficos

para el AEDE aunque, como ponen de manifiesto Haining et al. (2000), existen
pocos estudios que valoren la utilidad y efectividad de todos ellos. En línea con Wise
et al. (1999), tal como propone Tukey (1977) para el AED, podría afirmarse que un
buen método gráfico de AEDE es aquél capaz de analizar y representar dos
características fundamentales en toda distribución espacial: tendencia y puntos
atípicos. En el ámbito de las variables geográficas, la tendencia es de carácter
geográfico y tiene un sentido global, es decir, referido a todo el mapa (y no a una
parte del mismo). En cuanto a los atípicos espaciales (“spatial outliers”), se trata de
especiales concentraciones de datos cuyo valor se encuentra a cierta distancia de la
tendencia general (mediana): por ejemplo, bajo/sobre el primer/tercer cuartil de un
diagrama de caja. Esta propiedad tiene un carácter local, pues suele producirse en
determinadas zonas del mapa general, normalmente en forma de agrupaciones (o
“clusters”) de valores muy altos/bajos comparativamente con el entorno.
En la Tabla 2, se presentan las principales técnicas del análisis exploratorio

de datos reticular incluidas en el programa GeoDa agrupadas, según los dos citados
elementos de tendencia (global) y puntos atípicos (local)2.
Tabla 2: Métodos de análisis exploratorio en GeoDa
Tendencia espacial Atípicos espaciales

AED general Histograma de frecuencias Diagrama de caja
Diagrama de dispersión
Gráfico de coordenadas
paralelas
Gráfico de dispersión en 3D
AEDE reticular Mapas temáticos Mapa de caja
Mapa dinámico Mapa de percentiles
Gráficos condicionales Cartograma
Diagrama de dispersión de
Gráficos LISA
Moran
Diagrama de dispersión de
Gráficos LISA multivariantes
Moran multivariante
Fuente: Elaboración propia.
4.1. Métodos de representación de la tendencia espacial global
Como ya se ha indicado, la tendencia espacial es de carácter geográfico y tiene

un sentido global, es decir, referido a todo el mapa (y no a una parte del mismo). Por
eso, las técnicas del AEDE que analizan esta componente son herramientas de
representación cartográfica para las que lo fundamental no es tanto el mapa en sí
mismo, cuanto la representación gráfica de los estadísticos básicos. En la primera
columna de la Tabla 2 se exponen los métodos más destacados, según que sean
2
Un análisis más detallado de algunas de estas técnicas se encuentra en Anselin (2003, 2004) y Anselin et al.
(2004A, 2004B).
métodos generales del AED o métodos explícitos del AEDE reticular. En ambos
casos, se presentarán no sólo técnicas univariantes, sino también multivariantes.
4.1.1. Histograma de frecuencias
El histograma de frecuencias es un gráfico estadístico clásico en el AED.

GeoDa calcula histogramas de frecuencias de las variable geográficas para distintas
clasificaciones, aunque el número por defecto es 7. Cada una de las barras del
histograma tiene un color y es posible realizar una selección en el histograma para
ver sobre el mapa las observaciones a las que corresponde. Esto es lo que sucede
en la Figura 3, en donde se han seleccionado las 4 barras del histograma de
frecuencias con mayor tasa de extranjería en 2003 (en amarillo), de forma que
quedan destacados en el mapa los barrios de Madrid a los que corresponde (barrios
del interior del municipio, por lo general).
Figura 3 Histograma de frecuencias de la tasa de extranjería en los barrios de Madrid
4.1.2. Diagrama de dispersión
Este gráfico forma parte del AED general y tiene un carácter bivariante, dado
que representa sobre los 2 ejes cartesianos la distribución de 2 variables geográficas
cuya relación se desea conocer. GeoDa superimpone la recta de regresión ajustada
por el método de mínimos cuadrados ordinarios y adjunta el valor de la pendiente de
la misma. Este gráfico se puede también calcular para los valores estandarizados de
las variables, de forma que la pendiente de la recta de regresión se corresponda con
el coeficiente de correlación de Pearson. Además, el análisis de los 4 cuadrantes del
diagrama de dispersión permite identificar las localizaciones con valores superiores
o inferiores a la media en ambas variables o al contrario, valores superiores a la
media en una variable e inferiores a la media en otra.
Así, en la Figura 4 se presenta el diagrama de dispersión de la tasa de

instrucción superior (personas con título universitario y de bachiller) y la tasa de
paro, con alta correlación de signo negativo (r=-0,6). Se han destacado aquellos
barrios con valores superiores a la media en tasa de paro e inferiores a la media en
tasas de instrucción superior y, como puede apreciarse en el mapa, se localizan en
barrios del sur de la capital.
Figura 4 Diagrama de dispersión de la tasa instrucción superior y tasa de paro
4.1.3. Otros gráficos de AED multivariante
Entre los muchos gráficos propuestos por el AED clásico para el análisis
multivariante, en general, mencionaremos aquéllos que son útiles para el estudio de
distribuciones geográficas: gráfico de coordenadas paralelas y gráfico de dispersión
3D (en 3 dimensiones).
 Gráfico de coordenadas paralelas
Este gráfico está especialmente diseñado para explorar relaciones entre 2 ó

más variables. Las variables son representadas como líneas paralelas, sobre las
cuales se representan, a modo de coordenadas, los valores de las variables. Para
cada observación se unen los puntos correspondientes en cada línea, de forma que
el resultado final es un conjunto de tantas líneas como observaciones. Este tipo de
gráfico resulta útil para captar agrupamientos (“clusters”) entre observaciones
cuando sus correspondientes líneas presenten una forma similar (por ejemplo, estén
agrupadas de forma diferente en el gráfico). Además, es posible también detectar
grupos de observaciones con pendientes comunes en las líneas de conexión inter-
variables, poniendo de relieve una determinado tipo de correlación entre dichas
variables (positiva, negativa o nula).
Así, por ejemplo, en la Figura 5 (izquierda) se han representado los valores de

3 variables (tasa de paro, nivel de instrucción superior y tasa de infancia) para el
total de barrios del municipio de Madrid y, como puede observarse, existe una
tendencia común de forma que los barrios con menores tasas de infancia suelen
coincidir con aquéllos con mayor nivel de instrucción superior y media tasa de paro.
Sobre este gráfico es posible seleccionar aquellos barrios con comportamientos y
correlaciones distintas.
Figura 5 Gráfico de coordenadas paralelas (izda.) y gráfico de dispersión 3D (dcha.)

de la tasa de paro, instrucción superior e índice de infancia
 Gráfico de dispersión en 3D
La exploración de información espacial multivariante puede también llevarse a

cabo mediante el gráfico de dispersión en 3 dimensiones, que permite movimentos
de rotación, traslación y acercamiento/alejamiento (“zooming”). También permite las
habituales funciones de enlace y cepillado (“linking” y “brushing”). En la Figura 5, se
han representado los valores de las variables de tasa de paro, tasa de instrucción
superior e índice de infancia correspondientes a los barrios del municipio de Madrid.
4.1.4. Mapas temáticos
Los mapas temáticos, en general, consisten en la representación cartográfica

de una variable geográfica. Esta representación en un mapa de la variable puede
llevarse a cabo mediante símbolos y colores que pongan de manifiesto el valor de
una variable en cada una de las unidades geográficas consideradas (países,
regiones, etc.). Puede utilizarse un color/símbolo diferente para cada valor o para
cada intervalo de valores de la variable. Dentro del AEDE reticular, los mapas
temáticos más importantes para la representación de la tendencia espacial de una
variable son el mapa de cuantiles y el mapa de la desviación típica.
 Mapa de cuantiles.
En este tipo de mapas, los datos se dividen y agrupan en una serie de

categorías (cuantiles) con igual número de observaciones. Por ejemplo, este mapa
será un mapa de cuartiles si la distribución se divide en 4 grupos con igual número
de unidades territoriales. En el ejemplo de la Figura 6 (izquierda), el número de
categorías se ha establecido en 5, para construir un mapa de quintiles de la variable
tasa de personas con título universitario y de bachiller para el conjunto de barrios del
municipio de Madrid. Como puede observarse, en la leyenda se indica, entre
paréntesis, el número de observaciones de cada categoría, 25 ó 26.
Este tipo de mapa no es útil en casos en los que la variable en cuestión

contenga un gran número de observaciones con valores parecidos (por ejemplo, en
el caso de variables de sucesos raros, cuando muchas observaciones tienen valor
cero). El motivo es obvio: muchos cuantiles no podrán ser definidos al no poder
asignar un mismo número de observaciones a los diferentes grupos.
Figura 6 Mapa de quintiles (izda.) y mapa de la desviación típica (dcha.)
 Mapa de la desviación típica
Este mapa agrupa las observaciones según que sus valores caigan dentro de
un rango estandarizado, entendido éste como un número determinado de unidades
de la desviación típica a partir de la media. Se trata de un mapa temático en el que
las categorías en las que se divide la variable se corresponden con múltiplos de las
unidades de la desviación típica. En la Figura 6 (derecha) se ha representado el
mapa de la desviación típica de la tasa de paro de los barrios de Madrid. GeoDa
divide la variable en 7 intervalos, de forma que el intermedio (nº 4) coincide con el
valor de la media y los 6 restantes vienen determinados por 1, 2 y 3 unidades de la
desviación típica. Por ejemplo, el intervalo 5º (10,93 a 13,21) está constituido por los
40 barrios cuya tasa de paro se encuentra entre la media (10,93) y una unidad de la
desviación típica (2,28=13,21-10,93).
4.1.5. Mapa dinámico
El mapa dinámico (“map movie”) es una forma de animación del mapa que
consiste en la iluminación, sobre el mismo, de las distintas unidades geográficas
según su orden respecto del valor que adoptan en una variable (siempre de menor a
mayor). GeoDa permite la visualización de este mapa de forma simple (las unidades
se iluminan una vez, cuando les corresponde, y se apagan a continuación) o
acumulativa (las unidades permanecen iluminadas hasta que el mapa entero queda
iluminado. Por ejemplo, en la Figura 7 puede apreciarse cómo la variable tasa de
instrucción superior adopta los menores valores en los barrios de la periferia de
Madrid.
Figura 7 Mapa dinámico acumulativo: inicio (izda.) y pausa (dcha.)
4.1.6. Gráficos condicionales
El principio que subyace este tipo de gráficos es la utilización de 2 variables

condicionales que dividen a la muestra de datos en diferentes grupos (categorías).
Se trata de dibujar, para una tercera variable, un gráfico o mapa diferente para cada
grupo o categoría. El programa GeoDa considera, para cada una de las 2 variables
condicionales, 3 grupos o categorías, por lo que se producirá un total de 9 gráficos o
mapas. Este programa permite variar los intervalos que determinan cada categoría.
En concreto, con el programa GeoDa se pueden diseñar 4 tipos de gráficos
condicionales: mapas, diagramas de caja, histogramas condicionales y diagramas
de dispersión condicionales. En el caso del diagrama de dispersión condicional, se
necesitará de un cuarto eje: el 3º será para la variable dependiente (eje vertical del
diagrama de dispersión) y el 4º será para la variable explicativa (eje horizontal).
Así, por ejemplo, en la Figura 8 se ha representado el mapa condicional del

índice de infancia, condicionado a la tasa de paro y tasa de instrucción superior.
Como puede observarse, sólo hay 1 barrio situado en la categoría de bajo valor de
las variables condicionales de paro e instrucción superior (Cuatro Vientos), cuyo
índice de infancia es de los más elevados del municipio (color rojo oscuro). Por el
contrario, el barrio de Valdemarín, con también alto índice de infancia, es el único
situado en la categoría de baja tasa de paro y alto nivel de instrucción. En el otro
extremo (alta tasa de paro y baja/alta tasa de instrucción superior) no hay ningún
barrio, por lo que los mapas correspondientes están en blanco. Aunque con alta tasa
de paro y nivel medio de intrucción superior hay varios barrios en la zona sureste de
la capital que presentan un nivel medio en el índice de infancia. Por último, con alta
tasa de instrucción superior y nivel medio en la tasa de paro hay un importante
número de barrios, ocupando todo el centro y parte de la periferia, con niveles
medio/bajo en el índice de infancia.
Figura 8 Mapa condicional del índice de infancia condicionado a la tasa de paro y
tasa de instrucción superior.
4.1.7. Análisis exploratorio de la dependencia espacial global
La dependencia o autocorrelación espacial consiste en la existencia de una

relación funcional entre lo que ocurre en un punto determinado del espacio y lo que
sucede en lugares cercanos o vecinos al mismo. Es decir, una variable estará
espacialmente autocorrelacionada cuando los valores observados en un punto o
región dependan de los valores observados en regiones vecinas, de forma que se
produzca una cierta continuidad geográfica en la distribución de esta variable, por
ejemplo, sobre un mapa. La principales técnicas de asociación espacial en el AEDE
reticular son el diagrama de dispersión de Moran y gráficos LISA (mapa/diagrama de
caja), así como sus correspondientes versiones multivariantes. En este apartado, se
presentan los diagramas de dispersión de Moran (univariante y bivariante) al tratarse
de técnicas de representación de la tendencia espacial, dejando los gráficos LISA
para el Apartado 4.2.
 Diagrama de dispersión de Moran
Se trata de un diagrama de dispersión que representa en el eje X la variable

previamente estandarizada y en el eje Y se representa el retardo espacial de dicha
variable estandarizada. Se entiende por retardo espacial el promedio ponderado de
los valores que adopta una variable en el subconjunto de observaciones vecinas a
una dada. Por ejemplo, el retardo espacial de la variable renta per cápita de la
provincia de Madrid podría obtenerse como una media aritmética simple de los
valores de renta per cápita en las provincias limítrofes (Segovia, Ávila, Toledo,
Cuenca y Guadalajara).
En este tipo de diagrama de dispersión, en el que se relacionan, para cada

observación, el valor de la variable en la misma y el valor promedio en sus
correspondientes observaciones vecinas, la pendiente de la recta de regresión es el
valor del denominado estadístico I de Moran de autocorrelación espacial global3. Así,
cuanto mayor sea el valor de este estadístico, es decir, el ángulo que forme la recta
de regresión con el eje de abscisas, más fuerte será el grado de autocorrelación
espacial en la variable, y viceversa. En los ejemplos de la Figura 9, la variable tasa
de paro de los barrios madrileños tiene un mayor grado de dependencia espacial
que la variable población.
Este diagrama de dispersión suele dividir el tipo de asociación espacial en

cuatro categorías: dos para autocorrelación espacial positiva (valores altos de una
variable rodeados de valores altos o valores bajos rodeados de valores bajos) y dos
para autocorrelación espacial negativa (valores altos rodeados por valores bajos, y
viceversa). Las categorías de asociación espacial positiva se corresponden con los
cuadrantes I y III. Por ejemplo, en la Figura 5 (gráfico izquierdo) en los cuadrantes I y
III se presentan aquellos barrios que, con una tasa de paro superior/inferior a la
media municipal (valor estandarizado positivo/negativo de la variable) se encuentran
rodeados de barrios que también disponen de tasas de paro superiores/inferiores a
la media municipal (retardo espacial positivo/negativo), respectivamente. Por el
contrario, las categorías de asociación negativa vienen dadas por los cuadrantes II y
IV de este diagrama, en los que se representan los barrios con valores bajos/altos
de tasa de paro rodeadas por barrios con valores altos/bajos de dicha variable,
respectivamente.
Debe advertirse, además, que la regresión del retardo espacial sobre la

variable correspondiente se realiza con todas las hipótesis clásicas del análisis de
regresión. Así, la interpretación del test I de Moran claramente permite conocer el
grado en que este estadístico resume la estructura global de asociación lineal
existente en un fenómeno espacial que, en el caso que se expone en la Figura 5,
para el total de la distribución, sería del 39% para la variable tasa de paro (valor del
estadístico I de Moran en términos porcentuales) y 15% para la población.
Dado que los valores de la variable se encuentran estandarizados, es posible

conseguir información tanto de la asociación espacial global (pendiente de la recta
de regresión) como de la asociación espacial local. De este modo, los valores en el
diagrama de dispersión de Moran situados a más de dos unidades del origen (valor
0) pueden considerarse como puntos atípicos en el diagrama de dispersión de
Moran, es decir, importantes “agujeros” locales de no estacionariedad espacial. Así,
para la variable tasa de paro, habría 3 barrios con valores atípicamente bajos en la
tasa de paro, rodeados por barrios con también bajas tasas de paro (La Piovera, El
Plantío y Villamarín), así como barrios en entornos con tasas de paro atípicamente
altas (Orcasur y San Cristóbal).
3
Una revisión más extensa de las medidas estadísticas de autocorrelación espacial se encuentra,
entre otras referencias, en Chasco (2003).
Figura 9 Diagrama de dispersión de Moran: univariante (izda.) y bivariante (dcha.)
 Diagrama de dispersión de Moran bivariante
Se trata de un diagrama de dispersión de Moran en el que se representa en el

eje vertical Y el retardo espacial de la variable que se desea explicar y en el eje X la
variable explicativa. Ambas variables deben estar previamente estandarizadas, de
tal forma que la media de ambas sea cero y la desviación típica sea uno. Es decir,
se trata de ver la relación que existe, en cada punto de la muestra, entre los valores
de una variable y el valor medio de otra variable en el entorno de dicho punto. La
pendiente de la línea de regresión muestra el grado de relación lineal existente entre
la variable del eje horizontal y los valores de la variable del eje vertical en los puntos
vecinos a uno dado.
Este análisis resulta de gran utilidad en fenómenos socioeconómicos en los

que se da un fenómeno de difusión espacial de forma que, por ejemplo, un cambio
en las tasas de instrucción superior en un punto provocan un cambio en las tasas de
paro de los lugares vecinos a dicho punto. Éste es precisamente el ejemplo que se
presenta en la Figura 9 (derecha) para los barrios del municipio de Madrid. Como
puede observarse, el valor del estadístico I de Moran (-0,32), que coincide con la
pendiente de la recta de regresión, es medianamente elevado y negativo. Es decir,
los barrios con mayores/menores tasas de instrucción superior son los que tienen, a
su vez, un entorno vecino con menores/mayores tasas de paro, respectivamente.
Sin embargo, hay dos barrios con valores especialmente bajos en la tasa de
instrucción superior que pueden estar condicionando el valor de la pendiente o
estadístico I de Moran. El programa GeoDa es un programa dinámico que permite
prescindir de dichas observaciones y recalcular el valor de dicho estadístico de
Moran que, como puede observarse, aumenta en términos absolutos a –0,44.
4.2. Métodos de representación de los atípicos espaciales
Estos métodos exploratorios analizan la existencia de concentraciones de

observaciones cuyo valor se encuentra a cierta distancia de la tendencia general
(mediana). Esta propiedad tiene un carácter local, pues suele producirse en
determinadas zonas del mapa general, normalmente en forma de agrupaciones (o
“clusters”) de valores muy altos/bajos comparativamente con el entorno. En la Tabla
2, se presentaban las principales técnicas de AEDE reticular destinadas al análisis
de esta propiedad local: gráficos de caja (diagrama y mapa), mapa de percentiles,
cartograma y gráficos LISA de dependencia espacial local. Estas técnicas poseen la
propiedad de poder detectar valores significativos atípicamente altos o bajos que se
determinan a partir de criterios estadísticos.
4.2.1. Gráficos de caja
Los gráficos de caja constituyen un método de representación univariante. El

diagrama de caja es una representación muy común de AED general, cuya
construcción parte del cálculo de los cuartiles y la media de una variable, así como
de la obtención de las llamadas cotas o valores adyacentes superior e inferior, que
se obtienen, a su vez, como el producto de los valores del tercer (primer) cuartil por
1,5 veces el recorrido intercuartílico. De esta forma, se consideran como valores
atípicos aquéllos situados por encima (o por debajo) de dichas cotas (en la Figura
10, se trata del diagrama de la variable tasa de extranjería). Un criterio un poco más
estricto que el anterior consistiría en multiplicar por tres el recorrido intercuartílico
para la fijación de las cotas.
En el ejemplo de la Figura 10, se ha representado el diagrama de caja de la

tasa de extranjería de los barrios de Madrid y, para el criterio menos estricto se han
identificado 3 puntos atípicos correspondientes a los barrios de Embajadores, Sol y
Universidad (destacados en la parte superior del gráfico). El mapa de caja es una
derivación, propia del AEDE, a partir del diagrama de caja. En este mapa se
representan con distintos colores las unidades geográficas cuyos datos en una
variable coinciden con la mediana, el rango intercuartílico y los valores atípicos (altos
y bajos).
Figura 10 Gráficos de caja de la tasa de extranjería: diagrama (izda.) y mapa (dcha.)

4.2.2. Mapa de percentiles
El mapa de percentiles es un caso particular del mapa de cuantiles, es decir, un

mapa temático. Pero, a diferencia del mapa de cuantiles, este mapa permite la
detección de puntos atípicos en la distribución espacial. Las categorías se diseñan
de modo que queden acentuados los valores extremos de la variable. El programa
GeoDa crea, en concreto, se crean 6 categorías correspondientes a los siguientes
percentiles4: <1, [1,10), [10,50), [50,90), [90,99), >99. En la Figura 11, se presenta el
mapa de percentiles de la variable índice de vejez. Como puede observarse, hay 3
barrios con valores atípicamente altos: El Goloso y Hellín (San Blas), mientras que
sólo un barrio tiene un valor atípicamente bajo: Horcajo (Moratalaz).
Figura 11 Mapa de percentiles (izda.) y cartograma del índice de vejez (dcha.)
4.2.3. Cartograma
El cartograma es un mapa en el que los valores de la variable que representa

no se diferencian con diferentes colores, sino mediante el tamaño de la superficie de
las unidades geográficas (países, regiones, barrios). Las representación gráfica de
las unidades geográficas a través de polígonos irregulares es reemplazada por un
círculo, que estará situado en la misma localización y cuyo tamaño será mayor o
menor según sea el valor de la variable. Aunque en GeoDa el color por defecto para
los círculos es el verde, existen otros colores para destacar determinados valores,
como los negativos (negro), ceros (blanco) y valores atípicamente altos (rojos) o
bajos (azul).
Los valores atípicos son identificados por el cartograma del mismo modo que
en los gráficos de caja, a partir de cotas definidas por encima o por debajo del valor
medio, como proporciones del recorrido intercuartílico (1,5 y 3). Así, en la Figura 11
se muestra el cartograma de la variable índice de vejez, para el que se ha aplicado
el criterio de detección de puntos atípicos menos exigente. Como puede observarse,
el cartograma destaca los mismos dos barrios con valores atípicamente altos que el
mapa de percentiles: El Goloso y Hellín (San Blas), mientras que, también como el
4
El paréntesis cuadrado indica que ese extremo se incluye en el intervalo y el curvo indica que no se incluye.
citado mapa, sólo un barrio tiene un valor inferior a la media menos 1,5 veces el
recorrido intercuartílico: Horcajo (Moratalaz).
4.2.4. Análisis exploratorio de la dependencia espacial local
El estadístico I de Moran y el gráfico de dispersión de Moran son métodos que

permiten analizar el fenómeno de dependencia o autocorrelación espacial desde un
punto de vista global. Es decir, no son capaces de detectar la presencia de bolsas
significativas de no-estacionariedad (“zonas calientes/frías”) que se desvían de la
tendencia general de una variable. Es cierto que el diagrama de dispersión de Moran
es capaz de detectar ciertos aspectos locales de una distribución señalando aquellos
puntos especialmente alejados de la media (superiores al valor 2). Pero no puede
determinar sobre la existencia de especiales “concentraciones” o “ausencia de
concentración” de valores altos/bajos de dicha variable. Para ello, se han diseñado
los gráficos LISA de dependencia espacial local que ofrecen una indicación del
grado de concentración de valores similares (altos o bajos) en torno a cada unidad
geográfica.
 Mapa LISA
Las letras LISA significan “Local Indicator of Spatial Asociation”. El mapa LISA
es un mapa en el que se representan las localizaciones con valores significativos en
determinados indicadores estadísticos de asociación espacial local (Getis y Ord,
1992; Anselin, 1995; Ord y Getis, 1995; Unwin, 1996). En concreto, los gráficos LISA
incluidos en GeoDa se basan en el estadístico I de Moran de asociación local. Se
trata de un estadístico que, a diferencia del estadístico I de Moran anteriormente
expuesto, no se calcula de forma global para todas las observaciones del mapa, sino
que adquiere un valor diferente para todas y cada una de ellas. Efectivamente, este
estadístico mide el grado de concentración de valores altos/bajos de una variable en
el entorno geográfico de cada una de las observaciones de la muestra. Para cada
valor del estadístico es posible realizar una inferencia para evaluar el nivel de
significatividad estadística de rechazo de la hipótesis nula de ausencia de similitud o
disimilitud de valores en una localización geográfica. De este modo, se pone de
manifiesto la presencia de puntos calientes (“hot spots”) o atípicos espaciales, cuya
mayor o menor intensidad dependerá de la significatividad asociada de los citados
estadísticos.
En la Figura 12, se ha representado el mapa LISA de agrupamientos

espaciales (“spatial clusters”) de la tasa de extranjería. Como puede observarse, a
través de una gradación de colores, este mapa representa las zonas calientes de
concentraciones de barrios con alto valor (color rojo) y bajo valor (azul) en la tasa de
extranjería. La zona caliente de barrios con una significativa concentración de tasas
altas de extranjería está formada por los 6 barrios del distrito Centro de Madrid, así
como en los barrios céntricos de Chopera, Palos de Moguer, Recoletos, Trafalgar,
Almagro y Moscardó. En el extremo opuesto, la concentración de bajas tasas de
extranjería se produce, en general, en barrios de los distritos periféricos de
Fuencarral-El Pardo, Hortaleza, San Blas, Vicálvaro, Moratalaz, Puente de Vallecas
y Pacífico. El mapa destaca también aquellos barrios en los que se producen
discontinuidades significativas en los valores de la variable. Por ejemplo, el caso de
San Fermín y La Piovera, en los que la tasa de extranjería es especialmente alta,
pero se encuentran rodeados por barrios con tasas especialmente bajas o el caso de
los barrios de Imperial, Acacias, Atocha, Jerónimos y Vallehermoso que, con tasas
de extranjería especialmente bajas, se encuentran rodeados por barrios con tasas
especialmente altas.
Figura 12 Gráficos LISA: mapa (izda.) y diagrama de caja (dcha.)
 Diagrama de caja LISA
Se trata de un diagrama de caja que representa los valores del estadístico I

local de Moran de asociación espacial. En la Figura 12, se ha representado también
el diagrama de caja de los estadísticos locales de Moran, uno para cada barrio de
Madrid. De todos ellos, los que han resultado estadísticamente más significativos
(mayor valor del estadístico) son los que se encuentran encima de la caja y se han
destacado en amarillo. Como puede observarse, aunque el mapa pone de manifiesto
la presencia significativa en los barrios de concentraciones de valores altos y bajos
de la tasa de extranjería, así como algunas disimilitudes de valores altos/bajos y
bajos/altos, el diagrama de caja indica que sólo los 6 barrios del distrito Centro
(Palacio, Embajadores, Cortes, Justicia, Universidad y Sol) y Palos de Moguer
destacan por su especialmente alta y significativa concentración de extranjeros en el
municipio.
 Gráficos LISA bivariantes
Por último, se presenta la versión multivariante de los gráficos LISA: el mapa

y diagrama de dispersión LISA bivariantes. En el caso univariante, el estadístico
LISA de asociación espacial comparaba los valores de una variable en cada unidad
geográfica con los valores de su correspondiente retardo espacial (variable con los
valores medios de las unidades vecinas a una dada). De este modo, es posible
determinar la existencia o no de concentraciones significativas de una variable en
torno a una unidad geográfica. En el caso bivariante, el estadístico LISA tiene en
cuenta para cada unidad geográfica, los valores de una variable y el retardo espacial
de otra variable diferente. Por ejemplo, en el caso de la Figura 13, para cada barrio
de Madrid se calcula un estadístico LISA. Este estadístico mide el grado de
asociación entre la tasa de paro, en un barrio, y la tasa de instrucción superior media
en sus correspondientes barrios vecinos. De este modo, el mapa LISA bivariante
destaca pocos casos de asociación local positiva: alta concentración de valores altos
de ambas variables (Sol y Legazpi) y de valores bajos (Bellas Vistas y El Pardo). Sin
embargo, predominan las concentraciones de valores disimilares en ambas variables
como es el caso de alta instrucción en vecinos/baja tasa de paro que se produce en
gran parte de los barrios de los distritos del centro-norte (Salamanca, Chamartín,
Moncloa-Aravaca). Sin embargo, la mayor parte de los casos contrarios de
significativa concentración de valores diferentes (baja instrucción en vecinos/alta
tasa de paro) se producen en barrios de los distritos del sur (Puente de Vallecas,
Usera, Villaverde) y centro este (San Blas) de la capital.
Figura 13 Gráficos LISA bivariantes: mapa (izda.) y diagrama de caja (dcha.)
5. CONCLUSIÓN
El AEDE debe constituir la etapa previa a todo análisis modelizador y decisor

en el campo de la investigación socioeconómica. En este artículo se han presentado
las principales técnicas del AEDE, que combinan el análisis estadístico con el
gráfico, haciendo posible el estudio de las distribuciones espaciales y sus valores
atípicos, esquemas de asociación espacial, agrupamientos espaciales y puntos
calientes/fríos (“hot spots”). Para ello, se ha utilizado un nuevo programa informático,
GeoDa, que tiene como grandes ventajas el haber sido concebido como un producto
autosuficiente, que no supone para el usuario el conocimiento de un sistema
específico de GIS, funciona en cualquiera de los sistemas operativos de Windows y
Mac y es actualmente un producto de libre acceso en Internet.
Efectivamente, el análisis de las series geográficas requiere de herramientas

propias, que van más allá de las convencionales técnicas del AED o minería de
datos y, por tanto, de un “software” específico. Estas herramientas deben estar
dirigidas al análisis de 2 elementos fundamentales: tendencia espacial y puntos
atípicos, entendiendo esto último no sólo como la determinación de valores
significativamente altos/bajos de una variable, sino como “concentración” de valores
similares o disimilares en torno a una unidad geográfica (dependencia espacial).
GeoDa es un programa que combina técnicas del AED convencional con las más
novedosas herramientas del AEDE, en un entorno dinámico que permite conexiones
y arrastrado (“linking” y “brushing”) entre diferentes vistas.
6. BIBLIOGRAFÍA
. ANSELIN, L. (1995), “Local Indicators of Spatial Association-LISA”. Geographical Analysis,

vol. 27(2); pp. 93-115.
. ANSELIN, L. (1999), “The future of spatial analysis in the social sciences”. Geographic
Information Sciences, 5 (2); pp. 67-76.
. ANSELIN, L. (2003), “GeoDaTM 0.9 user’s guide”. Página web del “Spatial Analysis
Laboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .
. ANSELIN, L. (2003), “GeoDaTM 0.9.5-i release notes”. Página web del “Spatial Analysis
Laboratory”: http://sal.agecon.uiuc.edu/stuff_main.php#tutorials .
. ANSELIN, L., Y.W. KIM e I. SYABRI (2004A), “Web-based analytical tools for the
exploration of spatial data”. Journal of Geographical Systems (próxima publicación).
. ANSELIN, L, I. SYABRI y Y. KHO (2004B), “GeoDa: An introduction to spatial data

analysis”. Geographical Analysis (próxima publicación).
. BAO, S., L. ANSELIN, D. MARTIN y D. STRALBERG (2000), “Seamless integration of

spatial statistics and GIS: the S-Plus for ArcView and the S+Grassland links”. Journal of
Geographical Systems 2 (3), pp. 287–306.
. CHASCO, C. (2003), “Econometría espacial aplicada a la predicción-extrapolación de datos

microterritoriales”. Consejería de Economía e Innovación Tecnológica de la Comunidad de
Madrid.
. CRESSIE, N. (1993), “Statistics for spatial data..Revised edition”. New York: Wiley.
. GETIS, A. y J. ORD (1992), “The analysis of spatial association by use of distance

statistics”. Geographical Analysis, 24; pp. 189-206.
. HAINING, R., S. WISE y P. SIGNORETTA (2000),“Providing scientific visualization for

spatial data analysis: Criteria and an assessment of SAGE”. Journal of Geographical
Systems, 2; pp.121-140.
. MORENO, R. y E. VAYÁ (2000), “Técnicas econométricas para el tratamiento de datos

espaciales: la econometría espacial”. Edicions Universitat de Barcelona, colecció UB 44,
manuals.
. ORD, J.K. y A. GETIS (1995), “Local spatial autocorrelation statistics: distributional issues
and an application”. Geographical Analysis, 27.4; pp. 286-306.
. STATSOFT Inc. (2000), “Electronic Text Book Statsoft”. www.statsoft.com
. TUKEY, J.W. (1977), “Exploratory Data Analysis”. Reading: Addison-Wesley.
. UNWIN, A. (1996), “Exploratory spatial analysis and local statistics”. Computational

Statistics, 11; pp. 387-400.
. UNWIN, A. (2000), “Using your eyes- making statistics more visible with computers”.
Computational Statistics & Data Analysis, 32; pp. 303-312.

Análisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing 1

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis Exploratorio de Datos Espaciales Al Servicio Del Geomarketing 1

Uploaded by

Copyright:

Available Formats

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES AL SERVICIO DEL

Coro Chasco Yrigoyen

El análisis exploratorio de datos espaciales (AEDE) es una disciplina del

Palabras clave: Análisis exploratorio de datos espaciales, autocorrelación espacial,

Este artículo pretende llamar la atención de los investigadores sociales sobre

En los últimos años, los esfuerzos desarrollados por la investigación en este

Tras esta introducción, en el Apartado 2, se define el concepto más general

2. ANÁLISIS EXPLORATORIO DE DATOS (AED)

El origen del análisis exploratorio de datos espaciales se encuentra en el

De este modo, es posible obtener una estructura explicativa de los datos a

Las técnicas de AED suelen estar acompañadas de métodos de visualización

Figura 1 Ejemplo de herramientas de AED: matrices de correlación (izda.) y análisis

Fuente: Elaboración propia a partir de Statsoft (2000).

Otras técnicas gráficas del AED incluyen el ajuste y representación gráfica de

Es decir, los modernos métodos de AED hacen hincapié en la interacción

3. ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES (AEDE) Y GEODA.

El AEDE puede definirse como el conjunto de técnicas que describen y

De manera particular, cuando no existe un marco formal o teoría previa

El AEDE combina el análisis estadístico con el gráfico, dando lugar a lo que

Tabla 1: Paquetes informáticos de AEDE reticular en entorno “amigable”

Paquete informático Empresa/autor Página web

En términos generales, las diferentes funciones de GeoDa podrían ser

Fuente: Elaboración propia a partir de GeoDa.

En el apartado siguiente, se presentan los principales métodos de AEDE con

En los últimos años, se han propuesto gran cantidad de métodos gráficos

En la Tabla 2, se presentan las principales técnicas del análisis exploratorio

Tabla 2: Métodos de análisis exploratorio en GeoDa

Tendencia espacial Atípicos espaciales

4.1. Métodos de representación de la tendencia espacial global

Como ya se ha indicado, la tendencia espacial es de carácter geográfico y tiene

4.1.1. Histograma de frecuencias

El histograma de frecuencias es un gráfico estadístico clásico en el AED.

Figura 3 Histograma de frecuencias de la tasa de extranjería en los barrios de Madrid

Fuente: Elaboración propia a partir de GeoDa.

4.1.2. Diagrama de dispersión

Así, en la Figura 4 se presenta el diagrama de dispersión de la tasa de

Figura 4 Diagrama de dispersión de la tasa instrucción superior y tasa de paro

Fuente: Elaboración propia a partir de GeoDa.

4.1.3. Otros gráficos de AED multivariante

 Gráfico de coordenadas paralelas

Este gráfico está especialmente diseñado para explorar relaciones entre 2 ó

Así, por ejemplo, en la Figura 5 (izquierda) se han representado los valores de

Figura 5 Gráfico de coordenadas paralelas (izda.) y gráfico de dispersión 3D (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

La exploración de información espacial multivariante puede también llevarse a

4.1.4. Mapas temáticos

Los mapas temáticos, en general, consisten en la representación cartográfica

En este tipo de mapas, los datos se dividen y agrupan en una serie de

Este tipo de mapa no es útil en casos en los que la variable en cuestión

Figura 6 Mapa de quintiles (izda.) y mapa de la desviación típica (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

 Mapa de la desviación típica

4.1.5. Mapa dinámico

Figura 7 Mapa dinámico acumulativo: inicio (izda.) y pausa (dcha.)

Fuente: Elaboración propia a partir de GeoDa.

4.1.6. Gráficos condicionales

El principio que subyace este tipo de gráficos es la utilización de 2 variables

Así, por ejemplo, en la Figura 8 se ha representado el mapa condicional del

Fuente: Elaboración propia a partir de GeoDa.

4.1.7. Análisis exploratorio de la dependencia espacial global

La dependencia o autocorrelación espacial consiste en la existencia de una

 Diagrama de dispersión de Moran

Se trata de un diagrama de dispersión que representa en el eje X la variable