Professional Documents
Culture Documents
Cuman, Venezuela
Diciembre, 2010
TRABAJO DE GRADO
Mrida, Venezuela
Octubre, 2010
TRABAJO DE GRADO
Presentado ante la ilustre Universidad de los Andes
Como requisito final para optar al grado Acadmico de
Magister Scientiae en Estadstica
Mrida, Venezuela
Octubre, 2010
RECONOCIMIENTO
AGRADECIMIENTOS
DEDICATORIA
RESUMEN
ndice general
1. Planteamiento del Problema
1.3. Justificacin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Metodologa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Marco terico
2.1. Introduccin general a la teora de estadstica espacial
8
. . . .
NDICE GENERAL
iii
100
. . . . . . . . . . . . . . . . . . . . . . . 101
. . . . . . . . . . . . . . 117
. . . . . . . . . . 121
3.3.3. Anlisis exploratorio de cluster, con la tcnica de Cluster jerrquico del vecino ms cercano . . . . . . . . . . 125
3.3.4. Anlisis exploratorio con la tcnica del Cluster jerrquico del vecino ms cercano con Ajuste del riesgo . . . 129
3.4. Anlisis espacio temporal
. . . . . . . . . . . . . . . . . . . . 132
NDICE GENERAL
iv
140
147
ndice de figuras
2.1. Medianas en el plano . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1. Mapeo del delito tipificado: Robo a Personas . . . . . . . . . . . . 101
3.2. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . 102
3.3. Medidas de dispersin . . . . . . . . . . . . . . . . . . . . . . . 103
3.4. Comparacin de las medidas de dispersin de la data en estudio,
con la data de delitos ocurridos en el Municipio Libertador y Campo
Elas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
NDICE DE FIGURAS
vi
. . . . . . . . . . . . . . . . 131
A.6. Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000 fija . . . . . . . . . . . . . . . . . . . . . 143
NDICE DE FIGURAS
vii
Captulo 1
Planteamiento del Problema
1.1.
Actualmente en casi todos los pases se han incrementado los delitos comunes en gran escala, y adems las modalidades criminales son cada vez ms
complejas y dinmicas. En las grandes metrpolis, la enorme cantidad de
informacin criminal dificulta ms el proceso de investigacin criminal y muchas veces hace imposible que los analistas del crimen logren reunir la informacin adecuada, en un momento determinado, para la toma de decisiones.
Bajo esta situacin se hace necesario el uso de herramientas de informtica
y tcnicas de estadstica espacial para el tratamiento y anlisis de la informacin criminal.
El aporte de la informtica en este campo abarca un amplio espectro que
va desde la simple visualizacin de los hechos en un mapa mediante Sistemas
de Informacin Geogrfica (SIG), hasta el uso de tcnicas sofisticadas para
analizar datos espaciales o geogrficos (minera de datos o anlisis exploratorio de datos espaciales). El anlisis estadstico de datos geogrficos denominado en la literatura cientfica como anlisis exploratorio de datos espaciales
(AEDE), es una disciplina relativamente nueva en el rea de estadstica, y
ha sido diseado especficamente para gestionar grandes volmenes de da-
Antecedentes de la investigacin
1.2.
Antecedentes de la investigacin
Antecedentes de la investigacin
y lugares precisos y ofrece luego estadsticas diarias que permiten realizar una
planificacin estratgica. Se proyectan mapas en pantallas grandes, con los
lugares y horarios exactos en donde se cometieron los crmenes, especificando
tambin el tipo de delito que se cometi.
CrimeStat es un programa de estadsticas espaciales diseado especficamente para el anlisis de la ocurrencia de incidentes criminales, desarrollado
por Ned Levine bajo el auspicio del Instituto Nacional de Justicia de Estados
Unidos de Amrica. Sin embargo, la mayora de los mtodos del programa
CrimeStat tienen aplicacin en otras ciencias, como en el anlisis de datos
espaciales en ciencias de la salud pblica, epidemiolgicos, botnicos o geolgicos. Su propsito es brindar a investigadores y agencias encargadas de
mantener el orden, un conjunto de herramientas estadsticas complementarias, que le faciliten la manipulacin de los grandes volmenes de informacin
criminal, y le permitan una accin rpida y efectiva en la lucha contra la delincuencia.
El software no tiene capacidad para la visualizacin de mapas ni funciones de SIG, su diseo se ha centrado en los mtodos de anlisis de datos
espaciales; sin embargo, los resultados pueden ser utilizados por programas
de SIG. El programa utiliza la ubicacin de incidentes criminales, como datos de entrada, en archivos en formato dBase (.dbf), cartogrficos Shapefile
(shp.) o de Texto ASCII. A partir de estos datos, permite aplicar los mtodos de estadstica espacial, produciendo los resultados en archivos de formato
cartogrfico que pueden ser utilizados directamente por diferentes programas
R MapInfo,
R Atlas*GISTM, Surfer
R for Windows,
de SIG como ArcView,
c
y ArcView Spatial Analyst.
Justificacin
1.3.
Justificacin
Objetivo General
En el campo de la criminologa, el mapeo del crimen es la tcnica espacial ms comn, sencilla, y antigua, que desde hace tiempo se ha empleado
(mapas de alfileres), en la actualidad es parte integral del proceso de investigacin delictiva, y ahora gracias al la implementacin de los SIG y AEDE,
se incorpora el tiempo y su interaccin con el espacio (Espacio -Tiempo).
Estas son unas de las tcnicas del anlisis exploratorio de datos espaciales conjuntamente con los sistema de informacin geogrfico, que pueden
aplicarse a la informacin delictual, con la finalidad de que los cuerpos e instituciones del estado encargados del orden y la paz en la sociedad, puedan
usar estas herramientas para lograr mayor efectividad tanto en las medidas
correctivas, como en el diseo de polticas y planes de prevencin del delito.
1.4.
Objetivo General
1.4.1.
Objetivos Especficos
Metodologa
Aplicar las tcnicas que ofrece el software CrimeStat, para obtener los
clusters (en caso de existir).
Grficar con el SIG ArcView (ArcGis) los clusters obtenidos con el
software CrimeStat.
Analizar clusters.
Analizar relacin espacio tiempo en la variable: Robo a Personas.
1.5.
Metodologa
Captulo 2
Marco terico
2.1.
En este captulo, se presenta una introduccin general a la teora de estadstica espacial, como definiciones bsicas, y algunas herramientas fundamentales para llevar a cabo un estudio descriptivo de la distribucin espacial de
un proceso o fenmeno espacial. En este trabajo el fenmeno espacial a tratar
es la delincuencia, siguiendo la estructura establecida en el software CrimeStat, desarrollado por el Dr. Ned Levine, del Intituto Nacional de Justicia De
Estados Unidos, para estudiar la distribucin espacial de la delincuencia.
Se us el programa CrimeStat, y algunas herremientas de Argis.9.2, este ltimo para mapear los delitos referenciados y graficar los clusters que
aparecen.
2.1.1.
Data geoestadstica: D Rd ; es un conjunto fijo que contiene un rectngulo d-dimensional de volumen positivo; y Z(s) un vector aleatorio
en la localizacin s D.
Datos reticulares: D es una coleccin (regular o irregular) numerable
de puntos de Rd , y Z(s) un vector aleatorio en la localizacin s D;
en nuestro caso, Z(s) es una variable aleatoria en la posicin s D y
D R2 .
Patrones de puntos: D es un proceso puntual en Rd o un subconjunto
de Rd , y Z(s) es un vector aleatorio, localizado en s D.
El conjunto espacial ndice D, es clasificado en dos perspectivas; en una
es tratado como una muestra de una distribucin continua, llamado Datos
geoestadsticos, y en otro caso, como un conjunto discreto o localizaciones
espaciales discretas (puntos o polgonos), denominado datos reticulares (en
ingls, lattice data).
En general el anlisis geoestadstico se encuentra en el entorno de las
ciencias relacionadas con el medio ambiente (geologa, fsica, hidrologa, etc.)
y se centra en una muestra de datos puntuales procedentes de distribuciones
10
geogrficas continuas. Mientras que el anlisis de datos reticulares, generalmente estn asociados con regiones, por lo que tambin se denominan datos
regionales o datos de reas. La tcnica para analizar esta perspectiva es llamada Econometra Espacial. Y generalmente analiza localizaciones geogrficas
discretas de puntos o polgonos (provincias, municipios, etc.) de fenmenos
socioeconmicos (distribucin de la renta, clientes, votantes, crecimiento econmico, delitos, etc.).
Un proceso puntual espacial en palabras sencillas est dado por un conjunto de localizaciones D Rd (normalmente 2 3 dimensiones), irregularmente distribuidas en cierta regin del espacio y generada por un mecanismo
estocstico.
Denotando la localizacin de los sucesos como
{s1 , s2 , ..., sn } = D,
y su intensidad o marca (vector aleatorio) por
{Z(s)} = {z(s1 ), z(s2 ), ..., z(sn )}
el proceso puntual se puede escribir como
N = {[s, Z(s)]} = {[si , z(si ); i = 1, 2, ..., n]}
De manera ms formal, los patrones puntuales son mapeos de un espacio
de probabilidad (, A, P ) sobre un dominio D Rd , en los que las realizaciones son conjuntos de puntos. El comportamiento del fenmeno se supone
est dado en base a la funcin de intensidad (marca) Z(s), algn mecanismo
estocstico. Ejemplo de aplicaciones: Epicentros de terremotos, posicin de
nidos de aves migratorias, posicin de burbujas en piezas de metal, entre
otros.
11
2.2.
En cualquier anlisis espacial, las medidas descriptivas constituyen el primer paso, y pueden ser herramientas muy potentes, dependiendo de la habilidad del analista. A continuacin, se presentan las definicones de las medidas
descriptivas de tendencia central y de dispersin, conocidas en ingls como
medidas Centrographic o Centrography.
2.2.1.
12
Definicin 2.1 La medida descriptiva ms simple de la distribucin espacial, es la Media Central; y esta dada por la frmula:
x=
n
X
xi
k=i
y=
n
X
yi
k=i
13
n
X
w i xi
k=i
y=
n
X
wi yi
k=i
14
Definicin 2.3 La Mediana Central es el punto que se obtiene de la interseccin entre la mediana de las coordenadas X y la mediana de las coordenadas
Y.
Sin embargo, esta medida no es estrictamente una mediana, como en el
caso unidimensional, donde la mediana es el nico punto en que el 50 % de los
casos caen por debajo de ella y el otro 50 % caen por arriba; y adems, para
localizaciones (bidimensinales) sobre el plano bidimensional, esta medida no
es nica, debido a que la ubicacin de la mediana es definida por la forma en
que los ejes son dibujados. Por ejemplo, en la figura 2.1, hay una muestra de
8 puntos; y se han trazado cuatro lneas, cada lnea de esta divide al grupo
15
En CrimeStat, la rutina de la mediana central da una salida de tres estadsticas: El tamao de la muestra, la mediana de X y la mediana de Y .
n
X
dic es mnima,
k=i
Definicin 2.5 Media Geomtrica es la medida que se obtiene de la interseccin de las medias geomtricas de las coordenadas X y Y respectivamente:
1
16
ln(x1 ) + + ln(xn )
n
ln(y1 ) + + ln(yn )
n
De esta forma la media geomtrica es el antilogaritmo de la media de los
ln(GMy ) =
logaritmos:
GMx = eln(GMx )
y GMy = eln(GMy )
n
(1/xi )
n
Media armnica de Y = HMy = P
(1/yi )
donde n es el tamao de la muestra.
En otras palabras, la media armnica de X y Y , respectivamente, es la
inversa de la media de los valores invertidos de X y Y , respectivamente.
Tanto la media geomtrica como la media armnica son medias que reducen el efecto de los valores extremos, aunque con diferentes mtodos.
En CrimeStat la media Geomtrica y la media Armnica se obtiene como
parte de la rutina de la media central (Mcsd).
17
v
u n
uX (yi y)2
Sy = t
n1
i=1
v
sP
u n
n
2
2
uX (diM C )2
i=1 [(xi x) + (yi y) ]
t
=
=
n2
n2
i=1
18
Esta medida es equivalente a la desviacin estndar univariante, y se puede representar como un nico vector en lugar de dos vectores, como sucede
con la desviacin estndar de las coordenadas X e Y.
En CrimeStat la salida grfica es un crculo alrededor de la media central.
Este estadstico es una buena medida de dispersin de incidentes o puntos
en torno a la media central. Sin embargo, con dos dimensiones, las distribuciones generalmente son sesgadas en una u otra direccin (una condicin
llamada anisotropa), para tratar esta condicin se propone otro estadstico
conocido como elipse de desviacin estndar, que se presenta a continuacin.
= Arctan( (
(xi x)2
P
P
2
2 2
2
(x
Pi x) (yi y) ) +4( (xi x)(xi x) ) ] )
2 (xi x)(xi x)
19
r P
P
[ (xi x)Sen() [(yi x)Cos()]2
Sy = 2
n2
2.2.2.
20
Hay diferentes maneras de definir una cpsula convexa. CrimeStat implementa el algoritmo conocido como envoltorio de regalo "gift wrap". Comienza
con el punto de mnimo valor en la coordenada Y , digamos A, y busca otro
punto B, de tal manera que todos los dems puntos se encuentran a la izquierda de la lnea AB. Luego encuentra otro punto, C, de tal forma que los
dems puntos se encuentran a la izquierda de la lnea BC; este procedimiento contina hasta que llegue al origen, es decir al punto A. De esta forma el
polgono es comparado con un envoltorio de regalo "gift wrap", encerrando
todos los puntos. Esta rutina calcula tres estadsticos: El tamao de la muestra, el nmero de puntos en la cpsula convexa, y las coordenadas X e Y de
los puntos de la cpsula convexa.
La salida grfica de la Cpsula Convexa es un polgono, que se pueden
guardar como un archivo cartogrfico de extensin .shp.
Definicin 2.11 Densidad media: Esta es una medida que indica el promedio de eventos ocurridos por unidad de rea, algunas veces es llamada
intensidad.
En CrimeStat, el rea para calcular la densidad media puede ser introducida por el investigador, y en su defecto el software usa el rea definida por
el rectngulo formado por los valores mnimos y mximos de X e Y .
Usos y limitaciones de la Cpsula Convexa
Una cpsula convexa puede ser til para mostrar la extensin geogrfica
de una distribucin. Y hacer simples comparaciones, entre distribuciones para
verificar cual tiene mayor extension. Adems, una cpsula convexa puede ser
til para describir la distribucin geogrfica de los puntos calientes del delito.
Autocorrelacin espacial
21
2.3.
Autocorrelacin espacial
Introduccin
La "primera ley de la geografa" afirma que en el espacio todo est relacionado con todo, pero las entidades cercanas estn ms relacionadas entre s,
que las entidades lejanas (Tobler, 1979). En estadstica espacial este fenmeno
es llamado autocorrelacin espacial o dependencia espacial. La autorrelacin
espacial analiza la falta de independencia entre los incidentes u observaciones z(s) de una variable en sus diferentes localizaciones. Puede interpretarse
como una disposicin de localizaciones de incidentes de tal forma que de los
puntos estn relacionados entre s, (es decir, no son estadsticamente independientes entre s); y por supuesto, la condicin opuesta es independencia
espacial, un arreglo o disposicin de localizaciones de incidentes, de tal forma
que no existe relacin espacial alguna entre ellos, (en otra palabras, singnifica que la ubicacin de un incidente no est relacionada con la ubicacin de
Autocorrelacin espacial
22
2.3.1.
Hay varios estadsticos formales que intentan medir la autocorrelation espacial. Entre estos se incluyen los ndices como el estadstico I de Moran, el
estadstico C Geary, considerados estos los estadsticos ms sencillos; y los
ndices derivados, como el estadstico k de Ripley, y la aplicacin del ndice
Autocorrelacin espacial
23
i 6= j
donde n es el nmero de casos, zi el valor de la variable en la i-sima localizacin, z la media de la variable, y wij la ponderacin aplicada a la
comparacin entre las localizaciones i y j.
Autocorrelacin espacial
24
1
.
n1
Los valores de I por encima del valor terico esperado E(I), indican auE(I) =
tocorrelacin espacial positiva, mientras que los valores de I por debajo del
valor terico esperado indican autocorrelacin espacial negativa.
Ajuste para pequea distancias
CrimeStat calcula el ndice de Moran utilizando la ponderacin Wij igual
Autocorrelacin espacial
25
una milla
,
una milla+dij
dades especificadas; por ejemplo, si las unidades son dadas en pie, entonces
wij =
5,280
,
5,280+dij
Este argumento asegura que la ponderacin generada por un par de localizaciones cercanas no distorsionen el estadstico I.
Prueba significancia de la ponderacin de ndice de Moran:
Mediante la estandarizacin del ndice de Moran, la distribucin emprica
se puede comparar con la distribucin terica, esto es,
Z(I) =
I E(I)
SE(I)
Autocorrelacin espacial
26
este supuesto es llamado hiptesis de normalidad. Una segunda interpretacin, asume que cada valor observado puede ocurrir en cualquier lugar, es
decir, no hay correlacin espacial; este supuesto es conocido como: hiptesis
de aleatorizacin. Bajo estos supuestos, la frmula de la desviacin estndar
es ligeramente diferente, lo que hace variar tambin el ndice I. CrimeStat da
las salidas para ambos supuestos, los Z-valores y p-valores para los supuestos
de normalidad y aleatoriedad, respectivamente.
El estadstico C de Geary
La C de Geary es el segundo estadstico de contraste de autocorrelacin
espacial, es semejante al estadstico I de Moran. Sin embargo, el ndice de
Moran obtiene la interaccin como el producto cruzado de las desviaciones
de la media (covarianzas); mientras que la C de Geary obtiene la interaccin
a partir de la intensidad de todas las desviaciones, es decir, cada observacin
con las dems.
donde n es el nmero de casos, zi el valor de la variable en la i-sima localizacin, z la media de la variable, y wij la ponderacin aplicada a la comparacin
entre las localizaciones i y j.
Al igual que en el caso anterior, la hiptesis nula del estadstico C de
Geary es la no existencia de autocorrelacin, frente a la hiptesis alternativa
de presencia de un esquema de dependencia espacial. El valor terico esperado de C es 1; es decir, si los valores de una zona no estn correlacionados con
los valores de cualquier otra zona, entonces el valor esperado de E(C) = 1.
Autocorrelacin espacial
27
1
.
dij
un milla
,
una milla+dij
calculado en las
unidades especificadas.
En CrimeStat esta es una condicin por defecto, sin embargo el usuario
puede calcular otras ponderaciones desactivando el ajuste.
Prueba de significancia del C de Geary
La distribucin emprica de C puede ser comparada con la distribucin
terica dividiendo la diferencia, por la desviacin estndar terica:
Z(C) =
C E(C)
SE(C)
Autocorrelacin espacial
28
Autocorrelacin espacial
29
Autocorrelacin espacial
30
2.3.2.
Autocorrelacin espacial
31
El ndice del vecino ms cercano es un estadstico que mide la autocorrelacin espacial en forma global; sin embargo, CrimenStat incluye dos estadsticos para describir la distribucin de la autocorrelacin espacial, conocido
como el k-simo vecino ms cercano, y el estadstico k de Ripley.
Estos estadsticos indican s existe autocorrelacin espacial o no, en la
sub-regin, permitiendo identificar s existen ambientes particulares donde
se concentra mayor cantidad de delitos (zonas calientes).
ndice del vecino ms cercano (Nna)
El ndice del vecino ms cercano es uno de los estadsticos de distancia
ms antiguos. Fue desarrollado por los Botnicos Clark y Evans en 1950,
especficamente para su trabajo, sin embargo, se ha usado en muchos otros
campos de investigacin en una gran variedad de problemas (Cressie 1991).
Tambin ha servido de base para muchos otros tipos de estadsticos de distancia, algunos implementados en CrimeStat.
La distancia del vecino ms cercano, es calculada para cada punto (localizacin del incidente) y se determinar el promedio.
Distancia del vecino mas cercano = d(N N ) = ni=1
min(dij )
n
Autocorrelacin espacial
32
A
n
Autocorrelacin espacial
33
d(N N )
d(ran)
d(N N ) d(ran)
SEd(ran)
Autocorrelacin espacial
34
r
SEd(ran) =
(4 )A
0,26136
p
2
4n
n2 /A
Autocorrelacin espacial
35
k(2k)!
p
n/A
(2k k!)2
Autocorrelacin espacial
36
Observe que el K-simo ndice de vecino ms cercano, es la razn o proporcin entre la distancia observada del K-simo vecino ms cercano y el
valor de la K-sima distancia esperada.
No hay ninguna restriccin sobre el orden del k-simo vecino ms cercano
que puede ser calculado. Sin embargo, el promedio la distancia aumenta con
orden, y en consecuencia el potencial del sesgo para efectos de borde tambin
aumentar; para efectos prcticos, se sugiere un orden no mayor de 100.
Es importante sealar, que hasta ahora no existe un buen test de significacin para el K-simo ndice del vecino ms cercano, debido a la no
independencia de los rdenes. Por consiguiente, CrimeStat no provee una
prueba de significacin para este ndice. Sin embargo, el k-simo orden de la
distancia del vecino ms cercano y el ndice, pueden ser tiles para comprender las distribuciones espaciales en forma general. En otras palabras, aunque
no existe un buen test de significancia para el K-simo ndice del vecino ms
cercano, un grfico de los ndices de orden K (o de las distancias de orden
K) permite visualizar qu tan agrupados estn los datos; as, como tambin
es posible hacer comparaciones con los diferente tipos de delitos, o con un
mismo delito en dos perodos de tiempo diferentes.
Grfica del K-simo ndice del vecino ms cercano
CrimeStat proporciona una salida para almecenar como un archivo .dbf,
que puede ser importado a una hoja de clculo, o programa para graficar.
No obstante, en la ventana de salida de la rutina hay un botn para obtener
una grfica rpida de la curva descrita por el ndice; sta es til para revisar
las tendencias.
Autocorrelacin espacial
37
Efectos de borde
Es importante observar que existen efectos de borde potenciales, que pueden sesgar el ndice. Un incidente que ocurra cerca de la frontera, puede tener
su vecino ms cercano realmente al otro lado de la frontera. Sin embargo, debido a que generalmente no hay datos en la distribucin de los incidentes
fuera de la rea de estudio, el programa escoge otro punto dentro del rea
de estudio como el vecino ms cercano al punto de frontera. Por lo tanto,
existe un potencial que puede exagerar la distancia del vecino ms cercano,
es decir, la distancia observada del vecino ms cercano es probablemente ms
grande que lo que debe ser, de aqu, puede existir una sobreestimacin de la
distancia del vecino ms cercano. En otras palabras, los incidentes probablemente estn ms agrupados que lo que refleja el ndice.
Correccin de borde del vecino ms cercano
CrimeStat por defecto calcula el ndice sin correccin de borde. Sin embargo, una forma de corregir un posible efecto de borde en la distancia de
vecino ms cercano, es asumir que para cada punto observado hay otro punto
justo al borde de la frontera ms cercano en distancia. Si la distancia de un
punto a la frontera es ms pequeo que la distancia del vecino ms cercano,
entonces el punto tericamente ms cercano es tomado como una aproximacin del vecino ms cercano. Esta correccin tiene el efecto de reducir el
promedio de la distancia del vecino ms cercano. Ya que asume que siempre
hay otro punto en el borde, esto probablemente subestima el verdadero valor
de la distancia.
CrimeStat tiene dos correcciones de borde, que pueden ser aplicadas a
dos modelos geomtricos diferentes. El primero asume que el rea en estudio
es un rectngulo, mientras el segundo supone que el rea de estudio es cir-
Autocorrelacin espacial
38
Autocorrelacin espacial
39
n
t2s ,
A
Autocorrelacin espacial
40
n
k(ts )
A
A
i j6=i I(tij )
n2
(2.1)
Autocorrelacin espacial
41
R
,
100
r
L(ts ) =
K(ts )
ts .
(2.2)
Autocorrelacin espacial
42
Autocorrelacin espacial
43
Autocorrelacin espacial
44
menor que los ubicados en el centro del rea de estudio, porque los puntos
fuera de la frontera no cuentan. Un grfico de L versus la distancia muestra
una curva decreciendo con los aumentos de distancia.
1
Ripley propuso una ponderacin simple wij
para explicar la proporcin
del crculo (centrado en cada punto) que est dentro del rea de estudio; as,
la ecuacin 2.1 se escribe como:
K(ts ) =
A
1
i j wij
I(tij )
N2
1
donde wij
es el inverso de la proporcin de la circunferencia del crculo de
radio ts , colocado sobre cada punto dentro del rea en estudio. Por lo tanto,
si un punto est cerca de la frontera, recibir mayor ponderacin, debido a
que una pequea proporcin del crculo es colocada fuera del rea de estudio.
CrimeStat, presenta dos correcciones de borde. Uno asume que el rea de
estudio es un rectngulo, y el segundo supone que el rea es circular.
Correccin rectangular
En la correccin de borde rectangular del K de Ripley, el radio del crculo
Ri , es comparado con el borde del rectngulo del rea de estudio supuesto A,
centrado en la media central. Primero, si se especfica el rea de estudio en
la pestaa parmetros de medicin, el valor para A es tomado. El rectngulo
definido por los valores de X e Y (mnimo y mximo) es tomado y reescalado
proporcionalmente igual al rea A; si no se especfica el rea, entonces el
rectngulo definido por el mnimo y mximo de X e Y , es tomado como el
rea A. Segundo, para cada punto, la distancia mnima del borde ms cercano
de este rectngulo se calcula en ambas direcciones (horizontal y vertical),
d(minRX ) y d(minRY ). En tercer lugar, cada distancia mnima es comparada
con el radio de crculo Ri .
Autocorrelacin espacial
45
1
wij
=
2
2 [cos1 (min{d(minRX ), Ri }/Ri ) + cos1 (min{d(minRy ), Ri }/Ri )]
Caso en que el radio se extiende ms all de los dos borde del rectngulo:
1
wij
=
2
3/2
cos1 (d(minRx)/R
i)
cos1 (d(minRy)/Ri )
Autocorrelacin espacial
46
1
El peso wij
, es propenso a causar una tendencia de crecimiento positivo
1
wij1 = ln(wij
) + 1; esta transformacin tiene el efecto de moderar la ten-
dencia un poco.
Correccin circular
En la correccin circular del estadstico K de Ripley, el radio de bsqueda del crculo Ri , es comparado con el borde del rea circular supuesta A,
ubicado en la media central. Primero, si se ha especificado el rea de estudio
en la pestaa de parmetros de medicin, entonces este valor es tomado. El
radio del crculo, Rj , es calculado por la ecuacin
R=
A/.
(2.3)
Autocorrelacin espacial
47
Autocorrelacin espacial
48
2.4.
49
2.4.1.
La Moda
La moda es la medida ms sencilla e intuitiva de cluster. Se trata simplemente de la localizacin (punto) con mayor nmero de incidentes. La rutina
en CrimeStat, calcula la frecuencia de los incidentes ocurridos en cada localizacin (punto con coordenadas X e Y) del archivo principal, y los ordena
de manera descendente en una lista, y los resultados pueden ser guardados
en un archivo de extensin .dbf.
2.4.2.
50
Definicin 2.18 La moda difusa de una localizacin, se define como el nmero de incidentes o puntos que caen dentro de un circulo de radio (r > 0,
radio de bsqueda) centrado en la localizacin.
La salida de la rutina moda difusa en CrimeStat, es un archivo .dbf, con
cuatro variables en la salida:
Las coordenadas X y Y de la localizacin.
El orden (Rank) de la localizacin, comenzando con 1, para la localizacin con mayor frecuencia; seguido por 2, para la localizacin con
la segunda frecuencia mayor, y as sucesivamente hasta que todos las
localizaciones son evaluadas.
La frecuencia de incidentes en cada localizacin. Es el nmero de incidentes que ocurren alrededor de esta localizacin.
La moda difusa cuenta una sla vez cada punto que cae dentro del radio
de bsqueda, para cada localizacin, sin embargo, permite contar varias veces
un punto si este cae dentro del radio de bsqueda de varias localizaciones.
Si se usa cuidadosamente puede permitir la identificacin de localizaciones
de pequeas reas con alto ndice de incidentes o zonas calientes, con lugar
de ubicacin exacta.
2.4.3.
51
52
A
N
donde A es el rea de la regin y N es el nmero de incidentes.
Distancia media esperada = d(ran) = 0, 5
(2.4)
A
0, 26136
t p
N
N 2 /A
(2.5)
53
Probabilidad
Descripcin
0,00001
Primero de la izquierda
0,0001
Segundo a la izquierda
0,001
Tercero a la izquierda
0,01
Cuarto a la izquierda
0,05
Quinto a la izquierda
0,1
Sexto a la izquierda
0,5
0,75
Quinto a la derecha
0,9
Cuarto a la derecha
10
0,95
Tercero a la derecha
11
0,99
12
0,999
El primero a la derecha
N (N 1)
2
54
Es importante que las unidades de rea definidas en la casilla de parmetros de medicin, concuerden con la de los datos, pues la rutina Nnh usa este
valor para calcular la distancia umbral. Si no se define el rea en la casilla de
parmetros de medicin, la rutina calcula el rea a partir del rectngulo acotado por los valores del mxima y el mnimo de X e Y . En cualquier caso, la
rutina es capaz de calcular la distancia umbral. Sin embargo, si las unidades
de rea se definen incorrectamente en la pestaa de medicin parmetros, la
rutina calcula la distancia umbral errneamente. Es necesario que el rea y
las unidades de rea concuerden con la de los datos para que la rutina para
funcione correctamente.
Distancia fija
La segunda opcin para seleccionar la distancia umbral es elegir una distancia fija (en metros, kilmetros, pie, millas, millas nuticas). En la casilla
"distancia fija" (Fixed distance) se selecciona la distancia umbral.
La principal ventaja de este mtodo es que el radio de bsqueda puede
ser especificado exactamente. Es til para comparar el nmero de clusters
en diferentes distribuciones. La principal desventaja de este mtodo es que
la eleccin de la distancia umbral es subjetiva. Cuanto mayor es la distancia
seleccionada, mayor es la probabilidad de encontrar cluster por casualidad,
es decir, debido al azar. Por supuesto, esto se puede comprobar mediante una
simulacin de Monte Carlo.
Criterio 2: Mnimo nmero de puntos
Cualquiera sea el mtodo utilizado para seleccionar la distancia umbral, el
segundo criterio es el nmero mnimo de puntos que se requiere para formar
55
cada grupo. Este criterio es utilizado para reducir el nmero de grupos pequeos; con una data muy grande (cientos o miles), pueden formarse muchos
grupos si son seleccionados slo con la de distancia umbral. Para reducir el
nmero de grupos pequeos, as como tambin para reducir la probabilidad
de encontrar clusters por casualidad, se selecciona la restriccin del nmero mnimo de puntos. Por defecto este valor es igual a diez. Claramente al
reducir este nmero, se producen ms grupos, y al aumentarlo se reduce el
nmero de grupos.
Cluster de primer orden: Usando estos criterios, CrimeStat construye los
cluster de primer orden, las primeras agrupaciones de puntos. Para cada
cluster de primer orden, el centro de la distancia mnima es el centro del
cluster.
Cluster de segundo orden y de orden superior: El procedimiento para formar los clusters de segundo orden es similar al del primer orden, salvo que
los centros de cluster son tratados como puntos, y estos ahora son agrupados.
El proceso se repite hasta que todos los sub-grupos convergen en un nico
grupo, o el criterio de la distancia umbral falla, o hay menos de cuatro grupo
de orden superior.
Salida grfica de los clusters: Para identificar aproximadamente la localizacin de los clusters, CrimeStat permite la salida de los mismos como elipses,
o cpsulas convexas, o ambos.
Salida como Elipse: El elipse de desviacin estndar es calculado para cada
grupo. Se elige entre una 1X, una y media 1,5X, dos 2X desviacin estndar, generalmente, una desviacin estndar cubrir ms del 50 % de los
casos; desviacin estndar y media cubrir ms del 90 % de los casos, y dos
desviaciones estndar cubrir ms del 99 % de los casos, aunque el porcentaje
56
57
hasta lagos, represas o las otras caractersticas que son lgicamente imposibles.
Directrices para la seleccin de los parmetros
En la rutina del vecino ms cercano se definen tres parmetros: la distancia umbral, el nmero mnimo de puntos, y la salida grfica de las zonas
calientes. Para una distancia umbral fija, se debe seleccionar un p valor significativo; adems es importante tener presente que para los incidentes criminales, la distancia umbral recomendada es prxima a media milla (0, 5), y
preferiblemente menor.
En caso de usar la distancia esperada del vecino ms cercano como distancia umbral, el p-valor a seleccionar con la barra deslizadora de probabilidad
indica la probabilidad de obtener un par de puntos por casualidad es p % (la
barra tiene un rango de p-valores de 0,00001 a 0,999, ver tabla en cuadro
2.1); por ejemplo, para un p = 0, 001 (tercera posicin a la izquierda) indica
la probabilidad de obtener un par de puntos por casualidad es igual a 0, 1 %.
La barra deslizadora realmente controla el valor de t de la ecuacin 2.5,
que vara de 3,719 a +3,090. As, para un t-valor pequeo, la distancia
umbral es pequea, pocos grupos son extrados, y generalmente suelen ser
ms pequeos, aunque no siempre.
Si los datos fueran realmente aleatorios, y se seleccionara el valor de p
igual a 0,5, aproximadamente la mitad de los pares seran seleccionados por
casualidad; sin embargo, debido a que hay un nmero mnimo de puntos requeridos por cluster, la probabilidad de encontrar un grupo con el mnimo de
puntos es mucho ms pequea. Adems, con un nmero mnimo requerido
mayor, la probabilidad de obtener un grupo por casualidad es menor.
58
59
60
En segundo lugar, la tcnica puede aplicarse a cualquier conjunto de datos por grande que sea, permitiendo con mayor facilidad las comparaciones
entre diferentes reas, sin tener que limitar arbitrariamente la data.
En tercer lugar, los vnculos entre pequeos grupos se pueden ver a travs de los clusters de segundo orden y de orden superior. Frecuentemente, las
zonas calientes se encuentran cerca de otras zonas calientes. Por ejemplo, en
grandes metrpolis, generalmente hay zonas calientes y dentro de algunas de
esas zonas calientes, pueden haber zonas ms pequeas. En otras palabras,
hay diferentes escalas en la agrupacin de los puntos, en diferentes niveles
geogrficos. La tcnica del cluster jerrquico puede identificar estos niveles
de agrupacin.
En cuarto lugar, cada uno de los niveles implican diferentes polticas y
estrategias de policiales. Por ejemplo, para niveles pequeos, los funcionarios
pueden intervenir eficazmente, como en pequeas vecindades; y para los grupos de segundo orden, tal vez son ms adecuados para patrullar. As pues,
la tcnica jerrquica permite dirigir las diferentes estrategias de seguridad de
manera coherente hacia las comunidades.
Test de significancia para las agrupaciones
La prueba de significancia de las agrupaciones de la rutina del cluster jerrquico del vecino ms cercano no es muy simple. Supongamos,que se emplea
la distancia esperada como la distancia umbral, definida por la probabilidad
p; la prueba debe ser para obtener un intervalo de confianza alrededor de la
distancia del vecino ms cercano de primer orden. Bajo una distribucin aleatoria, si el nivel de probabilidad es p, entonces, el intervalo debera contener
aproximadamente el p % de todos los pares de puntos. En virtud de esta situacin, es necesario saber si el nmero de grupos (pares) que se encontraron
61
62
2.4.4.
63
64
65
66
67
Ai
Ni
(2.6)
Ai
0, 26136
t p 2
Ni
Ni /Ai
(2.7)
donde el t es el valor asociado al nivel de probabilidad de la distribucin t-Student (definido por la barra de probabilidad).
c) Adems, se debe definir el mnimo de puntos para cada grupo,
como en la rutina Nnh.
68
7. Los puntos identificados en la celda son los que caen dentro de ella,
y la nica distancia umbral (intervalo de confianza) para cada celda.
Cada par de puntos se compara con la distancia umbral, y adems, la
distancia umbral no necesariamente es la misma para en cada celda.
Por lo tanto, la rutina del Rnnh requiere que la distancia entre cada
par de puntos sea ms corta que la distancia entre los puntos.
8. Una vez que los pares de puntos han sido seleccionados, la rutina procede en la misma forma que la rutina Nnh.
En otras palabras, los puntos se agrupan de acuerdo con dos criterios. En
primer lugar, son seleccionados los que estn a menor distancia que la distancia umbral. Sin embargo, la distancia umbral vara con el rea de estudio,
y es inversamente proporcional a la variable referencia. Slo los puntos que
estn a menor distancia que el valor esperado de la variable referencia, son
seleccionados para el cluster. En segundo lugar, las clusters requieren de un
nmero mnimo de puntos, definido por el investigador. El resultado son los
grupos que estn ms concentrados de lo esperado, no slo por aleatoriedad
de la distribucin de los mismos, sino tambin, por el efecto de la distribucin
de la variable referencia. Estos son los grupos de alto riesgo.
El rea debe ser definida correctamente
Es muy importante que el rea sea definida correctamente para esta rutina. Si se define el rea en la pestaa parmetros de medicin, la rutina usa
ese valor para calcular el rea de cada celda, y a su vez, especfica la distancia
umbral. Si no es definida el rea en la pestaa parmetros de medicin, la
rutina calcula el rea total definida por los valores mximos y mnimos de X
e Y , y utiliza ese valor para calcular rea de cada celda, y a su vez, especfica
la distancia umbral. En cualquier caso, la rutina ser capaz de calcular la distancia umbral de cada celda. Sin embargo, si las unidades de rea se definen
69
70
71
72
2.4.5.
En esta seccin se discute la tcnica denominada Anlisis del EspacioTemporal del Crimen, STAC por sus siglas en ingls; sta tcnica fue desarrollada por Illinois Criminal Justice Information Authority, para identificar
cluster; e integrada en la versin 2 del software CrimeStat.
Los autores de la rutina STAC, fueron Richard Block Carolyn, Catedrtico de Sociologa, Criminal Justice Loyola University Chicago, IL. y Carolyn
Rebecca Block, Analista de investigacin superior, Illinois Criminal Justice
Information Authority, Chicago, IL.
En 1989, el departamentos de polica en Illinois solicita a Illinois Criminal Justice Information Authority, desarrollar una tcnica para identificar
reas con Zonas Calientes (grupos de puntos muy densos sobre un mapa). El
resultado fue STAC, el primer programa para identificar Zona Caliente de
crimen. A travs de los aos, se han aadido algunos cambios a STAC, pero
el algoritmo sigue siendo el mismo. STAC es un programa rpido y de fcil
uso que permite identificar y visualizar reas de zonas calientes.
En CrimeStat la rutina STAC, busca identificar los cluster ms densos,
basndose en la distribucin de los puntos sobre el mapa, identifica las principales concentraciones de puntos. Se puede representar las zonas calientes
por elipses de desviacin estndar o cpsulas convexas, o en ambas formas.
STAC es un algoritmo de cluster tipo bsqueda, en sentido de que un
crculo es colocado sobre cada uno de los nodos de una rejilla, y se cuenta
el nmero de puntos dentro cada crculo. Esta rutina comparte con otras
rutinas de bsqueda la propiedad de pruebas mltiples, pero difiere en que la
73
74
75
se mostrar. Y para radios de bsqueda pequeos generalmente, traen consigo ms grupos de menor tamao. Una buena estrategia es comenzar con un
radio ms amplio y analizar las reas puntos calientes, siguiendo con radios
de bsqueda ms pequeas.
Las unidades para el radio de bsqueda deben ser especificadas. El valor
por defecto de la unidad es la milla y con un valor para el radio de bsqueda
igual a 0,5 millas. Se recomienda ser cuidadoso al usar un radio de bsqueda
mayor, puede generar elipses muy grandes y poco til. Es recomendable experimentar para determinar un radio apropiado.
Nmero mnimo de puntos por cluster: El nmero mnimo de puntos a incluir en cada cluster debe ser especificado. El lmite mnimo de puntos en un
grupo es dos. Por defecto es un mnimo de 10.
rea delimitada: Se debe elegir el lmite de la data (es decir, los valores
mnimo y mximo de X e Y ) o el lmite de referencia. Se recomienda usar el
archivo de referencia. Si el conjunto de datos se usa para definir los lmites
de referencia, se utilizar el rectngulo ms pequeo que cubre todos los incidentes .
Tipo de exploracin: Se elige el tipo de bsqueda o exploracin (scan type)
para la rejilla. Si el rea de anlisis tiene mayormente un patron de calles
tipo cuadrcula, elija rectangular; por el contrario, si el rea de anlisis generalmente tiene un patrn irregular de calles, elija triangular.
Salida grfica: La rutina genera la salida grfica como elipse de desvo estndar o como Cpsula convexa, o ambas a la vez. Para elipses, debe elegir el
nmero de desviaciones estndar (1X, 1.5X, y 2X desviaciones estndar).
Seleccionando elipse con una desviacin estndar, los clusters obtenidos raras
76
veces se solapan, mientras que las elipse de 1.5 y 2 desviaciones estndar generalmente se traslapa. Una elipse grande puede incluir ms puntos de los que
forman la cluster; mientras que una elipse pequea identificar ms eficientemente los grupos. El usuario debe trabajar en equilibrio con la definicin de
cluster y el tamao, permitiendo identificar el inicio de uno y el final del otro.
La rutina en CrimeStat permite la salida un documento para copiar o
imprimir, este documento no tiene un nombre definido, y la mejor manera
de guardarlo es colocar el cursor dentro de la ventana de salida y seleccionar
todo, luego copiar y pegar la seleccin en un documento texto. El documento
de salida presenta la siguiente informacin:
1. La salida, en la primera seccin muestra el tamao de archivo principal, y los parmetros seleccionados para ejecutar la rutina. Tipo de
distancia, directa o indirecta. Tipo de bsqueda, indica el tipo de rejilla rectangular o triangular. Unidades de entrada, indica las unidades
de las coordenadas especificadas en la configuracin, grados (en caso
de latitud y longitud) o en metros o pies (en caso de proyecciones).
Las unidades de salida, indican las unidades de densidad y longitud
especificada en la configuracin para la salida de elipses. Generalmente, las unidades de salida son en millas o kilmetros, para el radio de
bsqueda, rea limitada por los lmites de las coordenadas (esquina inferior izquierda y esquina superior derecha del rea de estudio) nmero
de puntos en el interior del rea limitada (contados dentro del archivo
referencia); cuando el rea del archivo de referencia es menor que la
utilizada en el anlisis, este nmero puede ser menor que el nmero de
puntos en el archivos principal. Si la simulacin es ejecutada, se indica
el nmero de corridas especificadas en la configuracin.
2. En la segunda seccin, STAC proporciona un resumen estadstico de
cada cluster encontrado, o zona caliente.
77
a) El nmero de identificacin de cada Cluster o elipse, correspondiente a su orden en la tabla en ArcView o MapInfo.
b) Las coordenadas de la media central X e Y, de cada elipse.
c) Los grados de rotacin de cada elipse (0 es horizontal; 90 se vertical).
d ) La longitud del eje X, y el eje Y, de cada elipse (en las unidades
de salida seleccionada).
e) El rea de cada elipse en unidades cuadradas. Elipses estn ordenados en funcin de su tamao.
f ) El nmero de puntos de cada cluster.
g) La densidad de cada cluster, el nmero de puntos por unidad de
rea. El mayor grupo no es necesariamente el ms denso. Puede
suceder que el grupo ms pequeo, tenga la mayor densidad.
3. La tercera seccin muestra los resultados de la simulacin, si sta ha
sido ejecutada. La salida incluye el nmero de clusters ordenados con
los percentiles, el rea, el nmero de puntos, y la densidad.
Test de significancia de las agrupaciones
CrimeStat incluye una rutina de simulacin de Monte Carlo en STAC, que
produce la aproximacin a los intervalos de confianza del nmero de clusters
encontrados, bajo el modelo particular de STAC que se ha ejecutado.
La diferencia entre la densidad de los incidentes en elipses de STAC en
una data espacia completamente aleatorizada y las elipses de STAC de la
data observada, es una prueba de la fortaleza de la agrupacin detectada por
STAC. Esencialmente, la simulacin de Monte Carlo asigna aleatoriamente
n puntos en un rectngulo con la misma superficie que el rea de estudio
como se ha especificado, y evala el nmero de cluster de acuerdo con los
78
1. STAC requiere del archivo primario y un archivo del referencia. Opcionalmente se ejecuta una simulacin, STAC requiere el rea del archivo
referencia (measurement parameters).
2. Definir el archivo de referencia. El analista puede hacer un anlisis
en diferentes reas de jurisdiccin, mediante el uso de un archivo de
referencia. Por ejemplo, definir el archivo de referencia para localizar los
sectores de toda la ciudad, como tambin definir el archivo referencial
cada uno de los municipios como reas de referencia adicionales. As ,
el mismo archivo de incidentes puede ser utilizado para el anlisis de
las diferentes reas utilizando varios archivos de referencia.
3. Definir el radio de bsqueda. En general, un anlisis en dos etapas es
mejor. Comience con un radio de bsqueda mayor y analice reas de
puntos calientes, luego continue con un radio de bsqueda menor.
4. Ajuste la salida de las unidades en kilmetros o millas.
5. Debe especificar el nombre de archivo de salida para los elipses o cpsulas convexas.
6. Haga clic en el botn parmetros STAC.
79
Ventajas de STAC
La tcnica STAC tiene un buen nmero de ventajas como algoritmo de
agrupacin:
STAC puede analizar un gran nmero de casos rpidamente. Es muy
rpido usando Proyecciones Euclidianas como UTM o State Plane, y
un poco ms lento usando coordenadas esfricas (longitud/latitud).
En STAC el usuario controla el tamao aproximado de las elipses por
medio del radio de bsqueda, el nmero mnimo de puntos por elipse,
y el rea de estudio. Estas caractersticas permiten una bsqueda ms
amplia para reas de zonas calientes en una ciudad entera, y una segunda bsqueda se centra en un rea ms pequea (locales) y obteniendo
zonas calientes de uso tctico.
STAC y el cluster jerrquico son complementarios. El cluster jerrquico
calcula elipses pequeos y luego los agrega a los de mayor tamao. El
procedimiento en STAC, recomienda en primer lugar obtener a gran
escala elipses y luego analizar stos para uso tctico.
La salida grfica de STAC, puede ser como elipses o cpsulas convexas.
No es necesario limitar los puntos calientes a un nico tipo de delito o
incluso lugar. Es decir, se pueden comparar diferentes tipos de delitos
con elipses. Por ejemplo, elipses de robos callejeros con las ventas de
licor.
STAC combina las caractersticas de la estructura jerrquica con mtodos de particin, y adapta el tamao de los grupos.
A diferencia de la rutina Nnh, que tiene una distancia umbral constante
(radio de bsqueda), STAC puede crear grupos de tamao diferentes,
80
2.4.6.
Cluster K- medias
81
jerrquico del vecino ms cercano (Nnh), todos los puntos son asignados a
algn cluster. Por lo tanto, no existe una jerarqua en la rutina, es decir, no
hay clusters de segundo orden o de orden superior.
La tcnica es til cuando el investigador necesita controlar el nmero de
grupos. Por ejemplo, si hay 10 casillas en una jurisdiccin, y el analista debe
identificar los 10 grupos ms compactos, uno por cada distrito.
Por definicin, la tcnica es algo arbitraria debido a que el investigador
debe definir el nmero de agrupaciones que se esperan encontrar.
La teora del procedimiento de la rutina K-media relativamente sencillo,
es ms complicada la aplicacin. Las K-medias representa un intento por
definir el nmero de lugares ptimos, donde la suma de la distancia de cada
punto a cada uno de los K centros es mnima. Es una variante del viejo paradigma de la teora de la localizacin de cmo ubicar K instalaciones dada
la distribucin de poblacin; por ejemplo, estaciones de polica, hospitales,
centros comerciales, etc.; es decir, cmo se identifican las localizaciones de
suministro en relacin con la demanda de lugares. En teora, la solucin de
esta cuestin es una solucin emprica, lo que es llamado frecuentemente optimizacin global. Se intentan todas las combinaciones de k objetos, donde
k es un subconjunto de la poblacin total de los N incidentes, y mide la
distancia de cada punto a todos los k lugares. La combinacin particular que
da la suma mnima de todas las distancias (todas las distancias al cuadrado)
es considerada la mejor solucin. Sin embargo, en la prctica, si N es grande,
esta solucin es computacionalmente casi imposible. Por ejemplo, con 6.000
incidentes agrupados en 20 particiones (agrupaciones), no se puede solucionar
con cualquier computador normal, pues hay
6000!
20! 5980!
82
En la prctica, las distintas implementaciones de la rutina K-medias hacen conjeturas acerca de las K localizaciones iniciales, y luego optimizan estas
localizaciones en relacin con los puntos cercanos. Esto se llama optimizacin
local. Desafortunadamente, cada rutina de K-media tiene una manera diferente de definir las primeras localizaciones, motivo por el cual dos ejecuciones
de K-medias, generalmente no producen los mismos resultados, incluso si K
es idntica.
La rutina K-medias en CrimeStat
La rutina K-medias en CrimeStat tambin hace una primera suposicin
acerca de la localizacin de las K agrupaciones, y optimiza la distribucin a
nivel local. El procedimiento hace estimaciones iniciales de la localizacin de
los K grupos (K semillas), asigna todos los puntos a su ms cercana localizacin (semilla), re-calcula un centro para cada cluster que se convierte en una
nueva semilla, y repite el procedimiento. El procedimiento se detiene cuando
hay muy pocos cambios en la composicin del cluster.
Por defecto la rutina de K-medias sigue un algoritmo para agrupar cada
puntos en un nica grupo. Hay dos pasos generales: primero: la identificacin
de una semilla inicial para la localizacin de los K grupos; y el segundo, la
optimizacin local el cual asigna cada punto al cluster ms cercano de los K.
La metodologa de seleccin de los K lugares consiste en colocar una rejilla
superpuesta sobre la data, y el nmero de puntos que caen dentro de cada
celda de la rejilla es contado. La celda con el mayor nmero de puntos es el
primer grupo inicial. A continuacin, el segundo grupo inicial es la celda con
el segundo nmero mayor de puntos, que se encuentre separada al menos por
83
A
N
(2.8)
84
85
SSEC
NC
X
=
[(XiC X C )2 + (YiC Y C )2 ]
(2.9)
i=1
CM EC =
SSEC
(NC 1)
(2.10)
donde XiC e YiC son los valores de las coordenadas Y e Y de los punto que
pertenece al grupo C; X C y Y C son las coordenadas de la media de los puntos
que pertenece al grupo C, y NC es el nmero de puntos en el grupo C.
SSEC
(2.11)
X
C
donde
P
C
SSEC
(2.12)
(N k 1)
86
87
de visualizacin. Para las cpsulas convexas, la rutina crea un polgono alrededor de los puntos en cada grupo.
Ventajas y desventajas de la rutina K-medias
El procedimiento K-medias divide la data en k de grupos especificados
por el usuario. En consecuencia, el sentido de estos grupos depender de la
eleccin del nmero de agrupaciones; la eleccin de un nmero muy grande
puede conducir a patrones que no existe realmente, mientras que la eleccin
de un nmero pequeo no permitir la diferenciacin entre vecindades o
sectores que son claramente diferentes.
El procedimiento K-medias puede utilizarse como una herramienta de
exploracin para determinar posibles zonas calientes, ya que le permite al
investigador cierto control sobre el tamao de los clusters; mientras que otras
rutinas no son flexibles en este sentido; por ejemplo, el mtodo jerrquico del
vecino ms cercano, genera una solucin basada en la proximidad geogrfica,
y la mayora de las agrupaciones son pequeas.
Sin embargo, esta caracterstica que permite el control sobre el tamao
de los grupos, tambin deja a la tcnica propensa al mal uso. No se debe elegir en forma arbitraria el nmero de cluster, y esperar a obtener resultados
significativos.
La tcnica es vista tanto como una herramienta de exploracin, como un
instrumento para refinar la bsqueda de zonas calientes. Si se conoce con
cierta certeza posiblemente donde puede haber zonas calientes (basado por
ejemplo, en la experiencia o en informes de oficiales), entonces la tcnica puede ser utilizada para comparar si los hechos corresponden a la percepcin.
Tambin puede ayudar identificar las zonas calientes que no son fcilmente
percibidas o identificadas por los agentes.
Anlisis espacio-tiempo
2.5.
88
Anlisis espacio-tiempo
Introduccin
En los departamentos de polica, generalmente, se conoce que los delitos
o incidentes criminales no ocurre uniformemente a lo largo del ao, estos a
menudo ocurren en perodos de tiempo, y algunas veces en ciertas vecindades
o zonas especficas. Esta situacin hace necesario reflexionar sobre la relacin
que puede existir entre el tiempo y el espacio, el estudio de esta relacin ha
sido desarrollada sobre todo en el campo de epidemiologa, donde se han desarrollado tcnicas para describir la relacin, sin embargo, la mayor parte de
estas tcnicas son aplicables al anlisis de crimen.
En esta seccin, se estudian las tcnicas para analizar la relacin (interaccin) entre el espacio y tiempo. Hasta ahora, se ha analizado la distribucin
de incidentes independientemente del orden o perodo de tiempo en que suceden.
CrimeStat incluye cuatro tcnicas de espacio-tiempo: el ndice de Knox,
el ndice de Mantel, el promedio de mvil espacial temporal, y el anlisis de
caminata correlacionada. Sin embargo, en este trabajo se exponen slo los
dos primeros ndices.
Interaccin entre Espacio-tiempo
Hay diferentes tipos de interaccin que podra ocurrir entre el espacio y
el tiempo. A continuacin se describen algunos:
Primero, puede haber Cluster espacial todo el tiempo. Algunas comunidades son propensas a ciertos acontecimientos; por ejemplo, los robos, a
menudo son concentrados en localizaciones particulares, como son robos de
vehculo. Si este es el caso, las herramientas para identificar zonas caliente,
Anlisis espacio-tiempo
89
tratados en la seccin anterior, son tiles para identificar estas concentraciones. En este caso, no hay interaccin alguna entre espacio-tiempo, puesto
que el cluster ocurre siempre (todo el tiempo).
Segundo, podra haber cluster espacial dentro de un perodo de tiempo
especfico. Las zonas calientes pueden ocurrir durante ciertos perodos de
tiempo. Por ejemplo, los choques de automvil tienden a ocurrir con mayor
frecuencias en la tarde y primeras horas de la noche, como consecuencia de la
congestin en las carreteras; claramente las zonas calientes de choques tienden aparecer en ciertas horas debido a la alta concentracin, mientras que
en la mayor parte del tiempo no ocurre, porque los niveles de congestin son
inferiores.
En tercer lugar, puede haber cluster en espacio-tiempo. Una serie de eventos pueden ocurrir dentro de un corto perodo de tiempo en un rea concentrada. Este tipo de efecto es muy comn con robos de vehculos. Por ejemplo,
una banda de ladrones de autos puede decidir un ataque en una zona, y luego
de un cierto nmero de robos, se trasladan a otra zona. En este caso, existe
una serie de robos que se producen dentro de un perodo de tiempo limitado,
en un rea limitada. El cluster o grupo se desplaza de un lugar a otro. Esta
situacin presenta interaccin espacio-tiempo, en el espacio las zona calientes
aparecen en determinados momentos, es decir, son temporales. La capacidad
de detectar este tipo de cambio es muy importante para los departamentos
de policas, ya que afecta a su capacidad de respuesta.
Cuarto, puede haber interaccin espacio-tiempo donde la relacin entre el
espacio y el tiempo es ms complejo. La interaccin podra ser concentrada,
como en el cluster espacial mencionado anteriormente, o esto podra seguir
un modelo ms complejo. Por ejemplo, podra haber una difusin de ventas
de droga de una localizacin central a un rea ms dispersa. Mientras que
Anlisis espacio-tiempo
90
2.5.1.
El ndice de Knox
El ndice de Knox es una simple comparacin de la relacin entre los incidentes, en los trminos de distancia (espacio) y tiempo. Es decir, cada par de
individuos es comparado en trminos de distancia y en trminos de intervalo
Anlisis espacio-tiempo
91
No cercano en tiempo
O1
O2
S1
O3
O4
S2
S3
S4
Cercano en
distancia
No cercano
de distancia
N = O1 + O2 + O3 + O4
S1 = O1 + O3
S2 = O3 + O4
S3 = O1 + O3
S4 = O2 + O4
El nmero de observaciones que cae en cada una de las cuatro celdas son
comparados, con el nmero esperado, como si no existiera alguna relacin
entre la cercana en distancia y cercana en tiempo.
El nmero esperado de pares en cada celda bajo estricta independencia
entre la cercana en distancia y el intervalo de tiempo se obtiene por los
productos cruzados de los totales de las columnas y las filas.
Anlisis espacio-tiempo
92
No cercano en tiempo
E1
E2
E3
E4
Cercano en
distancia
No cercano
de distancia
(Oi Ei )2
, con 1 grado de libertad
Ei
(2.13)
Anlisis espacio-tiempo
93
Anlisis espacio-tiempo
94
Anlisis espacio-tiempo
95
2.5.2.
El ndice de Mantel
(2.14)
1
N
N
i=1 j=1 (xij x)/Sx (yij y)/Sy
N 1
N
N
i=1 j=1 zx zy
,
r=
N 1
(2.15)
Anlisis espacio-tiempo
96
donde xij y yij son las variables originales para comparar las dos observaciones, i, j, y zx y zy son las variables normalizadas.
Simulacin Monte Carlo para obtener un intervalo de confianza
A pesar de que el ndice de Mantel es un producto de correlacin de Pearson entre el momento de distancia y el intervalo de tiempo, las medidas no
son independientes, de hecho, son dependientes. Por consiguiente, la prueba
de significacin habitual para un coeficiente de correlacin no es apropiado.
En su lugar, la rutina de Mantel ofrece una simulacin para los intervalos de
confianza alrededor del ndice.
El ndice de Mantel contrasta la hiptesis nula de la distribucin de la
data en espacio y tiempo es aleatoria (no interaccin entre espacio y tiempo),
versus a la hiptesis alternativa de presencia de un esquema de interaccin
entre espacio y tiempo, es decir:
H0 : no existe no interaccin entre espacio y tiempo
V s.
Ha : existe interaccin entre espacio y tiempo
Es una prueba de dos cola, donde un valor muy bajo o muy alto indica interaccin entre espacio y tiempo. Por ejemplo, para un nivel de significancia
de 5 %, si el valor observado del estadstico de Mantel es menor que el valor
asociado al percentil de 2.5 %, si el valor observado del estadstico es mayor
que el valor asociado al percentil de 97.5 %, la hiptesis nula distribucin
aleatoria es rechazada.
Al ejecutar una simulacin, la rutina selecciona aleatoriamente M pares
de distancia e intervalo de tiempo, donde M es el nmero de parejas en el
Anlisis espacio-tiempo
97
Anlisis espacio-tiempo
98
Anlisis espacio-tiempo
99
Captulo 3
Anlisis de resultados
Introduccin
En este captulo, se analiza mediante las tcnicas de estadstica espacial
el delito tipificado como Robo a persona, ocurridos en el Estado Mrida, especficamente en los Municipios: Campo Elas (Ejido), Libertador (Mrida)
y Santos Marquina (Tabay), durante el perodo 2007 - 2008: empleando para
ste fin, el software CrimeStat, y el software ArcGis (ArcView), este ltimo
como sistema de informacin geogrfico.
Para desarrollar el anlisis exploratorio de datos espaciales, como primer paso se presenta el mapa del delito, que consiste simplemente en ubicar
los delitos en el mapa de la zona en estudio. Seguidamente se calculan los
estadsticos descriptivos, de tendencia central y de dispersin (estadsticos
centrogrfico). Luego se estudia si existe alguna relacin espacial, Autocorrelacin Espacial; esta caracterstica se analiza mediante los estadsticos de
Moran, el C de Geary, el correlogama de Moran, el k de Ripley, y el ndice
del vecino ms cercano. La seccin 2.4 se dedica al anlisis exploratorio de
clusters (zonas calientes): que consite en la localizacin y anlisis de conglomerados, mediante las tcnicas de K-means, mtodo Jerrquico de vecinos
Anlisis descriptivo
101
3.1.
Anlisis descriptivo
La figura (3.1) muestra el mapa del delito tipificado como Robo a Persona, en este mapa se puede apreciar que la mayor concentracin de robo a
persona se presenta en el centro de la Ciudad de Mrida, sin embargo, esta
Anlisis descriptivo
102
Anlisis descriptivo
103
Anlisis descriptivo
104
Anlisis descriptivo
105
106
3.2.
3.2.1.
107
3.2.2.
108
una milla
una milla+d(xi ,xj )
109
3.2.3.
Correlograma de Moran
110
111
112
para el primer intervalo con distancia igual a 1377.30 m el valor del ndice
es igual a -1.678522, este valor est fuera del rango, debido posiblemente a
puntos extremos en la frontera que generan este resultado; sin embargo, para distancias mayores a 2754.60 m, el ndice indica autocorrelacin positiva,
comenzando en 0.3303, para 2754.60 m, y luego cae hasta estabilizase en
0.173370, para todo el rea de estudio; adems en cada intervalo de distancia
el valor emprico del ndice es mayor que el valor mximo de la simulacin.
Indicando lo muy poco probable que el ndice obtenido en cada intervalo a
partir de primero, sea debido al azar o a valores extremos, es decir, la autocorrelacin espacial positiva es significativa en cada intervalo de distancia, y
no se debe a puntos muy cercanos que hallan distorsionado el ndice.
Esta descripcin se puede visualizar claramente en la figura 3.12, que se
presenta a continuacin.
3.2.4.
113
114
3.2.5.
Una ampliacin del anlisis del vecino ms cercano que puede generar
mayor informacin de las caractersticas de la distribucin de una data espacial, es el ndice conocido como el k-simo vecino ms cercano, que consiste
en usar las distancias del segundo, tercero, ..., el k-simo vecino ms cercano. sta tcnica, generalmente, se realiza cuando se ha concluido que la
distribucin no es aleatoria, y presenta algn patrn de cluster.
La Figura 3.14, corresponde al grfico del k-simo vecino ms cercano, en
el mismo se visualiza cluster para los primeros 28-simo vecinos ms cercanos; del primer ndice con valor igual a 0.872831, hasta el cuarto se observa
crecimiento del ndice, alcanzando un mximo con un valor igual 0.979421,
inmediatamente cae alcanzando un mnino valor del ndice igual a 0.891, en
el 18-simo vecino ms cercano, luego sigue un rpido incremento del ndice
superando el valor esperado, sta situacin indica la no existencia cluster a
115
3.2.6.
Estadstico de Ripley
Para aplicar y analizar el estadstico L de Ripley a la data espacial en estudio, se ejecut una simulacin con 250 iteraciones, los resultados se muestran
en la Figura 3.15, donde se ve claramente la presencia de cluster espacial (autocorrelacin o patrn no aleatorio) altamente significativo, alcanzando un
116
valor mximo igual a 889.86 para una distancia prxima a 1209.3m (1.2Km);
luego el ndice decrece a partir de 1209.3m, hasta alcanzar un valor del ndice
igual 245.3, calculado en una distancia de 2687.4m. El comportamiento que
presenta el estadstico L, tambin lo presentan los ndices calculados a partir
de la simulacin, comportamiento sesgado debido a la falla de borde.
3.2.7.
Conclusin
obtenida
117
con
los
indicadores de
autocorrelacin espacial
De acuerdo con los ndices Moran, Gerary y el ndice del vecino ms cercano existe autocorrelacin global significativa, es decir, la existencia de un
patrn no aleatorio en la data. Al aplicar el estadstico del k-simo vecino
ms cercano, se observa la existencia de cluster significativa en los 28 primeros vecinos ms cercanos, sin embargo, se presenta un fenmeno en el 4,
5, 6-simo vecinos, indicando debilidad estos clusters respecto de los dems,
con valores 0.97942, 0.953, 0.97226, respectivamente. El estadstico de ripley,
confirma el resultado obtenido con el estadstico del k-simo vecino mas cercano, es decir, la existencia de cluster local.
En la siguiente seccin se explora la data espacial en estudio, mediante
las tcnicas para el anlisis de zonas calientes.
3.3.
3.3.1.
118
119
la zona norte; tal vez son cluster de segundo orden. Sin embargo, los clusters
en el centro de la ciudad, son ms claros y posibles clusters reales.
Una segunda prueba con un k igual a 8 grupos , y distancia de separacin
igual a 10, la rutina calcul cuatro grupos (ver figura 3.17), distribuidos de
la siguiente forma: uno en Ejido, el segundo centrado en sector los Curos y
La Parroquia; el tercero centrado en el Pie del Llano, cubriendo parte de las
Av. 16 de septiembre, Urdaneta, Andrs Bello, y Av. Las Amricas; el cuarto
grupo se encuentra ubicado en el centro de la ciudad (figura 3.17), estos
grupos corresponden a clusters de segundo orden, y posiblemente dentro
de estos grupos se encuentran los clusters ms pequeos y reales, adems
estos cuatros clusters cubren sectores con caractersticas indicadoras de zonas
calientes.
Figura 3.17: K-medias: k=8 cluster con una distancia de separacin igual a 10
Una tercera prueba con un k igual a 8 grupos, y una distancia de separacin igual a 4, la rutina calcul 8 grupos, distribuidos de la siguiente forma:
120
Figura 3.18: K-medias: k=8 cluster con una distancia de separacin igual a 4
En una cuarta ejecucin de la rutina K-media, con 7 cluster y una distancia de separacin igual a 4, se observ la distribucin semejante a la anterior,
con la diferencia que los dos clusters ubicados en el centro de la ciudad, se
unen para forman un solo cluster.
121
3.3.2.
122
Figura 3.20: Cluster generados por la tcnica STAC con un radio de bsqueda
igual a 600 m y una simulacin igual a 1000
123
124
125
3.3.3.
126
Figura 3.23: Cluster generados por la tcnica del vecino ms cercano con distancia
esperada
127
ubica entre las Av. 7 y 8 con calle 17 y 18, alrededores de la Plaza Beln. Los
otros dos clusters se ubican uno por la Av. Los Prceres, al frente del centro
comercial Alto Prado, y el otro en Ejido, a lo largo de la calle Ayacucho,
entre las Av. Fernndez Pea y la Av. Bolvar.
Respecto a los Clusters de segundo orden, se forma un slo cluster que se
ubica en el centro de la ciudad de Mrida, centrado en la calle 30 con Av. 3,
como se muestra en la Figura 3.24; cubriendo a la zona comprendida entre
las calles 22 y 37, y parte de la Av. Las Amricas entre los Viaductos Campo
Elas y Miranda. El rea o zona que cubre el cluster de segundo orden, es un
poco exagerado, debido a que la zona es dividida por el ro y su cause, sin
embargo, el cluster cubre toda la zona y se presenta como uno slo.
Con distancia umbral fija
Despus de hacer varias pruebas, se elige una distancia igual a 400 m,
con un p = 0, 05, y un mnimo de cinco puntos, en un rea de 65000000 m2 ,
128
considerando que sta seleccin gener los mejores resultados en las pruebas.
Con estos criterios y una simulacin igual a 1000, se ejecut la rutina,
resultando 11 grupos; y la simulacin gener para un nivel de confianza del
5 % (dos colas), un mnimo de un grupo y un mximo de 8 ocho grupos (uno
y ocho grupos, para los percentiles 2, 5 % y 97, 5 % respectivamente, ver en
anexo figura A.6); este resultado indica que once clusters obtenidos son esta-
Figura 3.25: Cluster generados por la tcnica del vecino ms cercano fija
dsticamente significativos; adems, es importante resaltar, que hay grupos
que se observan en lugares que se conocen por experiencia como zonas rojas
o zonas crticas, como los clusters ubicado en la Av. 16 de septiembre; el
cluster ubicado en la entrada del Barrio Simn Bolvar, entre calles 17 y 21;
y en la plaza Beln. Los dems se distribuyen como siguen, uno en la Av.
Las Amricas, alrededor del C.C. Canta Claro, salida Cruz Verde; y el otro
en la Av. Los Prceres, frente del CC Alto Prado; y tres clusters ubicado en
el centro de Mrida, entre la calle 26 y 36, a lo largo de las Av. 2 y 3. En
la parte alta, salida del centro se presenta otro cluster, especficamente en la
Av. Universidad, entrada Barrio Andrs Eloy, que se extiende hasta la parte
baja de la Hoyada de Milla, como se observa en la figura 3.25. Adems en
129
Ejido resultaron dos cluster, uno muy grande que cubre parte del centro, el
sector conocido como El Palmo, y parte de Aguas Calientes, y el segundo en
la Av. Bolvar, entre las calles Rangel y Jauregui. Y cluster que aparece en
el sector La Parroquia, como se observa en la figura 3.25.
3.3.4.
130
Figura 3.27: Clusters generados por la tcnica NnhJ con distancia fija de 400 m
estos criterios son estadsticamente significativos (ver tabla en figura 3.27),
es decir, son producidos por un patrn no aleatorio.
La distribucin de estos clusters se muestra en la figura 3.28, y se describe
a continuacin: cuatro de ellos se distribuyen en el casco central, entre las
calles 19 y 31; uno entre las Av. 4 y 6, y calles 25 y 27; entre las calles 19 y
131
21 con Av. 2 Lora, se localizan dos clusters muy cercanos (uno del otro), uno
entre las calles 21 y 22, entrada Barrio Simn Bolvar, y el otro se encuentra
3.4.
132
3.4.1.
ndice de Knox
Se ejecuta la rutina de Knox con intervalos de distancia igual a 500 metros y 7 das para el tiempo, con una simulacin igual a mil, donde resulta
un ndice de Knox igual a 0,05545 no significativo en ningn nivel, como
se observa en la figura 3.29. Nuevamente se ejecuta la rutina de Knox con
133
Figura 3.30: Knox: Ejecucin con 15 das con 1000 y 2000 metros
caso anterior, al 5 % es estadsticamente no significativo, como se muestra en
la figura 3.30. Nuevamente se repite la prueba, ahora con distancia igual a
2000 metros, con un intervalo de tiempo igual 15 das, y la simulacin igual a
1000. Los resultados son semejantes a los casos anteriores, el ndice de Knox
igual a 0.83567, es estadsticamente no significativo al 5 %.
Se ejecut la rutina de Knox con intervalos de distancia y perodo tiempo igual a la mediana y a la media (ver figura 3.31), y en ambos casos los
resultados fueron estadsticamente no significativos.
134
3.4.2.
ndice de Mantel
135
Conclusiones
3.5.
136
Conclusiones
El uso de las tcnicas de estadstica espacial conjuntamente con el software ArcGIS (sistema de informacin geogrfica) permiti con gran facilidad
la exploracin y bsqueda de clusters estadsticamente significativos, en la
data Robo a Personas referenciada, y ocurridos en el Estado Mrida, especficamente en las Municipios Campo Elas, Libertador y Santos Marquina,
durante el periodo 2007 - 2008. De esta forma se concluye:
En el mapa del delito Robo a Personas, se observa mayor concentracin
en el centro de la ciudad de Mrida; situacin que no debe causar
alarma, pues es lo que se espera en casi todas la variables que miden o
indican una caracterstica o fenmeno social.
Los estadsticos descriptivos de tendencia central, se ubican cerca del
centro de la ciudad de Mrida; en direccin a la lnea Nor-este al Suroeste, especficamente en la Av. 2 Lora entre las calles 34 y 38, se
encuentra la mediana central, el centro de distancia mnima, y la media
armnica; y en la Av. Las Amricas, al rededor del C.C. El Rodeo, se
ubica la media central y la media geomtrica.
Los estadsticos de dispersin indican que la distribucin de la data es
alargada en direccin Nor-este al Sur-oeste.
Conclusiones
137
Conclusiones
138
Se concluye que la data Robo a Personas no presenta interaccin significativa entre espacio y tiempo.
Recomendaciones
3.6.
139
Recomendaciones
Basndose en la informacin obtenida, se recomienda a los entes encargados de aplicar las polticas de prevencin del delito y a los cuerpos policiales
prestar mayor atencin y vigilancia en los sectores que resultaron identificados como zonas Calientes. Y particularmente en los sectores que resultaron
con alto riesgo, como en los alrededores de la Av. 2, en la entrada a los Barrios Pueblo Nuevo y Simn Bolivar; en la Av. Los prceres, frente al C.C.
Alto Prado; y entre las Av. 4 y 6, y calles 25 y 27.
Con este trabajo se muestra la utilidad y gran ayuda que puede prestar la implementacin de las tcnicas de estadstica espacial en el campo de
la criminologa, tanto a los entes encargados de mantener el orden, como a
los analistas del crimen, adems que permite fcilmente la manipulacin de
gran volumen de informacin. En tal sentido, se recomienda la implementacin de la estadstica espacial, conjuntamente con un sistema de informacin
geogrfica (GIS), en el anlisis del crimen.
A
Anexo
A.1.
141
Figura A.2: Suma de los cuadrados medios y cuadrados del error (SCM y SCE):
Cluster con k igual a 12 y p igual a 1
Figura A.3: Suma de los cuadrados medios y cuadrados del error (SCM y SCE)
Cluster con k igual a 8 y p igual a 4
142
Figura A.4: Suma de los cuadrados medios y cuadrados del error (SCM y SCE)
Cluster con k igual a 8 y p igual a 10
Figura A.5: Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000
143
Figura A.6: Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000 fija
144
Figura A.7: Clusters generados por la tcnica STAC con un radio de bsqueda
igual a 250 m y una simulacin igual a 1000
145
Figura A.8: Clusters generados por la tcnica STAC con un radio de bsqueda
igual a 150 m y una simulacin igual a 1000
146
Figura A.9: Clusters generados por la tcnica STAC con un radio de bsqueda
igual a 100 m y una simulacin igual a 1000
Bibliografa
[1] Cressie C. Noel A. 1993. Statistics for Spatial Data. Wiley J. & Sons,
Inc. New York.
[2] Levine Ned & Asociates. 2009. A Spatial Statistcs Program for the
Analysis of Crime Incident Locations. The National Institute of Justice.
Washinton, Dc.
http://www.icpsr.umich.edu/icpsrweb/CRIMESTAT/download.jsp
[3] Moreno Serrano R.; Vay Valcarce E. 2000. Tcnicas economtricas para el tratamiento de datos espaciales: La economa espacial. Universitat
de Barcelona. Espaa.
[4] Vilchez Villalobos J. G. 2000. Introduccin a los Sistemas de Informacin Geoespacial. Universidad de los Andes. Mrida-Venezuela.
[5] Crujeiras Casais Rosa Mara. Modelos de Estadstica Espacial:
Procesos reticulares. Universidad de Santiago de Compostela.
http://eio.usc.es/pub/Crujeiras/apuntes/apuntes-master.pdf
[6] Ivn Santiago. 2007. Fundamentos de ArcGIS versin ArcView 9.1.
rea de Tecnologas de Informacin, Gubernamental Oficina de Gerencia y Presupuesto. San Juan, Puerto Rico.
http://www.gobierno.pr/G2GPortal/Inicio/ComunidadIT/SIG/ ApoyoTecnico.htm
BIBLIOGRAFA
148