You are on page 1of 9

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/221419375

Aplicación de Minería de Datos para la Detección de Anomalías: Un Caso de


Estudio.

Conference Paper · January 2009


Source: DBLP

CITATIONS READS

0 228

2 authors:

Ania Cravero Samuel Sepúlveda


Universidad de La Frontera Universidad de La Frontera
30 PUBLICATIONS   60 CITATIONS    38 PUBLICATIONS   58 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Big Data architecture prototype to find spatiotemporal significant associations between variables in a river basin in southern Chile,
Araucania Region. View project

FMxx: tool for feature modeling using ADOxx technology View project

All content following this page was uploaded by Samuel Sepúlveda on 26 May 2014.

The user has requested enhancement of the downloaded file.


WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009

Aplicación de Minería de Datos para la Detección de Anomalías: Un


Caso de Estudio

Ania Cravero Leal, Samuel Sepúlveda Cuevas


Depto. Ingeniería de Sistemas
Universidad de la Frontera, Temuco, Chile
{acravero, ssepulve}@ufro.cl

Resumen
La Minería de Datos es una de las soluciones de la Inteligencia de Negocios, que ayuda a extraer
conocimiento a partir de datos que las empresas han generado producto de su negocio. Este
conocimiento puede generar aplicaciones de alto valor agregado si el proceso de Minería de Datos
es entendido apropiadamente desde una perspectiva del negocio. Aplicaciones tales como
detección de anomalías para la prevención de fraudes y abusos, análisis de fidelización, cross-
selling, optimización de la cadena de suministro; o conceptos tales como clasificadores y
regresiones basados en redes neuronales han emergido profusamente durante los últimos años en el
vocabulario de muchas empresas como una forma de reflejar el potencial que ellas podrían
alcanzar con esta tecnología aplicada a sus datos.
En este contexto, se implementó una aplicación de Minería de Datos que detecta anomalías con el
fin de detectar posibles abusos en el uso de los principales servicios que otorga la empresa Aguas
Araucanía S.A. Los datos analizados corresponden a las facturaciones de servicios de agua potable
y alcantarillado de clientes en la ciudad de Lautaro, que fueron almacenados previamente en un
Almacén de Datos. Para el análisis se utilizaron algoritmos de Minería de Datos basados en
técnicas de clustering, y la metodología CRISP-DM. Como principal resultado, el sistema permitió
a la empresa reducir, en forma considerable, el tiempo de búsqueda de los posibles fraudes.

1. Introducción conocido como la Detección de Anomalías (DA), entre


otras.
Si se consideran los diversos avances en las ciencias y los
grandes volúmenes de datos que se han generado sólo en El problema de la detección de fraude, radica en el
los últimos años, es posible notar que estos datos han análisis de perfiles de usuario que permitan describir el
sobrepasado claramente nuestra capacidad para comportamiento de un cliente con el fin de detectar
recolectar, almacenar y comprender los mismos sin el uso anomalías. Es por ello que muchos de los softwares
de las herramientas adecuadas [1]. En este contexto es CRM (Customer Resource Management) incluyen
que la Minería de Datos (MD) es una de las soluciones algoritmos de MD con ese fin [7].
que nos ayuda a extraer conocimiento a partir de los
datos. Este conocimiento puede obtenerse a partir de la Es precisamente la DA, la que puede convertirse en una
búsqueda de conceptos, ideas o patrones estadísticamente herramienta de enorme utilidad, que en conjunto con
confiables, que no son evidentes a primera vista, técnicas de Clustering, posibilitan el reconocimiento de
desconocidos anteriormente y que pueden derivarse de grupos de datos cuyo comportamiento sea muy
los datos originales [2]. diferente al resto de los datos y también cuando no
conocemos o no podemos etiquetar de manera confiable
Dentro de las aplicaciones que se le puede dar a la MD se los datos para su clasificación [8].
tienen algunas tales como análisis de fidelización de
clientes, segmentación de mercados, cross-selling, El caso de estudio fue desarrollado en la empresa Aguas
optimización de la cadena de suministro, detección y Araucanía S.A., que por tratarse de una empresa del
prevención de fraudes [2], [3], [4], [5] y [6], detección de sector de Servicios Sanitarios (agua potable,
intrusiones en sistemas computacionales [1] y situaciones alcantarillado, tratamiento de aguas, etc.), la búsqueda
en las que se quiera analizar ciertos datos cuyo de actitudes fraudulentas de los consumidores no forma
comportamiento parecen distintos del resto o también parte de sus funciones activas [9].
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
Los administrativos, presentaron al equipo del proyecto diferentes de los demás. Frecuentemente estos objetos
los problemas detectados por la oficina de fraudes y se son conocidos como Outlier [10] [11]. La DA también
propuso utilizar técnicas de MD para la búsqueda de es conocida como detección de desviaciones, porque
posibles fraudes ocasionados por clientes de la empresa. objetos anómalos tienen valores de atributos con una
desviación significativa respecto a los valores típicos
Actualmente, la oficina de fraudes dispone de personal
esperados. Aunque estas Anomalías son frecuentemente
que revisa físicamente los medidores de los clientes caso
tratados como ruido o error en muchas operaciones,
a caso, con el fin de detectar posibles fraudes. Según
tales como Clustering, por ejemplo para propósitos de
declaran los administrativos de dicha oficina, se ha
detección de fraude son una herramienta valiosa en la
estimado bajo sucesos históricos, que alrededor de un 7%
búsqueda de comportamientos atípicos [12], [13], [14].
de los consumidores cometerían algún tipo de fraude en
contra de la organización. En términos de cómo identificar y agrupar estos datos
anómalos, pueden clasificarse según [10] en técnicas
La empresa al no contar con herramientas que busquen
basadas en:
activamente dichos fraudes, se encuentra en una posición
en la que no puede hacer más que esperar a que el fraude - Modelos: Se basan en el campo de la estadística,
se convierta en algo obvio y claramente visible, como es dada la premisa de conocer la distribución de los
el caso de medidores adulterados que son detectados datos.
durante la inspección visual para el cálculo de consumo,
- Proximidad: Se basan fundamentalmente en el
y sólo entonces se pueden tomar medidas al respecto.
manejo de distancias entre objetos, entre mayor sea
Con estos antecedentes, Aguas Araucanía S.A. ha la distancia del objeto respecto a los demás, éste es
destacado como requerimientos para el proyecto los considerado como una Anomalía.
siguientes puntos:
- Densidad: Se basan en la estimación de densidad de
- Debe ser capaz de analizar y entregar indicadores sobre los objetos, para ello, los objetos localizados en
los siguientes datos: Consumo de servicios entregados regiones de baja densidad y que son relativamente
(agua potable, alcantarillado, etc.), Tiempo (año, mes, distantes de sus vecinos se consideran anómalos. La
semestre, etc.), Ubicación (localidad, sector, ruta) donde principal característica de ésta es que generalmente
se entrega el servicio y las Características del servicio son de aprendizaje no supervisado, pues en la
mayoría de los casos, no se conoce la clase, para
- Debe proveer capacidad de análisis visual, matemático,
ello se asigna una calificación a cada instancia que
y entrega de reportes.
refleja el grado con el cual la instancia es anómala.
En este contexto el objetivo del artículo es presentar un Una de las herramientas necesarias para la DA es el
estudio a través de técnicas de MD que permitan Clustering, que consiste en agrupar un conjunto de
localizar y estudiar comportamientos anómalos sobre datos, sin tener clases predefinidas, basándose en la
conjuntos de datos, para poder así identificar posibles similitud de los valores de los atributos de los distintos
fraudes en clientes que hacen uso indebido de los datos. Esta agrupación, a diferencia de la clasificación,
servicios que ofrece la empresa Aguas Araucanía S.A. Es se realiza de forma no supervisada, ya que no se conoce
por ello que el centro de análisis se realizó sobre el de antemano las clases del conjunto de datos de
Subsistema de Facturación que pertenece al área de entrenamiento. [15], [16], [17].
Gerencia de Cliente.
El Clustering identifica clusters, o regiones densamente
La estructura del artículo presenta en la segunda sección pobladas, de acuerdo a alguna medida de distancia, en
una revisión resumida de las técnicas relacionadas con un gran conjunto de datos multidimensional [18]. El
Clustering y DA, luego, en la sección 3 revisamos Clustering se basa en maximizar la similitud de las
trabajos relacionados con la DA. En la sección 4 se instancias en cada cluster y minimizar la similitud entre
establece la metodología utilizada y en la sección 5 se clusters [19].
discute sobre la experiencia revisada. Finalmente en la
Dentro del análisis de Clustering existen, básicamente,
sección 6 se muestran las principales conclusiones,
los siguientes tipos de métodos: los jerárquicos, los de
impactos y consideraciones sobre implementación de
partición, los basados en densidad, los métodos basados
sistemas para DA y su aplicación en el caso de estudio.
en cuadrículas, los basados en restricciones y los
escalabres [20]. En el caso de los primeros, se intenta
ordenar los elementos a distintos niveles de similitud;
2. Clustering y DA mientras que los segundos, meramente, asignan cada
La meta principal en la DA, es encontrar objetos que sean elemento a un grupo de manera tal de obtener conjuntos
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
homogéneos [21]. De los métodos jerárquicos, podemos Expectation-Maximization (EM) [21] pertenece a una
agregar que estos métodos son sensibles a los elementos familia de modelos que se conocen como Finite
outliers. Consecuentemente, la configuración final de los Mixture Model, los cuales se pueden utilizar para
grupos debe ser cuidadosamente analizada, para detectar segmentar conjuntos de datos. Es un método de
tales situaciones. clustering probabilístico. Se trata de obtener la Función
de Densidad de Probabilidad (FDP) desconocida a la
K-Means [22] en un método particional donde se
que pertenecen el conjunto completo de datos. Esta
construye una partición de una base de datos D de n
FDP se puede aproximar mediante una combinación
objetos en un conjunto de k grupos, buscando optimizar
lineal de NC componentes, definidas a falta de una serie
el criterio de particionamiento elegido. En K-Means cada
de parámetros que son los que hay que averiguar. Cada
grupo está representado por su centro. K-Means intenta
cluster se corresponde con las respectivas muestras de
formar k grupos, con k predeterminado antes del inicio
datos que pertenecen a cada una de las densidades que
del proceso. Asume que los atributos de los objetos
se mezclan. Se pueden estimar FDP de formas
forman un vector espacial. El objetivo que se intenta
arbitrarias, utilizándose FDP normales n-dimensionales,
alcanzar es minimizar la varianza total intra-grupo o la
t-Student, Bernoulli, Poisson, y log-normales. Aquí se
función de error cuadrático [23]. Una desventaja
modelarán los datos mediante distribuciones normales,
importante de este método es su alta dependencia de la
por ser éstas las más comunes.
partición inicial o la selección inicial de los puntos-
centro. Si dos o más puntos-centro caen dentro de lo que Otros algoritmos usados en el análisis de Clúster se
conformaría un mismo cluster, ambos grupos estarían encuentra: DBSCAN, Sequence, Kohonen, TwoStep
pobremente diferenciados. Asimismo la existencia de [25-27].
outliers, produce al menos un grupo con elementos
Debilidades propias del análisis basados en clúster
demasiado dispersos. Además, el no conocer el valor de
tienen que ver con la posibilidad de hacer una mala
K puede dar lugar a agrupamientos no naturales. Por estas
elección de métricas, tal como lo propone [4, 5]. En este
razones, para mejorar la estabilidad del método, es
sentido, puede ser dificultoso combinar variables
deseable volver a correr el algoritmo con otras
continuas y aquellas que representen categorías.
configuraciones iniciales [21].
COBWEB [21, 24] se trata de un algoritmo jerárquico,
que se caracteriza porque utiliza aprendizaje incremental, 3. Trabajos relacionados
esto es, realiza las agrupaciones instancia a instancia.
Durante la ejecución del algoritmo se forma un árbol El uso de la MD para la detección de anomalías con el
(árbol de clasificación) donde las hojas representan los fin de detectar fraudes puede ser muy variado,
segmentos y el nodo raíz engloba por completo el encontrándose distintos tipos de aplicaciones en la
conjunto de datos de entrada. Al principio, el árbol literatura actual. Es así como en [2] se realiza una
consiste en un único nodo raíz. Las instancias se van investigación exhaustiva de uso de la MD para la
añadiendo una a una y el árbol se va actualizando en cada detección de fraudes, definiendo los tipos y subtipos,
paso. La actualización consiste en encontrar el mejor sitio métodos y técnicas para la detección de fraudes, así
donde incluir la nueva instancia, operación que puede como las limitaciones de éstos.
necesitar de la reestructuración de todo el árbol Algo similar ocurre en [6] que propone una aplicación
(incluyendo la generación de un nuevo nodo anfitrión de la MD para la detección de fraudes en subastas por
para la instancia y/o la fusión/partición de nodos Internet, usando para ello análisis de redes sociales y
existentes) o simplemente la inclusión de la instancia en árboles de decisión. La idea es analizar patrones de
un nodo que ya existía. La clave para saber cómo y dónde relaciones e interacción entre participantes de la red,
se debe actualizar el árbol la proporciona una medida con el fin de descubrir estructuras sociales subyacentes.
denominada utilidad de categoría, que mide la calidad
general de una partición de instancias en un segmento. La Por otro lado, [4] propone el análisis de grupo de pares
reestructuración que mayor utilidad de categoría para monitorear el comportamiento en el tiempo en el
proporcione es la que se adopta en ese paso. El algoritmo uso de tarjetas de crédito con el fin de buscar posibles
es muy sensible a otros dos parámetros: acuity que fraudes.
representa la medida de error de un nodo, y cut-off que es Una investigación diferente realiza [3] al definir un
un valor que se utiliza para evitar el crecimiento modelo de costos que permite maximizar los beneficios
desmesurado del número de segmentos indicando el versus minimizar los costos que significa realizar una
grado de mejoría que se debe producir en la utilidad de auditoría en el ámbito fiscal. Propone el uso de árboles
categoría para que la instancia sea tenida en cuenta de de decisión para la búsqueda de anomalías.
manera individual.
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
Un trabajo interesante es el realizado por [28] quien continuación:
propone una nueva definición de anomalías llamada
4.1 Comprensión del negocio
Cluster de Anomalías, la cual se basa en el hecho de que
muchos eventos que podrían considerarse anormales para Para comprender el negocio, fue necesario realizar una
un conjunto de datos pueden agruparse en pequeños serie de reuniones con la Gerencia de Clientes. Los
cluster de anomalías. administrativos, presentaron al equipo del proyecto los
problemas detectados por la oficina de fraude, los que
El autor [1] hace un recuento de aplicaciones de MD
fueron estudiados con el fin de buscar alternativas de
usadas para la detección de intrusos en sistemas
solución. El equipo propone utilizar técnicas de
informáticos. Dentro de este recuento se puede destacar
Clustering para la detección de anomalías con el fin de
el concepto de Minería de Anomalías, que consiste en
obtener un listado de clientes que presenten datos
hacer un análisis de éstos datos anómalos dentro de un
atípicos.
conjunto.
Actualmente, la oficina de fraudes dispone de personal
En la literatura, no se encontraron ejemplos de detección
que revisa físicamente los medidores de los clientes
de anomalías para el uso indebido de servicios sanitarios.
caso a caso, con el fin de detectar posibles anomalías.
Favorablemente, el análisis que se debe realizar es similar
Para ello, en cada inspección se selecciona una
a la detección de fraudes en tarjetas de crédito al
determinada ruta (subsector), la que es revisada por
disponer de un conjunto de clientes que presenta
completo. Este proceso es lento y no asegura la
comportamientos distintos al normalmente establecido
detección oportuna de las posibles anomalías, dado que
por las empresas del rubro. A continuación se describen
no siempre es fácil detectarlos.
los materiales y métodos utilizados para la detección de
anomalías en el uso de servicios ofrecidos por la empresa 4.2 Comprensión de los datos
Aguas Araucanía S.A.
En esta etapa fue necesario analizar el modelo de base
de datos relacional del sistema de información de la
empresa, específicamente aquellas entidades que tienen
4. Materiales y Métodos utilizados relación con el proceso de facturación. Éste mantiene
Para el desarrollo del trabajo se utilizó Clementine información del consumo mensual de uso de agua
Client1, herramienta líder y conocida mundialmente, que potable y alcantarillado de cada cliente que utiliza estos
posee potentes herramientas de visualización y una gran servicios. Obtener el conjunto de datos a analizar no es
variedad de técnicas de aprendizaje automático para un proceso trivial, por tanto fue necesario reunirse con
clasificación, regresión, Clustering y discretización entre personal especializado de la empresa, revisar docu-
otras, entregando apoyo completo para el ciclo de MD a mentación de la base de datos, revisar nombres de
través de la metodología CRISP-DM (CRoss-Industry atributos y el diccionario de datos; entre otros.
Standard Process for Data Mining) [29], lo que reduce el 4.3 Preparación de los datos
tiempo de entrega de la solución final.
En cuanto a los datos de análisis, debió diseñarse un
CRISP-DM es una metodología que ha sido desarrollada Almacén de Datos (AD) que se alimente de las bases de
para la construcción de proyectos de MD. Propone un datos transaccionales a través de un proceso de
ciclo de vida que consiste en seis etapas. La secuencia de extracción de datos previamente definido llamado ETL.
los mismos no es rígida, siempre se requiere desplazarse Los datos son almacenados en un repositorio que
hacia delante y hacia atrás entre las etapas [29]. Estas consiste en hechos y dimensiones representados a través
etapas serán utilizadas para el desarrollo del proyecto. de un esquema en estrella. La tabla de hechos almacena
los indicadores a medir y las dimensiones representan
Es destacable que Clementine contiene múltiples los criterios de análisis. Cuando se mantiene una
algoritmos para la detección de fraudes, entre los cuales estructura de un AD, pero adaptada sólo a un sector de
se encuentran los de Clusterización y de Detección de la empresa, o para un fin concreto, se utiliza un Data
Anomalías (Outlier). El software analiza los resultados Mart que es parte del AD completo [18].
obtenidos con el set de datos introducidos y busca la
mejor alternativa con el menor error posible al aplicar En la Figura 1 se presenta el Data Mart creado para el
cada uno de los algoritmos. área de estudio, Gerencia de Clientes.
El desarrollo del proyecto contempló las etapas sugeridas En cuanto al Data Mart presentado, éste contiene
por la metodología CRISP-DM, las que se detallan a información específica sobre los consumos históricos
de agua potable y alcantarillado de la región, ya que son
1
software que pertenece a SPSS http://www.spss.com. datos que dispone la empresa. Las variables que lo
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
componen son: la tabla de hechos, que almacena los datos 4.4 Modelado
de unidades (m3) facturadas de consumo de agua potable,
El modelo de detección de anomalías de Clementine,
alcantarillado, el sobreconsumo de agua potable y un
entrega como resultado grupos de datos con
contador de consumos facturados; por otro lado, las
características similares, los cuales son llamados grupos
tablas de dimensiones que contienen información de las
homólogos del modelo. Cada grupo homólogo entrega
distintas unidades de tiempo, lugares y características del
información sobre la cantidad de registros procesados,
servicio.
la cantidad de anomalías encontradas, un resumen sobre
los campos escogidos a estudiar, entre otros.
Cabe destacar que la cantidad generada de grupos
homólogos va a depender directamente de los
parámetros de configuración del modelo, pues con
modificar un solo parámetro, no se generará la misma
cantidad de grupos y por lo tanto los resultados serán
distintos. Ejemplo de parámetros a introducir son:
agregar dimensiones al AD, índice de anomalías,
cantidad de grupos que se desee obtener, selección de
algoritmos de análisis, etc.
En la Figura 2, Anomaly1 contiene la configuración de
los parámetros necesarios para que el software genere
los grupos homólogos. Toda la información que se
genera al momento de ejecutar los algoritmos serán
almacenados en un archivo (Tabla) para su análisis
posterior.

Fig. 1 Data Mart para Gerencia de Clientes

Los datos almacenados presentan la siguiente


información:
- Lugar: que indica la localidad con su sector y la ruta
(sector pequeño).
- Servicio: que detalla el tipo de servicio prestado
- Tiempo: esta dimensión es necesaria para analizar lo
que ha ocurrido históricamente y así proyectar al futuro.
- Tabla de hechos Venta: Que almacena los indicado-res
a consultar.
En conjunto con personal técnico de la empresa fue Fig. 2. Modelo de DA diseñado para Gerencia de Clientes.
posible adquirir los datos históricos de los consumos
Los algoritmos que se seleccionaron para realizar este
facturados desde el inicio del funcionamiento de dicho
análisis son: K-means, COBWEB y EM.
sistema de facturación hasta el mes de octubre del año
2007. Los datos fueron cargados en el Data Mart a través Una vez aplicado el modelo al conjunto de datos,
de un proceso ETL diseñado para ello. Clementine genera los grupos homólogos. Un ejemplo
es el representado en la Figura 3, en el que se ha
Para el caso de estudio se utilizó el 4% de los datos
utilizado el algoritmo K-means con un índice de
almacenados en el Data Mart, los que pertenecen a las
anomalía de 0.5. Es posible destacar los casos normales
facturaciones emitidas en la localidad de Lautaro. Como
en azul (valor F) y los anómalos en rojo (valor T). Los
conjunto de entrenamiento o training set, se utilizó el
casos en color rojo representan registros de clientes que
50% de los datos de dicha localidad, y el resto de los
podrían presentar anomalías frente a su grupo.
mismos, fueron utilizados para hacer los test.
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
análisis. Este listado es utilizado por la oficina de
fraudes de Aguas Araucanía S.A. para corroborar en
terreno cada uno de los casos. Con ello, la oficina de
fraude sólo debe preocuparse de revisar los casos
expuestos en la lista, y no de todas las unidades que
componen una ruta o sector.

Fig. 3. Grupos Homólogos entregados por Clementine.


5. Resultados y discusión

4.5 Evaluación
Dentro de los resultados obtenidos, se debe destacar que
A través de los algoritmos de detección de anomalías de los casos detectados como anómalos no necesariamente
Clementine Client se probaron los datos almacenados en se tratan de casos de fraudes, ya que es posible que falte
el Data Mart, entregando una serie de resultados que agregar nuevos parámetros al software.
deben ser analizados cada vez que se inicia el ciclo de la
metodología CRISPDM. COBWEB ofrece un único cluster significativo, con
resultados no muy diferentes de los que se obtendrían
Como se mencionó anteriormente, COBWEB admite dos sin realizar segmentación alguna, considerando todos
parámetros, cutoff y acuity. Los valores que Clementine los registros para una única curva de regresión. Este
propone para éstos es de acuity=1.0 y cutoff=0.0028. Con algoritmo no es adecuado para la detección de registros
estos valores no se obtiene ningún cluster, por lo que es anómalos, ya que tiende a agrupar a la mayoría de los
necesario modificarlos. Parece lógico decrementar cutoff registros en un solo segmento.
para obtener un mayor número de clusters, para ello se le
asigna un valor de cutoff=0.00028, obteniéndose 1292 EM y k-medias ofrecen segmentos de similares formas,
clusters. Cada cluster está formado por unos pocos aunque han agrupado los registros de diferente forma.
elementos, de manera que se tienen muchísimos clusters Ello se debe al hecho de que ambos forman parte de una
con pocos registros. El número tan elevado de clusters misma familia de algoritmos de Clustering y tienen
hace evidente que el valor elegido no es el más adecuado, bases comunes. Sin embargo EM destaca claramente
es necesario incrementarlo. Tras varios intentos se utiliza sobre k-medias, ofreciendo mejores resultados al
un valor de cutoff=0.0018, obteniéndose 74 clusters. Se momento de validar los registros encontrados como
hicieron nuevas pruebas, pero ninguna ofreció un número anómalos.
de clusters menor. De los clusters obtenidos, 73 cubren Al utilizar por primera vez EM se tuvo que un 40% de
856.324 registros repartidos uniformemente, mientras que los registros presentados como anómalos son
el cluster restante engloba al resto de los registros. incorrectos, no correspondiendo a casos de fraude, por
EM y K-means proporcionaron una segmentación con 10 lo que fue necesario introducir una mayor cantidad de
clusters, muy similar al de la figura 3, por lo que se registros para realizar un nuevo análisis. Después de
consideran efectivos. varios intentos, se obtuvo información confiable. Cerca
del 73% de los registros detectados como anómalos son
Los registros anómalos encontrados deben ser posibles causas de fraude. Esto permitirá a la empresa
contrastados con la información histórica de casos de verificar rápidamente el posible fraude revisando los
fraude que almacena la empresa, con el fin de verificar medidores de clientes.
que la información entregada por el software sea la
correcta. En cada iteración, es necesario introducir Para K-means se obtuvieron resultados similares, sólo
nuevos parámetros o modificar algunos ya existentes para que el porcentaje de registros que posiblemente sean
realizar un nuevo análisis. Es así que para K-means se casos de fraude no supera el 55%.
utilizó un índice de anomalías de 0.5, 1 y 2. Para el caso EM y k-medias, perteneciendo a la familia de
de EM se configura la cantidad máxima de iteraciones, algoritmos de particionado y recolocación, ofrecen
que es 100. mejores resultados que COBWEB, indicando que para
la detección de anomalías son más adecuados que éste.

4.6 Implementación Cabe destacar que para el futuro, será necesario


introducir datos que reflejen la estación del año
Finalmente se implementa el sistema de detección de (Primavera, Verano, Otoño e Invierno) y la temperatura.
anomalías en el servidor de la empresa, con el fin de Está comprobado que en época de verano los usuarios
obtener listados de clientes que podrían ser casos de
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
del servicio consumen una mayor cantidad de agua, cosa Information Security, vol. 31, pp. 69-82, 2007.
que actualmente no es detectada por el modelo. [2] C. Phua, V. Lee, K. Smith, and R. Gayler, "A
Comprehensive Survey of Data Mining-based Fraud
El sistema de DA diseñado para el caso de estudio
Detection Research," Clayton School of Information
permite a la empresa reducir, en forma considerable, el
Technology, Monash University, 2005.
tiempo de búsqueda de los posibles fraudes. También
[3] F. Bonchi, F. Giannotti, G. Mainetto, and D.
permitió reducir los costos de administración de la oficina
Pedreschi, "Using Data Mining Techniques in Fiscal
de fraudes, ya que el proceso de detección de anomalías
Fraud Detection," LNCS 1676, pp. 369-376, 1999.
ha sido mejorado.
[4] R. Bolton and D. Hand, "Unsupervised Profiling
Methods for Fraud Detection," Credit Scoring and
Credit Control VII, 2001.
6. Conclusiones [5] R. Bolton and D. Hand, "Statical Fraud Detection: A
La MD es una técnica eficiente para la detección de Review (With Discussion)," Statistical Science, vol.
anomalías, siempre y cuando se disponga de un conjunto 17, pp. 235-255, 2002.
de datos suficientes para un correcto análisis y una [6] Y. Ku, Y. Chen, and C. Chiu, "A Proposed Data
metodología que permita llevar un control de los Mining Approach for Internet Auction Fraud
resultados dando la posibilidad de reestructurar medidas Detection," LNCS 4430, pp. 238-243, 2007.
como la: recolección de nuevos datos, separación de [7] W. Santamaría, "Técnicas de minería de datos para
datos en clases, transformaciones de las variables, la detección de fraude," Maestría en Ingeniería de
eliminación de datos, selección de otros algoritmos de Sistemas y Computación- Universidad Nacional de
MD, cambio en los parámetros introducidos en los Colombia., 2008.
modelos, delimitación del campo de búsqueda, etc. [8] K. Niu, C. Huang, S. Zhang, and J. Chen, "ODDC:
Outlier Detection Using Distance Distribution
Según [7], la MD aporta diferentes tecnologías en la Clustering," LNAI, vol. 4819, pp. 332-343, 2007.
identificación de operaciones fraudulentas. Por lo general [9] A. Cravero and S. Sepúlveda, "Detección de
es necesario el uso de varias de estas tecnologías, con el fraudes con el uso de Minería de Datos, un caso de
fin tener un mejor éxito en la solución del problema. La estudio en empresa de Servicios Sanitarios.,"
elección exacta y la combinación de estas tecnologías, presented at VIII Congreso Chileno de Investigación
depende en gran medida de las características de los datos Operativa, OPTIMA 2009, 2009.
disponibles. Para el caso de estudio se verifica que la [10] L. Davies and U. Gather, "The Identification of
herramienta Clementine es apropiada para la detección de Multiple Outliers.," Journal of the American
fraudes dado que dispone de algoritmos eficientes de Statistical Association, vol. 88, pp. 782-792, 1993.
Clusterización y detección de Anomalías, utilizando para [11] C. Caroni and P. Prescott, "On Rohlf’s Method for
ello la metodología CRISP-DM para el diseño de the Detection of Outliers in Multivariate Data,"
modelos de MD. Journal of Multivariate Analysis, vol. 52, pp. 295-
Se puede concluir que el algoritmo EM, siendo un 307, 1995.
algoritmo que realiza Clustering probabilístico, es más [12] J.-X. Pan, W.-K. Fung, and K.-T. Fang, "Multiple
adecuado que el algoritmo k-medias y COBWEB, para outlier detection in multivariate data using
segmentar los datos del AD diseñado para la empresa projection pursuit techniques," Journal of
Aguas Araucanía S.A., con el fin de encontrar posibles Statistical Planning and Inference, vol. 83, pp. 153-
casos de fraude. 167, 2000.
[13] K. Das and J. Schneider, "Detecting anomalous
El sistema creado permite a la empresa disponer de una records in categorical datasets," presented at
lista de clientes que presentan comportamientos Proceedings of the 13th ACM SIGKDD
anómalos, dando la posibilidad de detectar posibles International, 2007.
fraudes en forma oportuna. En este sentido, se obtuvo una [14] T. Hu and S. Sung, "Detecting pattern-based
reducción del tiempo de búsqueda y del costo asociado outliers," Pattern Recognition Letters, vol. 24, pp.
para ello. 3059-3068, 2003.
[15] Z. He, X. Xu, and S. Deng, "A Fast Greedy
Algorithm for Outlier Mining," Computer Science,
7. Referencias 2005.
[16] A. C. Atkinson and M. Riani, "Exploratory tools
[1] A. Singhal and S. Jajodia, " Data Modeling and Data for clustering multivariate data," Computational
Warehousing Techniques to Improve Intrusion Statistics and Data Analysis., vol. 52, pp. 272-285,
Detection," Serie Libros Advances in
2007.
WORKSHOP INTERNACIONAL
EIG2009
Departamento de Ingeniería de Sistemas
Universidad de La Frontera – Chile
Diciembre 3 y 4, 2009
[17] N. Wu and J. Zhang, "Factor-analysis based anomaly
detection and clustering," Decision Support Systems,
vol. 42, pp. 375-389, 2006.
[18] M. Chen and J. Han, "Data mining: An overview
from database perspective.," IEEE Transactions on
Knowledge and Data Eng, 1996.
[19] J. Han and M. Kamber, "Data mining: Concepts and
techniques," Morgan Kauffmann Publishers, 2001.
[20] M. Garre and M. Charro, "Estimación del esfuerzo
de un proyecto Software utilizando el criterio MDL-
EM y Componentes normales n-dimensionales.
Aplicación a un caso práctico.," Revista de Procesos y
Métricas de las Tecnologías de la Información
(RPM), vol. 2, pp. 13-24, 2005.
[21] J. A. Soto, I. Ponzoni, and G. Vazque, "Análisis
Numérico de diferentes criterios de similitud en
Algoritmos de Clustering," Mecánica Computacional,
vol. 25, pp. 993-1011, 2006.
[22] P. Britos, A. Hossian, R. García-Martinez, and E.
Sierra, "Minería de Datos Basada en Sistemas
Inteligentes," 2005.
[23] F. Valenga, E. Fernández, H. Merlino, D. Rodríguez,
C. Procopio, P. Britos, and R. García-Martínez,
"Minería de Datos Aplicada a la Detección de
Patrones Delictivos en Argentina," VII Jornadas
Iberoamericanas de Ingeniería del Software e
Ingeniería del Conocimiento, 2008.
[24] D. Fisher, "Knowledge acquisition via incremental
conceptual clustering," Machine Learning, vol. 2, pp.
139-172, 1987.
[25] T. Chiu, D. Fang, J. Chen, Y. Wang, and C. Jeris, "A
robust and scalable clustering algorithm for mixed
type attributes in large database environment,"
presented at Proceedings of the seventh ACM
SIGMOD International conference on Knowledge
Discovery and Data Mining., 2001.
[26] M. T. S. De Lejarza, "Redes neuronales auto-
organizadas y clustering: Una aplicación a la
agrupación económico-funcional de entidades de
población," Quaderns de Treball, 1996.
[27] C. Chiu and C. Tsai, "A web Services-Based
Collaborative Scheme for Credit Card Fraud
Detection.," Proc. of 2004 IEEE International
Conference on e-Technology, e-Commerce and e-
Service, 2004.
[28] L. Duan, L. Xu, Y. Liu, and J. Lee, "Cluster-based
outlier detection," Springer Science + Business
Media, LLC, 2008.
[29] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T.
Reinartz, C. Shearer, and R. Wirth, "CRISP-DM 1.0
step-by-step data mining guide," CRISPDM, 2000.

View publication stats

You might also like