Professional Documents
Culture Documents
net/publication/221419375
CITATIONS READS
0 228
2 authors:
Some of the authors of this publication are also working on these related projects:
Big Data architecture prototype to find spatiotemporal significant associations between variables in a river basin in southern Chile,
Araucania Region. View project
FMxx: tool for feature modeling using ADOxx technology View project
All content following this page was uploaded by Samuel Sepúlveda on 26 May 2014.
Resumen
La Minería de Datos es una de las soluciones de la Inteligencia de Negocios, que ayuda a extraer
conocimiento a partir de datos que las empresas han generado producto de su negocio. Este
conocimiento puede generar aplicaciones de alto valor agregado si el proceso de Minería de Datos
es entendido apropiadamente desde una perspectiva del negocio. Aplicaciones tales como
detección de anomalías para la prevención de fraudes y abusos, análisis de fidelización, cross-
selling, optimización de la cadena de suministro; o conceptos tales como clasificadores y
regresiones basados en redes neuronales han emergido profusamente durante los últimos años en el
vocabulario de muchas empresas como una forma de reflejar el potencial que ellas podrían
alcanzar con esta tecnología aplicada a sus datos.
En este contexto, se implementó una aplicación de Minería de Datos que detecta anomalías con el
fin de detectar posibles abusos en el uso de los principales servicios que otorga la empresa Aguas
Araucanía S.A. Los datos analizados corresponden a las facturaciones de servicios de agua potable
y alcantarillado de clientes en la ciudad de Lautaro, que fueron almacenados previamente en un
Almacén de Datos. Para el análisis se utilizaron algoritmos de Minería de Datos basados en
técnicas de clustering, y la metodología CRISP-DM. Como principal resultado, el sistema permitió
a la empresa reducir, en forma considerable, el tiempo de búsqueda de los posibles fraudes.
4.5 Evaluación
Dentro de los resultados obtenidos, se debe destacar que
A través de los algoritmos de detección de anomalías de los casos detectados como anómalos no necesariamente
Clementine Client se probaron los datos almacenados en se tratan de casos de fraudes, ya que es posible que falte
el Data Mart, entregando una serie de resultados que agregar nuevos parámetros al software.
deben ser analizados cada vez que se inicia el ciclo de la
metodología CRISPDM. COBWEB ofrece un único cluster significativo, con
resultados no muy diferentes de los que se obtendrían
Como se mencionó anteriormente, COBWEB admite dos sin realizar segmentación alguna, considerando todos
parámetros, cutoff y acuity. Los valores que Clementine los registros para una única curva de regresión. Este
propone para éstos es de acuity=1.0 y cutoff=0.0028. Con algoritmo no es adecuado para la detección de registros
estos valores no se obtiene ningún cluster, por lo que es anómalos, ya que tiende a agrupar a la mayoría de los
necesario modificarlos. Parece lógico decrementar cutoff registros en un solo segmento.
para obtener un mayor número de clusters, para ello se le
asigna un valor de cutoff=0.00028, obteniéndose 1292 EM y k-medias ofrecen segmentos de similares formas,
clusters. Cada cluster está formado por unos pocos aunque han agrupado los registros de diferente forma.
elementos, de manera que se tienen muchísimos clusters Ello se debe al hecho de que ambos forman parte de una
con pocos registros. El número tan elevado de clusters misma familia de algoritmos de Clustering y tienen
hace evidente que el valor elegido no es el más adecuado, bases comunes. Sin embargo EM destaca claramente
es necesario incrementarlo. Tras varios intentos se utiliza sobre k-medias, ofreciendo mejores resultados al
un valor de cutoff=0.0018, obteniéndose 74 clusters. Se momento de validar los registros encontrados como
hicieron nuevas pruebas, pero ninguna ofreció un número anómalos.
de clusters menor. De los clusters obtenidos, 73 cubren Al utilizar por primera vez EM se tuvo que un 40% de
856.324 registros repartidos uniformemente, mientras que los registros presentados como anómalos son
el cluster restante engloba al resto de los registros. incorrectos, no correspondiendo a casos de fraude, por
EM y K-means proporcionaron una segmentación con 10 lo que fue necesario introducir una mayor cantidad de
clusters, muy similar al de la figura 3, por lo que se registros para realizar un nuevo análisis. Después de
consideran efectivos. varios intentos, se obtuvo información confiable. Cerca
del 73% de los registros detectados como anómalos son
Los registros anómalos encontrados deben ser posibles causas de fraude. Esto permitirá a la empresa
contrastados con la información histórica de casos de verificar rápidamente el posible fraude revisando los
fraude que almacena la empresa, con el fin de verificar medidores de clientes.
que la información entregada por el software sea la
correcta. En cada iteración, es necesario introducir Para K-means se obtuvieron resultados similares, sólo
nuevos parámetros o modificar algunos ya existentes para que el porcentaje de registros que posiblemente sean
realizar un nuevo análisis. Es así que para K-means se casos de fraude no supera el 55%.
utilizó un índice de anomalías de 0.5, 1 y 2. Para el caso EM y k-medias, perteneciendo a la familia de
de EM se configura la cantidad máxima de iteraciones, algoritmos de particionado y recolocación, ofrecen
que es 100. mejores resultados que COBWEB, indicando que para
la detección de anomalías son más adecuados que éste.