Técnicas de Minería de Datos Aplicadas en La Detección de Fraude:Estado Del Arte

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE
Tcnicas de Minera de Datos Aplicadas en la Deteccin de Fraude:Estado del Arte

Wilfredy Santamaria Ruiz
AbstractLa tarea de deteccin de fraude no es un tema fcil de resolver, teniendo en cuenta las mltiples modalidades y la evolucin rpida que este tema ha tenido. En la actualidad muchas entidades nancieras a nivel mundial, utilizan tcnicas de minera de datos y modelos estadsticos para reconocer patrones de comportamiento de las transacciones fraudulentas o de la utilizacin normal de los clientes para detectar operaciones sospechosas. Este artculo realiza una introduccin al tema y presenta las principales tcnicas de minera de datos utilizadas en la actualidad para la deteccin de fraude, as como los principales estudios adelantados en esta rea, adicionalmente se proponen cuales son los temas de investigacin en esta rea. Index TermsDeteccin de fraude, tcnicas de minera de datos, patrones de comportamiento, entidades nancieras.
de acuerdo al comportamiento analizado. En la actualidad se utilizan tcnicas de minera de datos como[19]: Redes Neuronales, rboles de Decisin y Redes de Creencia Bayesiana en modelos predictivos, que utilizan sistemas de aprendizaje autnomo para reconocimiento de patrones basados en hechos histricos; en la gran mayora de los casos, se utilizan los datos de las transacciones hechas por los clientes para determinar los patrones, estos permiten identicar rpidamente circunstancias ajenas al comportamiento cotidiano de un cliente. Cualquiera que sea la tcnica utilizada para la deteccin, es necesario hacer una labor de la mano de los expertos del negocio. En la construccin de los modelos, es necesario determinar el conjunto de entrenamiento, validacin y prueba con variables signicativas, que puedan arrojar un resultado conable y no obvio. La deteccin de reglas esta ms orientada al anlisis de cada transaccin, mientras que modelos de minera de datos pueden ser capaces de extraer patrones, de describir tendencias y regularidades, de predecir comportamientos, y en general de sacar provecho de la informacin computarizada que nos rodea hoy en da, generalmente heterognea y en grandes cantidades, que permiten a los individuos y organizaciones comprender, y modelar de una manera ms eciente para ayudar a la toma de decisiones. Este documento esta estructurado de la siguiente forma: En la seccin II, se realiza una introduccin al problema de la deteccin de fraude. En la seccin III, se realiza una breve descripcin del proceso de descubrimiento de conocimiento y las etapas que lo conforman. En la seccin IV, se describe las tcnicas para la deteccin de fraude, realizando un especial nfasis en las tcnicas de minera de datos, ya que esto ayuda a comprender y contextualizar mejor el tema central del artculo. La seccin V, muestra los trabajos ms relevantes realizados en el rea. La seccin VI, da una perspectiva de los trabajos futuros en el rea, y la seccin VII, concluye con una discusin sobre este trabajo.
I. INTRODUCCIN L Fraude es tan viejo como la humanidad y puede tomar una variedad de formas ilimitadas. Sin embargo, en aos recientes, el desarrollo de las nuevas tecnologas, ha proporcionado maneras ms extensas en que los delincuentes pueden cometer fraude. Formas tradicionales, como el lavado de activos, se han puesto ms fcil de perpetuar y se ha unido a nuevos tipos de fraude como[2]: fraude en telecomunicaciones mviles, deteccin de intrusos en redes y fraude en tarjetas de crdito. En este artculo se hace una distincin entre la prevencin y deteccin de fraude. La prevencin de fraude, describe las medidas que una entidad toma para impedir el fraude antes de que ocurra, como por ejemplo, hologramas en billetes, sistemas de seguridad en Internet para transacciones con tarjetas de crdito, etc. En contraste, la deteccin de fraude involucra identicar patrones de comportamiento de transacciones fraudulentas, o de la utilizacin normal de los clientes para detectar operaciones sospechosas. Una vez que la prevencin ha fallado, entre en escena la deteccin, para ello la mayora de los sistemas de deteccin actuales ofrecen dos tipos de alerta: alerta por calicacin probabilstica y alerta por cumplimiento de reglas. En el primer tipo de alerta, casi siempre se utilizan modelos predictivos para arrojar una calicacin o Score, que entre ms alta determina mayor probabilidad de fraude; para el segundo caso se emplean ltros basados en sentencias SQL. Los primeros intentos que hicieron las entidades nanciera para detectar fraude, fueron sistemas basados en aplicacin de reglas que alertaban las transacciones, si cumplan con una o ms reglas establecidas, estas reglas eran obtenidas haciendo anlisis histrico sobre los datos, y se conguraban
II. EL PROBLEMA DE LA DETECCIN DE FRAUDE
Maestria en Ingeniera de Sistemas y Computacin- Universidad Nacional de Colombia. e-mail: wsantamariar@unal.edu.co
El problema en la deteccin de fraude, radica en el anlisis de perles de usuario que permitan analizar el comportamiento de un cliente, con el n de detectar anomalas. En CRM(Customer Resource Management), el anlisis en la informacin de un usuario, implica una cadena de datos como se muestra en la gura 1.
A continuacin se presenta la taxonmica general del proceso KDD, como se ve en la gura 2(tomada de Jiawei Han[31]) .
Figure 1.
Ilustracin cadena de datos CRM
La cadena consiste en cuatro clases de datos[29]: Datos de perl. Datos que representan informacin histrica del usuario tal como: nombre, profesin, edad, etc. Datos de Inters. Datos que representan las tendencias de inters del cliente en los productos de la compaa. Datos de Accin. Datos que representan las transacciones entre el cliente y la compaa. Datos de Respuesta. Datos que representan la informacin de servicio al cliente. En la prctica de la contruccin de perles de usuario, el procedimiento incluye cuatro pasos: 1) Limpieza de datos, para eliminar datos redundantes, con el n de tener un anlisis efectivo de deteccin de fraude. 2) Seleccin y Extraccin de caractersticas, que permitan descubrir indicadores, correspondientes a cambios en comportamientos que indiquen fraude. 3) Modelamiento, para determinar patrones de fraude por un clasicador[13]. 4) Monitoreo y prediccin de fraude, con el n de emitir alarmas. De los cuatro pasos anteriores , el modelamiento y prediccin de fraude son los ms importantes, y tienen amplia discusin en el campo del aprendizaje de mquinas. Adicionalmente, una de las dicultades en la deteccin de fraude, es que tpicamente la mayora de los datos son legtimos (99%). III. MINERA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS Debido a los grandes volmenes de datos que una organizacin puede llegar a tener, el obtener conocimiento a partir de estos no es una tarea fcil. Con este n investigadores han dado origen a campos de investigacin como el descubrimiento de conocimiento en bases de datos[30] (Knowledge Discovery in Database - KDD), y en especial, el proceso de minera de datos (Data Mining) El trmino KDD es empleado para describir el proceso total de descubrimiento y extraccin de conocimiento nuevo, no obvio a partir de un conjunto de datos, el cual esta conformado por relaciones y patrones entre los elementos que conforman los datos [27]. El proceso de KDD abarca varias etapas en su realizacin, desde la seleccin de datos que pueden ser necesarios para descubrir conocimiento, hasta visualizar los resultados de dicho descubrimiento. El principal proceso dentro del KDD es la minera de datos Data Mining, que es la responsable de buscar, descubrir y extraer el conocimiento desde los datos[13].
Figure 2.
Etapas del proceso KDD
El proceso comienza con: 1. Preparacin[11]. Esta etapa consiste en determinar que datos de la base de datos, vamos a seleccionar para el proceso de extraccin de conocimiento. Dentro de las tareas que se deben hacer en esta etapa tenemos: Seleccin de datos, Limpieza, Enriquecimiento y Codicacin. 2. Extraccin o Minera[22]. La minera de datos, es el proceso que pretende examinar la vasta cantidad de datos en una base de datos, en busca de patrones recurrentes, detectando tendencias y desenterrando hechos; intenta hallar conocimiento con una mnima o ninguna instruccin u orientacin de analistas, todo ello en el menor tiempo posible. Con este conocimiento, el analista empresarial ejercita su habilidad y experiencia en la materia, para separar los hechos tiles de los intiles. 3. Presentacin[31]. En esta etapa se reporta los resultados obtenidos en el proceso de minera de datos. Muchas veces los usuarios se enamoran de una herramienta por los grcos que despliegan. Las mejores grcas que una herramienta puede mostrar son aquellas que el usuario entiende. Eso no quiere decir que las grcas animadas y con mucho colorido no sean buenas, simplemente que los usuarios muchas veces no tienen los conocimientos necesarios sobre el tema al que realizaron minera, por lo que no pueden interpretar los resultados, y no pueden denir si los resultados arrojados son buenos o son malos para la organizacin. IV. TCNICAS PARA LA DETECCIN DE FRAUDE La deteccin de Fraude no es un tema trivial, las metodologas usadas por los falsicadores no son las mismas de hace algunos aos; cuando las entidades identican un patrn de comportamiento, los falsicadores ya estn pensando en otras alternativas. Actualmente las herramientas para la deteccin de fraude se pueden clasicar en dos categoras: Tcnicas tradicionales y Tcnicas de Minera de datos.
A. TCNICAS TRADICIONALES Los mtodos tradicionales de deteccin de fraude consisten en una combinacin de investigadores y herramientas que reportan alarmas de posibles sospechosos; para ello se utilizan tcnicas como: 1. Identicacin de clientes que coinciden en listas de control como:OFAC 1 , DATACREDITO2 ,etc , emitidas por entes internacionales o nacionales. 2. Sistemas basados en la aplicacin de reglas que constan de sentencias SQL, denidas con la ayuda de expertos. Esta estructura puede detectar sumas acumulativas de dinero, ingresadas a una cuenta en un corto periodo de tiempo, como un da. 3. Mtodos de clasicacin estadsticos, como el anlisis de regresin de datos, para detectar comportamientos anmalos de cambio en una cuenta, dada una serie de transacciones que efecta un cliente en un lapso de tiempo[2], [19]. 4. Anlisis de relaciones. Este anlisis permite encontrar relaciones entre elementos de informacin como transacciones, cuentas y participantes. Esta tcnica requiere un esquema supervisado[2].
Figure 3. Taxonoma tcnicas de Minera de Datos para deteccin de Fraude
B. TCNICAS DE MINERA DE DATOS La minera de datos ofrece un rango de tcnicas que permiten identicar casos sospechosos, basados en modelos. Estos modelos se pueden clasicar en:
Modelos de datos inusuales. Estos modelos, pretenden detectar comportamientos raros en un dato respecto a su grupo de comparacin, o con el mismo, por ejemplo la consignacin de altas sumas de dinero en efectivo. Para este caso, se puede emplear tcnicas de anlisis de Clustering, seguido de un anlisis de deteccin de Outlier Modelos de relaciones inexplicables. A travs de este tipo de modelos, se desea encontrar relaciones de registros que tienen iguales valores para determinados campos, resaltando el hecho que la coincidencia de valores debe ser autnticamente inesperado, desechando similitudes obvias como el sexo, la nacionalidad. Por ejemplo la transferencia de fondos entre dos o ms compaas con la misma direccin de envo. Para este caso se pueden aplicar tcnicas de Clustering para encontrar grupos sospechosos y reglas de asociacin. Modelos de caractersticas generales de Fraude. Con estos modelo se pretende, una vez detectado ciertos casos, hacer predicciones de futuros ingresos de transacciones sospechosas. Para estas predicciones usualmente se emplean tcnicas de regresin, rboles de decisin y redes neuronales.
De igual forma, taxonmicamente la minera de datos se puede dividir en dos clases: descriptiva y predictiva segn[31] como se presenta en la gura 3.
1 The Ofce of Foreign Assets Control of the US Department of the Treasury. Vase http://www.treas.gov/ofces/enforcement/ofac. 2 Vase http://www.datacredito.com.co
1) Tcnicas de Minera Descriptiva: El objetivo de este tipo de minera, es encontrar patrones (correlaciones, tendencias, grupos, trayectorias y anomalas) que resuman relaciones en los datos[7] . Dentro de las principales tcnicas descriptivas encontramos: a) Deteccin de Anomalas(Outlier): La meta principal en la deteccin de Anomalas, es encontrar objetos que sean diferentes de los dems. Frecuentemente estos objetos son conocidos como Outlier[16], [17]. La deteccin de anomalas tambin es conocida como deteccin de desviaciones[21], porque objetos anmalos tienen valores de atributos con una desviacin signicativa respecto a los valores tpicos esperados. Aunque los Outlier son frecuentemente tratados como ruido o error en muchas operaciones, tales como clustering, para propsitos de deteccin de fraude, son una herramienta valiosa para encontrar comportamientos atpicos en las operaciones que un cliente realiza en una entidad nanciera En trminos de salida, las tcnicas actuales de deteccin de Outlier se clasican en: Tcnicas basadas en Modelos[10], [23]. Se basan en el campo de la estadsticas; dada la premisa de conocer la distribucin de los datos. Entre estas tcnicas se resalta: Mtodo de Incertidumbre y Mtodo de convex hull . Tcnicas basadas en proximidad[6], [24]. Esta tcnica se fundamenta en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los dems, ste es considerado como un Outlier. Entre los principales mtodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. Tcnicas basadas en densidad. Se hace uso de la estimacin de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad, y que son relativamente distantes de sus vecinos se consideran anmalos. Entre los principales mtodos se encuentra: SHV[24] (Smallest half-volume),LOF[17](Local Outlier Factor). Este mtodo de minera de datos, generalmente es de apren-
dizaje no supervisado, ya que en la mayora de los casos, no se conoce la clase, para ello se asigna una calicacin a cada instancia que reeja el grado con el cual la instancia es anmala. b) Clustering: El anlisis de cluster es un proceso que divide un grupo de objetos, de tal forma que los miembros de cada grupo son similares de acuerdo a alguna mtrica. El agrupamiento de acuerdo a la similitud, es una tcnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa[14], como se ilustra en la gura 4.
Figure 4.
Agrupamiento por Cluster
Las tcnicas de clustering son utilizadas comnmente para hacer segmentacin, y su gran aplicacin est en estrategias de mercadeo, mediante las cuales se determinan conjuntos de clientes que poseen el mismo comportamiento, para hacer llegar ofertas especialmente diseadas al perl de dichos clientes. Las tcnicas de segmentacin permiten identicar claramente el comportamiento de un grupo de casos que diere de otros grupos o conjuntos, sin embargo algunos autores[32]plantean que por lo general, los cluster son resultados difciles de entender. Algunas veces, se puede utilizar un rbol de decisin a la salida del cluster, para explicar con precisin el comportamiento o caractersticas de los casos que conforman el cluster. Los algoritmos de cluster funcionan con una metodologa basada en la construccin inicial de un gran cluster, y luego la subdivisin del mismo hasta encontrar grupos de muestras muy cercanas, otros por el contrario, parten asumiendo que cada registro es un cluster, y luego empiezan a agrupar registros hasta que se consolidan cluster no superpuestos ms grandes. Entre los diferentes tipos de cluster se tienen[22], [31]: Clusters bien separados. Esta denicin idealista parte del hecho que todos los objetos de un grupo deben ser sucientemente similares. Clusters basados en el centro. Un cluster es un conjunto de objetos en el que un objeto est ms cerca al centro del cluster, que al centro de otro cluster. Clusters contiguos. Un cluster es un conjunto de puntos, donde un punto en el cluster est ms prximo a otro punto o puntos del cluster, que a cualquier otro punto
que no pertenezca al cluster. Clusters basados en densidad. Este tipo de agrupamiento, se basa en el hecho de tener grupos en regiones de alta densidad, separados por regiones de baja densidad. Cluster de propiedad o Conceptual. Son clusters que tienen propiedad compartida o representan un concepto particular, es decir, hay puntos en comn entre dos grupos. Entre los principales algoritmos usados en el anlisis de cluster se encuentra: Algoritmo K-means[32]. Este algoritmo se fundamenta en cluster basados en el centro, en trminos de un centroide, el cual usualmente es la media de un grupo de puntos, y tpicamente aplica a objetos en espacios continuos ndimensionales. En esta tcnica se debe especicar el nmero de cluster que se desea encontrar. Algoritmo DBSCAN[22]. Se basa en cluster de densidad, en los cuales los grupos se localizan en las regiones de alta densidad, y son separados por regiones de baja densidad. Este algoritmo genera de manera automtica el nmero de cluster. Los puntos en baja densidad son considerados como ruido y se ignoran. 2) Tcnicas De Minera Predictiva: El objetivo de este tipo de minera, es predecir el valor particular de un atributo basado en otros atributos. El atributo a predecir es comnmente llamado clase o variable dependiente, mientras que los atributos usados para hacer la prediccin se llaman variables independientes[22]. Dentro de las principales tcnicas predictivas encontramos: a) rboles de decisin: De las tcnicas de aprendizaje, son el mtodo ms fcil de utilizar y entender. Un rbol de decisin es un conjunto de condiciones organizadas en una estructura jerrquica, de tal manera que la decisin nal a tomar, se puede determinar siguiendo las condiciones que se cumplen desde la raz del rbol hasta sus hojas[30]. Se utilizan comnmente cuando se necesitan detectar reglas del negocio que puedan ser fcilmente traducidas al lenguaje natural o SQL, o en la construccin de modelos predictivos. Existen dos tipos de rboles: los de clasicacin, mediante los cuales un registro es asignado a una clase en particular, reportando una probabilidad de pertenecer a esa clase , y los rboles de regresin, que permiten estimar el valor de una variable numrica objetivo. El funcionamiento general de un rbol se basa en la aplicacin de premisas que pueden ser cumplidas, o no, por un registro; el registro pasa a travs del rbol de premisa en premisa hasta que se evala totalmente o hasta que encuentra un nodo terminal, como se aprecia en la gura 5. Las premisas pueden ser vistas como una serie de preguntas sobre las variables de entrada al modelo, tales como ingresos mayores a 500?, sexo masculino o femenino?, etc.,; cada registro, que contiene dentro de si las variables de entrada, describe un camino dentro del rbol por el cual pasa hasta obtener una calicacin o una clasicacin segn sea el caso. Los caminos que describe el rbol para llegar a los nodos terminales, representan el conocimiento adquirido y permiten la extraccin de reglas de clasicacin de la forma IF-THEN. Segn el tema de estudio, los rboles pueden crecer tanto que resultan difciles de interpretar, o muy cortos que arrojan
Figure 6.
Esquema General de Una Red Neuronal
Figure 5.
Esquema general de un rbol de decisin
respuestas obvias o insucientes. La mayora de los algoritmos y herramientas en el mercado permiten la conguracin de los parmetros como el tamao mnimo de nodos, dado que cada uno de los nodos del rbol corresponden a una pregunta sobre una variable especica, los rboles de decisin no pueden descubrir reglas que impliquen relaciones entre variables En la literatura han aparecido numerosos algoritmos de aprendizaje de rboles de decisin, entre los ms populares se encuentran: CART[Breiman,1984]. Se basa en el lema divide y vencers [31], son mtodos que construyen rboles binarios basados en el criterio de particin GINI y que sirven para clasicacin como para regresin. La poda se basa en una estimacin de la complejidad del error. ID3. Propuesto por Quinlan en 1986[12], el ID3 es considerado el rbol de decisin ms simple, usa la ganancia de informacin como criterio de separacin. El rbol crece hasta encontrar un nodo nal. No emplea procedimientos de poda, ni manejo de valores perdidos. C4.5. Es la evolucin del ID3, presentado por Quinlan en 1993[3]. Usa como criterio de separacin el radio de ganancia. b) Redes Neuronales: Las redes neuronales consisten en "neuronas" o nodos interconectados que se organizan en capas. Por lo regular, los modelos neuronales constan de tres capas: de entrada, oculta y de salida, como se observa en la gura 6(tomada de Oded Maimon [32]). Cada neurona evala los valores de entrada, calcula el valor total de entrada, compara el total con el mecanismo de ltrado (valores de umbral), y en seguida determina su propio valor de salida. El comportamiento complejo se modela conectando un conjunto de neuronas. El aprendizaje o "capacitacin" ocurre modicando la "fuerza de conexin" o los parmetros que conectan las capas. Las redes neuronales se acondicionan con muestras adecuadas de la base de datos. Las redes neuronales aprenden en forma supervisada o no supervisada. En la modalidad supervisada, la red neuronal intenta predecir los resultados para ejemplos conocidos, compara sus predicciones con la respuesta objetivo y aprende de sus errores. Las redes neuronales supervisadas se emplean para prediccin, clasicacin y modelos de series histricas. El
aprendizaje no supervisado es ecaz para la descripcin de datos, pero no para la prediccin de resultados. Las redes supervisadas crean sus propias descripciones y validaciones de clase y trabajan exclusivamente a partir de los patrones de datos. Las redes neuronales se ven afectadas por tiempos prolongados de aprendizaje. Debido a que actan como una caja negra, algunos analistas empresariales no confan en ellas. Las redes neuronales se utilizan generalmente para identicar patrones de comportamiento, el uso ms comn que tienen las redes neuronales es en la deteccin de fraude[26], [19]. Esta tcnica es altamente utilizada en modelos predictivos basados en anlisis histricos. Entre ms grande sea una red, es decir, ms capas ocultas posea o mayor nmero de nodos, la complejidad de la ecuaciones matemticas que se deben resolver al interior del nodo de salida se aumenta excesivamente, lo que hace prcticamente imposible entender su funcionamiento o explicar el resultado. Las redes se utilizan en casos en que el resultado es ms importante que el como, dado que constituyen modelos no lineales que no producen reglas. Para lograr un buen funcionamiento de las redes es importante realizar un buen entrenamiento, el cual consiste, de manera general, en la asignacin de los pesos que debe tener cada variable de entrada con el n de lograr la mejor aproximacin. En la construccin o utilizacin de una red se deben preparar cuidadosamente los conjuntos de datos a utilizar, por ejemplo, en una red no se utilizan valores categricos, solo numricos, por lo que para aquellas variables categricas como: pas, ciudad, etc., se debe asignar un nmero por cada valor posible variables Dummy. Entre los modelos ms utilizados en redes neuronales se encuentran[31]:
Feedforward o Perceptrn Multicapa(MLP). Es el modelo ms estudiado y usado en la industria. Un MLP es una red conformada por una capa de entrada, una o varias capas ocultas, una salida y una funcin de transferencia en cada nivel. Se caracterizan por tener una conexin completa entre capas sucesivas, es decir, cada nodo en una capa est totalmente conectado slo a todos los nodos en las capas adyacentes. Hopeld. Son un tipo especial de redes, capaces de guardar recuerdos o patrones como el cerebro, no tienen una arquitectura de capas, sino por el contrario, es una
sola capa de neuronas completamente interconectadas, en las cuales hay bucles de retroalimentacin entre las neuronas. Kohonens Self-organizing Maps(SOM). Son modelos de redes neuronales para la reduccin de dimensiones y agrupacin de datos, con el n de visualizar similitudes entre patrones. c) Redes de Creencia Bayesiana: La clasicacin Bayesiana se basada en el teorema estadstico de Bayes, el cual provee un clculo para la probabilidad a posteriori. De acuerdo al teorema de Bayes, si H es una hiptesis, tal que, el objeto X pertenece a la clase C, entonces la probabilidad que la hiptesis ocurra es: P (X |H ) = (P (X |H ) P (H )) /P (X ). Una red de Creencia Bayesiana(BBN)[19]provee una representacin graca de las dependencias entre un conjunto de atributos. Una BBN se compone principalmente de dos elementos: Un grafo acclico que codica la dependencia de relaciones entre un conjunto de variables. Una tabla de probabilidad asociada a cada nodo para su nodo padre inmediato. En una BBN, para cada nodo X , existe una tabla de probabilidad condicional, en la cual se especica la probabilidad condicional de cada valor de X, para cada posible combinacin de los valores se sus padres(distribucin condicional P (x|padre (x))). La probabilidad de la tupla (x1 , x2 , ..., xn )teniendo n atributos es: P (x1 , x2 , ..., xn )= P (xi |P adres (xi )). La estructura de la red puede ser denida o ser inferida desde los datos. Para propsitos de clasicacin uno de los nodos puede denirse como nodo clase. La red puede calcular la probabilidad de cada alternativa de clase. d) Mquinas de soporte Vectorial: Las mquinas de soporte vectorial (SVM) son un conjunto de algoritmos para clasicacin y regresin propuesta por Vapnik y su grupo AT&T Bell laboratorios[4], [29]. En simples trminos, una SVM es un perceptrn (como una red neuronal) y es idealmente adecuado para la clasicacin binaria de patrones que son linealmente separables[25]. La idea principal de la SVM es obtener un nico separador de hiperplanos que maximice el margen entre la separacin de dos clases, como se observa en la Figura 7. La caracterstica de los vectores que se encuentran en la frontera que separa la denicin de este Margen, en la jerga del lgebra lineal, se denomina "Support Vector". En el modelamiento de patrones de fraude, las SMV se pueden trabajar como un modelo de clasicacin binaria, donde +1 representa a los clientes sospechosos de fraude y -1 representa a los clientes usuales, para ello se tiene un modelo[29] en el que dadoF = {a1 , a2 , ..., ak } un conjunto de caractersticas de un cierto tipo de comportamiento de un cliente, obtenidas por algn conocimiento previo, el comportamiento de todos los clientes describe el comportamiento de los clientes de la Base de Datos denido por X = {xi |xi F, i = 1, ..., N },Donde X se divide en un Na conjunto de entrenamiento Xa = {xi }i=1 y un conjunto de Nb pruebas Xb = {xj }j =1 .
Figure 7.
Ejemplo de un separador lineal de SVM
As la correspondiente funcin de monitoreo de fraude se puede implementar como: f (x) = Na Donde yi {+1, 1} , sign i=1 yi i (x.xi ) + b i es el multiplicador de Lagrange y b corresponde al parmetro de decisin de vecindad.
C. RESUMEN DE TCNICAS DE MINERA DE DATOS PARA LA DETECCIN DE FRAUDE En la tabla 1, se presenta un breve resumen de las tareas, metas y tcnicas de Minera ms utilizadas en la deteccin de Fraude.
Table I T CNICAS DE M INERA DE DATOS PARA LA D ETECCIN DE F RAUDE Tarea Encontrar datos Inusuales Meta Detectar registros con valores anormales. Detectar mltiples ocurrencias de valores. Detectar relaciones entre registros. Determinar perles. Determinar registros duplicados. Deteccin de registros con referencias de valores anormales. Detectar relaciones indirectas. entre registros Detectar registros con combinaciones de valores anormales. Encontrar criterios, tales como reglas. Calicacin de transacciones sospechosas. Tcnica de Minera Anlisis de Anomalas
Identicar Relaciones Inesplicables
Anlisis de Cluster Anlisis de Cluster y Anomalas Anlisis de Relaciones Asociacin
Caractersticas Generales de Fraude
Modelos Predictivos
V. TRABAJOS REALIZADOS A continuacin se presenta una revisin de los trabajos realizados, los cuales se pueden clasicar en dos categoras: 1. Las investigaciones realizadas en torno a la deteccin de fraude y 2. Las investigaciones de tcnicas de Minera que pueden aplicarse al problema deteccin de Fraude.
A. TRABAJOS ENTORNO A LA DETECCIN DE FRAUDE El fraude es la actividad ms vieja de la humanidad, y puede tomar una variedad de formas diferentes. Las reas ms vulnerables se centran en las tarjetas de crdito, el lavado de activos, el sector de las telecomunicaciones y el sector mdico. Referente al fraude con tarjetas de crdito, Bolton Richard y David Hand[2]han desarrollado una tcnica basada en modelos estadsticos concernientes a detectar el comportamiento de fraude, a travs del anlisis longitudinal de los datos, para ello emplean un mtodo no supervisado que les permite detectar el cambio en el comportamiento de un objeto o detectar transacciones inusuales. El mtodo propuesto por estos autores se llama PGA (Peer Group Analysis, 2001), es una nueva herramienta para monitorear el comportamiento individual de objetos respecto a diferentes objetos, que tiene previamente alguna caracteristica similar. Cada objeto es seleccionado como una clase, y es comparado con todos los objetos en la base de datos, usando criterios de comparacin internos y externos de patrones de comportamiento de cada objeto. Esta herramienta intenta ser parte de la minera de datos, en el sentido que tiene un ciclo que detecta objetos anmalos y trata de aislarlo de los dems. Igualmente Jon T.S Quah y M. Sringanesh (2007) desarrollaron una investigacin sobre fraude con tarjetas de crdito por Internet[34], para ello emplearon el modelo de redes neuronales SOM(Selt Organizing Maps), la cual consta de tres capas: Una capa de inicial de autenticacin PIN (Personal Identication Number), Una capa de anlisis de comportamiento, la cual tiene un mtodo de clasicacin en cluster de los datos de entrada, seguido de la aplicacin del algoritmo Feed-Forward de una red neuronal. Una capa de salida, que presenta si la transaccin es sospechoso o no. De otro lado, Efstathios Kirkos[19] presenta un estudio de mtodos basados en tcnicas de clasicacin de Minera de datos, para identicar rmas que emiten estamentos nancieros fraudulentos conocido como FFS (Fraudulent Financial Statements). Esta tcnica emplea modelos de minera de datos como: rboles de decisin (ID3), Redes Neuronales (Feed-Forward) y Redes de Creencia Bayesiana. Los mtodos son comparados en trminos de su exactitud de prediccin. La muestra sobre la cual se trabajo corresponde a datos de 76 compaas de Grecia. Los datos se dividieron en dos conjuntos: uno de entrenamiento y otro de validacin. En el modelo de entrenamiento, el desempeo de las redes neuronales fue del 100%, seguido de los rboles de decisin con un 96% y por ltimo las redes Bayesianas con un 94.7%, como se ilustra en la tabla 2. De igual forma en el modelo de validacin, los resultados fueron diferentes, las redes Bayesianas tuvieron mejor desempeo con un 90.3%, seguido de las redes neuronales con un 80 % y por ltimo los rboles de decisin con un 73.6%, como se aprecia en la tabla 3.
Table II M ODELO DE ENTRENAMIENTO PARA DETECCIN DE F RAUDE EN FFS Modelo ID3 NN BBN Fraude(%) 92.1 100 97.4 No- Fraude(%) 100 100 92.1 Total(%) 96.2 100 94.7
Table III M ODELO DE VALIDACIN PARA DETECCIN DE F RAUDE EN FFS Modelo ID3 NN BBN Fraude(%) 75 82.5 91.7 No- Fraude(%) 72.5 77.5 88.9 Total(%) 73.6 80 90.3
De otra parte, Clifton Phua [8], presenta un compendio de los trabajos realizados en la aplicacin de tcnicas de minera, para la deteccin de fraude, para ello dividi su estudio en dos ramas: Algoritmos predictivos con aprendizaje supervisado, en esta rea se resalta los trabajos realizados por Ghost y Reilly(1994) que proponen un modelo de redes neuronales usando tres capas con una funcin radial Feed-Forward denominado RBF(Function Basis Radial). Syeda (2002) propuso una red neuronal con lgica difusa. Ezawa y Norton (1996) desarrollaron un modelo de red Bayesiana de cuatro estados y dos parmetros para deteccin de fraude en telecomunicaciones. Algoritmos con aprendizaje no supervisado, en esta rea se resalta los trabajos realizados por Williams y Hung (1997) aplicando tres pasos del algoritmo k-means para la deteccin de cluster. Brocket (1998) presenta un estudio basado en el modelo de red neuronal SOM (Self Organizing Maps) para la deteccin de cluster, antes de lanzar el algoritmo BackPropagation para la deteccin de fraude medico. S. Viaene (2005) presenta un estudio del aprendizaje Bayesiano para redes neuronales de Perceptrn Multicapa(MLP) con el n de detectar fraude en las reclamaciones privadas de los accidentes que se produjeron en Massachusetts US en 1993[20]. Con otro enfoque, R. wheeler (2000) presenta una metodologa para la deteccin de Fraude basada en CBR (case-based reasoning) que se basa en mtodos de vecindad, y que desarrolla los algoritmos de mejor coincidencia, seleccin negativa y seleccin de densidad[33]. De otro lado, referente al fraude mdico, Hongxing He y Jincheng Wang (1997), emplearon la tcnica de Perceptrn Multicapa(MLP) para clasicar perles profesionales mdicos, que fueron clasicados por expertos en cuatro categoras[35]. La red neuronal consta de 28 neuronas en la capa de entrada ,15 neuronas en la capa oculta y 4 neuronas en la capa de salida. El porcentaje de exactitud de clasicacin de la red fue del 59.8%. En contraste a los autores anteriores, que manejaban tcnicas de redes neuronales, redes bayesianas, rboles de decisin, S.N. Pang (2001) presenta un estudio sobre la implementacin de las mquinas de soporte vectorial, como alternativa de solucin al problema de deteccin de fraude. Para ello el autor presenta una funcin de monitoreo binaria que permite
crear modelos de deteccin de fraude para las comunicaciones mviles[29]. En oposicin a los autores anteriores Bonnie Buchanan(2005) presenta un mapa conceptual de una modalidad de fraude, como lo es el lavado de activos a nivel mundial, presentando las tcnicas usadas comnmente como: sistemas paralelos, compaas fachadas, pitufeo, transferencias electrnicas. De igual forma presenta las medidas y regulaciones que se han venido tomando a nivel mundial[5]. B. TRABAJOS ENTORNO A TCNICAS DE MINERA DE DATOS Dentro de las tcnicas de minera que pueden ser de gran ayuda a la deteccin de Fraude, estn: 1) Deteccin de anomalas(Outlier): Esta tcnica es de valioso aporte para el desarrollo de sistemas en la deteccin de fraude, ya que trata de encontrar valores raros en un conjunto de datos, lo cual se alinea con el objetivo de la deteccin de Fraude. En los ltimos aos se han diseado varios mtodos para la deteccin de Outlier, entre los autores ms destacados se encuentran: Zengyou He, quien desarrollo dos mtodos: El primero es un algoritmo denominado Greedy(2005) que pretende resolver problemas de optimizacin, en la deteccin de Outlier de datos categricos[15]. El esquema bsico del algoritmo se basa en dos fases: en la primera cada registro es etiquetado como noOutlier, y se tiene una tabla hash para hacer las actualizaciones; en la segunda fase, se lee los datos hasta encontrar un registro que maximice la entropa, en este punto el registro es etiquetado como Outlier. El segundo mtodo presentado por este autor, hace referencia al problema de deteccin de Outlier de Clases [16] y su aplicacin en CRM (customer relationship management). Para ello el autor introduce dos tipos de clases de Outlier: local class Outlier y reference class Outlier. Kaustav Das(2007)[9]. El autor aborda el problema de detectar anomalas en grandes conjuntos de datos categricos, para ello emplea redes Bayesianas, que se basan en tener denido una estructura y un algoritmo de aprendizaje. Tianming Hu(2003)[17]. Este autor aborda el tema de la deteccin de Outlier, a partir de la identicacin de patrones obtenidos a travs de tcnicas de clustering. C. Caroni and P. Prescott(1995)[6]. Los autores hacen uso del mtodo de ORohlf, que examina la distancias entre puntos en un espacio vectorial para construir un MTS (minimun spanning tree) usando la medida de distancia ms apropiada. J. A. Fernandez Pierna(2001)[24]. Este autor hace un compendio de las principales tcnicas utilizadas para la deteccin de Outlier, entre las que se destacan: Mtodo de la incertidumbre, Mtodo de convex full, Distancia de Mahalanobis, XResidual, Potencial Functions, RHM (Resampling by the halfmeans method), SVM (Smallest half-volume method). 2) Anlisis de Cluster: Son muy variadas las tcnicas empleadas en el agrupamiento, a continuacin se cita el estudio realizado por A.C. Atkinson(2007), el cual se basa en un procedimiento robusto conocido como la distancia de Mahalanobis, que permite identicar cluster en datos normales multivariados[1].
VI. PERSPECTIVAS DE TRABAJOS FUTUROS Se deben estudiar estrategias que permitan optimizar la aplicacin de tcnicas de Minera de Datos, analizando las siguientes premisas: 1. El gran volumen de informacin que presenta el sector Financiero demanda la utilizacin de un sistema altamente eciente y escalable. 2. Datos altamente sesgados, slo un porcentaje muy bajo de las transacciones resultan sospechosas, alrededor de 1%; por lo que aplicar modelos de minera de datos a la informacin para la deteccin de Fraude, se podran obtener respuestas muy obvias como que todas las transacciones son normales o tienen una baja probabilidad de ser sospechosas. 3. Manejo de informacin incompleta y en algunos casos incoherentes, producto de la migracin en los sistemas de informacin de las organizaciones. Se recomienda que se adelanten estudios en la bsqueda de estrategias para explorar mtodos hbridos que combinen diferentes tcnicas de Minera de Datos que ayuden a mejorar el desempeo y obtener nuevos resultados. VII. CONCLUSIONES Como se comento en la introduccin, la deteccin de fraude es una estrategia aplicada despus que la prevencin a fallado, para ello en la actualidad se usan herramientas tradicionales como la estadstica y tcnicas de Minera de datos, en especial las referentes a Redes Neuronales, Redes de Creencia Bayesiana y rboles de Decisin, que han ayudado a encontrar modelos ms complejos que las herramientas tradicionales. Dado que los patrones de Fraude cambian frecuentemente, es importante contar con la participacin de expertos en la formulacin de reglas; los analistas que estn diariamente monitoreando posibles comportamientos de fraude, encuentran casos a diario. Dado lo anterior, se debe tener en cuenta que los modelos que proveen las tcnicas de Minera de Datos deben ser re-entrenados con cierta frecuencia, con el n de actualizar los modelos con los nuevos datos. La Minera de datos aporta diferentes tecnologas en la identicacin de operaciones fraudulentas. Por lo general es necesario el uso de varias de estas tecnologas, con el n tener un mejor xito en la solucin del problema. La eleccin exacta y la combinacin de estas tecnologas, depende en gran medida de las caractersticas de los datos disponibles. R EFERENCES
[1] [2] [3] [4] [5] [6] A.C. Atkinson and M. Riani. Exploratory tools for clustering multivariate data. Computational Statistics and Data Analysis , Vol 52, pp 272-285, Sep 2007. Bolton, Richard J and Hand, David J. Statistical Fraud Detection: A Review.Statistical Science,Vol 17, pp 235-249, Jan 2002. Bradford, J. P. and Fortes, J. A. B. Characterization and Parallelization of Decision-Tree Induction. Journal of Parallel and Distributed Computing, Vol 61, pp 322349, Jan 2001. Bradley, P. S. and Fayyad, U. M. and Mangasarian, O. L. Mathematical programming for data mining: Formulations and challenges. INFORMS Journal on Computing, Vol 11, pp 217-238, Jan 1999. Bonnie Buchanan. Money laundering-a global obstacle. Research in International Business and Finance, Vol 18, pp 115-127, Apr 2004. C. Caroni and P. Prescott. On Rohlfs Method for the Detection of Outliers in Multivariate Data. Journal of Multivariate Analysis, Vol 52, pp 295-307, feb 1995.
[7]
[8]
[9]
[10]
[11]
[12] [13]
[14] [15] [16]
[17] [18]
[19]
[20]
[21]
[22] [23]
[24]
[25]
[26]
[27] [28] [29]
[30] [31] [32] [33] [34]
Chen, M. S. and Han, J. and Yu, P. S. Data mining: an overview from a database perspective. IEEE Transactions on Knowledge and Data Engineering, Vol 8, pp 866-883, Jan 1996. Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler. A Comprehensive Survey of Data Mining-based Fraud Detection Research. School of Business Systems, Monash University, 2005 Kaustav Das and Jeff Schneider. Detecting anomalous records in categorical datasets. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 220-229, New York 2007. Laurie Davies and Ursula Gather. The Identication of Multiple Outliers. Journal of the American Statistical Association, Vol 88, pp 782-792, Sep 1993. Devedzic, V. Knowledge discovery and data mining in databases. Handbook of Software Engineering and Knowledge Engineering Fundamentals, World Scientic Publishing Co., Singapore, pp 615-637, Jan 2001. J.R. Quinlan. Induction of Decision Trees. Machine Learning, pp 81106, 1986.. Hand, David J and Blunt, Gordon and Kelly, Mark G and Adams, Niall M. Data Mining for Fun and Prot. Data Mining for Fun and Prot, Vol 15, pp 111-126, May 2000. Zengyou He and Xiaofei Xu and Shengchun Deng. Data Mining for Actionable Knowledge: A Survey. Computer Science, 2001. Zengyou He and Xiaofei Xu and Shengchun Deng. A Fast Greedy Algorithm for Outlier Mining. Computer Science, 2005. Zengyou He and Xiaofei Xu and Joshua Zhexue Huang and Shengchun Deng. Mining class outliers: concepts, algorithms and applications in CRM. Expert Systems with Applications, Vol 27, pp 681-697, Nov 2004. Tianming Hu and Sam Y. Sung. Detecting pattern-based outliers. Pattern Recognition Letters, Vol 24, pp3059-3068,Dec 2003. Kyoung-jae Kim.Articial neural networks with evolutionary instance selection for nancial forecasting. Expert Systems with Applications, Vol 30, pp 519-526, Apr 2006. Efstathios Kirkos and Charalambos Spathis and Yannis Manolopoulos. Data Mining techniques for the detection of fraudulent nancial statements. Expert Systems with Applications, Vol 32, pp 995-1003, May 2007. S. Viaene,G. Dedene and R.A. Derrig. Auto claim fraud detection using Bayesian learning neural networks. Expert Systems with Applications, Vol 29,pp 653-666, 2005. Jian-Xin Pan and Wing-Kam Fung and Kai-Tai Fang. Multiple outlier detection in multivariate data using projection pursuit techniques. Journal of Statistical Planning and Inference, Vol 83, pp 153-167, 2000. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. Addison Wesley,2005. Daniel Pena and Francisco J Prieto. Multivariate Outlier Detection and Robust Covariance Matrix Estimation. Technometrics, Vol 43, pp 286300,2001. J. A. Fernandez Pierna and F. Wahl and O. E. de Noord and D. L. Massart. Methods for outlier detection in prediction. Chemometrics and Intelligent Laboratory Systems, Vol 63, pp 27-39, Aug 2002. Hyun-Chul Kim , Shaoning Pang, Hong-Mo Je, Daijin Kim and Sung Yang Bang. Constructing support vector machine ensemble. Pattern Recognition, Vol 36, pp 2757-2767, 2003. R. Brause, T. Langsdorf and M. Hepp. Credit Card Fraud Detection by Adaptive Neural Data Mining. Johann Wolfgang Goethe-Universitt Frankfurt am Main,1999. U Fayyad, R Uthurusamy. From Data Mining to Knowledge Discovery in Databases.ACM ,1996. Ningning Wu and Jing Zhang. Factor-analysis based anomaly detection and clustering. Decision Support Systems, Vol 42, pp 375-389, Oct 2006. S. N. Pang and D. Kim and S. Y. Bang. Fraud detection using support vector machine ensemble. Pohang University of Science and Technology (POSTECH), 2001. Zhao, Q. and Bhowmick, S. S. Association Rule Mining: A Survey. Nanyang Technological University, Singapore, 2006. Jiawei Han. Data Mining:Concepts and Techniques. Morgan Kaufmann,2006. Oded Maimon and Lior Rokach. Data Mining And Knowledge Discovery Handbook. Speinger 2005. R. Wheeler and S. Aitken. Multiple algorithms for fraud detection. Knowledge-Based Systems, Vol 13, pp 93-99, 2000. Jon T.S. Quah and M. Sriganesh. Real-time credit card fraud detection using computational intelligence. Expert Systems with Applications, 2007.
[35] Hongxing He, Jincheng Wang, Warwick Graco and Simon Hawkins. Application of neural networks to detection of medical fraud. Expert Systems with Applications, Vol 13, pp 329-336, 1997.

Técnicas de Minería de Datos Aplicadas en La Detección de Fraude:Estado Del Arte

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Técnicas de Minería de Datos Aplicadas en La Detección de Fraude:Estado Del Arte

Uploaded by

Copyright:

Available Formats

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Tcnicas de Minera de Datos Aplicadas en la Deteccin de Fraude:Estado del Arte

II. EL PROBLEMA DE LA DETECCIN DE FRAUDE

Maestria en Ingeniera de Sistemas y Computacin- Universidad Nacional de Colombia. e-mail: wsantamariar@unal.edu.co

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Ilustracin cadena de datos CRM

Etapas del proceso KDD

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Figure 3. Taxonoma tcnicas de Minera de Datos para deteccin de Fraude

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Agrupamiento por Cluster

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Esquema General de Una Red Neuronal

Esquema general de un rbol de decisin

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

Ejemplo de un separador lineal de SVM

Identicar Relaciones Inesplicables

Anlisis de Cluster Anlisis de Cluster y Anomalas Anlisis de Relaciones Asociacin

Caractersticas Generales de Fraude

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

TCNICAS DE MINERA DE DATOS APLICADAS EN LA DETECCIN DE FRAUDE

[14] [15] [16]

[27] [28] [29]

[30] [31] [32] [33] [34]

You might also like