Professional Documents
Culture Documents
REPERCUSIONES y RETOS DE LA
,
MINERIA DE DATOS
junto con el incremento en potencia de la computacin, son las causas de que las empresas
de hoy en da busquen herramientas y tecnologas capaces de extraer informacin til de
los datos.
El nivel real de implantacin y arraigo de la minera de datos en la sociedad es subjeti-
vo y muy difcil de determinar, y lgicamente depende de pases y zonas geogrficas. No
obstante, algunos muestran una cierta penetracin a diferentes mbitos. Por ejemplo, las
grandes empresas y organizaciones, as como los gobiernos, estn cambiando la
perspectiva de un anlisis de datos ms tradicional, ms descriptivo y confirmatorio, a una
minera de datos ms orientada al sistema de informacin, a la bsqueda de modelos y
patrones, y, sobre todo, una visin ms en el fin (sacar partido de la informacin que nos
rodea) que en el medio (este medio se encuentra, justamente, en la "minera de datos"). Si
bien las grandes organizaciones incorporan o incluso sustituyen terminologas, mtodos y
metodologas en los departamentos de estadstica e investigacin opera tiva, prospectiva y
similar, para las pequeas y medianas empresas la minera de datos representa su primera
oportunidad de entrar en el mundo del anlisis de la informacin, algo que pareca
imposible hace unos pocos aos, por el coste en recursos humanos y materiales que se
requera para ello. No slo existen herramientas de minera de datos cada vez ms
completas y accesibles (o incluso gratuitas), sino que los sistemas de gestin de bases de
datos estn incluyendo primitivas, lenguajes e incluso entornos de minera de datos. Hasta
las aplicaciones ofimticas (hojas de clculo) comienzan a incluir este tipo de herramientas.
Como en cualquier otra faceta tecnolgica, la web est contribuyendo mucho a esta
difusin. Cada vez ms compaas llevan a cabo sus actividades a travs de la web, sobre
todo la relacin con los clientes o entre proveedores. Los datos recogidos (patrones de
compra y de navegacin) pueden proporcionar mucha ms informacin sobre los clientes
tanto individualmente como en grupo, y esta informacin puede ayudar a las empresas a
ofrecer unos servicios ms personalizados y adaptados a las caractersticas de los clientes.
Servir a las necesidades de los clientes puede significar un ahorro econmico sustancial
para las empresas (por ejemplo, evitando hacer campaas publicitarias generales), y un
beneficio para los clientes que comprueban satisfechos cmo les ofrecen productos en los
que estn interesados y no pierden su tiempo en digerir ofertas por las que no estn
interesados.
Existen otros mbitos en los que la minera de datos est teniendo un impacto muy
importante. Las extensin de aplicaciones de la minera de datos en medicina y, general, el
rea que se ha venido a llamar bioinformtica, tienen unas consecuencias indirectas en la
sociedad, que no son desdeables. Lo mismo ocurre en otras reas, como en el mbito de la
seguridad o la lucha antiterrorista, campo en el que se est trabajando profusamente.
Pero la minera de datos no es slo til en los mbitos empresariales, institucionales o
cientficos, sino tambin a nivel individual [Han & Kamber 2001]. Por ejemplo, la mayora
de navegadores de ltima generacin incluyen mtodos de aprendizaje automtico
(generalmentebayesianos)para clasificarel correo electrnicoy detectar los mensajes spam.
Esto es slo el principio, nuestra informacin personal tambin ser procesada y analizada
por herramientas que nos sugerirn patrones, nos filtrarn informacin y nos harn ms
llevadera y provechosa la nueva sociedad de la informacin, conviertindola en la sociedad
del conocimiento.
Captulo 23. Repercusiones y retos de la minera de datos 599
23.2.1 Privacidad
Casi todas las constituciones y leyes supranacionales del mundo afirman taxativamente
que deben observarse una serie de medidas para un tratamiento riguroso de la informacin
privada de las personas. Un ejemplo ms que ilustrativo es el de los datos mdicos
personales. A nadie le gustara que su historial mdico apareciese en una pgina web o que
un trabajador del archivo de un hospital pudiera ojear libremente este historial, a la caza de
algn famoso con alguna enfermedad singular. En un mundo donde la informacin fluye
tan rpidamente, evitar este tipo de problemas obliga a limitar en gran medida la manera
en la que se recogen y almacenan los datos, para que incluso los operarios tengan limitado
ese acceso y, fundamentalmente, para que las bases de datos no se puedan ceder de unos a
otros libremente, ni usarse para fines diferentes de para aquellos para que los datos fueron
recogidos.
Existe ya una tradicin de directivas y leyes para esta proteccin de datos. Por ejemplo,
una iniciativa europea para la proteccin de los datos, conocida como European Data
Protection Directive (Directiva 95/46/EC, Official Journal 01the European Communities, 23 de
noviembre de 1995, NQ L. 281, p. 31), establece el marco legal que se debe cumplir cuando
se comercia con informacin personal en cualquiera de los estados miembros de la Unin
Europea. Estas directrices garantizan unos derechos bsicos sobre los datos recogidos de
un individuo:
. derecho a acceder a los datos
.. derecho a rectificar cualquier error en los datos
derecho a conocer de dnde se obtuvieron los datos
. derecho a recurrir contra tratamientos ilegales
. derecho a denegar el permiso para usar tus datos en campaas publicitarias
Las leyes nacionales generalmente suelen concretar estas directivas. Por ejemplo, en Espaa
existe una Ley de Proteccin de Datos de Carcter Personal (Ley Orgnica 15/1999, de 13 de
diciembre de 1999) que tiene por objetivo "garantizar y proteger, en lo que concierne al
tratamiento de los datos personales, las libertades pblicas y los derechos fundamentales
de las personas fsicas, y especialmente de su honor e intimidad personal y familiar".
En Amrica la tendencia es similar, aunque se parte generalmente de unas leyes con
menor nivel de proteccin que en Europa. De hecho, en Estados Unidos estos niveles de
proteccin y derechos se relajan mucho si quien realiza la minera de datos es algn
organismo o agencia federal. Tambin pueden tener interpretaciones diferentes
dependiendo del dominio de los datos, por ejemplo el mbito mdico ("The Health
Insurance Protability and Accountability Act, 1996", "Standards for Privacy and
600 Introduccin a la Minera de Datos
ladrn. Poner bajo sospecha a un cliente honesto puede ser a veces casi peor que detectar a
un cliente deshonesto. Este tipo de situaciones se pueden evaluar de mltiples maneras
(costes, anlisis ROe, etc.), como vimos en el Captulo 17.
Quizs un problema legal que se plantea cuando se utilizan muchos modelos obtenidos
por minera de datos y se combinan, es asumir responsalidad. Cuando un modelo se
equivoca, quin asume las responsabilidades? La respuesta no puede ser ms tajante, la
responsabilidad es siempre del que se deja asesorar por el modelo, nunca de quin lo
gener y mucho menos de quin desarroll la herramienta con la que se hizo. Esta
interpretacin es la misma que ocurre con los errores del software.
Un problema ms sutil es cuando los modelos se utilizan para discriminar, y los
ejemplos que estamos discriminando o clasificando son personas [Witten & Frank 2000].
Por ejemplo, basndose en datos personales (como por ejemplo, el sexo) una compaa de
seguros podra rechazar el suscribir una pliza para el coche. De hecho, esto ha pasado en
algunos casos y ha sido denunciado por discriminacin, pese a que el modelo y los datos
digan tozudamente que las mujeres generan menos accidentes graves que los hombres. Sin
embargo, la situacin es compleja y todo depende del tipo de aplicacin. Por ejemplo, usar
informacin referente al sexo o a la raza puede ser tico para el diagnstico mdico pero no
para determinar si se debe o no conceder un crdito bancario.
En definitiva, tanto en el uso de los datos como en el de los modelos, la legislacin
contempla muchos casos comunes, y el equipo que realiza la minera de datos debe conocer
perfectamente la ley al respecto en su pas y sobre los datos que est trabajando, pero, en
cualquier caso, la dimensin tica debe estar presente en la mente de los que realizan y
utilizan la minera de datos, no slo en cuanto a los datos usados sino tambin en cuanto al
uso de los patrones minados.
J ;(
. ..
~
Global
J:t
Global
n Global
n
[ 'ntegr~cini
X
~ -A-
A..:.n X
...~ r p-A-
X
Modelos
Parciales
n
~
.;. n ~
En cualquiera de las tres arquitecturas, muchas de las tcnicas de minera de datos que se
han definido son extensiones de tcnicas clsicas de minera de datos para bases de datos
relacionales al caso de fuentes distribuidas. A continuacin, resumimos aqu algunas de las
propuestas que se relatan en [Kargupta et al. 2000].
604 Introduccin a la Minera de Datos
herramientas sean aceptados por una amplia mayora es necesario que se diseen mejores
interface s de usuario, ms amigables y que permitan a un usuario final poco tcnico
alcanzar buenos resultados. Esto acercar este tipo de herramientas a las empresas
pequeas y medianas, permitindoles incorporar la minera de datos como una actividad
ms. Ambas cuestiones podemos englobarlas bajo la idea de construir entornas interactivos
e integrados que proporcionen una rpida respuesta, unas altas prestaciones y que asistan
a los usuarios en la seleccin de la herramienta y tcnica adecuada para alcanzar sus
objetivos. En este sentido, en [Fayyad et al. 1996b] se apunta que es necesario hacer ms
nfasis en la interaccin hombre-mquina y menos nfasis en la automatizacin total, con el
nimo de soportar tanto a usuarios expertos como novatos. Adems, las herramientas
interactivas facilitan la incorporacin de conocimiento previo sobre el problema, algo
importante en la minera de datos.
Siguiendo con las herramientas, una de las direcciones prometedoras en investigacin y
desarrollo en la minera de datos es la construccin de sistemas capaces de proporcionar
soluciones especficas para cada tipo de negocios (distribucin, medicina, mrketing...), lo
que en [Zhang & Zhang 2002] se denomina sistemas que proporcionan una solucin
vertical. Estas soluciones integran la lgica de un negocio de dominio especfico con el
sistema de minera de datos. Esto contrasta con la situacin actual en la que los sistemas de
minera, aunque puedan integrar muchas tcnicas, son horizontales, es decir, no estn
especialmente diseados para ser aplicados a un determinado dominio.
La comprensibilidad de los patrones, as como la capacidad para podar los resultados
de la minera, es otra de las cuestiones cruciales. En muchas aplicaciones es importante
hacer que la informacin descubierta sea ms comprensible por los humanos (por ejemplo,
usando representaciones grficas y visualizacin de datos o generando lenguaje natural).
No debemos olvidar que, generalmente, el usuario final no es un experto en aprendizaje
automtico ni en estadstica. Los avances que faciliten la integracin en los entornas de
decisin, la simulacin de los modelos para entender sus consecuencias, las herramientas
que integren diferentes modelos y los conviertan en modelos globales, y que ayuden en su
monitorizacin y revisin, sern cruciales en facilitar este uso del conocimiento extrado.
Pese a la cantidad y dificultad de todos estos retos, la minera de datos alza el vuelo
desde una situacin de partida aventajada para lograrlos: es una disciplina muy joven
aunque basada en otras muchas con experiencia, goza de un impetuoso inters en el
mundo empresarial y una dilatada vocacin desde el mundo acadmico. Sea lo que sea lo
que nos depare el futuro de la minera de datos, ste pinta fascinante.