You are on page 1of 10

Captulo 23

REPERCUSIONES y RETOS DE LA
,
MINERIA DE DATOS

A lo largo de los captulos precedentes hemos discutido diferentes tcnicas de minera


de datos y descrito los conceptos asociados a las mismas. En este ltimo captulo
abordamos algunas cuestiones finales relativas al impacto social de la minera de datos y a
las cuestiones ticas y legales derivadas de la privacidad de los datos utilizados. Tambin
trataremos el problema de la escalabilidad de las tcnicas de minera de datos a bases de
datos voluminosas. Comentaremos algunas soluciones parciales o algunas ms globales,
como la minera de datos distribuida.
Para terminar, en este captulo presentamos algunos de los retos a los que la minera de
datos debe enfrentarse y que creemos van a marcar la direccin en la evolucin y desarrollo
de esta tecnologa en los prximos aos.

23.1 Impacto social de la minera de datos


No cabe duda que la minera de datos se ha convertido en los ltimos aos en un trmino
muy popular. Cada vez son ms los usuarios, las aplicaciones, las investigaciones y los
desarrollos relacionados con ella, y crecen los sistemas software que afirman ser productos
de minera de datos. La minera de datos ha ido evolucionando desde su aparicin,
desarrollando nuevos mtodos para adaptarse a las necesidades de una amplia variedad de
dominios de aplicacin.
Por todo ello, esta disciplina se ha convertido en una tecnologa ampliamente reconoci-
da por compaas de todo tipo, organizaciones, instituciones pblicas e individuos. El uso
de informacin aprendida desde los datos es necesario para mantener la competitividad en
todos los entornas empresariales, as como optimizar las decisiones de las instituciones
pblicas para dar un mejor servicio a los ciudadanos. Los almacenes de datos, que han
hecho posible el almacenamiento de grandes volmenes de datos en un mismo repositorio,
598 Introduccin a la Minera de Datos

junto con el incremento en potencia de la computacin, son las causas de que las empresas
de hoy en da busquen herramientas y tecnologas capaces de extraer informacin til de
los datos.
El nivel real de implantacin y arraigo de la minera de datos en la sociedad es subjeti-
vo y muy difcil de determinar, y lgicamente depende de pases y zonas geogrficas. No
obstante, algunos muestran una cierta penetracin a diferentes mbitos. Por ejemplo, las
grandes empresas y organizaciones, as como los gobiernos, estn cambiando la
perspectiva de un anlisis de datos ms tradicional, ms descriptivo y confirmatorio, a una
minera de datos ms orientada al sistema de informacin, a la bsqueda de modelos y
patrones, y, sobre todo, una visin ms en el fin (sacar partido de la informacin que nos
rodea) que en el medio (este medio se encuentra, justamente, en la "minera de datos"). Si
bien las grandes organizaciones incorporan o incluso sustituyen terminologas, mtodos y
metodologas en los departamentos de estadstica e investigacin opera tiva, prospectiva y
similar, para las pequeas y medianas empresas la minera de datos representa su primera
oportunidad de entrar en el mundo del anlisis de la informacin, algo que pareca
imposible hace unos pocos aos, por el coste en recursos humanos y materiales que se
requera para ello. No slo existen herramientas de minera de datos cada vez ms
completas y accesibles (o incluso gratuitas), sino que los sistemas de gestin de bases de
datos estn incluyendo primitivas, lenguajes e incluso entornos de minera de datos. Hasta
las aplicaciones ofimticas (hojas de clculo) comienzan a incluir este tipo de herramientas.
Como en cualquier otra faceta tecnolgica, la web est contribuyendo mucho a esta
difusin. Cada vez ms compaas llevan a cabo sus actividades a travs de la web, sobre
todo la relacin con los clientes o entre proveedores. Los datos recogidos (patrones de
compra y de navegacin) pueden proporcionar mucha ms informacin sobre los clientes
tanto individualmente como en grupo, y esta informacin puede ayudar a las empresas a
ofrecer unos servicios ms personalizados y adaptados a las caractersticas de los clientes.
Servir a las necesidades de los clientes puede significar un ahorro econmico sustancial
para las empresas (por ejemplo, evitando hacer campaas publicitarias generales), y un
beneficio para los clientes que comprueban satisfechos cmo les ofrecen productos en los
que estn interesados y no pierden su tiempo en digerir ofertas por las que no estn
interesados.
Existen otros mbitos en los que la minera de datos est teniendo un impacto muy
importante. Las extensin de aplicaciones de la minera de datos en medicina y, general, el
rea que se ha venido a llamar bioinformtica, tienen unas consecuencias indirectas en la
sociedad, que no son desdeables. Lo mismo ocurre en otras reas, como en el mbito de la
seguridad o la lucha antiterrorista, campo en el que se est trabajando profusamente.
Pero la minera de datos no es slo til en los mbitos empresariales, institucionales o
cientficos, sino tambin a nivel individual [Han & Kamber 2001]. Por ejemplo, la mayora
de navegadores de ltima generacin incluyen mtodos de aprendizaje automtico
(generalmentebayesianos)para clasificarel correo electrnicoy detectar los mensajes spam.
Esto es slo el principio, nuestra informacin personal tambin ser procesada y analizada
por herramientas que nos sugerirn patrones, nos filtrarn informacin y nos harn ms
llevadera y provechosa la nueva sociedad de la informacin, conviertindola en la sociedad
del conocimiento.
Captulo 23. Repercusiones y retos de la minera de datos 599

23.2 Cuestiones ticas y legales


Tal y como acabamos de comentar y hemos ido viendo a lo largo del libro, la minera de
datos puede reportar numerosos beneficios en muy diversas aplicaciones. Pero existe
tambin un lado peligroso en la minera de datos que tiene que ver con dos aspectos
fundamentalmente: la privacidad de las personas con cuyos datos se trabaja y el uso
descuidado de los modelos obtenidos. Tanto uno, el uso de los datos, como el otro, el uso
de la informacin, tienen implicaciones ticas y legales.

23.2.1 Privacidad
Casi todas las constituciones y leyes supranacionales del mundo afirman taxativamente
que deben observarse una serie de medidas para un tratamiento riguroso de la informacin
privada de las personas. Un ejemplo ms que ilustrativo es el de los datos mdicos
personales. A nadie le gustara que su historial mdico apareciese en una pgina web o que
un trabajador del archivo de un hospital pudiera ojear libremente este historial, a la caza de
algn famoso con alguna enfermedad singular. En un mundo donde la informacin fluye
tan rpidamente, evitar este tipo de problemas obliga a limitar en gran medida la manera
en la que se recogen y almacenan los datos, para que incluso los operarios tengan limitado
ese acceso y, fundamentalmente, para que las bases de datos no se puedan ceder de unos a
otros libremente, ni usarse para fines diferentes de para aquellos para que los datos fueron
recogidos.
Existe ya una tradicin de directivas y leyes para esta proteccin de datos. Por ejemplo,
una iniciativa europea para la proteccin de los datos, conocida como European Data
Protection Directive (Directiva 95/46/EC, Official Journal 01the European Communities, 23 de
noviembre de 1995, NQ L. 281, p. 31), establece el marco legal que se debe cumplir cuando
se comercia con informacin personal en cualquiera de los estados miembros de la Unin
Europea. Estas directrices garantizan unos derechos bsicos sobre los datos recogidos de
un individuo:
. derecho a acceder a los datos
.. derecho a rectificar cualquier error en los datos
derecho a conocer de dnde se obtuvieron los datos
. derecho a recurrir contra tratamientos ilegales
. derecho a denegar el permiso para usar tus datos en campaas publicitarias
Las leyes nacionales generalmente suelen concretar estas directivas. Por ejemplo, en Espaa
existe una Ley de Proteccin de Datos de Carcter Personal (Ley Orgnica 15/1999, de 13 de
diciembre de 1999) que tiene por objetivo "garantizar y proteger, en lo que concierne al
tratamiento de los datos personales, las libertades pblicas y los derechos fundamentales
de las personas fsicas, y especialmente de su honor e intimidad personal y familiar".
En Amrica la tendencia es similar, aunque se parte generalmente de unas leyes con
menor nivel de proteccin que en Europa. De hecho, en Estados Unidos estos niveles de
proteccin y derechos se relajan mucho si quien realiza la minera de datos es algn
organismo o agencia federal. Tambin pueden tener interpretaciones diferentes
dependiendo del dominio de los datos, por ejemplo el mbito mdico ("The Health
Insurance Protability and Accountability Act, 1996", "Standards for Privacy and
600 Introduccin a la Minera de Datos

Individually Identifiable Health Information, 1999", "Protection of Human Subjects" ("The


Common Rule").
El uso potencial de las tcnicas de minera de datos puede significar que los datos se
usen para fines distintos para los cuales se recopilaron. Para evitar problemas relacionados
con la privacidad de los datos y la intimidad, se debera establecer bajo qu condiciones y
para qu propsitos se van a usar los datos antes de que stos sean recogidos. De hecho, en
muchos pases se obliga ya a establecer dicha clusula a la hora de recoger los datos. En ese
caso, deberamos poner, por ejemplo, si se trata de un supermercado, alguna frase del estilo
"cuando usted d de alta la nueva tarjeta superclub, podremos analizar sus perfiles de
compra cada vez que use la tarjeta, con el objetivo de mejorar nuestro servicio, o para
realizar un anlisis posterior junto al resto de ventas, siempre de acuerdo con la legislacin
vigente" .
Dado que, generalmente, los datos no se recogen directamente para minera de datos
(desgraciadamente se piensa en hacer minera de datos cuando los datos ya se han
recogido), muchas veces no tenemos este permiso. En estos casos, lo ms razonable es
utilizar una de estas tcnicas:
. Eliminar claves e informacin identificativa: nombre y apellidos, direccin, docu-
mento de identidad, nmeros de tarjetas o de cuentas, etc. En la mayora de los
casos esta informacin no nos interesa, o slo nos interesa parcialmente (cdigo
postal, edad, etc.). Si la minera de datos se va a utilizar para realizar decisiones
personalizad as, se debe crear una tabla de correspondencias (entre la antigua tabla,
incluyendo todos los datos, y la nueva tabla, que slo incluye los datos no sensi-
bles).
. Agregar los datos: para algunas aplicaciones de minera de datos se pueden
agregar los datos (por zonas geogrficas, por perodos, etc.) de tal manera que ya
no exista informacin personalizada. De hecho, la informacin agregada (por ejem-
plo las estadsticas) pueden intercambiarse y publicarse sin ningn problema,
siempre que de esa informacin global no pueda inferirse la informacin particular
(por ejemplo, porcentaje de morosos en los clientes de un banco por nacionalidades,
y resulta que todos los clientes son espaoles menos uno que es mejicano).
En cualquier caso, aunque en muchos casos la ley permite utilizar datos detallados dentro
de la misma organizacin, si el grupo de trabajo de minera de datos est formado por
mucha gente, es preferible que el anlisis se realice ya sobre la base de datos sin
informacin sensible, habiendo realizado en un primer lugar la eliminacin de informacin
identificativa o habiendo agregado convenientemente.

23.2.2 Modelos. Errores y discriminacin


El uso de los modelos extrados, como hiptesis que son, puede conllevar errores. De hecho,
es rara la aplicacin de la minera de datos en la que no se produzcan errores. En algunos
casos estos errores estn claros cuando se analiza el problema, pero en otros la atencin se
puede centrar tanto en los objetivos principales que nos podemos olvidar de los efectos
secundarios. Por ejemplo, como se menciona en [Dunham 2003], que un individuo haga
compras con su tarjeta de crdito similares a las que se hacen cuando la tarjeta es robada no
significa que realmente la tarjeta haya sido robada, y que, por tanto, el individuo seaun
Captulo 23. Repercusiones y retos de la minera de datos 601

ladrn. Poner bajo sospecha a un cliente honesto puede ser a veces casi peor que detectar a
un cliente deshonesto. Este tipo de situaciones se pueden evaluar de mltiples maneras
(costes, anlisis ROe, etc.), como vimos en el Captulo 17.
Quizs un problema legal que se plantea cuando se utilizan muchos modelos obtenidos
por minera de datos y se combinan, es asumir responsalidad. Cuando un modelo se
equivoca, quin asume las responsabilidades? La respuesta no puede ser ms tajante, la
responsabilidad es siempre del que se deja asesorar por el modelo, nunca de quin lo
gener y mucho menos de quin desarroll la herramienta con la que se hizo. Esta
interpretacin es la misma que ocurre con los errores del software.
Un problema ms sutil es cuando los modelos se utilizan para discriminar, y los
ejemplos que estamos discriminando o clasificando son personas [Witten & Frank 2000].
Por ejemplo, basndose en datos personales (como por ejemplo, el sexo) una compaa de
seguros podra rechazar el suscribir una pliza para el coche. De hecho, esto ha pasado en
algunos casos y ha sido denunciado por discriminacin, pese a que el modelo y los datos
digan tozudamente que las mujeres generan menos accidentes graves que los hombres. Sin
embargo, la situacin es compleja y todo depende del tipo de aplicacin. Por ejemplo, usar
informacin referente al sexo o a la raza puede ser tico para el diagnstico mdico pero no
para determinar si se debe o no conceder un crdito bancario.
En definitiva, tanto en el uso de los datos como en el de los modelos, la legislacin
contempla muchos casos comunes, y el equipo que realiza la minera de datos debe conocer
perfectamente la ley al respecto en su pas y sobre los datos que est trabajando, pero, en
cualquier caso, la dimensin tica debe estar presente en la mente de los que realizan y
utilizan la minera de datos, no slo en cuanto a los datos usados sino tambin en cuanto al
uso de los patrones minados.

23.3 Escalabilidad. Minera de datos distribuida


Una de las dificultades a las que se ha enfrentado la minera de datos desde sus inicios y
que, al mismo tiempo, ha justificado su desarrollo, es la necesidad de tratar con grandes
volmenes de datos. El trmino" grande" es, lgicamente, subjetivo; lo que hace unos aos
eran grandes volmenes de datos hoy son pequeos volmenes. No obstante, las
exigencias siempre van a la par que las capacidades, y las cantidades de datos que se
quieren minar hoy en da son tambin mucho mayores que las que se aspiraba a minar
hace unos aos. Por tanto, pese a que los computadores cada da son ms potentes, tambin
tenemos mayores volmenes de datos y exigimos modelos ms precisos y comprensibles.
Esto hace que la escalabilidad de las tcnicas de minera de datos sea fundamental. El
trmino escalabilidad, aplicado a una tcnica o algoritmo, significa que si para un tamao x
una tcnica requiere un tiempo y memoria t, para a un tamao, digamos, 10x, la tcnica
requerir no mucho ms que 10t. Dicho de una manera ms precisa, queremos un
comportamiento lineal respecto al tiempo (y tambin a la memoria necesaria) para ejecutar
una tcnica de minera de datos segn van creciendo los datos. A la medida que crecen los
volmenes de datos, si no tenemos escalabilidad, en unos aos no podremos aplicar
algunas tcnicas al conjunto de bases de datos.
Otra cuestin que se est evidenciando en los ltimos aos es el crecimiento en talla y
nmero de las bases de datos y de los almacenes de datos. Muchos de los algoritmo s de
602 Introduccin a la Minera de Datos
Tl
aprendizaje son computacionalmente complejos y requieren que todos los datos residan en
memoria, lo cual es inmantenible para muchas aplicaciones reales.
Se ha investigado intensamente en algoritmos que escalan bien con grandes volmenes
de datos [Cohen 1995a; Han et al. 1996], incluyendo tcnicas para realizar muestreos
eficientes, seleccin de caractersticas, restriccin del espacio de bsqueda y aplicacin del
conocimiento del dominio (un buen resumen se puede encontrar en [Provost & Kolluri
1997]). Muchas de estas aproximaciones mejoran las prestaciones de los algoritmos de
aprendizaje vistos en los captulos de la Parte III.
De los dos problemas, tiempo de ejecucin y memoria necesaria, el problema del
espacio puede resolverse si el algoritmo trabaja de forma incremental: se procesan las
instancias de una en una (o en pequeos grupos) actualizando cada vez el modelo. De esta
forma slo las instancias que constituyen el conjunto de entrenamiento deben residir en
memoria principal. La incrementalidad (de la que ya hemos hablado en la Seccin 19.6)
tambin facilita la minera cuando se incorporan nuevos datos a la base de datos, ya que
permite actualizar el modelo sin tener que minar de nuevo el conjunto de datos entero.
Algunos ejemplos de algoritmos que trabajan incrementalmente son el mtodo Naive
Bayes as como algunas versiones incrementales de algoritmos de induccin de rboles de
decisin. No obstante, para otros muchos mtodos de los vistos en el libro todava no se
han desarrollado versiones incrementales.
Pese a todas estas mejoras, en la prctica, algunas de estas soluciones no son viables. El
problema es que asumen que los datos residen en memoria, mientras que en la mayora de
los casos los datos residen en disco. Incluso en algunos casos la vista minable es tan grande
que, simplemente, no cabe en memoria principal. En algunos apartados de este libro (vase
por ejemplo Captulo 11) se han tratado adaptaciones de algoritmos para realizar una
buena paginacin e intercambio de datos entre el disco y la memoria principal, evitando
mltiples pasadas sobre las mismas tablas. En otros apartados hemos tratado aproximacio-
nes paralelas (vase por ejemplo el Captulo 9, Seccin 9.2.1, o el Captulo 15, pgina 395).
La paralelizacin es una forma de reducir la complejidad temporal del aprendizaje. La
idea es partir el problema en pequeas partes, resolver cada una de ellas en un procesador
y luego combinar los resultados. Para hacer esto se deben crear versiones paralelas de los
algoritmos de aprendizaje. Algunos algoritmo s son paralelizables de forma natural. Por
ejemplo, el mtodo del vecino ms prximo puede distribuirse entre varios procesado res
partiendo los datos en varias muestras y permitiendo que cada procesador encuentre el
vecino ms prximo en su parte del conjunto de entrenamiento. Los algoritmos de
aprendizaje de rboles de decisin tambin se pueden paralelizar dejando que cada
procesador construya un subrbol del rbol completo. Bagging y stacking son tambin
algoritmos paralelizables. Sin embargo, como se comenta en [Witten & Frank 2000], la
paralelizacin es slo un remedio parcial, ya que con un nmero fijo de procesadores la
complejidad temporal asinttica del algoritmo no puede mejorarse.
En relacin con esta ltima aproximacin para la escalabilidad de la minera de datos, y
debido a la existencia de fuentes de datos heterogneas, de mltiples fuentes o almacenes
de datos, de interconectividad con la web, y, en general, una visin ms abierta de la
minera, ha cobrado renombre recientemente una nueva aproximacin: la minera de datos
distribuida.
Captulo 23. Repercusiones y retos de la minera de datos 603

23.3.1 Minera de datos distribuida


Un sistema de informacin distribuido consta de un sistema de gestin de bases de datos
distribuidas, una base de datos distribuida (donde los datos se distribuyen entre varias
bases de datos) y una red para la interconexin. Una de las aproximaciones para operar con
estas bases de datos es la arquitectura cliente-servidor, donde el objetivo es comunicar
mltiples usuarios con mltiples servidores de forma transparente. Si atendemos a los
datos que hay que una bases de datos distribuidas, podemos distinguir entre bases de
datos homogneas, cuando el mismo esquema est repetido en cada servidor y se tienen,
por tanto, los objetos (las tuplas), repartidos, o bases de datos distribuidas heterogneas,
donde cada parte recoge algunas tablas o incluso atributos diferentes de la misma tabla. No
vamos a entrar aqu en detalle sobre las bases de datos distribuidas; para ms informacin,
se recomienda [Ozsu & Valduriez 1999].
La minera de datos sobre bases de datos distribuidas se denomina, sencillamente,
minera de datos distribuida (Distributed Data Mining, DDM). A pesar de resultar muy
interesantes para muchas aplicaciones, la minera de bases de datos distribuida ha recibido
atencin desde hace muy poco tiempo. En esta seccin vamos a revisar algunas propuestas
para la minera de datos distribuida.
Una posibilidad para minar estas bases de datos distribuidas [Thuraisingham 1999] es
que cada procesador o nodo distribuido disponga de un componente de minera encargado
de minar los datos en la base de datos local y luego se combinen todos los resultados, como
se ve en la parte izquierda de la Figura 23.1. Otra posibilidad es empotrar la herramienta de
minera de datos en el sistema de consulta distribuido, como se ve en la parte central de la
Figura 23.1. Una aproximacin alternativa es implementar una nica herramienta de
minera de datos en la parte superior del sistema distribuido que acta sobre una vista
integrada de las distintas bases de datos, como se ilustra en la parte derecha de la Figura
23.1.
MOdelo~ MOdelo~ MOdelo~
~.
. ...
...

J ;(
. ..
~
Global

J:t
Global
n Global
n
[ 'ntegr~cini

X
~ -A-
A..:.n X
...~ r p-A-
X
Modelos
Parciales
n
~
.;. n ~

Figura 23.1. Tres arquitecturas diferentes para minera de datos distribuida.

En cualquiera de las tres arquitecturas, muchas de las tcnicas de minera de datos que se
han definido son extensiones de tcnicas clsicas de minera de datos para bases de datos
relacionales al caso de fuentes distribuidas. A continuacin, resumimos aqu algunas de las
propuestas que se relatan en [Kargupta et al. 2000].
604 Introduccin a la Minera de Datos

El anlisis de datos distribuido desde datos homogneos, que es el caso ms sencillo,


conlleva la combinacin de diferentes modelos de datos extrados desde cada repositorio,
como si fueran muestras diferentes (poblaciones diferentes) de los mismos individuos. Ya
hemos visto algunas tcnicas de combinacin de modelos en el Captulo 18, algunas de las
cuales pueden extenderse para la agregacin de modelos mltiples en DDM, como la
tcnica de bagging [Breiman 1999] o el stacking [Ting & Low 1997]. El meta-aprendizaje
[Chan & Stolfo 1993] ofrece otra clase de tcnicas para minar datos distribuidos
homogneos. Esta aproximacin consiste en usar primero tcnicas de aprendizaje
supervisado para detectar conceptos en las bases de datos locales, y despus aprender
meta-conceptos desde un conjunto de datos generados usando los conceptos localmente
aprendidos dando lugar a un meta-clasificador. El sistema JAM [Stolfo et aL 1997] presenta
una tcnica que es similar al meta-aprendizaje pero que est especialmente diseada para
inducir modelos descriptivos desde los clasificadores aprendidos en el entorno distribuido.
Tambin se han desarrollado tcnicas basadas en el aprendizaje bayesiano [Yamanishi
1997]. La idea se basa en considerar agentes bayesianos que estiman los parmetros de la
distribucin objetivo y una poblacin de sistemas de aprendizaje que combinan las salidas
de los modelos bayesianos producidos. En [Cho & Wthrich 1998] se presenta una
aproximacin fragmentada en la que por cada fuente de datos distribuida se genera una
regla (la ms simple y mejor), se ordenan las reglas de acuerdo a cierto criterio y se
seleccionan las mejores para formar el conjunto de reglas finaL Otras aproximaciones son el
sistema PADMA [Kargupta et aL 1997b] que implementa un algoritmo de agrupamiento
distribuido y el algoritmo FDM (Fast Distributed Mining) [Cheung et aL 1996] usado para
minar reglas de asociacin desde fuentes distribuidas.
Tambin se han propuesto algunos mtodos para analizar datos desde fuentes hetero-
gneas, aunque, debido a su dificultad, esta cuestin ha sido menos tratada en la literatura.
Cuando se trabaja con datos heterogneos las diferentes caractersticas de un mismo objeto
(atributos) estn distribuidas en diferentes localizaciones. Uno de los problemas, por lo
tanto, es establecer algn mtodo para definir la correspondencia entre los diferentes
componentes del mismo objeto, es decir entre las diferentes filas almacenadas en sitios
distintos. En [Kargupta et aL 2000] se presenta un marco colectivo para generar modelos
predictivos que denominan minera de datos colectiva (Collective Data Modelling, CDM). El
marco CDM consiste en crear modelos localmente correctos a lo que sigue la generacin de
un modelo de datos global a travs de la agregacin de los resultados locales. El marco
CDM se ha empleado para aprender rboles de decisin y para la regresin multi-variante.
La minera de datos distribuida sobre bases de datos heterogneas es especialmente til
cuando tenemos una dimensionalidad muy alta, y entonces tenemos un subconjunto de las
caractersticas de cada objeto en cada una de las bases de datos. Una tcnica utilizada en
esta configuracin es el anlisis de componentes principales (PCA), vista en el Captulo 4,
para extraer caractersticas independientes y significativas desde cada una de las bases de
datos. El PCA puede usarse dentro de un marco colaborativo denotado como CPCA
[Kargupta et aL 2001].
Captulo 23. Repercusiones y retos de la minera de datos 605

23.4 Tendencias futuras


En la breve historia de la minera de datos, se han cumplido algunas expectativas y se han
dejado abiertas otras muchas. En particular, se espera una minera de datos ms automtica,
ms sencilla, con ms fiabilidad, con patrones ms novedosos y ms eficiente. De hecho,
segn autores, se pueden destacar todava ms retos. Por ejemplo, Han y Kamber [Han &
Kamber 2001] afirman que para que la minera de datos sea completamente aceptada como
una tecnologa, se deben resolver algunos problemas principalmente relacionados con la
eficiencia y la escalabilidad, la interaccin con el usuario, la incorporacin de conocimiento
de base, las tcnicas de visualizacin, la evolucin de lenguajes de consultas de minera de
datos estandarizados y mejorar el tratamiento de datos complejos, entre otros.
Como ya mencionamos en el primer captulo y hemos ido mostrando a lo largo de los
dems, la minera de datos es el resultado de la integracin de mltiples tcnicas. Por tanto,
los retos que se plantean han de resolverse por avances en estas disciplinas pero,
fundamentalmente, por la combinacin de estas disciplinas.
Si comenzamos por la materia prima de la minera de datos, es evidente que disponer
de buenos datos es clave para esta disciplina ya que la calidad del conocimiento extrado
depende tanto o ms de los datos usados que de la tcnica empleada. Muchos de los datos
que se recopilan son imprecisos, incompletos o inciertos. En algunos casos, los datos no se
encuentran disponibles en un formato apto para su tratamiento informtico y puede ni
siquiera saberse dnde encontrarlos. ste es uno de los grandes retos de la minera de
datos: identificar los datos, almacenarlos en repositorios para que puedan ser computacio-
nalmente procesados, limpiarlos y darles el formato apropiado para ser minados. Aunque
ya se han aportado algunas soluciones parciales de las que hemos dado cuenta en los
captulos 3, 4 Y 5, en particular la tecnologa de almacenes de datos, todava no hay una
buena aproximacin general que determine qu hacer para tener datos con una calidad
ptima [Thuraisingham 1999]. Por tanto, todo esfuerzo encaminado a mejorar la fase de
preparacin de datos: tcnicas de recopilacin, almacenes de datos, limpieza de datos,
tcnicas de muestre o, transformacin, lenguajes de consultas, etc., tendr un efecto
importante de cara a la minera de datos.
Uno de los principios de la minera de datos es que tiene que trabajar de forma eficiente
y efectiva con grandes bases de datos. Como hemos dicho, los conjuntos de datos masivos
y con una alta dimensionalidad crean espacios de bsqueda combinatoriamente explosivos
e incrementan la probabilidad de que el algoritmo de minera de datos requiera un tiempo
excesivo y adems encuentre patrones no vlidos [Fayyad et al. 1996b]. Por lo tanto, existe
la necesidad de adaptar las tcnicas existentes y de inventar nuevos mtodos para manejar
la alta dimensionalidad y el alto nmero de observaciones presentes en los conjuntos de
datos masivos. La escalabilidad de las tcnicas requiere un trabajo considerable tanto en los
fundamentos tericos como en las pruebas con conjuntos de datos cada vez mayores. Una
buena gestin del procesamiento entre memoria y disco, el uso de ndices especficos para
la minera de datos y de compactacin, puede ser crucial para obtener esta eficiencia.
En lo que a las herramientas respecta, existen herramientas multi-estratgicas que son
capaces de manejar mltiples tcnicas, como se puede ver en el apartado de suites del
Apndice A. Por otra parte, muchas de las herramientas de minera de datos requieren que
los usuarios sean en cierto grado expertos [Zhang & Zhang 2002]. Para que los productos y
606 Introduccin a la Minera de Datos

herramientas sean aceptados por una amplia mayora es necesario que se diseen mejores
interface s de usuario, ms amigables y que permitan a un usuario final poco tcnico
alcanzar buenos resultados. Esto acercar este tipo de herramientas a las empresas
pequeas y medianas, permitindoles incorporar la minera de datos como una actividad
ms. Ambas cuestiones podemos englobarlas bajo la idea de construir entornas interactivos
e integrados que proporcionen una rpida respuesta, unas altas prestaciones y que asistan
a los usuarios en la seleccin de la herramienta y tcnica adecuada para alcanzar sus
objetivos. En este sentido, en [Fayyad et al. 1996b] se apunta que es necesario hacer ms
nfasis en la interaccin hombre-mquina y menos nfasis en la automatizacin total, con el
nimo de soportar tanto a usuarios expertos como novatos. Adems, las herramientas
interactivas facilitan la incorporacin de conocimiento previo sobre el problema, algo
importante en la minera de datos.
Siguiendo con las herramientas, una de las direcciones prometedoras en investigacin y
desarrollo en la minera de datos es la construccin de sistemas capaces de proporcionar
soluciones especficas para cada tipo de negocios (distribucin, medicina, mrketing...), lo
que en [Zhang & Zhang 2002] se denomina sistemas que proporcionan una solucin
vertical. Estas soluciones integran la lgica de un negocio de dominio especfico con el
sistema de minera de datos. Esto contrasta con la situacin actual en la que los sistemas de
minera, aunque puedan integrar muchas tcnicas, son horizontales, es decir, no estn
especialmente diseados para ser aplicados a un determinado dominio.
La comprensibilidad de los patrones, as como la capacidad para podar los resultados
de la minera, es otra de las cuestiones cruciales. En muchas aplicaciones es importante
hacer que la informacin descubierta sea ms comprensible por los humanos (por ejemplo,
usando representaciones grficas y visualizacin de datos o generando lenguaje natural).
No debemos olvidar que, generalmente, el usuario final no es un experto en aprendizaje
automtico ni en estadstica. Los avances que faciliten la integracin en los entornas de
decisin, la simulacin de los modelos para entender sus consecuencias, las herramientas
que integren diferentes modelos y los conviertan en modelos globales, y que ayuden en su
monitorizacin y revisin, sern cruciales en facilitar este uso del conocimiento extrado.
Pese a la cantidad y dificultad de todos estos retos, la minera de datos alza el vuelo
desde una situacin de partida aventajada para lograrlos: es una disciplina muy joven
aunque basada en otras muchas con experiencia, goza de un impetuoso inters en el
mundo empresarial y una dilatada vocacin desde el mundo acadmico. Sea lo que sea lo
que nos depare el futuro de la minera de datos, ste pinta fascinante.

You might also like