You are on page 1of 10

Repblica Bolivariana de Venezuela

Ministerio del Poder Popular para la Educacin Universitaria


Universidad Politcnica Territorial del Oeste de Sucre "Clodosbaldo Russin"
Cariaco, Estado Sucre

Minera de datos

Profesor(a): Elaborado por:


Raimary Cova Fermn, Jennifer
Flores, Katherine
Trayecto IV/Trimestre I
PNF. En Informtica

Febrero del 2017


La minera de datos es un proceso no elemental de bsqueda de relaciones, correlaciones,
dependencias, asociaciones, modelos, estructuras, tendencias, clases, segmentos, en grandes
bases de datos (relacionales o no).
El objetivo principal de la minera de datos es crear un proceso lo ms automatizado
posible que toma como punto de partida los datos y cuya meta es la ayuda a la toma de
decisiones.

1.- Minera de datos (historia)


Aunque los componentes clave del Data Mining o Minera de datos (DM) existen
desde hace dcadas en la investigacin en reas como la inteligencia artificial, la
estadstica o el aprendizaje automtico, se puede afirmar que ahora estamos asistiendo al
reconocimiento de la madurez de estas tcnicas, lo que, junto al espectacular desarrollo
de los motores de bases de datos y las herramientas para integracin de informacin
justifican su introduccin en la esfera empresarial.
La minera de datos es algo que empieza por los alrededores de los aos sesenta, ya los
estadsticos manejaban trminos como Data Fishing, Data Mining (DM) o Data Archaeology con
la idea de encontrar correlaciones sin una Definicin previa de bases de datos.
En los principios de los aos ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y
Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los trminos de Minera de Datos y
KDD.
Estas tecnologas han sido una buena herramienta para personas que se desenvuelven en el
mbito de los negocios y acadmico.
La evolucin de sus herramientas en el transcurso del tiempo puede dividirse en cuatro
etapas principales:

Coleccin de Datos (1960).


Acceso de Datos (1980).
Almacn de Datos y Apoyo a las Decisiones (Principios de la dcada de 1990).
Minera de Datos Inteligente. (Finales de la dcada de 1990).
1.1.- Relacin de la minera de datos con otras aplicaciones

La Minera de Datos es un campo multidisciplinar que se ha desarrollado en


paralelo o como prolongacin de otras tecnologas. Con esto se puede decir que a partir
de los avances en otras disciplinas, surgen tambin los avances en la Minera de Datos.
Destacan, entre las disciplinas que se encuentran ms unidas a la Minera de Datos las
siguientes:

Recuperacin de Informacin: consiste en obtener informacin desde datos textuales.


Su desarrollo est basado en el uso de bibliotecas, y en particular en las bibliotecas
digitales; as como en la bsqueda por Internet.
Estadstica: proporciona los conceptos, algoritmos y tcnicas que se utilizan en la
Minera de Datos. Algunos ejemplos de ello pueden ser: Media Varianza
Regresin lineal Regresin no lineal.
Inteligencia Artificial: se encarga del desarrollo de algoritmos capaces de aprender.
Sistemas para la toma de decisiones: son herramientas y sistemas informatizados
cuyo objetivo es proporcionar la informacin necesaria para llevar a cabo la toma
de decisiones en el mbito empresarial o en medicina.
Visualizacin de datos: es lo que conocemos por diagramas de barras, histogramas...
Lenguaje Natural.
Bases de Datos.

1.2.- Aplicacin de la minera de datos


Algunas aplicaciones de la minera de datos son:

Retencin de clientes: Cules clientes se va a ir para la competencia?


Patrones de compra: Cundo un cliente compra un producto cul otro le podra interesar?
Detencin de fraude: Cules transacciones son fraudulentas?
Manejo de riesgo: A qu cliente es confiable darle un prstamo?
Segmentaciones de clientes: Quines son mis clientes?
Prediccin de ventas: Cunto voy a vender el prximo mes?

1.3.- Procesamiento de datos


A grandes rasgos, el proceso de DM puede dividirse en 6 pasos:

Seleccin del conjunto de datos: aqu se decide cules van a ser los variables objetivos
(aquellas que se quieren predecir o inferir), las variables independientes y la seleccin de
registros (datos) a utilizar.
Anlisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o
diagramas de dispersin. Bsqueda de valores atpicos (outliers) y ausencia de datos.
Transformacin o preprocesamiento del conjunto de datos de entrada: en ste paso, se
normalizan los datos a una misma escala. Tambin se decide cmo se van a tratar datos
faltantes, atpicos o dudosos. Una posibilidad es tratarlos como un tipo de dato especial o
bien se decide descartarlos.
Seleccin y aplicacin de tcnicas de minera de datos: se construye un modelo, el cual
ser utilizado sobre los datos para predecir las clases mediante clasificacin o para
descubrir grupos similares mediante segmentacin.
Extraccin de conocimiento: una vez aplicado el paso anterior, se buscan patrones de
comportamiento en los valores de las variables del problema o relaciones de asociacin
entre dichas variables.
Interpretacin y evaluacin de datos: el modelo debe ser validado comprobando que las
conclusiones arrojadas son vlidas y satisfactorias. Si el modelo final no supera sta
evaluacin, el proceso puede repetirse desde el principio o a partir de cualquiera de los
pasos anteriores.

2.- Extraccin de conocimiento a travs de la minera de datos


Las tcnicas de extraccin de conocimiento y minera de datos se centran en la extraccin
asistida por ordenador de conocimientos tiles desde datos e informaciones. Ayudan a descubrir
y a identificar patrones ocultos (no evidentes y, en ocasiones, inesperados) en los datos, que sean
comprensibles para las personas y que ofrezcan puntos de vista tiles (lo que resulta
especialmente importante en el caso de los grandes fondos de informacin, donde los recursos
humanos disponibles pueden ser limitados). El uso de estas tcnicas en las aplicaciones
multimedia constituye un mecanismo poderoso para mejorar la comprensin y para aadir valor
a los grandes repositorios de informacin multimedia.
Las analticas visuales permiten el razonamiento analtico de datos complejos facilitados
por interfaces visuales interactivas.
Los clasificadores y otras tecnologas de reconocimiento de patrones permiten la clasificacin de
la informacin segn unos criterios predefinidos. La informacin puede ser de naturaleza
diversa: visual, textual, acstica, etc.
Las ontologas son representaciones explcitas por ordenador de conocimientos
pertenecientes a un mbito especfico (la especificacin explcita de la conceptualizacin de
dicho mbito).Constituyen una tecnologa clave en la web semntica y en otras aplicaciones de
inteligencia artificial.
La modelizacin y la simulacin, en las que es posible analizar y visualizar de manera
interactiva modelos complejos de procesos cientficos y de ingeniera. Asimismo, la
modelizacin y la simulacin del comportamiento y las preferencias de los usuarios (perfiles de
usuarios).

2.1.- Clasificacin de las tareas de minera de datos de acuerdo al tipo de accin


El proceso de minera involucra ajustar modelos o determinar patrones a partir de
datos. Este ajuste normalmente es de tipo estadstico, en el sentido que se permite un
cierto ruido o error dentro del modelo. Los algoritmos de minera de datos realizan en
general tareas de prediccin (de datos desconocidos) y de descripcin (de patrones).
Las tareas principales son:

Clasificacin. Organiza un dato dentro de una de las clases categricas predefinidas.


Regresin. El propsito de este modelo es hacer corresponder un dato con un valor real de
una variable.
Clustering. Es la agrupacin de registros, observaciones o clases de objetos similares. Por
lo que un cluster es una coleccin de registros que tienen similitudes y son distintos a
cualquier otro cluster.
Generacin de reglas. Se extraen o generan reglas de los datos, estas hacen referencia al
descubrimiento de relaciones de asociacin y dependencias funcionales entre los diferentes
atributos.
Resumen. En esta tarea se proporcionan una descripcin compacta de un subconjunto de
datos.
Anlisis de secuencias. Se generan patrones secuenciales, el objetivo es modelar los
estados del proceso, extraer e informar de la desviacin y tendencias en el tiempo.

2.2.- Mtodo o tcnicas de minera de datos


Las tcnicas de la minera de datos provienen de la inteligencia artificial y de la estadstica,
dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un
conjunto de datos para obtener unos resultados.
Las tcnicas de data mining pueden ser de dos tipos:
Mtodos descriptivos- Buscan patrones interpretables para describir datos. Son los
siguientes: clustering, descubrimiento de reglas de asociacin y descubrimiento de patrones
secuenciales. Los mtodos descriptivos se han utilizado, por ejemplo, para ver qu
productos suelen adquirirse conjuntamente en el supermercado.
Mtodos predictivos- Usan algunas variables para predecir valores futuros o desconocidos
de otras variables. Son los siguientes:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico
inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de
un sistema de interconexin de neuronas en una red que colabora para producir un
estmulo de salida.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y
eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse
ms de 2 variables.
rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el
mbito de la inteligencia artificial y el anlisis predictivo, dada una base de datos se
construyen estos diagramas de construcciones lgicas, muy similares a los sistemas
de prediccin basados en reglas, que sirven para representar y categorizar una serie
de condiciones que suceden de forma sucesiva, para la resolucin de un problema.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la regresin para indicar los
diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de
vectores segn criterios habitualmente de distancia; se tratar de disponer los
vectores de entrada de forma que estn ms cercanos aquellos que tengan
caractersticas comunes.
Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn
dentro de un determinado conjunto de datos. Segn el objetivo del anlisis de los
datos, los algoritmos utilizados se clasifican en supervisados y no supervisados:
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.
Los mtodos predictivos pueden emplearse en tareas como clasificar tumores en benignos
o malignos.

3.- Aplicaciones ms extendidas


Dentro del campo de la minera de datos, las aplicaciones ms extendidas son las
siguientes:

Anlisis de datos financieros: se emplea tanto en el sector bancario como en el de las


finanzas. Se busca proveer datos que aseguren que es posible practicar anlisis sistemticos
en condiciones avanzadas y con garantas de fiabilidad. Algunos ejemplos son:
Diseo y construccin de almacenes de datos para el anlisis multidimensional de
datos.
Prediccin de pago de prstamos y anlisis de polticas de crdito de cliente.
Clasificacin y el agrupamiento de los clientes para la creacin de ofertas
personalizadas.
Deteccin de blanqueamiento de dinero y otros delitos financieros.
Industria minorista: el sector retail recoge grandes cantidades de datos provenientes de
las ventas, el historial de compra de los clientes o el transporte de mercancas. La cantidad
de datos recogidos contina expandindose rpidamente debido al aumento de la facilidad,
disponibilidad y popularidad de la web y las transacciones online. La minera de datos con
sus aplicaciones para la industria minorista ayuda a identificar patrones de compra de los
clientes y tendencias. De esta forma, las empresas estn en condiciones de proporcionar
una mejor calidad de servicio al cliente, aumentando su satisfaccin y facilitando su
retencin. Entre estas aplicaciones destacan las que permiten:
El anlisis multidimensional de las ventas, los clientes, los productos, el tiempo y la
regin.
Los anlisis de la eficacia de las campaas de ventas.
La recomendacin personalizada de productos.
Las referencias cruzadas de artculos.
Industria de las telecomunicaciones: en este sector, los datos son especialmente
importantes para alcanzar una buena comprensin del negocio. La minera de datos y
aplicaciones especficamente diseadas para esta rea, ayudan en la identificacin de los
patrones de telecomunicaciones, facilitan la deteccin de actividades fraudulentas y
posibilitan el hacer un mejor uso de los recursos, mejorando la calidad del servicio. Entre
las ms ventajosas estn:
Anlisis multidimensional de datos de telecomunicaciones.
Anlisis de patrones fraudulentos.
Identificacin de patrones inusuales, hbitos y tendencias.
Asociacin multidimensional y anlisis de patrones secuenciales.
Anlisis de datos biolgicos: el campo de la biologa es uno de los ms beneficiados por
los avances de la tecnologa. La genmica, la protemica, la genmica funcional y la
minera de datos aplicada a la investigacin de los seres vivos son slo algunos ejemplos,
una lista donde no hay que olvidarse de la bioinformtica. La minera de datos con sus
aplicaciones aporta una contribucin importante para el anlisis de datos biolgicos:
Integracin semntica de las bases de datos genmicos y protemicos heterogneos
distribuidos.
Alineamiento, indexacin, bsqueda de similitudes y anlisis comparativo de
mltiples secuencias de nucletidos.
Descubrimiento de patrones y anlisis de redes genticas.
Identificacin de patrones de protenas estructurales.
Bibliografa
Bligoo.com. (20 de 06 de 2007). Aplicaciones de la Mineria de Datos - Analisis de datos
- Bligoo.com. Recuperado el 09 de 02 de 2017, de Aplicaciones de la Mineria de Datos -
Analisis de datos - Bligoo.com: ctrucios.bligoo.com/content/view/1539932/aplicaciones-
de-la-Mineria-de-Datos.html
Jojooa. (20 de 08 de 2005). Proceso de data mining (Mineria de Datos) - Jojooa -
tecnologia, marketing y crm - Google Sites . Recuperado el 09 de 02 de 2017, de Proceso
de data mining (Mineria de Datos) - Jojooa - tecnologia, marketing y crm - Google Sites :
sities.google.com/site/jojooa/inteligencia-artificial/proceso-de-data-mining-mineria-de-
datos
Logicalis. (07 de 11 de 2014 ). Mineria de datos: aplicaciones mas populares a dia de
hoy . Recuperado el 09 de 02 de 2017, de Mineria de datos: aplicaciones mas populares a
dia de hoy : blog.es.logicalis.com/analytics/mineria-de-datos-aplicaciones-que-ya-son-
una-realidad
Martinez, B. B. (14 de 10 de 2009). Mineria de datos - Beatriz Beltran Martinez .
Recuperado el 09 de 02 de 2017, de Mineria de datos - Beatriz Beltran Martinez :
bbeltran.cs.buap.mx/NotasMD.pdf
Oocities. (27 de 10 de 2009). Relacin con otras discilplinas de la mineria de datos -
Oocities. Recuperado el 09 de 02 de 2017, de Relacin con otras discilplinas de la
mineria de datos - Oocities:
www.oocities.org/es/mineria.datos/relacion_disciplinas_mineria_datos.pdf
Vicomtech-IK4. (25 de 04 de 2001). Extraccion de conocimiento y mineria de datos -
Vicomtech-IK4 . Recuperado el 09 de 02 de 2017, de Extraccion de conocimiento y
mineria de datos - Vicomtech-IK4 : www.vicomtech.org/t4/e13/extraccion-de-
conocimiento-y-mineria-de-datos

You might also like