Data Mining

Data Mining (minería de datos) es el proceso de extracción de información significativa de grandes bases de datos,
información que revela inteligencia del negocio, a través de factores ocultos, tendencias y correlaciones para permitir
al usuario realizar predicciones que resuelven problemas del negocio proporcionando una ventaja competitiva. Las
herramientas de Data Mining predicen las nuevas perspectivas y pronostican la situación futura de la empresa, esto
ayuda a los mismos a tomar decisiones de negocios proactivamente.
La minería de datos, Data Mining, es un proceso de descubrimiento de nuevas y significativas relaciones, patrones y
tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volúmenes de información y el uso
generalizado de herramientas informáticas ha transformado el análisis de datos orientándolo hacia determinadas
técnicas especializadas englobadas bajo el nombre de minería de datos o Data Mining. Las técnicas de minería de
datos persiguen el descubrimiento automático del conocimiento contenido en la información almacenada de modo
ordenado en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a
través del análisis de los datos utilizando tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa,
algoritmos genéticos y otras técnicas avanzadas de análisis de datos. (Pérez, p.1)
SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring),
Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de
descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores.
Este proceso es resumido con las siglas SEMMA. La siguiente figura ilustra las fases del proceso de minería de datos
según SAS Institute. (Pérez, p.7)
La minería de datos está incluida en un proceso mayor denominado Descubrimiento de Conocimientos en Base de
Datos, Knowledge Discovery in Database (KDD). Rigurosamente el Data Mining se restringe a la obtención de
modelos, restando las etapas anteriores y el propio Data Mining como instancias del KDD. La siguiente figura
presenta el esquema para la generación de conocimiento en bases de datos KDD (Vieira, p.15)
Qué es el data mining o minería de datos

La definición formal de data mining o minería de datos sería: la extracción no trivial de información implícita,
previamente desconocida y potencialmente útil a partir de datos. Otra manera de definirlo podría ser: la exploración y
el análisis -por medios automáticos o semiautomáticos- de grandes cantidades de datos con el fin de descubrir patrones
con significado.
El data mining nació con la idea de aprovechar dos cosas: la ingente cantidad de datos que se almacenaban en áreas
como el comercio, la banca o la sanidad y la potencia de los nuevos ordenadores para realizar operaciones de análisis
sobre esos datos.
Técnicas de minería de datos
En el ámbito de la investigación las técnicas de data mining pueden ayudar a los científicos a clasificar y segmentar
datos y a formar hipótesis. El data mining permite encontrar información escondida en los datos que no siempre resulta
aparente, ya que, dado el gigantesco volumen de datos existentes, gran parte de ese volumen nunca será analizado.
Las técnicas de data mining pueden ser de dos tipos:
 Métodos descriptivos– Buscan patrones interpretables para describir datos. Son los siguientes: clustering,
descubrimiento de reglas de asociación y descubrimiento de patrones secuenciales.
Los métodos descriptivos se han utilizado, por ejemplo, para ver que productos suelen adquirirse conjuntamente en el
supermercado.
 Métodos predictivos- Usan algunas variables para predecir valores futuros o desconocidos de otras variables. Son
los siguientes: clasificación, regresión y detección de la desviación.
Los métodos predictivos pueden emplearse en tareas como clasificar tumores en benignos o malignos.
Al igual que otros muchos procesos, el data mining tiene su propio estándar, el CRISP-DM (Cross-Industry Standar
Process for Data Mining), que establece los seis pasos a seguir para aplicar data mining:
1. Entender el área en el que queremos usar data mining para definir con claridad el problema.
2. Recolectar y entender los datos.
3. Preparación de los datos: hacer tablas con los campos requeridos, eliminar datos innecesarios.
4. Selección de la técnica de modelado, construcción del modelo y puesta a prueba del modelo. Data mining.
5. Evaluación de los resultados y revisión del proceso.
6. Despliegue: implementación de un proceso de data mining repetible.
Es increíble pensar la cantidad de datos que generamos en nuestro día a día, ya sea en compras, transacciones bancarias
o navegando por internet. Muchas empresas han visto un filón en estos y han sacado multitud de estudios de mercado
basados en ellos. Algunos tan curiosos como uno en el que una cadena de supermercados de EEUU descubrió que la
combinación más habitual de artículos en la cesta de la compra eran pañales y cerveza (cosa que atribuyeron a los
padres solteros). Tras eso se decidieron a colocar la cerveza al lado de los pañales.
No obstante, el uso de minería de datos en medicina e investigación es muy diferente pues no busca, en principio, el
beneficio privado sino el bien común. En este sentido las técnicas de data mining han resultado ser de gran utilidad en
casos como el diagnóstico de enfermedades.
 Pérez López, César. Minería de datos: técnicas y herramientas, Editorial Paraninfo, 2007.
Datawarehouse
Un Datawarehouse es una base de datos

corporativa que se caracteriza por integrar
y depurar información de una o más fuentes
distintas, para luego procesarla permitiendo
su análisis desde infinidad de pespectivas y
con grandes velocidades de respuesta. La
creación de un datawarehouse representa
en la mayoría de las ocasiones el primer
paso, desde el punto de vista técnico, para
implantar una solución completa y fiable de
Business Intelligence.
La ventaja principal de este tipo de bases de

datos radica en las estructuras en las que se
almacena la información (modelos de
tablas en estrella, en copo de nieve, cubos
relacionales... etc). Este tipo de persistencia
de la información es homogénea y fiable, y
permite la consulta y el tratamiento
jerarquizado de la misma (siempre en un
entorno diferente a los sistemas
operacionales).
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente como almacén de
datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el propio Bill Inmon, un datawarehouse
se caracteriza por ser:
Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo
que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La
información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas
necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran
desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por
parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única
tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de
responder dado que toda la información reside en el mismo lugar.
Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas

operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por
el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de
tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el
tiempo para permitir comparaciones.
No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La
información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los
últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya
existía.
Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten
saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo... etc.
Los metadatos serán los que permiten simplificar y automatizar la obtención de la información desde los sistemas
operacionales a los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:
Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de negocio,
indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis,
mediante herramientas de Business Intelligence como DSS, EIS o CMI.
Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría, gestión de la
información histórica, administración del datawarehouse, elaboración de programas de extracción de la
información, especificación de las interfaces para la realimentación a los sistemas operacionales de los
resultados obtenidos... etc.
Por último, destacar que para comprender íntegramente el concepto de datawarehouse, es importante entender cual es
el proceso de construcción del mismo, denominado ETL (Extracción, Transformación y Carga), a partir de los sistemas
operaciones de una compañía:
Extracción: obtención de información de las distintas fuentes tanto internas como externas.
Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.
Carga: organización y actualización de los datos y los metadatos en la base de datos.

Una de las claves del éxito en la construcción de un datawarehouse es el desarrollo de forma gradual, seleccionando a
un departamento usuario como piloto y expandiendo progresivamente el almacén de datos a los demás usuarios. Por
ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios,
en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.
Principales aportaciones de un datawarehouse
Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en
información integrada y global del negocio.
Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas
entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos
escenarios.
Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de

generación de informes con retornos de la inversión espectaculares.
http://artemisa.unicauca.edu.co/~ecaldon/docs/bd/fundamentosdedatawarehouse.pdf
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
DEFINICIÓN DE PETABYTE
El byte forma parte de las denominadas unidades de información. Resulta equivalente a ocho bits y permite, a
través de sus múltiplos, referirse a diversas medidas de
almacenamiento.
Un petabyte, en este sentido, es un múltiplo de byte que equivale
a 1.000.000.000.000.000 bytes (es decir, diez elevado a la quince
bytes). Se trata de una unidad más grande que el gigabyte o
el terabyte, pero más pequeña que unidades como el exabyte,
el zettabyte o el yottabyte.
Al descomponer esta unidad de información, descubrimos que

aquéllas a las cuales estamos acostumbrados en el presente parecen
insignificantes: el petabyte está formado por 1.024 terabytes, el cual,
a su vez, equivale a 1.024 gigabytes y así se debe continuar hasta
llegar al byte, pasando por el megabyte y el kilobyte. Es importante
notar que, si bien el prefijo kilo es el mismo que se usa para
representar unidades decimales (como el kilómetro), el múltiplo de las unidades de información no es 1000, sino
1024, ya que no son decimales, sino binarias.
El uso de cada unidad de información depende del contexto. Por ejemplo, cuando la cantidad de información de un
sistema dado es tan grande que es impracticable cuantificarla a través de unidades como bytes o kilobytes, se suele
recurrir a petabytes, algo que resulta poco práctico a la hora de mencionar el peso de los archivos digitales contenidos
en un ordenador para uso personal.
Los petabytes, por lo tanto, se usan para nombrar caudales muy grandes de información. El tráfico de los sitios
webmás populares del mundo, los datos procesados
por buscadores como Googleo las trasferencias que
se concretan en las redes de los principales
proveedores de Internet pueden estimarse en
petabytes ya que representan cifras altísimas. Si
alguien quisiera nombrar los datos que
procesa Google en un mes mediante cantidades de
kilobytes, por ejemplo, tendría que apelar a una
cantidad tan elevada de ceros que su notación sería
muy difícil de entender.
Otros de los usos más comunes para el concepto
petabyte son los siguientes:
* informes de tráfico de información en el ámbito

de las telecomunicaciones: recordemos que
ciertas empresas mantienen conectadas a personas de varias partes del mundo a través de dispositivos que se utilizan
a lo largo de varias horas por día, de manera que el volumen de información que pasa por sus redes es demasiado
grande como para contabilizarlo usando unidades menores al petabyte. Tanto es así que la compañía AT&T, por
ejemplo, registra un promedio de 30 petabytes de intercambio de información a diario;
* dispositivos de almacenamiento y memoria de supercomputadoras: ya en el año 2012 la compañía
norteamericana Cray Inc. puso en marcha la construcción de una supercomputadora denominada Blue Waters, la cual
cuenta con una capacidad de almacenamiento de 25 petabytes en disco y de hasta 500 en cinta magnética.
Su memoria principal (lo que usualmente conocemos con el nombre de RAM) es de 1,5 petabytes;
* bases de datos: lejos del volumen de registros de una empresa familiar, las multinacionales necesitan de una
infraestructura colosal para almacenar y procesar los datos de todos sus clientes y sus productos en esta era en la cual
toda la información corporativa debe existir en formato digital. Tanto las bases de uso cotidiano para la interacción de
los usuarios con los sistemas como aquéllas destinadas al archivo de información antigua, el volumen de datos de
ciertas compañías puede calcularse en varias decenas de petabytes;
* almacenamiento de imágenes y vídeos: compañías como Youtube y Facebook requieren de volúmenes de
almacenamiento difíciles de imaginar para sus usuarios. Ya en el año 2013, Facebook registraba la carga de más de
350 millones de fotografías cada día.
Autores: Julián Pérez Porto y Ana Gardey. Publicado: 2013. Actualizado: 2015.
Definicion.de: Definición de petabyte (https://definicion.de/petabyte/)
petabyte es una medida de la capacidad de almacenamiento de datos o memoria que es igual a 2 a la potencia 50 de
bytes. Hay 1,024 terabytes (TB) en un petabyte, o 1 millón de gigabytes (GB), y aproximadamente 1,024 PB
constituyen un exabyte.
Los petabytes no son adecuados para las copias de seguridad de datos tradicionales, que tienen que escanear todo el
sistema cada vez que se realiza una copia de seguridad de datos o un trabajo de archivo. El almacenamiento
tradicional conectado a la red (NAS) es escalable y capaz de manejar petabytes de datos, pero puede tomar mucho
tiempo y usar demasiados recursos cuando se analiza el índice de almacenamiento organizado del sistema.
Al comparar la memoria y no el almacenamiento, una computadora portátil o de escritorio típica contiene 16 GB de

memoria de acceso aleatorio (RAM). Un servidor de gama alta puede contener hasta 6 TB de RAM. Eso significa que
se necesitarían 170 servidores de gama alta, o aproximadamente 61,000 escritorios, para sumar un solo petabyte de
RAM.
Para otro ejemplo de cuán grande es un petabyte de almacenamiento, un DVD típico contiene 4.7 GB de datos. Eso
significa que un solo terabyte de almacenamiento puede contener 217.8 películas con calidad de DVD, mientras que
un solo petabyte de almacenamiento puede contener 223.101 películas con calidad de DVD.
https://searchstorage.techtarget.com/definition/petabyte
¿Qué es Big Data?
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de conjuntos de datos cuyo
tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura,
gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de
datosrelacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que
sean útiles.
Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se considera Big Data no está
firmemente definido y sigue cambiando con el tiempo, la mayoría de los analistas y profesionales actualmente se
refieren a conjuntos de datos que van desde 30-50 Terabytes a varios Petabytes.
La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de gran parte de
los datos generados por las tecnologías modernas, como los web logs, la identificación por radiofrecuencia
(RFID), los sensores incorporados en dispositivos, la maquinaria, los vehículos, las búsquedas en Internet, las redes
sociales como Facebook, computadoras portátiles, teléfonos inteligentes y otros teléfonos móviles, dispositivos GPS
y registros de centros de llamadas.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos
estructurados(normalmente de una base de datos relacional) de una aplicación comercial más convencional, como
un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management)
¿Por qué el Big Data es tan importante?
Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a
muchas preguntas que las empresas ni siquiera sabían que tenían. En otras palabras, proporciona un punto de
referencia. Con una cantidad tan grande de información, los datos pueden ser moldeados o probados de cualquier
manera que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de identificar los
problemas de una forma más comprensible.
La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los datos permiten que
las empresas se muevan mucho más rápidamente, sin problemas y de manera eficiente. También les permite
eliminar las áreas problemáticas antes de que los problemas acaben con sus beneficios o su reputación.
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas
oportunidades. Eso, a su vez, conduce a movimientos de negocios más inteligentes, operaciones más eficientes,
mayores ganancias y clientes más felices. Las empresas con más éxito con Big Data consiguen valor de las siguientes
formas:
 Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la nube, aportan
importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos, además de
identificar maneras más eficientes de hacer negocios.
 Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, combinada con la
capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información inmediatamente y
tomar decisiones basadas en lo que han aprendido.
 Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la satisfacción a través
de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más empresas están
creando nuevos productos para satisfacer las necesidades de los clientes.
Por ejemplo:
 Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la satisfacción del cliente
puede ser difícil de medir, especialmente en el momento oportuno. Resorts y casinos, por ejemplo, sólo tienen una
pequeña oportunidad de dar la vuelta a una mala experiencia de cliente. El análisis de Big data ofrece a estas
empresas la capacidad de recopilar datos de los clientes, aplicar análisis e identificar inmediatamente posibles
problemas antes de que sea demasiado tarde.
 Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria. Los registros de
pacientes, planes de salud, información de seguros y otros tipos de información pueden ser difíciles de manejar,
pero están llenos de información clave una vez que se aplican las analíticas. Es por eso que la tecnología de
análisis de datos es tan importante para el cuidado de la salud. Al analizar grandes cantidades de información -
tanto estructurada como no estructurada - rápidamente, se pueden proporcionar diagnósticos u opciones de
tratamiento casi de inmediato.
 Administración: La administración se encuentra ante un gran desafío: mantener la calidad y la productividad con
unos presupuestos ajustados. Esto es particularmente problemático con lo relacionado con la justicia. La
tecnología agiliza las operaciones mientras que da a la administración una visión más holística de la actividad.
 Retail: El servicio al cliente ha evolucionado en los últimos años, ya que los compradores más inteligentes
esperan que los minoristas comprendan exactamente lo que necesitan, cuando lo necesitan. El Big Data ayuda a
los minoristas a satisfacer esas demandas. Armados con cantidades interminables de datos de programas de
fidelización de clientes, hábitos de compra y otras fuentes, los minoristas no sólo tienen una comprensión
profunda de sus clientes, sino que también pueden predecir tendencias, recomendar nuevos productos y aumentar
la rentabilidad.
 Empresas manufactureras: Estas despliegan sensores en sus productos para recibir datos de telemetría. A veces
esto se utiliza para ofrecer servicios de comunicaciones, seguridad y navegación. Ésta telemetría también revela
patrones de uso, tasas de fracaso y otras oportunidades de mejora de productos que pueden reducir los costos de
desarrollo y montaje.
 Publicidad: La proliferación de teléfonos inteligentes y otros dispositivos GPS ofrece a los anunciantes la
oportunidad de dirigirse a los consumidores cuando están cerca de una tienda, una cafetería o un restaurante. Esto
abre nuevos ingresos para los proveedores de servicios y ofrece a muchas empresas la oportunidad de conseguir
nuevos prospectos.
 Otros ejemplos del uso efectivo de Big Data existen en las siguientes áreas:
o Uso de registros de logs de TI para mejorar la resolución de problemas de TI, así como la detección de
infracciones de seguridad, velocidad, eficacia y prevención de sucesos futuros.
o Uso de la voluminosa información histórica de un Call Center de forma rápida, con el fin de mejorar la
interacción con el cliente y aumentar su satisfacción.
o Uso de contenido de medios sociales para mejorar y comprender más rápidamente el sentimiento del cliente y
mejorar los productos, los servicios y la interacción con el cliente.
o Detección y prevención de fraudes en cualquier industria que procese transacciones financieras online, tales
como compras, actividades bancarias, inversiones, seguros y atención médica.
o Uso de información de transacciones de mercados financieros para evaluar más rápidamente el riesgo y
tomar medidas correctivas.
Desafíos de la calidad de datos en Big Data
Las especiales características del Big Data hacen que su calidad de datos se enfrente a múltiples desafíos. Se trata de
las conocidas como 5 Vs: Volumen, Velocidad, Variedad, Veracidad y Valor, que definen la problemática del Big
Data.
Estas 5 características del big data provocan que las empresas tengan problemas para extraer datos reales y de alta
calidad, de conjuntos de datos tan masivos, cambiantes y complicados.
Hasta la llegada del Big Data, mediante ETL podíamos cargar la información estructurada que teníamos almacenada
en nuestro sistema ERP y CRM, por ejemplo. Pero ahora, podemos cargar información adicional que ya no se
encuentra dentro de los dominios de la empresa: comentarios o likes en redes sociales, resultados de campañas
de marketing, datos estadísticos de terceros, etc. Todos estos datos nos ofrecen información que nos ayuda a saber
si nuestros productos o servicios están funcionando bien o por el contrario están teniendo problemas.
Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son:
1. Muchas fuentes y tipos de datos
Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integración de datos aumenta.
Las fuentes de datos de big data son muy amplias:
 Datos de internet y móviles.

 Datos de Internet de las Cosas.
 Datos sectoriales recopilados por empresas especializadas.
 Datos experimentales.
Y los tipos de datos también lo son:
1. Tipos de datos no estructurados: documentos, vídeos, audios, etc.

2. Tipos de datos semi-estructurados: software, hojas de cálculo, informes.
3. Tipos de datos estructurados
Solo el 20% de información es estructurada y eso puede provocar muchos errores si no acometemos un proyecto de
calidad de datos.
2. Tremendo volumen de datos

Como ya hemos visto, el volumen de datos es enorme, y eso complica la ejecución de un proceso de calidad de
datos dentro de un tiempo razonable.
Es difícil recolectar, limpiar, integrar y obtener datos de alta calidad de forma rápida. Se necesita mucho tiempo
para transformar los tipos no estructurados en tipos estructurados y procesar esos datos.
3. Mucha volatilidad
Los datos cambian rápidamente y eso hace que tengan una validez muy corta. Para solucionarlo necesitamos
un poder de procesamiento muy alto.
Si no lo hacemos bien, el procesamiento y análisis basado en estos datos puede producir conclusiones erróneas,
que pueden llevar a cometer errores en la toma de decisiones.
4. No existen estándares de calidad de datos unificados En 1987 la Organización Internacional de Normalización

(ISO) publicó las normas ISO 9000 para garantizar la calidad de productos y servicios. Sin embargo, el estudio de los
estándares de calidad de los datos no comenzó hasta los años noventa, y no fue hasta 2011 cuando ISO publicó las
normas de calidad de datos ISO 8000.
Estas normas necesitan madurar y perfeccionarse. Además, la investigación sobre la calidad de datos de big data
ha comenzado hace poco y no hay apenas resultados.
La calidad de datos de big data es clave, no solo para poder obtener ventajas competitivas sino también impedir
que incurramos en graves errores estratégicos y operacionales basándonos en datos erróneos con
consecuencias que pueden llegar a ser muy graves.
https://www.powerdata.es/big-data
file:///C:/Users/usuario/Downloads/Introduccion_Big_Data_DONOSTIA%20(2).pdf
Gorka Armentia Developer and Iñaki Elcoro Developer

Data Mining

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

Data Mining (minería de datos) es el proceso de extracción de información significativa de grandes bases de datos,

Qué es el data mining o minería de datos

Las técnicas de data mining pueden ser de dos tipos:

Un Datawarehouse es una base de datos

La ventaja principal de este tipo de bases de

Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas

Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.

Carga: organización y actualización de los datos y los metadatos en la base de datos.

Principales aportaciones de un datawarehouse

Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de

Al descomponer esta unidad de información, descubrimos que

* informes de tráfico de información en el ámbito

Definicion.de: Definición de petabyte (https://definicion.de/petabyte/)

Al comparar la memoria y no el almacenamiento, una computadora portátil o de escritorio típica contiene 16 GB de

¿Qué es Big Data?

¿Por qué el Big Data es tan importante?

Desafíos de la calidad de datos en Big Data

1. Muchas fuentes y tipos de datos

Las fuentes de datos de big data son muy amplias:

 Datos de internet y móviles.

Y los tipos de datos también lo son:

1. Tipos de datos no estructurados: documentos, vídeos, audios, etc.

2. Tremendo volumen de datos

4. No existen estándares de calidad de datos unificados En 1987 la Organización Internacional de Normalización

Gorka Armentia Developer and Iñaki Elcoro Developer

You might also like