UC4

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Detalles varios
En Analysis Services, puede usar datos relacionales o de cubo para crear
soluciones de Business Intelligence con anlisis predictivos.
1
CONCEPTO DE MINERA DE DATOS
La minera de datos es el proceso de detectar la informacin procesable de los
conjuntos grandes de datos. Utiliza el anlisis matemtico para deducir los patrones y
tendencias que existen en los datos, mismos que normalmente no se pueden detectar
mediante la exploracin tradicional de los datos porque las relaciones son demasiado
complejas o porque hay demasiado datos. Estos patrones y tendencias se pueden
recopilar y definir como un modelo de minera de datos. Los modelos de minera de
datos se pueden aplicar en escenarios como los siguientes:
Pronstico: clculo de las ventas y prediccin de las cargas del servidor o del
tiempo de inactividad del servidor.
Riesgo y probabilidad: eleccin de los mejores clientes para la distribucin de
correo directo, determinacin del punto de equilibrio probable para los escenarios
de riesgo, y asignacin de probabilidades a diagnsticos y otros resultados.
Recomendaciones: determinacin de los productos que se pueden vender juntos
y generacin de recomendaciones.
Bsqueda de secuencias: anlisis de los artculos que los clientes han
introducido en el carrito de la compra y prediccin de posibles eventos.
Agrupacin: distribucin de clientes o eventos en grupos de elementos
relacionados, y anlisis y prediccin de afinidades.
2
GENERACIN DE UN MODELO DE MINERA
La generacin de un modelo de minera de datos forma parte de un proceso mayor
que incluye desde la formulacin de preguntas acerca de los datos y la creacin de un
modelo para responderlas, hasta la implementacin del modelo en un entorno de
trabajo. Este proceso se puede definir mediante los seis pasos bsicos siguientes:
1. Definir el problema
2. Preparar los datos
3. Explorar los datos
4. Generar modelos
5. Explorar y validar los modelos
6. Implementar y actualizar los modelos
El proceso que se ilustra en el diagrama siguiente es cclico, lo que significa que la
creacin de un modelo de minera de datos es un proceso dinmico e iterativo. Una
vez que ha explorado los datos, puede que descubra que resultan insuficientes para
crear los modelos de minera de datos adecuados y que, por tanto, debe buscar ms
datos. O bien, puede generar varios modelos y descubrir entonces que no responden
adecuadamente al problema planteado cuando los defini y que, por tanto, debe volver
a definir el problema. Es posible que deba actualizar los modelos una vez
implementados debido a que haya ms datos disponibles. Puede que haya que repetir
cada paso del proceso muchas veces para crear un modelo adecuado.
Inteligencia Artificial
Pgina 1 de 37
2.1
DEFINIR EL PROBLEMA
El primer paso del proceso de minera de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los
datos para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,
definir las mtricas por las que se evaluar el modelo y definir los objetivos concretos
del proyecto de minera de datos. Estas tareas se traducen en preguntas como las
siguientes:
Qu est buscando? Qu tipos de relaciones intenta buscar?

Refleja el problema que est intentando resolver las directivas o procesos de
la empresa?
Desea realizar predicciones a partir del modelo de minera de datos o
solamente buscar asociaciones y patrones interesantes?
Qu resultado o atributo desea predecir?
Qu tipo de datos tiene y qu tipo de informacin hay en cada columna? En
caso de que haya varias tablas, cmo se relacionan? Necesita limpiar,
agregar o procesar los datos antes de poder usarlos?
Pgina 2 de 37
Cmo se distribuyen los datos? Los datos son estacionales? Los datos
representan con precisin los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad
de datos para investigar las necesidades de los usuarios de la empresa con respecto a
los datos disponibles. Si los datos no abarcan las necesidades de los usuarios, podra
tener que volver a definir el proyecto. Tambin debe considerar las maneras en las
que los resultados del modelo se pueden incorporar en los indicadores de rendimiento
clave (KPI) que se utilizan para medir el progreso comercial.
2.2
PREPARAR LOS DATOS
El segundo paso del proceso de minera de datos, como se indica en el siguiente
diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el
problema.
Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos;

tambin pueden contener incoherencias como entradas que faltan o incorrectas. Por
ejemplo, los datos pueden mostrar que un cliente adquiri un producto incluso antes
que se ofreciera en el mercado o que el cliente compra regularmente en una tienda
situada a 2.000 kilmetros de su casa.
La limpieza de datos no solamente implica quitar los datos no vlidos o interpolar
valores que faltan, sino tambin buscar las correlaciones ocultas en los datos,
identificar los orgenes de datos que son ms precisos y determinar qu columnas son
las ms adecuadas para el anlisis. Por ejemplo, debera utilizar la fecha de envo o
la fecha de pedido? Qu influye ms en las ventas: la cantidad, el precio total o un
precio con descuento? Los datos incompletos, los datos incorrectos y las entradas que
parecen independientes, pero que de hecho estn estrechamente correlacionadas,
pueden influir en los resultados del modelo de maneras que no espera.
Por consiguiente, antes de empezar a generar los modelos de minera de datos,
debera identificar estos problemas y determinar cmo los corregir. En la minera de
datos, por lo general se trabaja con un conjunto de datos de gran tamao y no se
puede examinar la calidad de los datos de cada transaccin; por tanto, es posible que
necesite usar herramientas de generacin de perfiles de datos, y de limpieza y filtrado
automtico de datos (como las que se proporcionan en Integration Services, Microsoft
SQL Server 2012 Master Data Services o SQL Server Data Quality Services para
explorar los datos y buscar incoherencias). ste curso de I.A. no profundiza en el uso
Pgina 3 de 37

de stas herramientas pero puede buscarlas en el MSDN como Integration Services in
Business Intelligence Development Studio, Introduccin a Master Data Services Data
Quality Services)
Es importante tener en cuenta que los datos que se usan para la minera de datos no
necesitan almacenarse en un cubo de procesamiento analtico en lnea (OLAP), ni
siquiera en una base de datos relacional, aunque puede usar ambos como orgenes
de datos. Puede realizar minera de datos mediante cualquier origen de datos definido
como origen de datos de Analysis Services (lo mismo aplica para otras herramientas
que no sean de Microsoft como WEKA o Pentaho). Por ejemplo, archivos de texto,
libros de Excel o datos de otros proveedores externos. ste curso de I.A. no
profundiza en de ste tema, pero puede buscarlas en el MSDN como Tipos de
orgenes de datos admitidos (SSAS multidimensional).
2.3
EXPLORAR LOS DATOS
El tercer paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de
minera de datos. Entre las tcnicas de exploracin se incluyen calcular los valores
mnimos y mximos, calcular la media y las desviaciones estndar, y examinar la
distribucin de los datos. Por ejemplo, al revisar el mximo, el mnimo y los valores de
la media se podran determinar que los datos no son representativos de los clientes o
procesos de negocio, y que por consiguiente debe obtener ms datos equilibrados o
revisar las suposiciones que son la base de sus expectativas. Las desviaciones
estndar y otros valores de distribucin pueden proporcionar informacin til sobre la
estabilidad y exactitud de los resultados. Una desviacin estndar grande puede
indicar que agregar ms datos podra ayudarle a mejorar el modelo. Los datos que se
desvan mucho de una distribucin estndar se podran sesgar o podran representar
una imagen precisa de un problema de la vida real, pero dificultan el ajustar un modelo
a los datos.
Al explorar los datos para conocer el problema empresarial, puede decidir si el
conjunto de datos contiene datos defectuosos y, a continuacin, puede inventar una
estrategia para corregir los problemas u obtener una descripcin ms profunda de los
comportamientos que son tpicos de su negocio.
Pgina 4 de 37

Cuando tenga definido los orgenes, combnelos en una vista del origen de datos con
el Diseador de vistas del origen de datos de SQL Server Data Tools. Para obtener
ms informacin, vea Vistas del origen de datos en modelos multidimensionales. Este
diseador tambin contiene algunas herramientas que podr usar para explorar los
datos y comprobar que funcionarn a la hora de crear un modelo. Para obtener ms
informacin, vea Explorar datos en una vista del origen de datos (Analysis Services).
Tenga en cuenta que cuando se crea un modelo, Analysis Services crea
automticamente resmenes estadsticos de los datos contenidos en l, que puede
consultar para su uso en informes o anlisis.
2.4
GENERAR MODELOS
El cuarto paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en generar el modelo o modelos de minera de datos. Usar los
conocimientos adquiridos en el paso Explorar los datos para definir y crear los
modelos.
Deber definir qu columnas de datos desea que se usen; para ello, crear una
estructura de minera de datos. La estructura de minera de datos se vincula al origen
de datos, pero en realidad no contiene ningn dato hasta que se procesa. Al procesar
la estructura de minera de datos, Analysis Services genera agregados y otra
informacin estadstica que se puede usar para el anlisis. Cualquier modelo de
minera de datos que est basado en la estructura puede utilizar esta
informacin. Puede ampliar esta informacin en el MSDN digitando Arquitectura
lgica (Analysis Services - Minera de datos)
Antes de procesar la estructura y el modelo, un modelo de minera de datos
simplemente es un contenedor que especifica las columnas que se usan para la
entrada, el atributo que est prediciendo y parmetros que indican al algoritmo cmo
procesar los datos. El procesamiento de un modelo a menudo se
denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un
algoritmo matemtico concreto a los datos de la estructura para extraer patrones. Los
patrones que encuentre en el proceso de entrenamiento dependern de la seleccin
de los datos de entrenamiento, el algoritmo que elija y cmo se haya configurado el
algoritmo. SQL Server 2014 contiene muchos algoritmos diferentes, preparados para
un tipo diferente de tarea. Digitando Algoritmos de minera de datos (Analysis
Services: Minera de datos) usted puede encontrar una amplia lista de ellos en el
MSDN.
Pgina 5 de 37

Tambin puede utilizar los parmetros para ajustar cada algoritmo y puede aplicar
filtros a los datos de entrenamiento para utilizar un subconjunto de los datos, creando
resultados diferentes. Despus de pasar los datos a travs del modelo, el objeto de
modelo de minera de datos contiene los resmenes y modelos que se pueden
consultar o utilizar para la prediccin.
Puede definir un modelo nuevo mediante el Asistente para minera de datos de SQL
Server Data Tools o con el lenguaje DMX (Extensiones de minera de datos), en ste
curso de I.A. no se estudiar MXD, pero Usted puede encontrar informacin en el
MSDN digitando Referencia de Extensiones de minera de datos (DMX).
Es importante recordar que siempre que los datos cambian, debe actualizar la
estructura y el modelo de minera de datos. Al actualizar una estructura de minera de
datos volvindola a procesar, Analysis Services recupera los datos del origen, incluido
cualquier dato nuevo si el origen se actualiza dinmicamente, y vuelve a rellenar la
estructura de minera de datos. Si tiene modelos que estn basados en la estructura,
puede elegir actualizar estos, lo que significa que se vuelven a entrenar con los
nuevos datos, o pueden dejar los modelos tal cual.
2.5
EXPLORAR Y VALIDAR LOS MODELOS
El quinto paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en explorar los modelos de minera de datos que ha generado y
comprobar su eficacia.
Antes de implementar un modelo en un entorno de produccin, es aconsejable probar

si funciona correctamente. Adems, al generar un modelo, normalmente se crean
varios con configuraciones diferentes y se prueban todos para ver cul ofrece los
resultados mejores para su problema y sus datos.
Analysis Services proporciona herramientas que ayudan a separar los datos en
conjuntos de datos de entrenamiento y pruebas, para que pueda evaluar con precisin
el rendimiento de todos los modelos en los mismos datos. El conjunto de datos de
entrenamiento se utiliza para generar el modelo y el conjunto de datos de prueba para
comprobar la precisin del modelo mediante la creacin de consultas de prediccin.
Puede explorar las tendencias y patrones que los algoritmos detectan mediante los
visores del diseador de minera de datos de SQL Server Data Tools. Tambin puede
comprobar si los modelos crean predicciones correctamente mediante herramientas
del diseador como el grfico de mejora respecto al modelo predictivo y la matriz de
Pgina 6 de 37

clasificacin. Para comprobar si el modelo es especfico de sus datos o se puede
utilizar para realizar inferencias en la poblacin general, puede utilizar la tcnica
estadstica denominada validacin cruzada para crear automticamente subconjuntos
de los datos y probar el modelo con cada uno. Este tema es importante y lo puede
buscar en el MSDN digitando Prueba y validacin (minera de datos)
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona
correctamente, puede que deba volver a un paso anterior del proceso y volver a definir
el problema o volver a investigar los datos del conjunto de datos original.
2.6
IMPLEMENTAR Y ACTUALIZAR LOS MODELOS
El ltimo paso del proceso de minera de datos, como se resalta en el siguiente
diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de
produccin.
Una vez que los modelos de minera de datos se encuentran en el entorno de

produccin, puede llevar acabo diferentes tareas, dependiendo de sus
necesidades. Las siguientes son algunas de las tareas que puede realizar:
Use los modelos para crear predicciones que luego podr usar para tomar
decisiones comerciales. SQL Server pone a su disposicin el lenguaje DMX,
que podr usar para crear consultas de prediccin, y el Generador de consultas
de prediccin, que le ayudar a generar las consultas. Para obtener ms
informacin, vea Referencia de Extensiones de minera de datos (DMX).
Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del
modelo. Para obtener ms informacin, vea Consultas de minera de datos.
Incrustar la funcionalidad de minera de datos directamente en una
aplicacin. Puede incluir Objetos de administracin de anlisis (AMO), que
contiene un conjunto de objetos que la aplicacin pueda utilizar para crear,
cambiar, procesar y eliminar estructuras y modelos de minera de
datos. Tambin puede enviar mensajes XML for Analysis (XMLA) directamente
a una instancia de Analysis Services. Para obtener ms informacin,
vea Development (Analysis Services - Data Mining).
Utilizar Integration Services para crear un paquete en el que se utilice un
modelo de minera de datos para dividir de forma inteligente los datos entrantes
en varias tablas. Por ejemplo, si una base de datos se actualiza continuamente
con clientes potenciales, puede utilizar un modelo de minera de datos junto
con Integration Services para dividir los datos entrantes en clientes que
probablemente compren un producto y clientes que probablemente no compren
Pgina 7 de 37
un producto. Para obtener ms informacin, vea en el MSDN Typical Uses of

Integration Services.
Crear un informe que permita a los usuarios realizar consultas directamente en
un modelo de minera de datos existente. Para obtener ms informacin,
vea Reporting Services en SQL Server Data Tools (SSDT).
Actualizar los modelos despus de la revisin y anlisis. Cualquier
actualizacin requiere que vuelve a procesar los modelos. Para obtener ms
informacin, vea Procesar objetos de minera de datos.
Actualizar dinmicamente los modelos, cuando entren ms datos en la
organizacin, y realizar modificaciones constantes para mejorar la efectividad
de la solucin debera ser parte de la estrategia de implementacin. Para
obtener ms informacin, vea Administracin de las soluciones y los objetos de
minera de datos.
3
VENTAJAS DE LA MINERA DE DATOS
La minera de datos usa principios estadsticos contrastados para detectar patrones en
los datos, ayudndole a tomar decisiones inteligentes sobre problemas complejos. La
aplicacin de los algoritmos de minera de datos de Analysis Services a los datos le
permitir predecir tendencias, identificar patrones, crear reglas y recomendaciones,
analizar la secuencia de eventos en conjuntos de datos complejos y obtener nuevos
puntos de vista.
4
ALGORITMOS DE MINERA DE DATOS (ANALYSIS SERVICES: MINERA
DE DATOS)
Un algoritmo de minera de datos es un conjunto de clculos y reglas heursticas que
permite crear un modelo de minera de datos a partir de los datos. Para crear un
modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos
especficos de patrones o tendencias. El algoritmo usa los resultados de este anlisis
para definir los parmetros ptimos para la creacin del modelo de minera de datos. A
continuacin, estos parmetros se aplican en todo el conjunto de datos para extraer
patrones procesables y estadsticas detalladas.
El modelo de minera de datos que crea un algoritmo a partir de los datos puede tomar
diversas formas, incluyendo:
Un conjunto de clsteres que describe cmo se relacionan los casos de un
conjunto de datos.
Un rbol de decisin que predice un resultado y que describe cmo afectan a este
los distintos criterios.
Un modelo matemtico que predice las ventas.
Un conjunto de reglas que describen cmo se agrupan los productos en una
transaccin, y las probabilidades de que dichos productos se adquieran juntos.
Microsoft SQL Server Analysis Services proporciona varios algoritmos que puede usar
en las soluciones de minera de datos. Estos algoritmos son implementaciones de
algunas de las metodologas ms conocidas usadas en la minera de datos. Todos los
algoritmos de minera de datos de Microsoft se pueden personalizar y son totalmente
programables, bien mediante las API proporcionadas o bien mediante los
componentes de minera de datos de SQL Server Integration Services.
Tambin puede usar algoritmos de minera de datos desarrollados por terceros que
cumplan la especificacin OLE DB para minera de datos, o desarrollar algoritmos
personalizados que se pueden registrar como servicios para usarlos a continuacin en
el marco de la minera de datos de SQL Server.
Pgina 8 de 37
Pgina 9 de 37

Elegir el algoritmo correcto
La eleccin del mejor algoritmo para una tarea analtica especfica puede ser un
desafo. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada
uno de ellos genera un resultado diferente, y algunos pueden generar ms de un tipo
de resultado. Los siguientes son algunos tips para elegir un algoritmo por tipo:
Algoritmos de clasificacin, que predicen una o ms variables discretas,

basndose en otros atributos del conjunto de datos.
Algoritmos de regresin, que predicen una o ms variables continuas, como las
prdidas o los beneficios, basndose en otros atributos del conjunto de datos.
Algoritmos de segmentacin, que dividen los datos en grupos, o clsteres, de
elementos que tienen propiedades similares.
Algoritmos de asociacin, que buscan correlaciones entre diferentes atributos de
un conjunto de datos. La aplicacin ms comn de esta clase de algoritmo es la
creacin de reglas de asociacin, que pueden usarse en un anlisis de la cesta de
compra.
Algoritmos de anlisis de secuencias, que resumen secuencias o episodios
frecuentes en los datos, como un flujo de rutas web.
La siguiente es una gua para seleccionar un algoritmo para su uso con una tarea
especfica:
.
Ejemplos de tareas
Algoritmos de
Microsoft que se
pueden usar
Predecir un atributo discreto
Algoritmo de rboles
de decisin de
Marcar los clientes de una lista de posibles
Microsoft
compradores como clientes con buenas o malas
perspectivas.
Algoritmo Bayes naive
Calcular la probabilidad de que un servidor genere
de Microsoft
un error en los prximos 6 meses.
Clasificar la evolucin de los pacientes y explorar
Algoritmo de clsteres
los factores relacionados.
de Microsoft
Predecir un atributo continuo

Pronosticar las ventas del ao prximo.
Predecir los visitantes del sitio a partir de
tendencias histricas y estacionales
proporcionadas.
Generar una puntuacin de riesgo a partir de datos
demogrficos.
Algoritmo de red
neuronal de Microsoft
Algoritmo de rboles
de decisin de
Microsoft
Algoritmo de serie
temporal de Microsoft
Algoritmo de regresin
lineal de Microsoft
Predecir una secuencia

Realizar un anlisis clickstream del sitio web de una
empresa.
Analizar los factores que dan como resultado
errores en el servidor.
Capturar y analizar secuencias de actividades
durante las visitas de pacientes externos, para
Pgina 10 de 37
de secuencia de
Microsoft

formular las prcticas recomendadas en las
actividades comunes.
Buscar grupos de elementos comunes en las
transacciones
Usar el anlisis de la cesta de la compra para
determinar la posicin del producto.
Sugerir a un cliente la compra de productos
adicionales.
Analizar los datos de una encuesta a los visitantes
a un evento, para descubrir qu actividades o
stands estaban correlacionados con el fin de
programar actividades futuras.
Buscar grupos de elementos similares
Crear grupos de pacientes con perfiles de riesgo en
funcin de atributos como datos demogrficos y
comportamientos.
Analizar usuarios mediante patrones de bsqueda y
compra de productos.
Identificar servidores con caractersticas de uso
similares.
Algoritmo de
asociacin de
Microsoft
Algoritmo de rboles
de decisin de
Microsoft
de Microsoft
de secuencia de
Microsoft
5
RECURSOS DE APRENDIZAJE PARA CADA UNO DE LOS ALGORITMOS
DE MINERA DE DATOS QUE SE PROPORCIONAN EN ANALYSIS SERVICES
5.1
ALGORITMO DE ASOCIACIN DE MICROSOFT
Este algoritmo de Microsoft es un algoritmo de asociacin suministrado por Analysis
Services, til para los motores de recomendacin. Un motor de recomendacin
recomienda productos a los clientes basndose en los elementos que ya han adquirido
o en los que tienen inters. El algoritmo de asociacin de Microsoft tambin resulta til
para el anlisis de la cesta de compra. Para obtener un ejemplo sobre el anlisis de la
cesta de la compra, vea Leccin 3: Generar un escenario de cesta de la compra
(Tutorial intermedio de minera de datos) en el tutorial de minera de datos.
Los modelos de asociacin se generan basndose en conjuntos de datos que
contienen identificadores para casos individuales y para los elementos que contienen
los casos. Un grupo de elementos de un caso se denomina un conjunto de
elementos. Un modelo de asociacin se compone de una serie de conjuntos de
elementos y de las reglas que describen cmo estos elementos se agrupan dentro de
los casos. Las reglas que el algoritmo identifica pueden utilizarse para predecir las
probables compras de un cliente en el futuro, basndose en los elementos existentes
en la cesta de compra actual del cliente. El siguiente diagrama muestra una serie de
reglas en un conjunto de elementos.
Pgina 11 de 37

Como muestra el diagrama, el algoritmo de asociacin de Microsoft puede encontrar
potencialmente muchas reglas dentro de un conjunto de datos. El algoritmo usa dos
parmetros, soporte y probabilidad, para describir los conjuntos de elementos y las
reglas que genera. Por ejemplo, si X e Y representan dos elementos que podran estar
en un carro de la compra, el parmetro de soporte es el nmero de casos en el
conjunto de datos que contienen la combinacin de elementos, X e Y. Utilizando el
parmetro de soporte en combinacin con los parmetros definidos por el
usuario, MINIMUM_SUPPORT y MAXIMUM_SUPPORT, el algoritmo controla el
nmero de conjuntos de elementos que se generan. El parmetro de probabilidad,
tambin denominado confianza, representa la fraccin de casos en el conjunto de
datos que contienen X y que tambin contienen Y. Utilizando el parmetro de
probabilidad en combinacin con el parmetro MINIMUM_PROBABILITY, el algoritmo
controla el nmero de reglas que se generan.
Ejemplo
La empresa Adventure Works Cycle est rediseando la funcionalidad de su sitio
web. El objetivo del nuevo diseo es incrementar la venta directa de sus
productos. Debido a que la empresa registra cada venta en una base de datos
transaccional, se puede utilizar el algoritmo de asociacin de Microsoft para identificar
los conjuntos de productos que suelen adquirirse juntos. As, se pueden predecir los
elementos adicionales en los que un cliente puede estar interesado basndose en los
elementos que ya se encuentran en su cesta de la compra.
Cmo funciona el algoritmo?
El algoritmo de asociacin de Microsoft recorre un conjunto de datos para hallar
elementos que aparezcan juntos en un caso. A continuacin, agrupa en conjuntos de
elementos todos los elementos asociados que aparecen, como mnimo, en el nmero
de casos especificado en el parmetro MINIMUM_SUPPORT. Por ejemplo, un
conjunto de elementos puede ser "Mountain 200=Existing, Sport 100=Existing" y tener
un soporte de 710. El algoritmo generar reglas a partir de los conjuntos de
elementos. Estas reglas se usan para predecir la presencia de un elemento en la base
de datos, basndose en la presencia de otros elementos especficos que el algoritmo
ha identificado como importantes. Por ejemplo, una regla puede ser "if Touring
1000=existing and Road bottle cage=existing, then Water bottle=existing", y puede
tener una probabilidad de 0.812.En este ejemplo, el algoritmo identifica que la
presencia en la cesta del neumtico Touring 1000 y del soporte de la botella de agua
predice que probablemente la cesta de compra incluir tambin una botella de agua.
Para obtener una explicacin ms detallada del algoritmo, junto con una lista de los
parmetros que permiten personalizar su comportamiento y controlar los resultados en
el modelo de minera de datos, vea Referencia tcnica del algoritmo de asociacin de
Microsoft.
Datos requeridos para los modelos de asociacin
Al preparar los datos para su uso en un modelo de reglas de asociacin, conviene
comprender qu requisitos son imprescindibles para el algoritmo concreto, incluidos el
volumen de datos necesario y la forma en que estos datos se utilizan.
Los requisitos para un modelo de reglas de asociacin son los siguientes:
Una columna key: cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. no se permiten las claves
compuestas.
Una nica columna de prediccin: Un modelo de asociacin solo puede tener
una columna de prediccin. Normalmente, se trata de la columna de clave de la
Pgina 12 de 37
tabla anidada, como el campo que contiene los productos que se han
comprado. Los valores deben ser discretos o discretizados.
Columnas de entrada: Las columnas de entrada deben ser discretas. Los datos
de entrada de un modelo de asociacin suelen encontrarse en dos tablas. Por
ejemplo, una tabla puede contener la informacin del cliente y la otra las compras
de ese cliente. Es posible incluir estos datos en el modelo mediante el uso de una
tabla anidada. Para obtener ms informacin sobre las tablas anidadas,
vea Tablas anidadas (Analysis Services - Minera de datos).
Para obtener informacin ms detallada sobre los tipos de contenido y los tipos de
datos compatibles con los modelos de asociacin, vea la seccin Requisitos
de Referencia tcnica del algoritmo de asociacin de Microsoft.
Ver Un Modelo De Asociacin
Para explorar el modelo, puede utilizar el Visor de asociacin de Microsoft. Cuando
se observa un modelo de asociacin, Analysis Services presenta las correlaciones
desde distintos ngulos para que se puedan comprender mejor las relaciones y las
reglas halladas en los datos. El panel Conjunto de elementos del visor proporciona
un anlisis detallado de las combinaciones o los conjuntos de elementos ms
comunes. El panel Reglas presenta una lista de reglas generalizadas a partir de los
datos, agrega clculos de probabilidad y clasifica las reglas segn su importancia
relativa. El visor de red de dependencia permite explorar visualmente cmo se
conectan los diferentes elementos individuales. Para obtener ms informacin,
vea Examinar un modelo usando el Visor de clsteres de Microsoft.
Si desea obtener ms detalles sobre cualquiera de los conjuntos de elementos y

reglas, puede examinar el modelo en el Visor de rbol de contenido genrico de
Microsoft. El contenido almacenado para el modelo incluye el soporte para cada
conjunto de elementos, una puntuacin para cada regla y otras estadsticas. Para
obtener ms informacin, vea Contenido del modelo de minera de datos para los
modelos de asociacin (Analysis Services - Minera de datos).
Crear predicciones
Una vez procesado el modelo, puede utilizar las reglas y los conjuntos de elementos
para realizar predicciones. En un modelo de asociacin, una prediccin indica qu
elemento es probable que se produzca dada la presencia del elemento especificado, y
la prediccin puede incluir informacin como la probabilidad, el soporte o la
importancia. Para obtener ejemplos de cmo crear consultas en un modelo de
asociacin, vea Ejemplos de consultas del modelo de asociacin.
Para obtener informacin general sobre cmo crear una consulta en un modelo de
minera de datos, vea Consultas de minera de datos.
Rendimiento
El proceso de crear conjuntos de elementos y contar las correlaciones puede llevar
mucho tiempo. Aunque el algoritmo Reglas de asociacin de Microsoft utiliza tcnicas
de optimizacin para ahorrar espacio y agilizar el procesamiento, es conveniente saber
que se pueden presentar problemas de rendimiento en determinadas circunstancias
como las que se mencionan a continuacin:
El conjunto de datos es grande y tiene muchos elementos individuales.
El tamao mnimo establecido para el conjunto de elementos es demasiado
pequeo.
Pgina 13 de 37

Para minimizar el tiempo de procesamiento y reducir la complejidad de los conjuntos
de elementos, se puede intentar agrupar en categoras los elementos relacionados
antes de analizar los datos.
Comentarios
Admite la obtencin de detalles.
Admite el uso de modelos de minera de datos OLAP.
Admite la creacin de dimensiones de minera de datos.
Para buscar la referencia tcnica en el MSDN digite Referencia tcnica del algoritmo
de asociacin de Microsoft
Para entender cmo est estructurada la informacin dentro de cada del modelo y
cmo interpretar la informacin almacenada en cada uno de los nodos digite en el
MSDN: Contenido del modelo de minera de datos para los modelos de asociacin
(Analysis Services - Minera de datos)
En el MSDN Los ejemplos incluyen consultas de contenido que le proporcionan ms
informacin sobre los patrones del modelo, as como consultas de prediccin para
ayudarle a crear predicciones basadas en esos patrones.
5.2
ALGORITMO DE CLSTERES DE MICROSOFT
El algoritmo de clsteres de Microsoft es un algoritmo de segmentacin suministrado
por Analysis Services. El algoritmo utiliza tcnicas iterativas para agrupar los casos de
un conjunto de datos dentro de clsteres que contienen caractersticas similares. Estas
agrupaciones son tiles para la exploracin de datos, la identificacin de anomalas en
los datos y la creacin de predicciones.
Los modelos de agrupacin en clsteres identifican las relaciones en un conjunto de
datos que no se podran derivar lgicamente a travs de la observacin casual. Por
ejemplo, puede discernir lgicamente que las personas que se desplazan a sus
trabajos en bicicleta no viven, por lo general, a gran distancia de sus centros de
trabajo. Sin embargo, el algoritmo puede encontrar otras caractersticas que no son
evidentes acerca de los trabajadores que se desplazan en bicicleta. En el siguiente
diagrama, el clster A representa los datos sobre las personas que suelen conducir
hasta el trabajo, en tanto que el clster B representa los datos sobre las personas que
van hasta all en bicicleta.
El algoritmo de clsteres se diferencia de otros algoritmos de minera de datos, como

el algoritmo de rboles de decisin de Microsoft, en que no se tiene que designar una
columna de prediccin para generar un modelo de agrupacin en clsteres. El
algoritmo de clsteres entrena el modelo de forma estricta a partir de las relaciones
que existen en los datos y de los clsteres que identifica el algoritmo.
Ejemplo
Considere un grupo de personas que comparten informacin demogrfica similar y que
adquieren productos similares de la empresa Adventure Works. Este grupo de
personas representa un clster de datos. En una base de datos pueden existir varios
clsteres como stos. Mediante la observacin de las columnas que forman un clster,
Pgina 14 de 37

puede ver con mayor claridad la forma en que los registros de un conjunto de datos se
relacionan entre s.
Cmo funciona el algoritmo?
El algoritmo de clsteres de Microsoft identifica primero las relaciones de un conjunto
de datos y genera una serie de clsteres basndose en ellas. Un grfico de dispersin
es una forma til de representar visualmente el modo en que el algoritmo agrupa los
datos, tal como se muestra en el siguiente diagrama. El grfico de dispersin
representa todos los casos del conjunto de datos; cada caso es un punto del
grfico. Los clsteres agrupan los puntos del grfico e ilustran las relaciones que
identifica el algoritmo.
Despus de definir los clsteres, el algoritmo calcula el grado de perfeccin con que
los clsteres representan las agrupaciones de puntos y, a continuacin, intenta volver
a definir las agrupaciones para crear clsteres que representen mejor los datos. El
algoritmo establece una iteracin en este proceso hasta que ya no es posible mejorar
los resultados mediante la redefinicin de los clsteres.
Puede personalizar el funcionamiento del algoritmo seleccionando una tcnica de
agrupacin en clsteres, limitando el nmero mximo de clsteres o cambiando la
cantidad de soporte que se requiere para crear un clster. Para obtener ms
informacin, vea Referencia tcnica del algoritmo de clsteres de Microsoft.
Datos requeridos para los modelos de agrupacin en clsteres
Al preparar los datos para su uso en el entrenamiento de un modelo de agrupacin en
clsteres, conviene comprender qu requisitos son imprescindibles para el algoritmo
concreto, incluidos el volumen de datos necesario y la forma en que estos datos se
utilizan. Los requisitos para un modelo de agrupacin en clsteres son los siguientes:
Una columna key : cada modelo debe contener una columna numrica o de texto
que identifique cada registro de manera nica. No estn permitidas las claves
compuestas.
Columnas de entrada Cada modelo debe tener al menos una columna de entrada
que contenga los valores que se utilizan para generar los clsteres. Puede tener
tantas columnas de entrada como desee, pero dependiendo del nmero de valores
existentes en cada columna, la adicin de columnas adicionales podra aumentar
el tiempo necesario para entrenar el modelo.
Una columna de prediccin opcional El algoritmo no necesita una columna de
prediccin para generar el modelo, pero puede agregar una columna de prediccin
de casi cualquier tipo de datos. Los valores de la columna de prediccin se pueden
tratar como entradas del modelo de agrupacin en clsteres, o se puede
especificar que solo se utilicen para las predicciones. Por ejemplo, si desea
predecir los ingresos del cliente agrupando en clsteres de acuerdo con datos
demogrficos como la regin o la edad, se deben especificar los ingresos
como PredictOnly y agregar todas las dems columnas, como la regin o la edad,
como entradas.
Pgina 15 de 37

Ver un modelo de agrupacin en clsteres
Para explorar el modelo, puede utilizar el Visor de clsteres de Microsoft. Cuando
se observa un modelo de agrupacin en clsteres, Analysis Services presenta los
clsteres en un diagrama que muestra las relaciones existentes entre ellos, adems de
un perfil detallado de cada clster, una lista de los atributos que diferencian cada
clster de los dems, y las caractersticas de todo el conjunto de datos de
entrenamiento. Para obtener ms informacin, vea Examinar un modelo usando el
Visor de clsteres de Microsoft.
Si desea obtener ms detalles, puede examinar el modelo en el Visor de rbol de
contenido genrico de Microsoft. El contenido almacenado para el modelo incluye la
distribucin para todos los valores de cada nodo, la probabilidad de cada clster y
otros datos. Para obtener ms informacin, vea Contenido del modelo de minera de
datos para los modelos de agrupacin en clsteres (Analysis Services - Minera de
datos).
Crear predicciones
Una vez entrenado el modelo, los resultados se almacenan como un conjunto de
patrones que se puede explorar o utilizar para realizar predicciones. Puede crear
consultas para devolver predicciones sobre si los nuevos datos se ajustan a los
clsteres que se han detectado, o para obtener estadsticas descriptivas sobre los
clsteres. Para obtener informacin sobre cmo crear consultas en un modelo de
minera de datos, vea Consultas de minera de datos. Para obtener ejemplos de cmo
utilizar las consultas con un modelo de agrupacin en clsteres, vea Ejemplos de
consultas de modelos de agrupacin en clsteres.
Comentarios
Admite el uso del Lenguaje de marcado de modelos de prediccin (PMML)
para crear modelos de minera de datos.
Admite el uso de modelos de minera de datos OLAP y la creacin de
dimensiones de minera de datos.
de clsteres de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de agrupacin en
clsteres (Analysis Services - Minera de datos)
5.3
ALGORITMO DE RBOLES DE DECISIN DE MICROSOFT
El algoritmo de rboles de decisin de Microsoft es un algoritmo de clasificacin y
regresin proporcionado por Microsoft SQL Server Analysis Services para el modelado
de prediccin de atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basndose en las
relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores,
conocidos como estados, de estas columnas para predecir los estados de una
columna que se designa como elemento de prediccin. Especficamente, el algoritmo
identifica las columnas de entrada que se correlacionan con la columna de
prediccin. Por ejemplo, en un escenario para predecir qu clientes van a adquirir
probablemente una bicicleta, si nueve de diez clientes jvenes compran una bicicleta,
pero solo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad
Pgina 16 de 37

es un buen elemento de prediccin en la compra de bicicletas. El rbol de decisin
realiza predicciones basndose en la tendencia hacia un resultado concreto.
Para los atributos continuos, el algoritmo usa la regresin lineal para determinar dnde
se divide un rbol de decisin.
Si se define ms de una columna como elemento de prediccin, o si los datos de
entrada contienen una tabla anidada que se haya establecido como elemento de
prediccin, el algoritmo genera un rbol de decisin independiente para cada columna
de prediccin.
Ejemplo
El departamento de marketing de la empresa Adventure Works Cycles desea
identificar las caractersticas de los clientes antiguos que podran indicar si es probable
que realicen alguna compra en el futuro. La base de datos AdventureWorks2012
almacena informacin demogrfica que describe a los clientes antiguos. Mediante el
algoritmo de rboles de decisin de Microsoft que analiza esta informacin, el
departamento puede generar un modelo que predice si un determinado cliente va a
comprar productos, basndose en el estado de las columnas conocidas sobre ese
cliente, como la demografa o los patrones de compra anteriores.
Cmo funciona el algoritmo
El algoritmo de rboles de decisin de Microsoft genera un modelo de minera de
datos mediante la creacin de una serie de divisiones en el rbol. Estas divisiones se
representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una
columna de entrada tiene una correlacin significativa con la columna de
prediccin. La forma en que el algoritmo determina una divisin vara en funcin de si
predice una columna continua o una columna discreta.
El algoritmo de rboles de decisin de Microsoft utiliza la seleccin de
caractersticas para guiar la seleccin de los atributos ms tiles. Todos los algoritmos
de minera de datos de Analysis Services utilizan la seleccin de caractersticas para
mejorar el rendimiento y la calidad del anlisis. La seleccin de caractersticas es
importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si
utiliza demasiados atributos de prediccin o de entrada al disear un modelo de
minera de datos, el modelo puede tardar mucho tiempo en procesarse o incluso
quedarse sin memoria. Entre los mtodos que se usan para determinar si hay que
dividir el rbol figuran mtricas estndar del sector para la entropa y las redes
Bayesianas. Para obtener ms informacin sobre los mtodos que se usan para
seleccionar los atributos significativos y, a continuacin, puntuarlos y clasificarlos,
vea Seleccin de caractersticas (minera de datos).
Un problema comn de los modelos de minera de datos es que el modelo se vuelve
demasiado sensible a las diferencias pequeas en los datos de entrenamiento, en
cuyo caso se dice que est sobreajustado o sobreentrenado. Un modelo
sobreajustado no se puede generalizar a otros conjuntos de datos. Para evitar
sobreajustar un conjunto de datos determinado, el algoritmo de rboles de decisin de
Microsoft utiliza tcnicas para controlar el crecimiento del rbol. Para obtener una
explicacin ms detallada de cmo funciona el algoritmo de rboles de decisin de
Microsoft, vea Referencia tcnica del algoritmo de rboles de decisin de Microsoft.
Predecir columnas discretas
La forma en que el algoritmo de rboles de decisin de Microsoft genera un rbol para
una columna de prediccin discreta puede mostrarse mediante un histograma. El
siguiente diagrama muestra un histograma que traza una columna de prediccin, Bike
Pgina 17 de 37

Buyers, segn una columna de entrada, Age. El histograma muestra que la edad de
una persona ayuda a distinguir si esa persona comprar una bicicleta.
La correlacin que aparece en el diagrama har que el algoritmo de rboles de

decisin de Microsoft cree un nuevo nodo en el modelo.
A medida que el algoritmo agrega nuevos nodos a un modelo, se forma una estructura
en rbol. El nodo superior del rbol describe el desglose de la columna de prediccin
para la poblacin global de clientes. A medida que el modelo crece, el algoritmo
considera todas las columnas.
Predecir columnas continuas
Cuando el algoritmo de rboles de decisin de Microsoft genera un rbol basndose
en una columna de prediccin continua, cada nodo contiene una frmula de
regresin. Se produce una divisin en un punto de no linealidad de la frmula de
regresin. Por ejemplo, considere el siguiente diagrama.
El diagrama contiene los datos que pueden modelarse utilizando una sola lnea o dos
lneas conectadas. Sin embargo, una sola lnea realizar un pobre trabajo en la
representacin de los datos. En su lugar, si se usan dos lneas, el modelo har un
mejor trabajo en la aproximacin a los datos. El punto donde las dos lneas se unen es
el punto de no linealidad y donde se dividira un nodo de un modelo de rbol de
decisin. Por ejemplo, el nodo que corresponde al punto de no linealidad del grfico
Pgina 18 de 37

anterior podra representarse mediante el siguiente diagrama. Las dos ecuaciones
representan las ecuaciones de regresin de las dos lneas.
Datos requeridos para los modelos de rboles de decisin

Cuando prepare los datos para su uso en un modelo de rboles de decisin, conviene
que comprenda qu requisitos son imprescindibles para el algoritmo concreto,
incluidos el volumen de datos necesario y la forma en que estos se utilizan.
Los requisitos para un modelo de rboles de decisin son los siguientes:
Una columna key : cada modelo debe contener una columna numrica o de
texto que identifique cada registro de manera nica. No estn permitidas las
claves compuestas.
Una columna de prediccin. Se requiere al menos una columna de
prediccin. Puede incluir varios atributos de prediccin en un modelo y pueden
ser de tipos diferentes, numrico o discreto. Sin embargo, el incremento del
nmero de atributos de prediccin puede aumentar el tiempo de
procesamiento.
Columnas de entrada. Se requieren columnas de entrada, que pueden ser
discretas o continuas. Aumentar el nmero de atributos de entrada afecta al
tiempo de procesamiento.
datos admitidos en los modelos de rboles de decisin, vea la seccin Requisitos
deReferencia tcnica del algoritmo de rboles de decisin de Microsoft.
Ver un modelo de rboles de decisin
Para examinar el modelo, puede utilizar el Visor de rboles de Microsoft. Si un
modelo genera varios rboles, puede seleccionar uno y el visor muestra un esquema
de cmo se clasifican los casos para cada atributo de prediccin. Tambin puede ver
la interaccin de los rboles utilizando el visor de redes de dependencias. Para
obtener ms informacin, vea Examinar un modelo usando el Visor de rboles de
Microsoft.
Si desea obtener informacin ms detallada sobre cualquier bifurcacin o nodo del
rbol, tambin puede examinar el modelo utilizando el Visor de rbol de contenido
genrico de Microsoft. El contenido almacenado para el modelo incluye la distribucin
para todos los valores de cada nodo, las probabilidades en cada nivel del rbol y las
frmulas de regresin para los atributos continuos. Para obtener ms informacin,
vea Contenido del modelo de minera de datos para los modelos de rboles de
decisin (Analysis Services - Minera de datos).
Crear predicciones
Una vez procesado el modelo, los resultados se almacenan como un conjunto de
patrones y estadsticas que se pueden usar para explorar las relaciones o para realizar
predicciones.
Para obtener ejemplos de consultas que usar con un modelo de rboles de decisin,
vea Ejemplos de consultas de modelos de rboles de decisin.
Para obtener informacin general sobre cmo crear consultas con modelos de minera
de datos, vea Consultas de minera de datos.
Comentarios
Admite el uso del Lenguaje de marcado de modelos de prediccin (PMML)
Pgina 19 de 37
de rboles de decisin de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de rboles de
decisin (Analysis Services - Minera de datos)
5.4
ALGORITMO DE REGRESIN LINEAL DE MICROSOFT
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de rboles
de decisin de Microsoft que ayuda a calcular una relacin lineal entre una variable
independiente y otra dependiente y, a continuacin, utilizar esa relacin para la
prediccin.
La relacin toma la forma de una ecuacin para la lnea que mejor represente una
serie de datos. Por ejemplo, la lnea del siguiente diagrama muestra la mejor
representacin lineal de los datos.
Cada punto de datos del diagrama tiene un error asociado con su distancia con
respecto a la lnea de regresin. Los coeficientes a y b de la ecuacin de regresin
ajustan el ngulo y la ubicacin de la recta de regresin. Puede obtener la ecuacin de
regresin ajustando a y b hasta que la suma de los errores asociados a todos los
puntos alcance su valor mnimo.
Hay otros tipos de regresin que utilizan varias variables y tambin hay mtodos no
lineales de regresin. Sin embargo, la regresin lineal es un mtodo til y conocido
para modelar una respuesta a un cambio de algn factor subyacente.
Ejemplo
Puede utilizar la regresin lineal para determinar una relacin entre dos columnas
continuas. Por ejemplo, puede utilizar la regresin lineal para calcular una lnea de
tendencias en los datos de fabricacin o ventas. Tambin podra utilizar la regresin
lineal como precursor para el desarrollo de modelos de minera de datos ms
complejos, con el fin de evaluar las relaciones entre las columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal que no requieren
herramientas de minera de datos, la ventaja de utilizar el algoritmo de regresin lineal
de Microsoft para esta tarea es que se calculan y se prueban automticamente todas
las posibles relaciones entre las variables. No tiene que seleccionar un mtodo de
clculo, como por ejemplo para resolver los mnimos cuadrados. Sin embargo, la
regresin lineal podra simplificar en exceso las relaciones en escenarios en los que
varios factores afectan al resultado.
El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de rboles
de decisin de Microsoft. Al seleccionar el algoritmo de regresin lineal de Microsoft,
se invoca un caso especial del algoritmo de rboles de decisin de Microsoft, con
parmetros que restringen el comportamiento del algoritmo y requieren ciertos tipos de
datos de entrada. Adems, en un modelo de regresin lineal, el conjunto de datos
Pgina 20 de 37

completo se utiliza para calcular las relaciones en el paso inicial, mientras que en un
modelo de rboles de decisin estndar los datos se dividen repetidamente en rboles
o subconjuntos ms pequeos.
Datos requeridos para los modelos de regresin lineal
Cuando se preparan datos para utilizarse en un modelo de regresin lineal, se deben
entender los requisitos del algoritmo determinado. Esto incluye saber cuntos datos se
necesitan y cmo se utilizan. Los requisitos para este tipo de modelo son los
siguientes:
Una columna key : cada modelo debe contener una columna numrica o de
texto que identifique cada registro de manera nica. No estn permitidas las
claves compuestas.
Una columna de prediccin. Se requiere al menos una columna de
prediccin. Se pueden incluir varios atributos de prediccin en un modelo, pero
deben ser tipos de datos numricos continuos. No se puede utilizar un tipo de
datos de fecha y hora como atributo de prediccin aunque el almacenamiento
nativo para los datos sea numrico.
Columnas de entrada Deben contener datos numricos continuos y se les
debe asignarse el tipo de datos adecuado.
Para obtener ms informacin, vea la seccin Requisitos de Referencia tcnica del
algoritmo de regresin lineal de Microsoft.
Ver un modelo de regresin lineal
Para examinar el modelo, puede utilizar el Visor de rboles de Microsoft. La
estructura de rbol de un modelo de regresin lineal es muy simple, con toda la
informacin sobre la ecuacin de regresin contenida en un nodo nico. Para obtener
ms informacin, vea Examinar un modelo usando el Visor de rboles de Microsoft.
Si desea obtener informacin ms detallada sobre la ecuacin, tambin puede ver los
coeficientes y otros detalles utilizando el Visor de rbol de contenido genrico de
Microsoft.
En un modelo de regresin lineal, el contenido incluye metadatos, la frmula de
regresin y estadsticas sobre la distribucin de los valores de entrada. Para obtener
ms informacin, vea Contenido del modelo de minera de datos para los modelos de
regresin lineal (Analysis Services - Minera de datos).
Crear predicciones
Una vez procesado el modelo, los resultados se almacenan como un conjunto de
estadsticas junto con la frmula de regresin lineal, que se puede utilizar para calcular
tendencias futuras. Para obtener ejemplos de consultas que se utilizan con un modelo
regresin lineal, vea Ejemplos de consultas de modelos de regresin lineal.
Para obtener informacin general sobre cmo crear consultas en modelos de minera
de datos, vea Consultas de minera de datos.
Adems de crear un modelo de regresin lineal seleccionando el algoritmo de
regresin lineal de Microsoft, si el atributo de prediccin es un tipo de datos numricos
continuo, puede crear un modelo de rbol de decisin que contenga regresiones. En
este caso, el algoritmo dividir los datos cuando encuentre puntos de separacin
adecuados, pero en cambio crear una frmula de regresin para algunas regiones de
datos. Para obtener ms informacin sobre los rboles de regresin dentro de un
modelo de rboles de decisin, vea Contenido del modelo de minera de datos para
los modelos de rboles de decisin (Analysis Services - Minera de datos).
Comentarios
No admite el uso del lenguaje de marcado de modelos de prediccin (PMML)
No admite la creacin de dimensiones de minera de datos.
Pgina 21 de 37

de regresin lineal de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de regresin
lineal (Analysis Services - Minera de datos)
5.5
ALGORITMO DE REGRESIN LOGSTICA DE MICROSOFT
La regresin logstica es una tcnica estadstica conocida que se usa para modelar los
resultados binarios.
Existen varias implementaciones de regresin logstica en la investigacin estadstica,
que utilizan diferentes tcnicas de aprendizaje. El algoritmo de Regresin logstica de
Microsoft se ha implementado utilizando una variacin del algoritmo de Red neuronal
de Microsoft. Este algoritmo comparte muchas de las cualidades de las redes neurales
pero es ms fcil de entrenar.
Una de las ventajas de la regresin logstica es que el algoritmo es muy flexible, puede
tomar cualquier tipo de entrada y admite varias tareas analticas diferentes:
Usar datos demogrficos para realizar predicciones sobre los resultados, como
el riesgo de contraer una determinada enfermedad.
Explorar y ponderar los factores que contribuyen a un resultado. Por ejemplo,
buscar los factores que influyen en los clientes para volver a visitar un
establecimiento.
Clasificar los documentos, el correo electrnico u otros objetos que tengan
muchos atributos.
Ejemplo
Imagine un grupo de personas que comparten informacin demogrfica parecida y que
adquieren productos de la empresa Adventure Works. Al modelar los datos para
relacionarlos con un resultado concreto, como la compra de un producto de destino,
podr ver cmo contribuye la informacin demogrfica a la probabilidad de que alguien
adquiera dicho producto de destino.
La regresin logstica es un mtodo estadstico conocido que se usa para determinar
la contribucin de varios factores a un par de resultados. La implementacin de
Microsoft usa una red neuronal modificada para modelar las relaciones entre las
entradas y los resultados. Se mide el efecto de cada entrada en el resultado y se
ponderan las diversas entradas en el modelo acabado. El nombre regresin logstica
procede del hecho de que la curva de los datos se comprime mediante una
transformacin logstica para minimizar el efecto de los valores extremos. Para obtener
ms informacin sobre la implementacin y sobre cmo personalizar el algoritmo,
vea Referencia tcnica del algoritmo de regresin logstica de Microsoft.
Datos requeridos para los modelos de regresin logstica
Al preparar los datos para su uso en el entrenamiento de un modelo de regresin
logstica, conviene comprender qu requisitos son imprescindibles para el algoritmo
concreto, incluidos el volumen de datos necesario y la forma en que estos datos se
utilizan.
Los requisitos para un modelo de regresin logstica son los siguientes:
Una columna de una sola clave: cada modelo debe contener una columna numrica
o de texto que identifique cada registro de manera nica. No estn permitidas las
claves compuestas.
Columnas de entrada: cada modelo debe tener al menos una columna de entrada
que contenga los valores que se utilizan como factores en el anlisis. Puede tener
tantas columnas de entrada como desee, pero dependiendo del nmero de valores
existentes en cada columna, la adicin de columnas adicionales podra aumentar el
tiempo necesario para entrenar el modelo.
Pgina 22 de 37

Al menos una columna de prediccin: el modelo debe contener al menos una
columna de prediccin de cualquier tipo de datos, incluidos datos numricos
continuos. Los valores de la columna de prediccin tambin se pueden tratar como
entradas del modelo, o se puede especificar que solo se utilicen para las
predicciones. No se admiten tablas anidadas en las columnas de prediccin, pero se
pueden usar como entradas.
datos compatibles con los modelos de regresin logstica, vea la seccin Requisitos
deReferencia tcnica del algoritmo de regresin logstica de Microsoft.
Ver un modelo de regresin logstica
Para explorar el modelo, puede usar el Visor de redes neuronales de Microsoft o el
Visor de rbol de contenido genrico de Microsoft.
Cuando se ve el modelo con el Visor de redes neuronales de Microsoft, Analysis
Services muestra los factores que contribuyen a un resultado determinado,
clasificados por su importancia. Puede elegir un atributo y los valores que desea
comparar. Para obtener ms informacin, vea Examinar un modelo usando el Visor de
redes neuronales de Microsoft.
Si desea obtener ms informacin, puede examinar los detalles del modelo con el
Visor de rbol de contenido genrico de Microsoft. El contenido de un modelo de
regresin logstica incluye un nodo marginal que muestra todas las entradas usadas
para el modelo y las subredes de los atributos de prediccin. Para obtener ms
informacin, veaContenido del modelo de minera de datos para los modelos de
regresin logstica (Analysis Services - Minera de datos).
Crear predicciones
Una vez entrenado el modelo, puede crear consultas en el contenido del modelo para
obtener los coeficientes de regresin y otros detalles, o puede usar el modelo para
realizar predicciones.
Para obtener informacin general sobre cmo crear consultas en un modelo de
Para obtener ejemplos de consultas en un modelo de regresin logstica,
vea Ejemplos de consultas de modelos de agrupacin en clsteres.
Comentarios
No admite la obtencin de detalles. Esto se debe a que la estructura de nodos
del modelo de minera de datos no tiene por qu corresponder directamente a
los datos subyacentes.
de regresin logstica de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de regresin
logstica (Analysis Services - Minera de datos)
5.6
ALGORITMO BAYES NAIVE DE MICROSOFT
El algoritmo Bayes naive de Microsoft es un algoritmo de clasificacin basado en los
teoremas de Bayes y que Microsoft SQL Server Analysis Services proporciona para el
modelado de prediccin. La palabra nave (ingenuo en ingls) del trmino Bayes naive
proviene del hecho que el algoritmo utiliza tcnicas Bayesianas pero no tiene en
cuenta las dependencias que puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que otros
algoritmos de Microsoft y, por tanto, resulta til para generar rpidamente modelos de
Pgina 23 de 37

minera de datos que detectan las relaciones entre las columnas de entrada y las
columnas de prediccin. Puede utilizar este algoritmo para realizar la exploracin
inicial de los datos y, ms adelante, aplicar los resultados para crear modelos de
minera de datos adicionales con otros algoritmos ms complejos y precisos desde el
punto de vista computacional.
Ejemplo
Como parte de su estrategia promocional, el departamento de comercializacin de la
empresa Adventure Works Cycles ha decidido atraer a posibles clientes realizando un
envo por correo de folletos. Para reducir costos, desean enviar los folletos solo a los
clientes de los que esperan recibir respuesta. La empresa almacena informacin en
una base de datos sobre datos demogrficos y respuestas a envos de correo
anteriores. Desean utilizar estos datos para ver el modo en que los datos
demogrficos como la edad o la ciudad pueden ayudarles a predecir la respuesta a
una promocin, comparando los clientes potenciales con los que tienen caractersticas
similares y con los que han adquirido productos de la empresa en el pasado. En
concreto, lo que desean es ver las diferencias entre los clientes que adquirieron una
bicicleta y los que no lo hicieron.
Mediante el algoritmo Bayes naive de Microsoft, el departamento de comercializacin
pude predecir rpidamente un resultado de un perfil de cliente concreto y, por tanto,
puede determinar qu clientes respondern a los folletos con ms probabilidad. Con el
Visor Bayes naive de Microsoft de SQL Server Data Tools (SSDT), tambin pueden
investigar visualmente qu columnas de entrada especficas contribuyen a conseguir
respuestas positivas a los folletos.
Funcionamiento del algoritmo
El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada
columna de entrada, dado cada posible estado de la columna de prediccin.
Para comprender cmo funciona, utilice el Visor Bayes naive de Microsoft de SQL
Server Data Tools (SSDT) (como se muestra en el siguiente grfico) para consultar
una representacin visual del modo en que el algoritmo distribuye los estados.
Pgina 24 de 37
Aqu, el Visor Bayes naive de Microsoft muestra cada columna de entrada del conjunto
de datos e indica cmo se distribuyen los estados de cada columna, dado cada estado
de la columna de prediccin.
Esta vista del modelo se utilizara para identificar las columnas de entrada que son
importantes para diferenciar los distintos estados de la columna de prediccin.
Por ejemplo, en la fila Commute Distance que se muestra aqu, la distribucin de
valores de entrada es visiblemente diferente para los compradores en comparacin
con los no compradores. Esto indica que la entrada, Commute Distance = 0-1 miles,
es un factor de prediccin potencial.
El visor tambin proporciona valores para las distribuciones, de modo que pueda ver
que para los clientes que viajan entre una y dos millas para ir a trabajar, la
probabilidad de que compren una bicicleta es de 0,387, y la probabilidad que no la
compren es de 0,287. En este ejemplo, el algoritmo utiliza la informacin numrica,
derivada de un dato de cliente (como la distancia entre el domicilio y el lugar de
trabajo), para predecir si un cliente comprara una bicicleta.
Para obtener ms informacin acerca de cmo utilizar el Visor Bayes naive de
Microsoft, vea Examinar un modelo usando el visor Bayes naive de Microsoft.
Datos requeridos para los modelos Bayes naive
Al preparar los datos para su uso en un modelo de entrenamiento Bayes naive,
conviene comprender qu requisitos son imprescindibles para el algoritmo, incluidos el
volumen de datos necesario y la forma en que estos datos se utilizan.
Los requisitos para un modelo Bayes naive son los siguientes:
Pgina 25 de 37
Una columna de una sola clave: cada modelo debe contener una columna
numrica o de texto que identifique cada registro de manera nica. No estn
permitidas las claves compuestas.
Columnas de entrada: en un modelo Bayes naive, todas las columnas deben
ser discretas o discretizadas. Para obtener informacin acerca de las columnas
de datos discretos, vea Mtodos de discretizacin (minera de datos).
En un modelo Bayes naive, tambin es importante asegurarse de que los
atributos de entrada sean independientes unos de otros. Esto es
particularmente importante al utilizar el modelo para la prediccin.
El motivo es que, si utiliza dos columnas de datos que ya estn estrechamente
relacionadas, el efecto sera multiplicar la influencia de esas columnas, lo que
puede ocultar otros factores que influyen en el resultado.
Al contrario, la capacidad del algoritmo de identificar las correlaciones entre las
variables es til cuando est explorando un modelo o conjunto de datos, para
identificar las relaciones entre las entradas.
Al menos una columna de prediccin: el atributo de prediccin debe
contener valores discretos o discretizados.
Los valores de la columna predecible se pueden tratar como entradas. Este
ejercicio puede ser til si explora un nuevo conjunto de datos, para encontrar
relaciones entre las columnas.
Ver el modelo
Para explorar el modelo, puede usar el Visor Bayes naive de Microsoft. El visor
muestra cmo se relacionan los atributos de entrada con el atributo de prediccin. El
visor tambin proporciona un perfil detallado de cada clster, una lista de los atributos
que distinguen cada clster de los dems, y las caractersticas del conjunto de datos
de entrenamiento completo. Para obtener ms informacin, vea Examinar un modelo
usando el visor Bayes naive de Microsoft.
Si desea conocer ms detalles, puede examinar el modelo en Visor de rbol de
contenido genrico de Microsoft (Minera de datos). Para obtener ms informacin
sobre el tipo de informacin almacenado en el modelo, vea Contenido del modelo de
minera de datos para los modelos Bayes naive (Analysis Services - Minera de datos).
Realizar predicciones
patrones que se puede explorar o utilizar para realizar predicciones.
Puede crear consultas para devolver las predicciones sobre cmo se relacionan los
nuevos datos con el atributo de prediccin, o puede recuperar estadsticas que
describan las correlaciones que ha hallado el modelo.
Para obtener informacin sobre cmo crear consultas en un modelo de minera de
datos, vea Consultas de minera de datos. Para obtener ejemplos de cmo usar las
consultas con un modelo Bayes naive, vea Ejemplos de consultas del modelo Bayes
naive.
Comentarios
Admite el uso del lenguaje de marcado de modelos de prediccin (PMML) para
crear modelos de minera de datos.
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del algoritmo
Bayes naive de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos Bayes naive
Pgina 26 de 37

5.7
ALGORITMO DE RED NEURONAL DE MICROSOFT
En SQL Server Analysis Services, el algoritmo de red neuronal de Microsoft combina
cada posible estado del atributo de entrada con cada posible estado del atributo de
prediccin,
y
usa
los
datos
de
entrenamiento
para
calcular
las
probabilidades. Posteriormente, puede usar estas probabilidades para la clasificacin
o la regresin, as como para predecir un resultado del atributo de prediccin
basndose en los atributos de entrada.
Los modelos de minera de datos construidos con el algoritmo de red neuronal de
Microsoft pueden contener varias redes, en funcin del nmero de columnas que se
utilizan para la entrada y la prediccin, o solo para la prediccin. El nmero de redes
que contiene un nico modelo de minera de datos depende del nmero de estados
que contienen las columnas de entrada y las columnas de prediccin que utiliza el
modelo.
Ejemplo
El algoritmo de red neuronal de Microsoft es til para analizar datos de entrada
complejos, como los datos de un proceso comercial o de produccin, o problemas
empresariales para los que hay una cantidad importante de datos de entrenamiento
disponibles pero en los que no es fcil derivar reglas mediante otros algoritmos.
Los casos sugeridos para utilizar el algoritmo de red neuronal de Microsoft son:
Anlisis de comercializacin y promocin, como medir el xito de una
promocin por correo directo o una campaa publicitaria en la radio.
Predecir los movimientos de las acciones, la fluctuacin de la moneda u otra
informacin financiera con gran nmero de cambios a partir de los datos
histricos.
Analizar los procesos industriales y de produccin.
Minera de texto.
Cualquier modelo de prediccin que analice relaciones complejas entre
muchas entradas y relativamente pocas salidas.
El algoritmo de red neuronal de Microsoft crea una red formada por hasta tres niveles
de neuronas. Estas capas son una capa de entrada, una capa oculta opcional y una
capa de salida.
Nivel de entrada: las neuronas de entrada definen todos los valores de atributos de
entrada para el modelo de minera de datos, as como sus probabilidades.
Nivel oculto: las neuronas ocultas reciben entradas de las neuronas de entrada y
proporcionan salidas a las neuronas de salida. El nivel oculto es donde se asignan
pesos a las distintas probabilidades de las entradas. Un peso describe la relevancia o
importancia de una entrada determinada para la neurona oculta. Cuanto mayor sea el
peso asignado a una entrada, ms importante ser el valor de dicha entrada. Los
pesos pueden ser negativos, lo que significa que la entrada puede desactivar, en lugar
de activar, un resultado concreto.
Nivel de salida: las neuronas de salida representan valores de atributo de prediccin
para el modelo de minera de datos.
Para obtener una explicacin detallada acerca de cmo se construyen y puntan los
niveles de entrada, los niveles de salida y los niveles ocultos, vea Referencia tcnica
del algoritmo de red neuronal de Microsoft.
Datos requeridos para los modelos de red neuronal
El modelo de red neuronal debe contener una columna de clave, una o ms columnas
de entrada y una o ms columnas de prediccin.
Los modelos de minera de datos que usan el algoritmo de red neuronal de Microsoft
estn muy influenciados por los valores que se especifican en los parmetros
disponibles para el algoritmo. Los parmetros definen cmo se muestrean los datos,
cmo se distribuyen o cmo se espera que estn distribuidos en cada columna, y
Pgina 27 de 37

cundo se invoca la seleccin de caractersticas para limitar los valores usados en el
modelo final.
Para obtener ms informacin sobre cmo establecer parmetros para personalizar el
comportamiento del modelo, vea Referencia tcnica del algoritmo de red neuronal de
Microsoft.
Ver un modelo de red neuronal
Para trabajar con los datos y ver cmo el modelo pone en correlacin las entradas y
salidas, puede usar el Visor de redes neuronales de Microsoft. Con este visor
personalizado, puede filtrar los atributos de entrada y sus valores, y ver grficamente
cmo afectan a las salidas. La informacin sobre herramientas del visor muestra la
probabilidad y la mejora respecto al modelo predictivo asociados a cada par de valores
de entrada y de salida. Para obtener ms informacin, vea Examinar un modelo
usando el Visor de redes neuronales de Microsoft.
La manera ms fcil de explorar la estructura del modelo consiste en usar el Visor de
rbol de contenido genrico de Microsoft. Este visor le permitir ver las entradas,
las salidas y las redes creadas por el modelo, as como hacer clic en cualquier nodo
para expandirlo y ver las estadsticas relacionadas con los niveles de entrada, los
niveles de salida y los niveles ocultos de los nodos. Para obtener ms informacin,
vea Examinar un modelo usando el Visor de rbol de contenido genrico de Microsoft.
Crear predicciones
Una vez procesado el modelo, puede usar la red y los pesos almacenados dentro de
cada nodo para realizar predicciones. Un modelo de red neuronal admite el anlisis de
regresin, de asociacin y de clasificacin. Por lo tanto, el significado de cada
prediccin puede ser diferente. Tambin puede consultar el propio modelo, revisar las
correlaciones encontradas y recuperar las estadsticas relacionadas. Para obtener
ejemplos de cmo crear consultas en un modelo de red neuronal, vea Ejemplos de
consultas de modelos de red neuronal.
Para obtener informacin general sobre cmo crear una consulta en un modelo de
Comentarios
No admite la obtencin de detalles ni las dimensiones de minera de
datos. Esto se debe a que la estructura de los nodos del modelo de minera de
datos no tiene por qu corresponder directamente a los datos subyacentes.
No admite la creacin de modelos en el formato PMML (Lenguaje de marcado
de modelos de prediccin).
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del

algoritmo de red neuronal de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de red
neuronal (Analysis Services - Minera de datos)
5.8
ALGORITMO DE CLSTERES DE SECUENCIA DE MICROSOFT
El algoritmo de clsteres de secuencia de Microsoft es un algoritmo de anlisis de
flujos que proporciona Microsoft SQL Server Analysis Services. Puede utilizar este
algoritmo para explorar los datos que contienen eventos que pueden vincularse
mediante rutas o secuencias. El algoritmo encuentra las secuencias ms comunes
mediante la agrupacin, o agrupacin en clsteres, de las secuencias que son
idnticas. A continuacin se incluyen algunos ejemplos de datos que contienen
Pgina 28 de 37

secuencias que se podran utilizar para la minera de datos, para ofrecer una visin
general de problemas comunes o escenarios empresariales:
Rutas de clics que se crean cuando los usuarios navegan o examinan un sitio
web.
Registros que enumeran eventos que preceden a un incidente, como un disco
duro errneo o interbloqueos del servidor.
Registros de transacciones que describen el orden en el que un cliente agrega
elementos a una cesta de la compra de un comerciante en lnea.
Registros que siguen las interacciones del cliente (o paciente) a lo largo del
tiempo, para predecir cancelaciones del servicio u otros malos resultados.
Este algoritmo es similar en muchas maneras al algoritmo de clsteres de
Microsoft. Sin embargo, en lugar de encontrar clsteres de casos que contienen
atributos similares, el algoritmo de clsteres de secuencia de Microsoft encuentra
clsteres de casos que contienen rutas similares en una secuencia.
Ejemplo
El sitio web de Adventure Works Cycles recopila informacin sobre las pginas que
visitan los usuarios y sobre el orden en que las visitan. Debido a que la empresa
ofrece un sistema de pedidos en lnea, los clientes deben registrarse en el sitio. Esto
permite que la empresa pueda conseguir informacin de clics por cada perfil de
cliente. Mediante el uso del algoritmo de clsteres de secuencia de Microsoft en estos
datos, la empresa puede encontrar grupos, o clsteres, de los clientes que tienen
patrones o secuencias de clics similares. La empresa puede usar estos clsteres para
analizar la forma en que los clientes se mueven por el sitio web, identificar qu pginas
se relacionan ms estrechamente con la venta de un producto en particular y predecir
las pginas que tienen mayores probabilidades de ser visitadas a continuacin.
El algoritmo de clsteres de secuencia de Microsoft es un algoritmo hbrido que
combina tcnicas de agrupacin en clsteres con el anlisis de cadenas de Markov
para identificar los clsteres y sus secuencias. Una de las marcas distintivas del
algoritmo de clsteres de secuencia de Microsoft es que utiliza los datos de las
secuencias. Estos datos suelen representar una serie de eventos o transiciones entre
los estados de un conjunto de datos, como una serie de compras de productos o los
clics en web para un usuario determinado. El algoritmo examina todas las
probabilidades de transicin y mide las diferencias, o las distancias, entre todas las
posibles secuencias del conjunto de datos con el fin de determinar qu secuencias es
mejor utilizar como entradas para la agrupacin en clsteres. Despus de que el
algoritmo ha creado la lista de secuencias candidatas, usa la informacin de las
secuencias como entrada para el mtodo EM de agrupacin en clsteres.
Para obtener una descripcin detallada de la implementacin, vea Referencia tcnica
del algoritmo de clsteres de secuencia de Microsoft.
Datos requeridos para los modelos de clsteres de secuencias
Al preparar los datos para usarlos en el entrenamiento de un modelo de agrupacin en
clsteres de secuencia, conviene comprender qu requisitos son imprescindibles para
el algoritmo concreto, incluidos el volumen de datos necesario y la forma en que se
usan los datos.
Los requisitos de un modelo de agrupacin en clsteres de secuencia son los
siguientes:
Pgina 29 de 37
Una columna de una sola key Un modelo de agrupacin en clsteres de

secuencia requiere una clave que identifique los registros.
Una columna de secuencia: para los datos de la secuencia, el modelo debe
tener una tabla anidada que contenga una columna de identificador de
secuencia. El identificador de secuencia puede ser cualquier tipo de datos
ordenable. Por ejemplo, puede usar el identificador de una pgina web, un
nmero entero o una cadena de texto, con tal de que la columna identifique los
eventos en una secuencia. Solo se admite un identificador de secuencia por
cada secuencia y un tipo de secuencia en cada modelo.
Atributos opcionales no relacionados con la secuencia: el algoritmo admite
la incorporacin de otros atributos que no tengan que ver con las
secuencias. Estos atributos pueden incluir las columnas anidadas.
Como muestra, en el ejemplo citado anteriormente del sitio web de Adventure Works
Cycles, un modelo de agrupacin en clsteres de secuencia podra incluir informacin
de los pedidos como tabla de casos, datos demogrficos sobre el cliente concreto de
cada pedido como atributos no relacionados con la secuencia y una tabla anidada que
contenga la secuencia que sigui el cliente al examinar el sitio o colocar los artculos
en el carro de la compra como informacin de la secuencia.
datos que se admiten en los modelos de agrupacin en clsteres de secuencia, vea la
seccin Requisitos de Referencia tcnica del algoritmo de clsteres de secuencia de
Microsoft.
Ver un modelo de agrupacin en clsteres de secuencia
El modelo de minera de datos que crea este algoritmo contiene descripciones de las
secuencias ms comunes en los datos. Para explorar el modelo, puede usar el Visor
de clsteres de secuencia de Microsoft. Cuando se ve un modelo de agrupacin en
clsteres de secuencia, Analysis Services muestra los clsteres que contienen varias
transiciones. Tambin pueden verse las estadsticas pertinentes. Para obtener ms
informacin, vea Examinar un modelo usando el Visor de clsteres de secuencia de
Microsoft.
Si desea obtener ms detalles, puede examinar el modelo en el Visor de rbol de
contenido genrico de Microsoft. El contenido almacenado para el modelo incluye la
distribucin para todos los valores de cada nodo, la probabilidad de cada clster y
detalles acerca de las transiciones. Para obtener ms informacin, vea Contenido del
modelo de minera de datos para los modelos de agrupacin en clsteres de
secuencia(Analysis Services - Minera de datos).
Crear predicciones
patrones. Puede usar las descripciones de las secuencias ms comunes en los datos
para predecir el siguiente paso probable de una nueva secuencia. Sin embargo, dado
que el algoritmo incluye otras columnas, puede usar el modelo resultante para
identificar las relaciones entre los datos de las secuencias y las entradas que no son
secuenciales. Por ejemplo, si agrega datos demogrficos al modelo, puede realizar
predicciones para grupos concretos de clientes. Las consultas de prediccin se
pueden personalizar para que devuelvan un nmero variable de predicciones o
estadsticas descriptivas.
Para obtener informacin sobre cmo crear consultas en un modelo de minera de
datos, vea Consultas de minera de datos. Para obtener ejemplos de cmo usar
Pgina 30 de 37

consultas con un modelo de agrupacin en clsteres de secuencia, vea Ejemplos de
consultas de modelos de clsteres de secuencia.
Comentarios
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del algoritmo de
clsteres de secuencia de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de agrupacin en
clsteres de secuencia (Analysis Services - Minera de datos)
5.8
ALGORITMO DE SERIE TEMPORAL DE MICROSOFT
El algoritmo de serie temporal de Microsoft proporciona los algoritmos de regresin
que se optimizan para la previsin en el tiempo de valores continuos tales como las
ventas de productos. Mientras que otros algoritmos de Microsoft, como por ejemplo los
rboles de decisin, requieren columnas adicionales de nueva informacin como
entrada para predecir una tendencia, los modelos de serie temporal no las
necesitan. Un modelo de serie temporal puede predecir tendencias basadas
nicamente en el conjunto de datos original utilizado para crear el modelo. Es posible
tambin agregar nuevos datos al modelo al realizar una prediccin e incorporar
automticamente los nuevos datos en el anlisis de tendencias.
El siguiente diagrama muestra un modelo tpico de previsin en el tiempo de las
ventas de un producto en cuatro regiones de ventas diferentes. El modelo presentado
en el diagrama de ventas muestra las ventas de cada regin como lneas de color rojo,
amarillo, prpura y azul. La lnea de cada regin consta de dos partes:
La informacin histrica aparece a la izquierda de la lnea vertical y representa
los datos que el algoritmo utiliza para crear el modelo.
La informacin de la prediccin aparece a la derecha de la lnea vertical y
representa la previsin realizada por el modelo.
A la combinacin de los datos de origen y los datos de la prediccin se le
denomina serie.
Una caracterstica importante del algoritmo de serie temporal de Microsoft es su

capacidad para llevar a cabo predicciones cruzadas. Si entrena el algoritmo con dos
series independientes, pero relacionadas, puede utilizar el modelo generado para
predecir el resultado de una serie basndose en el comportamiento de la otra. Por
ejemplo, las ventas observadas de un producto pueden influir en las ventas previstas
de otro producto. La prediccin cruzada tambin es til para crear un modelo general
Pgina 31 de 37

que se puede aplicar a mltiples series. Por ejemplo, las predicciones para una regin
determinada son inestables debido a que la serie no dispone de datos de buena
calidad. Podra entrenar un modelo general sobre la media de las cuatro regiones y, a
continuacin, aplicar el modelo a las series individuales para crear predicciones ms
estables para cada regin.
Ejemplo
El equipo de administracin de Adventure Works Cycles desea predecir las ventas
mensuales de bicicletas para el prximo ao. La compaa est especialmente
interesada en saber si las ventas de un determinado modelo de bicicleta se pueden
utilizar para predecir las ventas de otro modelo. Al utilizar el algoritmo de serie
temporal de Microsoft en los datos histricos de los ltimos tres aos, la empresa
puede crear un modelo de minera de datos que prevea la venta futura de
bicicletas. Adems, la organizacin puede llevar a cabo predicciones cruzadas para
ver si las tendencias de venta de modelos individuales de bicicleta estn relacionadas.
Cada trimestre, la compaa tiene previsto actualizar el modelo con datos recientes de
ventas y actualizar sus predicciones a las tendencias recientes del modelo. Para suplir
los datos de los almacenes que no actualizan los datos de ventas de forma precisa o
regular, crearn un modelo de prediccin general que utilizarn para crear
predicciones para todas las regiones.
En SQL Server 2005, el algoritmo de serie temporal de Microsoft utilizaba un nico
algoritmo, ARTXP. El algoritmo ARTXP se optimiz para predicciones a corto plazo y,
por consiguiente, predeca el siguiente valor probable en una serie. A partir de SQL
Server 2008, el algoritmo de serie temporal de Microsoft utiliza, adems del algoritmo
ARTXP, un segundo algoritmo, ARIMA. El algoritmo ARIMA est optimizado para la
prediccin a largo plazo. Para obtener una explicacin detallada sobre la
implementacin de los algoritmos ARIMA y ARTXP, vea Referencia tcnica del
algoritmo de serie temporal de Microsoft.
De forma predeterminada, el algoritmo de serie temporal de Microsoft utiliza una
mezcla de los dos algoritmos al analizar patrones y realizar predicciones. El algoritmo
entrena dos modelos independientes sobre los mismos datos: uno de los modelos
utiliza el algoritmo ARTXP y el otro modelo utiliza el algoritmo ARIMA. A continuacin,
el algoritmo combina los resultados de los dos modelos para obtener la mejor
prediccin sobre un nmero variable de intervalos de tiempo. Dado que ARTXP
obtiene mejores resultados en las predicciones a corto plazo, se le da mayor
importancia al principio de una serie de predicciones. Sin embargo, a medida que los
intervalos de tiempo que se estn prediciendo se adentran en el futuro, se va dando
ms importancia a ARIMA.
Es posible tambin controlar la mezcla de algoritmos para favorecer la prediccin a
corto o a largo plazo en las series temporales. A partir de SQL Server 2008 Standard
Edition, es posible especificar que el algoritmo de serie temporal de Microsoft use uno
de los valores siguientes:
Utilizar solo ARTXP para la prediccin a corto plazo.
Utilizar solo ARIMA para la prediccin a largo plazo.
Utilizar la mezcla predeterminada de los dos algoritmos.
A partir de SQL Server 2008 Enterprise, es posible personalizar la manera en que el
algoritmo de serie temporal de Microsoft combina los modelos para la prediccin. Al
utilizar un modelo mixto, el algoritmo de serie temporal de Microsoft combina los dos
algoritmos de la manera siguiente:
Pgina 32 de 37
Solo ARTXP se utiliza siempre para realizar el primer par de predicciones.

Tras el primer par de predicciones, se utiliza una combinacin de ARIMA y
ARTXP.
A medida que el nmero de pasos de la prediccin aumenta, las predicciones
se basan en mayor medida en ARIMA hasta que llega un momento en que
ARTXP deja de utilizarse.
Es posible controlar el punto de combinacin, esto es, el ritmo al que la
ponderacin de ARTXP disminuye y la ponderacin de ARIMA aumenta,
mediante el parmetro PREDICTION_SMOOTHING.
Ambos algoritmos pueden detectar estacionalidad en los datos en varios niveles. Por
ejemplo, sus datos podran contener ciclos mensuales anidados en ciclos
anuales. Para detectar estos ciclos estacionales, es posible proporcionar una
sugerencia de periodicidad o bien especificar que el algoritmo deber detectar
automticamente la periodicidad.
Adems de la periodicidad, hay otros parmetros que controlan el comportamiento del
algoritmo de serie temporal de Microsoft cuando ste detecta la periodicidad, realiza
predicciones o analiza casos. Para obtener ms informacin acerca de cmo
establecer los parmetros de los algoritmos, vea Referencia tcnica del algoritmo de
serie temporal de Microsoft.
Datos requeridos para los modelos de serie temporal
Al preparar los datos para el entrenamiento de cualquier modelo de minera de datos,
es preciso comprender los requisitos del modelo en particular as como la forma en
que se utilizan los datos.
Cada modelo de previsin debe contener una serie de casos, que es la columna que
especifica los intervalos de tiempo u otras series sobre las que se produce el
cambio. Por ejemplo, los datos del anterior diagrama muestran las series
correspondientes al historial y a la previsin de ventas de bicicletas para un perodo de
varios meses. Para este modelo, cada regin es una serie y la columna de fecha
contiene la serie temporal, que tambin es la serie de casos. En otros modelos, la
serie de escenarios puede ser un campo de texto o algn identificador tal como un id.
de cliente o de transaccin. Sin embargo, un modelo de serie temporal debe siempre
utilizar una fecha, una hora o algn otro valor numrico nico para su serie de
escenarios.
Los requisitos para un modelo de serie temporal son los siguientes:
Una nica columna Key Time Cada modelo debe contener una columna
numrica o de fecha que se utilizar como serie de casos y que define los
intervalos de tiempo que utilizar el modelo. El tipo de datos para la columna
de clave temporal puede ser un tipo de datos datetime o bien numrico. Sin
embargo, la columna debe contener valores continuos y stos deben ser
nicos para cada serie. La serie de casos para un modelo de serie temporal no
pueden estar almacenada en dos columnas como por ejemplo una columna
Ao y una columna Mes.
Una columna predecible Cada modelo debe contener por lo menos una
columna predecible alrededor de la que el algoritmo generar el modelo de
serie temporal. El tipo de datos de la columna predecible debe contener valores
continuos. Por ejemplo, es posible predecir la manera en que los atributos
numricos tales como ingreso, ventas o temperatura, varan con el tiempo. Sin
embargo, no es posible utilizar como columna predecible una columna que
Pgina 33 de 37
contenga valores discretos tales como el estado de las compras o el nivel de

educacin.
Una columna de clave de serie opcionalCada modelo puede tener una
columna de clave adicional que contenga valores nicos que identifiquen a una
serie. La columna de clave de serie opcional debe contener valores nicos. Por
ejemplo, un solo modelo puede contener ventas de muchos modelos de
producto, siempre y cuando haya un solo registro para cada nombre del
producto para cada intervalo de tiempo.
Puede definir los datos de entrada para el modelo de serie temporal de Microsoft de
dos formas. Sin embargo, puesto el formato de los escenarios de entrada afecta a la
definicin del modelo de minera, debe considerar sus necesidades de negocio y
preparar sus datos en consecuencia. Los dos ejemplos siguientes muestran cmo los
datos de entrada afectan al modelo. En ambos ejemplos, el modelo de minera
completado contiene patrones de cuatro series distintas:
Ventas para el producto A
Ventas para el producto B
Volumen para el producto A
Volumen para el producto B
En ambos ejemplos, puede predecir nuevas ventas futuras y volmenes para cada
producto. No puede predecir nuevos valores para el producto o para el tiempo.
Ejemplo 1: Conjunto de datos de serie temporal con serie representada como
valores de columna
En este ejemplo se utiliza la siguiente tabla de escenarios de entrada:
TimeID
Product
Sales
Volume
1/2001
1000
600
2/2001
1100
500
1/2001
500
900
2/2001
300
890
La columna TimeID de la tabla contiene un identificador de tiempo e incluye dos

entradas para cada da. La columna TimeID se convierte en la serie de casos. Por
consiguiente, esta columna se designara como la columna de clave temporal para el
modelo de serie temporal.
La columna Product define un producto de la base de datos. Esta columna contiene la
serie del producto. Por consiguiente, esta columna se designara como una segunda
clave para el modelo de serie temporal.
La columna Sales describe los beneficios brutos del producto especificado para un da
y la columna Volume describe la cantidad del producto especificado que permanece
en el almacn. Estas dos columnas contienen los datos que se utilizan para entrenar el
modelo. Ambos atributos Sales y Volume pueden ser atributos de prediccin para cada
serie de la columna Product.
Pgina 34 de 37

Ejemplo 2: Conjunto de datos de serie temporal con cada serie en una columna
independiente
Aunque en este ejemplo se utilizan bsicamente los mismos datos de entrada que en
el primer ejemplo, estos se estructuran de manera diferente, como se muestra en la
siguiente tabla:
TimeID
A_Sales
A_Volume
B_Sales
B_Volume
1/2001
1000
600
500
900
2/2001
1100
500
300
890
En esta tabla, la columna TimeID contiene todava la serie de casos para el modelo de
la serie temporal que fue designada como la columna de clave temporal. Sin embargo,
las antiguas columnas Sales y Volume estn ahora divididas en dos columnas, cada
una de las cuales va precedida por el nombre del producto. Como resultado, solo
existe una nica entrada para cada da en la columna TimeID. Se crea as un modelo
de serie temporal que contendra cuatro columnas predecibles: A_Sales, A_Volume,
B_Sales y B_Volume.
Adems, puesto que los productos se han distribuido en columnas diferentes, no es
preciso especificar una columna de clave de serie adicional. Todas las columnas del
modelo son o una columna de serie de casos o bien una columna predecible.
Visualizacin de un modelo de serie temporal
Una vez entrenado el modelo, los resultados se encuentran almacenados como un
conjunto de modelos, que puede explorar o utilizar para realizar predicciones.
Para explorar el modelo, puede utilizar el Visor de series temporales. El visor incluye
un grfico que muestra las predicciones futuras y una vista de rbol de las estructuras
peridicas en los datos.
Si desea ms informacin sobre cmo se calculan las predicciones, puede examinar el
modelo en el Visor de rbol de contenido genrico de Microsoft. El contenido
almacenado para el modelo contiene detalles tales como las estructuras peridicas
detectadas por los algoritmos ARTXP y ARIMA, la ecuacin utilizada para mezclar los
algoritmos y otras estadsticas.
Creacin de predicciones de serie temporal
De forma predeterminada, al visualizar un modelo del serie temporal, Analysis
Services le muestra cinco predicciones para la serie. Sin embargo, puede crear
consultas para obtener un nmero variable de predicciones, y puede agregar
columnas adicionales a las predicciones para obtener estadsticas descriptivas. Para
obtener informacin sobre cmo crear consultas en un modelo de serie temporal,
vea Ejemplos de consultas de modelos de serie temporal. Para obtener ejemplos de
cmo utilizar Extensiones de Minera de Datos (DMX) para realizar predicciones de
serie temporal, vea PredictTimeSeries (DMX).
Al utilizar el algoritmo de serie temporal de Microsoft para hacer predicciones,
deberan considerarse los siguientes requisitos y restricciones adicionales:
La prediccin del cruce solo est disponible al utilizar un modelo mixto, o bien
un modelo basado en el algoritmo ARTXP. Si se utiliza un modelo basado
nicamente en el algoritmo ARIMA, la prediccin cruzada no es posible.
Pgina 35 de 37
Un modelo del serie temporal puede realizar predicciones dispares, a veces

considerablemente, dependiendo del sistema operativo de 64 bits que el
servidor utiliza.Estas diferencias se producen debido a la desigualdad existente
entre la manera en que el sistema basado en Itanium representa y administra
los valores numricos en la aritmtica de coma flotante, que difiere de la
manera en que lo hace el sistema basado en x64. Dado que los resultados de
prediccin pueden ser especficos del sistema operativo, recomendamos que
evale los modelos sobre el mismo sistema operativo que utilizar en
produccin.
Comentarios
Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del algoritmo de
serie temporal de Microsoft
MSDN: Contenido del modelo de minera de datos para los modelos de serie temporal
ENLACES RECOMENDADOS
Tutorial
de
Minera
de
Datos:
es/library/ms167167.aspx
Crear
modelos
multidimensionales:
es/library/ms174597.aspx
Pgina 36 de 37
http://msdn.microsoft.com/eshttp://msdn.microsoft.com/es-

CARACTERSTICAS CLAVE DE LA MINERA DE DATOS
SQL Server proporciona las siguientes caractersticas para las soluciones integradas
de minera de datos:
Varios orgenes de datos: no es necesario crear un almacenamiento de datos o
un cubo OLAP para realizar la minera de datos. Puede usar datos tabulares de
proveedores externos, hojas de clculo e incluso archivos de texto. Tambin puede
realizar fcilmente la minera de los cubos OLAP creados en Analysis Services. Sin
embargo, no puede usar datos de una base de datos en memoria.
Limpieza de los datos integrados, administracin de datos y ETL: Data Quality
Services proporcionan herramientas avanzadas para la generacin de perfiles y la
limpieza de datos. Se puede usar Integration Services para generar procesos ETL
de limpieza de datos, y tambin para tareas de creacin, procesamiento,
entrenamiento y actualizacin de modelos.
Varios algoritmos personalizables: adems de proporcionar algoritmos como la
agrupacin en clsteres, las redes neuronales y los rboles de decisin, la
plataforma le permite desarrollar sus propios complementos con algoritmos
personalizados.
Infraestructura de prueba del modelo: pruebe los modelos y los conjuntos de datos
usando herramientas estadsticas tan importantes como la validacin cruzada, las
matrices de clasificacin, los grficos de mejora respecto al modelo predictivo y los
grficos de dispersin. Cree y administre fcilmente conjuntos de prueba y
entrenamiento.
Consultas y obtencin de detalles: cree consultas de prediccin, recupere patrones
y estadsticas de modelos, y obtenga informacin detallada de los datos de los
casos.
Herramientas de cliente: adems de los estudios de desarrollo y diseo
proporcionados por SQL Server, puede usar los Complementos de minera de
datos para Excel para crear, consultar y examinar los modelos. O bien crear
clientes personalizados, incluidos servicios web.
Compatibilidad con el lenguaje de scripting y API administrada: todos los objetos
de minera de datos son completamente programables. El scripting es posible
mediante MDX, XMLA o las extensiones de PowerShell para Analysis Services.
Use el lenguaje DMX (Extensiones de minera de datos) para crear rpidamente
consultas y scripts.
Seguridad e implementacin: proporciona seguridad basada en roles a travs de
Analysis Services, incluyendo permisos distintos para la obtencin de detalles del
modelo y los datos de la estructura. Fcil implementacin de modelos en otros
servidores, de forma que los usuarios puedan tener acceso a los patrones o
realizar predicciones.
Pgina 37 de 37

UC4

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

UC4

Uploaded by

Copyright:

Available Formats

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Qu est buscando? Qu tipos de relaciones intenta buscar?

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos;

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Antes de implementar un modelo en un entorno de produccin, es aconsejable probar

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Una vez que los modelos de minera de datos se encuentran en el entorno de

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

un producto. Para obtener ms informacin, vea en el MSDN Typical Uses of

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Algoritmos de clasificacin, que predicen una o ms variables discretas,

Predecir un atributo continuo

Predecir una secuencia

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Si desea obtener ms detalles sobre cualquiera de los conjuntos de elementos y

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

El algoritmo de clsteres se diferencia de otros algoritmos de minera de datos, como

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

La correlacin que aparece en el diagrama har que el algoritmo de rboles de

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Datos requeridos para los modelos de rboles de decisin

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Para buscar referencia tcnica en el MSDN digite: Referencia tcnica del

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Una columna de una sola key Un modelo de agrupacin en clsteres de

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Una caracterstica importante del algoritmo de serie temporal de Microsoft es su

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Solo ARTXP se utiliza siempre para realizar el primer par de predicciones.

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

contenga valores discretos tales como el estado de las compras o el nivel de

La columna TimeID de la tabla contiene un identificador de tiempo e incluye dos

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

Un modelo del serie temporal puede realizar predicciones dispares, a veces

MINERA DE DATOS EN SQL SERVER ANALYSIS SERVICES (SSAS)

You might also like