You are on page 1of 21

TENDENCIAS Y CARACTERSTICAS DE LOS VIAJEROS QUE VISITAN LA

CIUDAD DE BUCARAMANGA. UNA SOLUCIN DE INTELIGENCIA DE


NEGOCIOS BASADA EN MINERA DE DATOS.

JORGE LUIS PARRA DAZ


EDWAR ANDRES SOLANO HERRERA

UNIVERSIDAD SANTO TOMS


DIVISIN DE INGENIERIAS Y ARQUITECTURA
FACULTAD DE INGENIERIA INDUSTRIAL
BUCARAMANGA
2016

TENDENCIAS Y CARACTERSTICAS DE LOS VIAJEROS QUE VISITAN LA


CIUDAD DE BUCARAMANGA. UNA SOLUCIN DE INTELIGENCIA DE
NEGOCIOS BASADA EN MINERA DE DATOS.

JORGE LUIS PARRA DAZ


EDWAR ANDRES SOLANO HERRERA

Inteligencia de negocios

Javier Hernndez Cceres

UNIVERSIDAD SANTO TOMAS


DIVISIN DE INGENIERIAS Y ARQUITECTURA
FACULTAD DE INGENIERIA INDUSTRIAL
BUCARAMANGA
2016

Contenido
1.

PLANTEAMIENTO DEL PROBLEMA................................................................4


1.2. JUSTIFICACIN.............................................................................................4

2.

OBJETIVOS........................................................................................................5
2.1 Objetivo General:...........................................................................................5
2.2

3.

Objetivos Especficos:...............................................................................5

MARCO TERICO.............................................................................................6
3.1. TOMA DE DESICIONES.................................................................................6
3.1.

4.

MINERIA DE DATOS...................................................................................7

3.1.1.

Agrupamiento ("Clustering")..............................................................7

3.1.2.

Reconocimiento de Patrones ("Pattern Matching").........................8

3.1.3.

Mtodos Estadsticos..........................................................................8

3.1.4.

Mtodos Basados en Arboles de Decisin.......................................9

3.1.5.

Reglas de Asociacin..........................................................................9

ESTADO DEL ARTE.........................................................................................10

Bibliografa...............................................................................................................13

1 PLANTEAMIENTO DEL PROBLEMA


En el turismo el tema de las fuentes de informacin para la inteligencia
empresarial se toma diferente a otros sectores donde existe hace mucho tiempo la
ciencia establecida y solidas fuentes de informacin de todo tipo. (Orozco, 2000)
Los avances tecnolgicos y de la sociedad del conocimiento requieren de los
administradores de empresas respuestas rpidas para insertar en las empresas de
los diferentes sectores la tecnologa y procurar de esta forma la mejora de los
procesos de negocios en los que el cliente juega un papel muy importante.
(Novoa, 2013)
Cmo mejora la inteligencia empresarial turstica, en cuanto a la toma de
decisiones, al fortalecerla con informacin de bases de datos bien explotadas en
cuanto el comportamiento de los turistas?

1.2. JUSTIFICACIN
Hoy en da es normal que las empresas de turismo cuenten con herramientas de
registro de usuarios, estas herramientas no slo se encargan del ingreso y salida
de los usuarios, tambin pueden llevar una estadstica de consumo, las cosas que
realizan, los atractivos que se visitan con mayor frecuencia entre otras muchas. El
problema radica en que es inservible recolectar unos datos importantes para la
organizacin si no se hace nada con ellos. Es por eso que la finalidad del presente
trabajo ser realizar un estudio de minera de datos, donde los datos a analizar
son los recolectados por algunos de los sectores tursticos de Bucaramanga
(hoteles, sitios tursticos, etc.) y a partir de esto poder establecer si existen
patrones de consumo y/o comportamiento con el fin de aprovecharlos.

Los resultados de esta investigacin podran ser supremamente tiles para


medianas y grandes empresas del sector turstico en la ciudad de Bucaramanga
(Santander). Si los resultados son exitosos, es decir, si se identifican patrones de
consumo y/o comportamiento, ser un gran apoyo al sector a la hora de tomar
decisiones.
Se puede resaltar que los beneficiarios finales no solo son las empresas de
turismo de Bucaramanga (Santander), tambin se est beneficiando toda la
ciudad, como el departamento entero al ser potencia en turismo, generando
empleo para la mayora de los sectores.

2 OBJETIVOS

2.1 Objetivo General:


Analizar bases de datos del sector turstico de Bucaramanga
(Santander) por medio de la minera de datos con el fin de extraer
principales tendencias y caractersticas de los turistas que visitan la
ciudad.
2.2 Objetivos Especficos:
Recolectar la mayor cantidad de datos sobre los visitantes que tiene
la ciudad de Bucaramanga es hoteles y sitios tursticos.
Aplicacin del software (WEKA, SPSS) con el fin de conocer y
asociar los datos en pro del sector.
Realizar un informe con los resultados encontrados.

3 MARCO TERICO

3.1. TOMA DE DESICIONES

La palabra decisiones viene del Latin deciso, -onis, significa determinacin,


resolucin que se toma o se da en una cosa dudosa.
Tomar decisiones es una actividad cotidiana; todos los das decidimos sobre
diversos asuntos y temas: el vestido, la comida, los objetos y, por supuesto, sobre
nuestras ideas y proyectos. En todos estos casos, el objetivo es valorar las
condiciones, para tomar la decisin ms acertada. Y resaltamos la expresin en
todos los casos, puesto que las decisiones adecuadas en un contexto especfico
podran no serlo en otro. Con esto queremos indicar que las decisiones son
contextuales, dependen de las situaciones, las circunstancias, las metas, los
propsitos y los resultados esperados. Por ello, como dice Marina es importante, y
necesario, hacer notar que La valenta, la decisin, el nimo forman parte de la
inteligencia humana (Marina, 2005), son la base de la toma de decisiones.
De acuerdo con diversas investigaciones y enfoques tericos, la toma de
decisiones puede definirse como: Un proceso amplio que puede incluir tanto la
evaluacin de las alternativas, el juicio, como la eleccin de una de ellas ()
(Artieta Pinedo, 1998).En otras palabras, la toma de decisiones hace referencia a
la capacidad cognitiva para elegir; lo que involucra: anlisis, categorizacin, juicios
probabilsticos, construccin de alternativas y decisin.
As, la toma de decisiones es un proceso intencional que combina el anlisis de la
informacin, la confrontacin de alternativas, la valoracin de las opciones y,
finalmente, la toma de la decisin. Se trata de formarse en el uso de mtodos
sistemticos, es decir, estructurados y coherentes con el campo disciplinar, tcnico
o acadmico de la decisin; elegir entre las posibilidades, previamente
identificadas, la mejor forma de proceder valorando las implicaciones y

consecuencias de tal forma que se revele el nivel de compromiso con ella. Un


mtodo sistemtico se funda en datos, en recabar informacin de calidad,
verificarla y contrastarla con otras del campo de produccin especfico y de otros.
Se trata de redescubrir, de acuerdo con la experiencia y la prctica opciones y
caminos ms consistentes con el tipo de decisin a tomar.
Favorecer, durante la formacin, la toma de decisiones comporta necesariamente
entender los nuevos escenarios que se presentan y reconocer su complejidad, que
no son necesariamente decisiones cotidianas, por el contrario requieren en
muchos casos colaboracin de otros (personas y disciplinas ajenas a la propia) y
altos niveles de compromiso, adems de juicios ms estructurados.
Esta competencia no puede estar al margen de otras fundamentales como juicio
analtico y crtico, sentido tico, resolucin de problemas y trabajo en equipo.
(Marta Lorena Salinas Salazar, 2011)
3.1.

MINERIA DE DATOS

Hace tan solo unos aos los datos de las empresas estaban orientados
principalmente, a alimentar sus sistemas contables y financieros as como
inventarios, los procesos de produccin, recursos humanos y ventas.
En la medida que los negocios mundiales se han hecho ms competitivos, los
datos cada vez cobran ms vida y se han convertido en informacin vital y
estratgica para la toma de decisiones. En tal sentido, las empresas han venido
evolucionando y han querido agregarle valor a la gran cantidad de informacin que
tienen almacenada en sus bases de datos. Para ello, se han interesado en
automatizar los procesos y poder as descubrir informacin valiosa, que de otra
manera seguira siendo subutilizada o simplemente desperdiciada.
Con la gran velocidad a la cual ha venido evolucionando la tecnologa, las
empresas de hoy disponen de herramientas de software y hardware cada vez ms

sofisticadas que posibilitan el almacenamiento de grandes cantidades de


informacin y el anlisis de la misma. El avance tecnolgico, sumado a la
aparicin de mercados cada vez ms competidos, sugiere a las empresas el
mejoramiento continuo de sus esquemas de administracin y toma de decisiones,
explotando una de las ms grandes fuentes de competitividad como lo es la
informacin.
Existen diferentes tcnicas que posibilitan la explotacin de los datos, extrayendo
informacin que no es detectada a simple vista. Una de estas tcnicas es la
denominada Minera de Datos, la cual combina tcnicas semiautomticas de
inteligencia artificial, anlisis estadstico, bases de datos y visualizacin grfica,
para la obtencin de informacin que no est representada explcitamente en los
datos.
La

Minera

de

Datos

descubre

relaciones,

tendencias,

desviaciones,

comportamientos atpicos, patrones y trayectorias ocultas, con el propsito de


soportar los procesos de toma de decisiones con mayor conocimiento. La Minera
de Datos se puede ubicar en el nivel ms alto de la evolucin de los procesos
tecnolgicos de anlisis de datos.
La Minera de Datos (Data Mining) debe su nombre a. la analoga entre una
montaa y la gran cantidad de datos almacenados en cualquier empresa. Dentro
de la montaa, ocultos entre piedras y tierra, se encuentran diamantes de gran
valor que mediante actividades de minera son encontrados y aprovechados.
(Martnez, 2016)

3.1.1. Agrupamiento ("Clustering")


Este tipo de herramientas establece las posibles relaciones o correlaciones entre
distintas acciones o sucesos aparentemente independientes, pudiendo reconocer

como la ocurrencia de un suceso o accin puede inducir o generar la aparicin de


otros. . .
Normalmente este tipo de herramientas se fundamenta en tcnicas estadsticas
como los anlisis de correlacin y de variacin. (Martnez, 2016)

3.1.2. Reconocimiento de Patrones ("Pattern Matching")


Estas herramientas permiten la asociacin de una sealo informacin de entrada
con aquella o aquellas con las que guarda mayor similitud y que estn catalogadas
en el sistema.
Estas herramientas son usadas por elementos que son tan habituales como un
procesador de texto o un despertador. Los patrones pueden ser cualquier
elemento de informacin que deseemos.
En el mbito particular del DM estas herramientas pueden ayudamos en la
identificacin de problemas e incidencias y de sus posibles soluciones toda vez
que dispongamos de la base de informacin necesaria en la cual buscar.
Estas herramientas se sustentan en las tcnicas de Redes Neuronales y
Algoritmos Matemticos. (Martnez, 2016)

3.1.3. Mtodos Estadsticos


La estadstica es tradicionalmente la tcnica que se ha usado para el tratamiento
de grandes volmenes de datos numricos y nadie pone en duda su efectividad al
poseer un amplsimo conjunto de modelos de anlisis para cubrir el tratamiento de
todo tipo de poblaciones y series de datos. Estos son algunos de los mtodos
estadsticos ms utilizados:

ANOVA: Anlisis de la Varianza, contrasta si existen diferencias


significativas entre las medidas de una o ms variables continuas en grupos
de poblacin distintos.
Ji cuadrado: Contrasta la hiptesis de independencia entre variables.
Componentes principales: Permite reducir el nmero de variables
observadas a un menor nmero de variables artificiales, conservando la
mayor parte de la informacin sobre la varianza de las variables.
Anlisis de clusters: Permite clasificar una poblacin en un nmero
determinado de grupos, sobre la base de semejanzas y diferencias de
perfiles existentes entre los diferentes componentes de dicha poblacin.
Anlisis discriminante: Mtodo de clasificacin de individuos en grupos que
previamente se han establecido, y que permite encontrar la regla de
clasificacin de los elementos de estos grupos, y por tanto identificar cules
son las variables que mejor definan la pertenencia al grupo.
Regresin Lineal: Tcnica ms bsica del Data Mining. Un modelo de
regresin lineal se implementa identificando una variable dependiente (y) y
todas las variables independientes (X1, X2,...). Se asume que la relacin
entre estas y aquella es lineal. Todas las variables han de ser continuas. El
resultado es la ecuacin de la recta que mejor se ajusta al juego de datos y
esta ecuacin se interpreta o se usa para prediccin.
Regresin Logstica: Puede trabajar con variables discretas. Tambin
requiere que todas las variables sean lineales. (Martnez, 2016)
3.1.4. Mtodos Basados en Arboles de Decisin
Son herramientas analticas empleadas para el descubrimiento de reglas y
relaciones mediante la ruptura y subdivisin sistemtica de la informacin
contenida en el conjunto de datos. El rbol de decisin se construye partiendo el

conjunto de datos en dos (CART) o ms (CHAID) subconjuntos de observaciones


a partir de los valores que toman las variables predictoras. Cada uno de estos
subconjuntos vuelve despus a ser particionado utilizando el mismo algoritmo.
Este proceso contina hasta que no se encuentran diferencias significativas en la
influencia de las variables de prediccin de uno de estos grupos hacia el valor de
la variable de respuesta.
La raz del rbol es el conjunto de datos ntegro, los subconjuntos y los
subsubconjuntos conforman las ramas del rbol. Un conjunto en el que se hace
una particin se llama nodo.
El mtodo CHAID (Chi Squared Automatic Interaction Detector) es til en aquellas
situaciones en las que el objetivo es dividir una poblacin en distintos segmentos
basndose en algn criterio de decisin. (Martnez, 2016)

3.1.5. Reglas de Asociacin


Derivan de un tipo de anlisis que extrae informacin por coincidencias. Este
anlisis a veces llamado "cesta de la compra" permite descubrir correlaciones o
co-ocurrencias en los sucesos de la base de datos a analizar y se formaliza en la
obtencin de reglas de tipo; SI... ENTONCES... (Martnez, 2016)

4.

ESTADO DEL ARTE

Aunque los componentes clave del Data Mining Minera de datos (DM) existen
desde hace dcadas en la investigacin en reas como la inteligencia artificial, la
estadstica o el aprendizaje automtico, se puede afirmar que ahora estamos
asistiendo al reconocimiento de la madurez de estas tcnicas, lo que, junto al
espectacular desarrollo de los motores de bases de datos y las herramientas para
integracin de informacin justifican su introduccin en la esfera empresarial.
Las races de la DM se remontan a los aos 50. Los departamentos de informtica
preparaban resmenes de la informacin, principalmente de tipo comercial, que se
encontraba en los ficheros del ordenador central, con el propsito de facilitar la
labor directiva. As nacieron los sistemas de informacin para la direccin, que sin
embargo, eran voluminosos, poco flexibles, y difciles de leer para los no
informticos. En los 60 nacen los sistemas gestores de base de datos que aun se
mostraban rgidos y carecan de flexibilidad para realizar consultas. Luego
aparecieron los motores relacionales resolviendo estos problemas, aunque los
informes resultaban muy laboriosos de preparar y depurar, perdindose relevancia
por su bajo nivel de actualizacin. Otro grave problema era la diversidad de bases
de datos no integradas establecidas por los diferentes departamentos de una
organizacin. Nadie reparaba en la posible utilidad futura de un sistema
interdependiente.
El Data Warehouse (DW) viene a solucionar este problema en los finales de los
80. La existencia de DW ha estimulado el desarrollo de los enfoques de DM, en
los que las tareas de anlisis se automatizan y dan un paso ms al posibilitar la
extraccin de conocimiento inductivo. (Martnez, 2016)

Desde los aos sesenta los estadsticos manejaban trminos como data fishing,
data mining o data archaeology, con la idea de encontrar correlaciones sin una
hiptesis previa en bases de datos con ruido. A principios de los aos
ochenta, Rakesh Agrawal, Gio Wiederhold, entre otros comenzaron a consolidar
los trminos de data mining.
A finales de los aos ochenta, slo existan un par de empresas dedicadas a esta
tecnologa; en el 2002 existan ms de 100 empresas en el mundo que ofrecan
alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman
investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto
de encuentro entre personas pertenecientes al mbito acadmico y al de los
negocios.
El data mining es una tecnologa compuesta por etapas que integra varias reas y
que no se debe confundir con un gran software. Durante el desarrollo de un
proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que
pueden ser: estadsticas, de visualizacin de datos o de Inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de

data mining muy poderosas que contienen un sinfn de utileras que facilitan el
desarrollo de un proyecto. (ecured, 2016)
En general, la estadstica es la primera ciencia que histricamente extrae
informacin de los datos bsicamente mediante metodologas procedentes de las
matemticas. Cuando se empez a usar los ordenadores como apoyo para esta
tarea surgi el concepto de Machine learning traducido como aprendizaje
automtico. Posteriormente con el incremento de tamao y la estructuracin de las
datos es cuando se empieza a hablar de minera de datos. La idea de data mining
no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos
como data shing, data mining o data archaeology con la idea de encontrar
correlaciones.
A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de
data mining, nales de los aos ochenta slo existan un par de empresas
dedicadas a esta tecnologa; actualmente existen ms de 100 empresas en el
mundo que ofrecen alrededor de 300 soluciones.
Propsito de la minera de datos:
-Explorar los datos se encuentran en las profundidades de las bases de datos,
como los almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
-En algunos casos, los datos se consolidan en un almacn de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e intranet.
-Las herramientas de la minera de datos ayudan a extraer el mineral de la
informacin enterrado en archivos corporativos o en registros pblicos, archivados
-Clasificar un dato dentro de una de las clases categricas predefinidas, preguntas
tales como: Cul es el riesgo de conceder un crdito a este cliente?
-Agrupar registros, observaciones o casos en clases de objetos similares.

-Generar reglas en referencia al descubrimiento de relaciones de asociacin.


(http://mineria-datos-actualidad.blogspot.com.co/2012/05/origen-y-proposito-de-lamineria-de_12.html, 2016)

5.

Anlisis de cluster

Dendongrama

Se observa claramente la existencia de dos conglomerados.


Medias
Informe
Ward Method

MOTIVO
Media

N
Desv. tp.
Media

N
Desv. tp.

Total

Media

PROFESION

EDAD

2,59

3,69

33,64

311

311

311

1,024

1,869

7,732

2,55

3,00

60,00

51

51

51

1,064

1,637

6,696

2,58

3,59

37,36

N
Desv. tp.

362

362

362

1,029

1,851

11,911

Centroides

Kmo
KMO y prueba de Bartlett
Medida de adecuacin muestral de Kaiser-Meyer-Olkin.
Prueba de esfericidad de
Bartlett

,500

Chi-cuadrado aproximado

3,332

gl

Sig.

,343

Se presenta un KMO = 0,5


Matrices anti-imagen
MOTIVO
MOTIVO
Covarianza anti-imagen

EDAD

1,000

,002

,005

PROFESION

,002

,991

,095

EDAD

,005

,095

,991

,002

,005

PROFESION

,002

,096

EDAD

,005

,096

,500a

MOTIVO
Correlacin anti-imagen

PROFESION

,466

,500

a.

Medida de adecuacin muestral

Por ser el kmo igual a 0,5 se observa en el cuadro de matriz anti-imagen que
ninguna de las tres variables analizadas presenta ruido en cuanto al anlisis de
los datos.
Varianza total explicada
Componente

Autovalores iniciales

Total

% de la

Sumas de las saturaciones al

Suma de las saturaciones al

cuadrado de la extraccin

cuadrado de la rotacin

Total

varianza acumulado

% de la

varianza

acumulado

Total

% de la

varianza

acumulado

1,096

36,533

36,533 1,096

36,533

36,533 1,096

36,531

36,531

1,000

33,340

69,873 1,000

33,340

69,873 1,000

33,342

69,873

,904

30,127

100,000

Mtodo de extraccin: Anlisis de Componentes principales.

rbol de decisiones:

Partiendo de la variable profesin se desprende el tipo de actividad que ejecutan


los viajantes que visitan el hotel, dependiendo de la edad con que el visitante
cuenta.

Bibliografa
Artieta Pinedo, I. y. (1998). Introduccin a la Psicologa del. madrid: TROTTA.
ecured. (2016). ecured. Obtenido de http://www.ecured.cu/Miner%C3%ADa_de_Datos
http://mineria-datos-actualidad.blogspot.com.co/2012/05/origen-y-proposito-de-la-mineriade_12.html. (2016). mineria-datos-actualidad. Obtenido de http://mineria-datosactualidad.blogspot.com.co/2012/05/origen-y-proposito-de-la-mineria-de_12.html
Marina, J. A. (2005). El vuelo de la inteligencia. BARCELONA.
Marta Lorena Salinas Salazar, H. M. (2011). DevalSimWeb. Obtenido de
http://dearade.udea.edu.co/aula/pluginfile.php/1150/mod_resource/content/1/Compe
tencia_Toma_de_Decisiones.pdf
Martnez, M. B. (2016). bbeltran. Obtenido de MINERA DE DATOS:
http://bbeltran.cs.buap.mx/NotasMD.pdf
Novoa, M. E.-L. (2013). USO DE SISTEMAS DE INFORMACIN EN LAS EMPRESAS
OFERENTES. FACE, 65.
Orozco, J. G. (2000). eprints. Obtenido de http://eprints.rclis.org/10948/1/00243yuri34.pdf

You might also like