You are on page 1of 24

TecnoLgicas

ISSN 0123-7799
ISSN-e 2256-5337
Vol. 20, No. 39
Mayo - agosto de 2017

Big Data: una exploracin de


investigaciones, tecnologas y casos
de aplicacin

Big Data: an exploration of research,


technologies and application cases

Emilcy J. Hernndez-Leal1,
Nstor D. Duque-Mndez2 y Julin Moreno-Cadavid3

Recibido: 28 de mayo de 2016,


Aceptado: 15 de marzo de 2017

Cmo citar / How to cite


E.J. Hernndez-Leal, N.D. Duque-Mndez y J. Moreno-Cadavid, Big
Data: una exploracin de investigaciones, tecnologas y casos de aplica-
cin, TecnoLgicas, vol. 20, no. 39, mayo - agosto, 2017.

1 Esp. en Gerencia Estratgica de Proyectos, Estudiante de Maestra


en Ingeniera Administrativa, Administradora de sistemas inform-
ticos, Departamento de Ingeniera de la Organizacin, Facultad de
Minas, Universidad Nacional de Colombia, Medelln-Colombia,
ejhernandezle@unal.edu.co
2 PhD. en Ingeniera, MSc. en Ingeniera de Sistemas, Especialista en
Sistemas, Ingeniero Mecnico, Facultad de Administracin, Depar-
Copyright 2015 por tamento de Informtica y Computacin, Universidad Nacional de
autores y Tecno Lgicas
Este trabajo est licenciado bajo una Colombia, Manizales-Colombia, ndduqueme@unal.edu.co
Licencia Internacional Creative 3 PhD. en Ingeniera Sistemas, MSc. en Ingeniera de Sistemas,
Commons Atribucin (CC BY) Ingeniero de Sistemas e Informtica, Departamento de Ciencias de
la Computacin y de la Decisin, Facultad de Minas, Universidad
Nacional de Colombia, Medelln-Colombia, jmoreno1@unal.edu.co
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Resumen
Big Data se ha convertido en una tendencia a nivel mundial y aunque an no
cuenta con un concepto cientfico o acadmico consensuado, se augura cada da
mayor crecimiento del mercado que lo envuelve y de las reas de investigacin
asociadas. En este artculo se reporta una exploracin de literatura sobre Big
Data, que comprende un estado del arte de las tcnicas y tecnologas asociadas a
Big Data, las cuales abarcan captura, procesamiento, anlisis y visualizacin de
datos. Se exploran tambin las caractersticas, fortalezas, debilidades y
oportunidades de algunas aplicaciones y modelos que incluyen Big Data,
principalmente para el soporte al modelado de datos, anlisis y minera de datos.
Asimismo, se introducen algunas de las tendencias futuras para el desarrollo de
Big Data por medio de la definicin de aspectos bsicos, alcance e importancia de
cada una. La metodologa empleada para la exploracin incluye la aplicacin de
dos estrategias, una primera corresponde a un anlisis cienciomtrico; y la
segunda, una categorizacin de documentos por medio de una herramienta web
de apoyo a los procesos de revisin literaria. Como resultados se obtiene una
sntesis y conclusiones en torno a la temtica y se plantean posibles escenarios
para trabajos investigativos en el campo de dominio.

Palabras clave
Big Data, anlisis de datos, ciencia de los datos, minera de datos, anlisis
Big Data.

Abstract
Big Data has become a worldwide trend and although still lacks a scientific or
academic consensual concept, every day it portends greater market growth that
surrounds and the associated research areas. This paper reports a systematic
review of the literature on Big Data considering a state of the art about
techniques and technologies associated with Big Data, which include capture,
processing, analysis and data visualization. The characteristics, strengths,
weaknesses and opportunities for some applications and Big Data models that
include support mainly for modeling, analysis, and data mining are explored.
Likewise, some of the future trends for the development of Big Data are
introduced by basic aspects, scope, and importance of each one. The methodology
used for exploration involves the application of two strategies, the first
corresponds to a scientometric analysis and the second corresponds to a
categorization of documents through a web tool to support the process of
literature review. As results, a summary and conclusions about the subject are
generated and possible scenarios arise for research work in the field.

Keywords
Big data, data analysis, data science, data mining, big data analysis.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

1. INTRODUCCIN de diversas actividades de la sociedad, en


estas se genera una cantidad inmensa de
El crecimiento en el volumen de datos datos, que, segn su naturaleza, puede
generados por diferentes sistemas y activi- estar almacenada y estructurada o puede
dades cotidianas en la sociedad ha forjado corresponder a datos sin ninguna estructu-
la necesidad de modificar, optimizar y ra, pero con caractersticas de gran valor.
generar mtodos y modelos de almacena- En la segunda fase, se incluye la coleccin
miento y tratamiento de datos que suplan de todos estos datos generados en la vida
las falencias que presentan las bases de diaria, la trasmisin y pre-procesamiento
datos y los sistemas de gestin de datos de los mismos es de gran importancia, ya
tradicionales. Respondiendo a esto aparece que muchos conjuntos de datos presentan
Big Data, trmino que incluye diferentes redundancia o datos intiles y si no se
tecnologas asociadas a la administracin tratan pueden incrementar el espacio de
de grandes volmenes de datos provenien- almacenamiento innecesariamente y afec-
tes de diferentes fuentes y que se generan tar los resultados de una fase de anlisis.
con rapidez [1]. La fase de almacenamiento de Big Data ha
A pesar de que el trmino Big Data se generado la necesidad de generar estudios
asocia principalmente con cantidades de y propuestas de nuevas estrategias que
datos exorbitantes, se debe dejar de lado permitan afrontar los tipos de datos que no
esta percepcin, pues Big Data no va diri- se pueden gestionar con un sistema de
gido solo a gran tamao, sino que abarca gestin de bases de datos relacionales.
tanto volumen como variedad de datos y Surgen entonces, tecnologas de almace-
velocidad de acceso y procesamiento. En la namiento de datos masivos como almace-
actualidad se ha pasado de la transaccin a namiento con conexin directa y el almace-
la interaccin, con el propsito de obtener namiento en red, tambin diferentes moto-
el mejor provecho de la informacin que se res NoSQL. Finalmente, la fase de anlisis
genera minuto a minuto [2]. debe atender a la necesidad de extraer
Con el auge del Big Data se ha dado ca- rpidamente informacin desde los datos
bida tambin a un nuevo concepto, Data masivos para poder generar valor en las
Science o Ciencia de los Datos, que se usa organizaciones y facilitar procesos de toma
de forma genrica para hacer referencia a de decisiones, se requiere de tecnologas
la serie de tcnicas necesarias para el tra- que faciliten incluso el anlisis en tiempo
tamiento y manipulacin de informacin real.
masiva desde un enfoque estadstico e Siguiendo los lineamientos para la
informtico. Incluyendo tambin el surgi- construccin de artculos de revisin [5],
miento de un nuevo perfil profesional, el este artculo tiene como objetivo presentar
Data Scientist [3], las personas capacita- una visin general acerca de Big Data
das en este perfil deben saber del negocio, incluyendo un anlisis cienciomtrico de
de las herramientas computacionales y de las publicaciones en este campo y haciendo
anlisis e interpretacin estadstica. una exploracin cuidadosa de una serie de
Ahora bien, al revisar Big Data, pen- trabajos en el tema, que contemplan apli-
sando en la creacin de soluciones que caciones, oportunidades, desafos y retos de
incluyan problemas enmarcados en este Big Data. A su vez, se hace una breve in-
enfoque, se pueden encontrar cuatro fases troduccin de algunas tecnologas y tcni-
donde se agrupan o clasifican las diferen- cas adoptadas para la implementacin de
tes tecnologas de soporte, estas son: gene- soluciones a problemas de Big Data. Esta
racin, adquisicin, almacenamiento y exploracin concluye con la presentacin de
anlisis de datos. En [4] se define la prime- puntos clave y principales aportes encon-
ra fase, generacin, como un proceso propio trados.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Lo que resta del artculo se organiza de los resultados obtenidos a partir de una
la siguiente forma: en la siguiente Seccin ecuacin de bsqueda, con ello se puede
se presenta la metodologa y principales extraer informacin relevante de la temti-
hallazgos de esta exploracin. En la Sec- ca de inters que se est abordando. Para
cin 3 se muestran las tecnologas y tcni- este acercamiento se utiliz como ecuacin
cas para el tratamiento de Big Data. Por su de bsqueda big data y a continuacin se
parte, en la Seccin 4 se muestran algunas presentan algunos aspectos relevantes que
tendencias y retos en el campo, y se finali- se extrajeron de los resultados en
za en la Seccin 5, con las conclusiones que SCOPUS. Se decidi utilizar esta ecuacin
parten del anlisis del contexto presentado de bsqueda poco delimitada, porque se
en las secciones previas. pretende presentar un estado general de
presencia y tratamiento de la temtica.
El total de recursos encontrados fue de
2. METODOLOGA 16.902. En la Fig. 1 se presenta el nmero
de documentos publicados por ao. Se
El desarrollo de esta exploracin se aprecia que los estudios del tema llevan
realiz siguiendo dos estrategias. Como poco ms de un lustro, se puede ver que en
primera estrategia, se hizo un acercamien- el ao 2012 es cuando realmente toma
to cienciomtrico por medio de la herra- fuerza y viene teniendo un crecimiento
mienta bibliogrfica SCOPUS, un ndice significativo, pasando de 646 resultados en
bibliogrfico que contiene una coleccin 2012 a 7508 resultados en 2015. Para el
representativa, completa y multidisciplinar 2016 se presentan los resultados corres-
a nivel mundial. La segunda estrategia pondientes a los cuatro primeros meses del
comprende el anlisis de algunos trabajos ao.
particulares referentes al soporte y estruc- Como se aprecia en la Fig. 2, si se revi-
tura conceptual de la temtica abordada. sa segn el tipo de recurso, se ve una mar-
Estos fueron seleccionados y clasificados cada tendencia hacia los artculos de confe-
por medio de la herramienta ToS (Tree of rencia, con un total de 9.493 resultados.
Science), desarrollada en la Universidad Los artculos cientficos muestran 4.824
Nacional de Colombia. A continuacin, se resultados, mientras que los captulos de
detallarn cada una de las estrategias y se libro y los libros solo despliegan 388 y 88
mostrarn los resultados obtenidos. resultados respectivamente, lo anterior
ratifica la etapa naciente en que se encuen-
2.1 Primera estrategia de exploracin tra este campo de estudio, puesto que sus
bases tericas apenas se estn consolidan-
SCOPUS es una de las ms grandes ba- do.
ses de datos de resmenes y citas de litera- Revisando los resultados agrupados por
tura revisadas por pares, contienen artcu- pas de publicacin, se puede ver una con-
los de revistas cientficas, libros y artculos centracin en Estados Unidos y China
de congresos, posibilitando tener una vi- como se aprecia en la Fig. 3. En los pases
sin global de la produccin acadmica e europeos se encuentra un nmero tambin
investigativa en campos de la ciencia, tec- significativo de trabajos, mientras que en
nologa, medicina, artes y humanidades Sur Amrica, Oceana y frica, el desarro-
[6]. Adems, esta herramienta permite llo de investigaciones en el campo es an
clasificar, refinar y analizar de forma gil incipiente.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Fig. 1. Nmero de artculos publicados por ao, periodo 2010 2016. Fuente: Autores.

Fig. 2. Nmero de documentos segn el tipo de recurso Fuente: Autores.

Fig. 3. Nmero de documentos segn el pas de publicacin. Fuente: Autores.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

2.2 Segunda estrategia de exploracin Para el caso particular, se usaron los si-
guientes parmetros para la bsqueda:
Como segunda estrategia se hizo un
anlisis detallado de algunos documentos, - Palabras de bsqueda: Big Data
utilizando para su seleccin y clasificacin - Restriccin de aos: 2010-2016
una herramienta desarrollada desde el - Categora de Web of Science: computer
Grupo de Investigacin en Ambientes Inte- science information systems
ligentes Adaptativos GAIA y como par- - Tipo de documento: documentos cientfi-
te de una tesis doctoral en la Universidad cos
Nacional de Colombia Sede Manizales.
La herramienta llamada ToS (Tree of Se hizo la bsqueda en el ndice biblio-
Science) [7], funciona en la web y se puede grfico Web of Science (ndice con el cual
acceder a ella a travs del enlace trabaja la herramienta ToS) y se obtuvo un
http://tos.manizales.unal.edu.co/. total de ciento setenta y cuatro (174) ar-
Los resultados que brinda la herra- tculos para los parmetros de bsqueda. A
mienta son construidos a partir de la utili- partir del anlisis de este grupo de artcu-
zacin de una serie de algoritmos de redes los y de las referencias citadas en los mis-
complejas, los cuales optimizan los resul- mos, la herramienta ToS hizo el respectivo
tados de la bsqueda y seleccin de docu- refinamiento y retorn diez artculos con-
mentos cientficos publicados. Esta herra- siderados raz, en el tronco se clasificaron
mienta clasifica los documentos en raz, otros diez y setenta artculos fueron ubica-
tronco y ramas a partir de la lista de dos en las ramas, como se aprecia en la
trabajos encontrados. Los documentos raz Fig. 4. Cabe aclarar que en este documento
hacen referencia a las investigaciones que no se reportar la totalidad de los artculos
dan soporte al enfoque o temtica abarca- arrojados por la herramienta, se ha reali-
da, los documentos tronco son aquellos que zado una seleccin de los documentos que
dan estructura al tema y los documentos cubren la temtica, permitiendo tener una
rama son las perspectivas y tendencias. visin general del estado del arte y de las
tendencias y campos de trabajo.

Fig. 4. Estructura del rbol de la ciencia generado por la herramienta ToS.


Fuente: Generado en http://tos.manizales.unal.edu.co/

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Seguidamente, se presenta un recuento ye el impacto de las mquinas lentas, pr-


de cinco de los documentos clasificados dida de datos y fallos de mquina.
como raz del enfoque, la seleccin de los Otra de las bases de Big Data es la
documentos presentados en este escrito se computacin en la nube o cloud computing
hace despus del anlisis por parte de los logrando que los desarrolladores ya no
autores de la totalidad de los documentos requieran de grandes inversiones en hard-
raz e identificando los ms relevantes. ware, la elasticidad de recursos sin necesi-
Retomando lo anteriormente menciona- dad de pagar por servicios Premium de
do, los documentos raz corresponden a gran escala es un hito fundamental en la
investigaciones o aportes que dan soporte a historia de las tecnologas de la informa-
la temtica. Dos de los artculos correspon- cin. Cloud computing se convirti en un
den a revisiones acerca de tecnologas que tema popular y objeto de artculos, works-
permitieron y dieron pie al nacimiento de hops, conferencias y revistas. Se augur el
la tendencia Big Data: la computacin en crecimiento de cloud computing indepen-
la nube y el paradigma de programacin dientemente de si los servicios adquiridos
Map Reduce. Los dos documentos siguien- son a bajo o alto nivel de abstraccin. Se
tes corresponden a dos libros, el primero afirma que el almacenamiento, cmputo y
concebido por la empresa IBM, en el que se las redes deben concentrarse en la escala-
analiza Big Data desde una perspectiva bilidad horizontal de los recursos virtuali-
empresarial y una perspectiva tecnolgica, zados en lugar del rendimiento de un solo
cabe sealar que IBM es una de las com- nodo. Se plante la necesidad de que las
paas que provee soluciones Big Data a aplicaciones de software tuviesen una r-
nivel empresarial. El segundo es una Gua pida escalabilidad y que los sistemas de
de Hadoop, donde se describen los concep- hardware fuesen diseados a escala de
tos asociados a este paradigma, se habla contenedor [9].
del modelo MapReduce, de otras herra- Big Data surge como una nueva era en
mientas Big Data y se presentan algunos la exploracin y utilizacin de datos. Desde
casos de estudio donde se ha aplicado Ha- la perspectiva empresarial Big Data no
doop. Finalmente, se toma un informe representa solo grandes volmenes de
producto de los puntos de vista recogidos datos, se deben considerar los patrones
por el autor en un evento de exploracin de extrados a partir de los datos y que pue-
Big Data e inferencia de software. den generar procesos de innovacin. Desde
Map Reduce [8] es un modelo de pro- la perspectiva tecnolgica se presenta Ha-
gramacin asociado a las implementacio- doop como la principal herramienta desa-
nes que requieren procesamiento y genera- rrollada para el tratamiento de Big Data,
cin de grandes bases de datos. Los cmpu- incluyendo el manejo de sistemas de archi-
tos se hacen en trminos de una funcin de vos distribuidos y el paradigma de progra-
mapeo y otra de reduccin y el clculo se macin Map Reduce. En la primera parte,
hace de forma paralelizada. Los autores correspondiente a la perspectiva empresa-
muestran Map Reduce como un modelo que rial, se presenta una comparacin entre las
facilita el trabajo con sistemas paralelos y soluciones Big Data y las soluciones tradi-
distribuidos, ya que oculta detalles de pa- cionales de Datawarehouse. Sin querer
ralelizacin, tolerancia a fallos, optimiza- buscar una ganadora, se expone la ventaja
cin y balance de carga. Es necesario opti- de usar Datawarehouse cuando se trata de
mizar los recursos de red cuando se trabaja analizar datos estructurados que vienen de
con Map Reduce, por ello es bueno leer los varios sistemas y de mediciones relativa-
datos desde discos locales y reducir la can- mente estables. Respecto a las plataformas
tidad de datos enviados a travs de la red. basadas en Hadoop, funcionan bien con
Tambin la ejecucin redundante disminu- datos semiestructurados y desestructura-

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

dos, as como tambin cuando se requiere videocmaras, monitores de trfico, m-


de procesos de descubrimiento de datos quinas de resonancia magntica, sensores
[10]. qumicos y biolgicos y sensores de monito-
Partiendo de la necesidad de almace- reo ambiental, se han generado nuevos
namiento y anlisis de los datos se desarro- flujos de datos digitales. As mismo, las
lla el ecosistema Hadoop, los sistemas de personas a travs de sus telfonos celula-
archivos distribuidos, el desarrollo de apli- res, computadores personales, sitios web y
caciones con MapReduce, el lenguaje de otro tipo de dispositivos digitales generan
consultas Hive y otras herramientas como grandes flujos de datos personales. Lo
HBase, ZooKeeper y Sqoop. En [11] se anterior deja ver que Big Data presenta
presenta una gua completa, tanto de for- oportunidades incalculables para la formu-
ma conceptual como con ejemplos de apli- lacin de investigacin cientfica, acelera la
cacin de Hadoop y de varias herramientas innovacin y puede ayudar a mejorar m-
asociadas a este. Uno de los casos estudia- bitos que van desde la salud hasta el Go-
dos es el de Hadoop y Hive para Facebook. bierno. Tambin se abren nuevas oportu-
Facebook inicialmente usaba data wa- nidades de negocio porque surgen meca-
rehousing sobre una instancia Oracle, sin nismos que permiten entender las dinmi-
embargo, con su crecimiento se tuvo que cas de negocio en tiempo real, como el
pensar en nuevas alternativas, Hadoop fue comportamiento de los consumidores, las
atractiva porque ya se usaba en Yahoo actividades de vida nocturna, los mercados,
para procesamientos internos y usaba el entre otros. Cabe anotar que Big Data
modelo MapReduce popularizado por Goo- presenta tambin retos y peligros, ya que
gle. las tecnologas de datos son cada vez ms
El crecimiento de los datos, como la ex- penetrantes, intrusivas y difciles de en-
plosin de las redes mviles, la compu- tender.
tacin en la nube y las nuevas tecnologas A manera de resumen de los principales
son descritas en [12]. Esto ha dado un documentos considerados raz, en la Tabla
aumento al incomprensible mundo de la 1 se presenta una sntesis de estos.
informacin, que se suele describir como Los documentos ubicados en el tronco,
Big Data. Este informe captura los puntos son aquellos que dan estructura a la tem-
de vista recogidos durante un evento de tica o campo de estudio, hacen referencia a
exploracin de temas de Big Data e infe- estudios de revisin frente a los avances,
rencia de software. Las compaas que han desafos y perspectivas de Big Data y tec-
sido pioneras en el uso de analticas pro- nologas asociadas, estos son presentados a
fundas sobre grandes bases de datos han continuacin. En este caso tambin se opt
sido las que operan sobre internet, como por presentar los cinco documentos que
son los motores de bsqueda, los sitios de despus de la revisin por parte de los
redes sociales y los sitios de comercio en autores son considerados los ms relevan-
lnea. Sin embargo, el desarrollo de nuevos tes.
tipos de sensores remotos como telescopios,

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Tabla 1. Sntesis de los principales documentos raz. Fuente: Autores.

Dimensin,
Autores - Tipo de campo o
Ttulo Sntesis del documento
Ao documento herramienta
analizado
Map Reduce es uno de los enfoques que se mues-
Dean, J. tra como base slida de las soluciones Big Data, ya
MapReduce: simpli- Artculo en que desde el paradigma de distribucin de proce-
Ghemawat,
fied data processing revista MapReduce
S. samiento se pueden afrontar problemas de trata-
on large clusters cientfica
2008 miento de grandes volmenes de datos que las
herramientas tradicionales no soportan.
Cloud computing, o computacin en la nube es una
tendencia que logr virtualizar procesos que
Armbrust, Artculo en requeran de grandes inversiones en hardware, las
A view of cloud Cloud Compu-
M. et al. revista cuales no siempre podan ser afrontadas por las
computing ting
2010 cientfica organizaciones. Con ello se ha permitido tambin,
que el crecimiento de los datos y su procesamiento
se pueda escalar.
Tomando dos perspectivas, la empresarial y la
tecnolgica se analiza Big Data y se concluye que
Understanding Big se debe realizar un anlisis previo a la implemen-
Perspectivas tacin de soluciones desde este enfoque, puesto
Zikopoulos, Data: Analytics for
Big Data:
P. et al. Enterprise Class Libro que segn el tipo de datos que se manejen, las
Empresarial,
2011 Hadoop and Stream- soluciones tradicionales pueden seguir siendo ms
tecnolgica
ing Data eficientes respecto a las que implementan Hadoop
o procesamiento distribuido, en otras ocasiones lo
indicado es tener una solucin mixta.
Se presenta todo el ecosistema Hadoop, tecnolo-
gas de almacenamiento, procesamiento y anlisis
White, T. Hadoop: The Defini- Ecosistema de datos adaptadas a diferentes tipos de datos.
Libro
2011 tive Guide Hadoop Desde esta gua se presentan casos de xito de
soluciones Big Data desde lo conceptual y aplica-
das a casos de estudio.
El mundo presenta una tendencia cada vez ms
marcada hacia la generacin de datos. Ya sea
desde la interaccin de las personas con las nue-
Bollier, D. The Promise and Analticas Big vas tecnologas, las mediciones de variables del
Informe
2010 Peril of Big Data Data entorno o los flujos de datos personales. Todas
estas fuentes de datos se convierten en posibilida-
des de investigacin cientfica e innovacin em-
presarial.

En [13] se presenta Big Data, sus apli- rentes campos cientficos, como la astro-
caciones, las oportunidades y desafos de noma, la meteorologa, la bioinformtica y
estas tecnologas, as como tambin tcni- la biologa computacional. Dichos campos
cas de ltima generacin que se han adop- basan gran parte de su descubrimiento
tado para hacer frente a los problemas de cientfico en el anlisis de grandes volme-
Big Data. Se discuten algunas metodolo- nes de datos. Otro de los aportes significa-
gas utilizadas para tratar cantidades con- tivos, es la descripcin de los principios
siderables de datos como es la computacin para el diseo de sistemas Big Data. Estos
granular, la computacin en la nube, la son: (1) Buenas arquitecturas y frame-
computacin bio-inspirada y la compu- works son necesarios y de alta prioridad.
tacin cuntica. Destacan el papel que han (2) Soportar una variedad de mtodos ana-
jugado los datos como promotores de dife- lticos. (3) No hay un tamao definido para

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

todo. (4) Conducir el anlisis de los datos. ponen las siguientes: contenidos generados
(5) El procesamiento debe ser distribuido. por usuarios, estos vienen de aplicaciones
(6) El almacenamiento de los datos debe que cuentan con usuarios masivos, por
ser distribuido. (7) Es necesaria una coor- ejemplo tweets o blogs; datos transacciona-
dinacin entre las unidades de procesa- les, son generados por sistemas masivos
miento y de datos. que procesan transacciones y operaciones
En [4] se revisan algunas de las tecno- como por ejemplo lectores de radio frecuen-
logas relacionadas a Big Data como cia, transacciones empresariales, entre
computacin en la nube, Internet de las otras; datos cientficos, estos son produci-
cosas, centros de datos y Hadoop. Tambin dos por aplicaciones o experimentos de
se mencionan las fases de la cadena de datos-intensivos, por ejemplo datos del
valor de Big Data y finalmente se exami- genoma o datos de asistencia sanitaria;
nan algunos casos de aplicacin como ges- datos web, provienen de los procesos que
tin empresarial, internet de las cosas, soportan aplicaciones web como bsquedas
redes sociales, aplicaciones mdicas, inteli- y minera, tambin de los billones de pgi-
gencia colectiva y redes elctricas inteli- nas web que existen; Grafos de datos, co-
gentes. En cuanto a las fases de Big Data, rresponden a un enorme nmero de nodos
se definen cuatro principales: generacin, de informacin y las relaciones entre estos
adquisicin, almacenamiento y anlisis de nodos. Adicionalmente, se habla de la
datos. Los autores afirman que, sin tratar reduccin de Big Data, entendida como la
de predecir el futuro, el panorama de Big reduccin de las cantidades exorbitantes a
Data se concentrar en: datos con escalas y los segmentos significativos, se presentan
diversidad cada vez mayores y estructuras tcnicas como machine learning y el proce-
mucho ms complejas, la necesidad de samiento paralelo masivo para este fin.
rendimiento de los recursos de datos, Big Es importante tambin, tener en cuenta
Data promover la fusin transversal de la cmo en el rea de la industria y los nego-
ciencia, tendr grandes retos de visualiza- cios se ha presentado una explosin en el
cin de datos y una orientacin a los datos nmero de datos, causada principalmente
cada vez ms marcada. A su vez, se pre- por el rpido desarrollo del internet, nue-
sentan los desafos de Big Data, estos re- vos conceptos como el internet de las cosas
quieren de un esfuerzo investigativo y son y la computacin en la nube. Big data se ha
agrupados en las siguientes categoras: constituido como un tpico caliente que
investigacin terica, desarrollo tecnolgi- atrae la atencin no solo de la industria,
co, implicaciones prcticas y seguridad de sino tambin de la academia y del Go-
datos. bierno. Los autores presentan desde dife-
Desde una perspectiva de la adminis- rentes perspectivas el significado y las
tracin de los datos, en [14] se presenta oportunidades que nos brinda el ecosiste-
una discusin acerca de la diversidad de ma Big Data y dan una serie de condicio-
Big Data, las necesidades de integracin y nes necesarias para que un proyecto de Big
limpieza, las consultas e indexacin y fi- Data sea exitoso. En primer lugar, se de-
nalmente la minera y anlisis sobre Big ben tener claros los requerimientos inde-
Data. El inicio de Big Data va directamen- pendientemente de si son tcnicos, sociales
te relacionado con el crecimiento de los o econmicos. En segundo lugar, para tra-
datos generados por la sociedad. Estos bajar de forma eficiente con Big Data se
datos suelen caracterizarse por su hetero- requiere explorar y encontrar la estructura
geneidad y por la variedad de fuentes des- central o el kernel de los datos a ser proce-
de las cuales provienen, sin embargo, se sados, ya que al tener esto se puede carac-
pueden clasificar estas fuentes de acuerdo terizar el comportamiento y las propieda-
con donde son generadas. Los autores pro- des subyacentes a Big Data. En tercer

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

lugar, se debe adoptar un modelo de admi- en una estructura de tres niveles. La parte
nistracin top-down, se puede considerar central, la "plataforma de minera de Big
tambin un modelo bottom-up, sin embar- Data" (nivel I), que se enfoca en el acceso a
go, solo servira cuando se trata de proble- los datos de bajo nivel y computacin. Los
mas especficos, y luego tratar de unirlos desafos en el intercambio de informacin y
para formar una solucin completa es com- la privacidad, los dominios de aplicacin de
plejo. Por ltimo, los autores exponen la Big Data y el conocimiento forman el nivel
necesidad de abordar desde los proyectos II, que se concentra en la semntica de alto
Big Data soluciones integradas, no con nivel, las aplicaciones de dominio de cono-
esfuerzos aislados [15]. cimiento y los problemas de privacidad del
Los retos que se desprenden del consu- usuario. Ya en el nivel III se presentan los
mo y creacin de informacin a travs de la desafos en los actuales algoritmos de mi-
red incluyen necesidades de captura, ma- nera.
nejo y procesamiento de grandes volme- Cabe resaltar, que los documentos con-
nes de datos. En [16] los autores proponen siderados tronco, para este caso, corres-
un teorema llamado HACE (Heteroge- ponden a revisiones del estado del arte en
neous, Autonomous, Complex y Evolving), Big Data. En la Tabla 2 se presenta una
con el cual buscan describir las caracters- sntesis de los mismos.
ticas de la revolucin de Big Data. El teo- En la exploracin se encontr que el
rema plantea la existencia de un gran termino Big Data ha tenido gran acogida
volumen de datos heterogneos y prove- en la comunidad, representado esto en el
nientes de fuentes autnomas con control surgimiento de tecnologas, tcnicas y en-
distribuido y descentralizado, y que trata foques.
de explorar relaciones complejas y cam- Sin embargo, se presenta an una mar-
biantes entre los datos. Los autores plan- cada tendencia hacia los aportes de tipo
tean que hay un gran desafo para descu- conceptual, son pocos los resultados y ha-
brir conocimiento til desde Big Data. La llazgos que permitan realmente vislumbrar
heterogeneidad se refiere a los diferentes de forma tangible sus beneficios frente a
tipos de representaciones para los mismos otras tendencias o tecnologas tradiciona-
individuos, y la diversidad de caractersti- les. Los trabajos se concentran, en su gran
cas se refiere a la variedad a la hora de mayora, en asociar Big Data a grandes
representar cada observacin particular. volmenes de datos o a la distribucin de
Las fuentes de datos autnomas con con- procesamiento. En el primer caso, no es
trol distribuido y descentralizado son, se- claro cul es la cantidad de datos que per-
gn los autores, la principal caracterstica mite esta calificacin; y para el segundo, no
de las aplicaciones de Big Data. Al ser hay coincidencia en determinar para qu
autnomas, cada fuente de datos tiene la tipo de datos el procesamiento distribuido
capacidad de generar y recopilar informa- consigue mejores resultados. La volatilidad
cin sin la participacin de un ente de con- y variabilidad an no reciben la atencin
trol centralizado. Se plantea, adems, que necesaria. Con lo anterior, se ratifica que
un marco de trabajo para el procesamiento existen numerosos vacos conceptuales y
de Big Data presenta ciertos desafos de tecnolgicos en los cuales se pueden plan-
investigacin, los cuales se pueden reunir tear trabajos investigativos y prcticos.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Tabla 2. Sntesis de los documentos tronco. Fuente: Autores


Autores Tipo de Referencias
Ttulo Sntesis del documento
- Ao documento revisadas
Presentan Big Data como el inicio de una era de inno-
Chen, P. Data-intensive applica- vacin, competitividad, productividad y revolucin
Zhang, tions, challenges, Artculo en cientfica. El principal aporte del documento se encuen-
C. techniques and technol- revista 207
tra en el detalle que realizan de diferentes herramien-
2014 ogies: A survey on Big cientfica
Data tas y tcnicas potenciales para resolver los problemas
de Big Data desde cada una de sus fases
La revisin se concentra en las cuatro fases de valor de
Chen, Big Data: generacin, adquisicin, almacenamiento y
M. Artculo en anlisis de datos. Introduciendo en cada fase una
Mao, S. Big Data: A Survey revista 156 exploracin general, tcnicas y ltimos avances. Tam-
Liu, Y. cientfica bin se presentan a aplicaciones de Big Data en campos
2014 como el empresarial, salud y medicina, internet de las
cosas (IoT) y redes sociales
Se hace una revisin corta enfocada a los cuatro pasos,
que segn los autores y segn una perspectiva de
administracin de datos, se deben considerar en Big
Chen, J. Big data challenge: a Artculo en Data, estos pasos son: integracin, reduccin, consulta e
et al data management revista 36
indexacin y anlisis y minera. Se clasifican las fuen-
2013 perspective cientfica
tes de datos en: contenidos generados por usuarios,
datos transaccionales, datos cientficos, datos web y
grafos de datos
Se hace una breve revisin de las oportunidades e
importancia de Big data, pero se enfatiza en cmo hacer
un proyecto de Big Data exitoso. Para ello, se da una
Jin, X. Significance and Chal- Artculo en serie de recomendaciones, como tener claridad en los
et al lenges of Big Data revista 21
requerimientos, encontrar el centro de los datos a
2015 Research cientfica
procesar, caracterizar el comportamiento y propiedades
del problema, ya que cada dominio de datos es especfi-
co
Consideran Big Data como una tendencia emergente y
la minera de datos sobre Big Data como una necesidad
Wu, X. Artculo en en todos los campos de la ciencia y la ingeniera. Los
Data Mining with Big
et al revista 57 autores consideran que las tecnologas de Big Data
Data
2014 cientfica pueden permitir la deteccin de informacin ms
relevante y precisa para entender la sociedad en tiempo
real

3. TRATAMIENTO DE BIG DATA hacen parte de la bsqueda inicial en Sco-


pus y otros son fuentes adicionales consul-
Como se ha venido comentando, el tra-
tadas por los autores para ampliar el tema
tamiento de Big Data ha exigido el desa-
y cubrir el objetivo de brindar una visin
rrollo de soluciones computacionales que
del estado del arte referente a la temtica
permitan afrontar las necesidades y retos
abordada.
que traen consigo los grandes volmenes
de datos, su variedad de fuentes y la velo-
3.1 Tecnologas Big Data
cidad con que se generan.
A continuacin, se da una breve des- Como tecnologas de Big Data se clasifi-
cripcin de algunas tecnologas y tcnicas can aquellas que dan soporte a la captura,
de Big Data, los artculos referenciados en transformacin, procesamiento y anlisis
esta seccin comprenden algunos de los de los datos, ya sean estructurados, semi-
documentos ramas encontrados en la estructurados o no estructurados. Segui-
exploracin con la herramienta ToS, otros damente, en la Fig. 5, se muestran las

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

tecnologas de Big Data que se revisarn duce, framework que permite al desarro-
en este documento. Se decide presentar llador aislarse de la programacin parale-
estas tecnologas ya que son software de la, permite ejecutar programas escritos en
libre uso y que permite la generacin de lenguajes de programacin conocidos (p.e
soluciones de Big Data de acuerdo con las Java) en el clster de Haddop. El HDFS
necesidades particulares de un dominio de cuenta con tres pilares bsicos. Namenode,
datos u organizacin. Cabe aclarar que se ocupa del control de acceso y tiene la
existen un mayor nmero de tecnologas informacin sobre la distribucin de datos
que soportan Big Data, tanto libres como en el resto de nodos. Datanodes, son los
propietarias, pero para efectos de este encargados de ejecutar el cmputo, es de-
documento se ha acotado de acuerdo con lo cir, las funciones Map y Reduce, sobre los
anteriormente expuesto y tomando las datos almacenados de manera local en
tecnologas que dieron las bases iniciales al cada uno de dichos nodos. Jobtracker, este
ecosistema Big Data. nodo se encarga de las tareas y ejerce el
control sobre la ejecucin del proceso de
Hadoop MapReduce. Adems, el HDFS cuenta con
las siguientes caractersticas fundamenta-
Hadoop es una librera de Apache defi- les:
nida como un framework que permite ha-
cer procesamiento de datos distribuido - Tolerancia a fallos
sobre volmenes de datos de considerable - Acceso a datos en streaming
tamao sobre clster. Est diseado pen- - Facilidad para el trabajo
sando en brindar poder de escalamiento - Modelo sencillo de coherencia
desde un par de servidores hasta cientos de - Portabilidad de convivencia
mquinas o nodos, las cuales manejan
almacenamiento y procesamiento local Varios trabajos donde se ha tomado
[17]. Hadoop como base y se ha potencializado
Hadoop cuenta con dos componentes algunas de sus caractersticas o se ha fu-
principales, el HDFS, sistema de archivos sionado con otra herramienta o tecnologa.
distribuidos que permite distribuir los Ejemplos de esto se pueden encontrar en
ficheros en distintas mquinas y MapRe- [18][20].

Fig. 5. Tecnologas Big Data. Fuente: Autores.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

MapReduce - Localizacin de los datos


- Herramientas de monitorizacin
MapReduce es un modelo de programa-
cin que se ha asociado tambin a la im- Este paradigma ha sido implementado
plementacin de estrategias de procesa- en numerosas aplicaciones, algunos ejem-
miento de grandes conjuntos de datos que plos se pueden encontrar en los siguientes
puede ser aplicado a una gran variedad de documentos, todos se caracterizan por el
tareas del mundo real [8]. Este modelo de uso de MapReduce como base de su imple-
programacin fue utilizado inicialmente mentacin. En [22] se presenta una he-
por Google para resolver el problema de rramienta para el anlisis de produccin
ranking de pginas (Page Rank). El mo- mediante simulaciones a gran escala, en
delo se basa en los siguientes conceptos: [23] se introduce una estrategia para la
iteraciones sobre los datos de entrada, extraccin de patrones significativos a
construccin de los pares clave-valor a partir de textos de fecha y hora, por su
partir de cada pieza de entrada, agrupa- parte en [24] se muestra la implementa-
cin de los valores intermedios de acuerdo cin paralela de redes neuronales multica-
con las claves, iteracin sobre los grupos pa sobre cloud computing clusters, en [25]
resultantes y reduccin de cada grupo [21]. se evala MapReduce para la realizacin
En la Fig. 6 se presenta el esquema de un de minera de texto en informacin biom-
proceso MapReduce y seguidamente, se dica y en [26] se reporta la utilizacin del
hace una descripcin de cada una de fases paradigma para la construccin de un sis-
que involucra. tema de recomendacin de artculos consi-
Mapeo: se aplica en paralelo para cada derado como un problema dentro del alcan-
uno de los tems en la entrada de datos. ce de las soluciones de Big Data. Como se
Por medio de la tarea de mapeo (Map) a puede apreciar, son variados los campos de
cada llamada se asignar una lista de pa- dominio y problemticas que pueden ser
res clave-valor (key-value). Por cada clave abordadas mediante la adopcin de
generada se crea un grupo, el framework MapReduce para la simplificacin de com-
agrupa todos los pares con la misma clave plejos.
extrados de todas las listas tratadas.
Reduccin: se aplica en paralelo para el HBase
grupo asociado a una clave. El resultado es
la produccin de una coleccin de valores Es una base de datos Hadoop, distri-
para cada dominio. buida y escalable. HBase ha sido desarro-
Distribucin y ordenamiento: tiene dos llada por Apache y se recomienda su uso
misiones, por una parte, se encarga de cuando se necesita acceso a lectura y escri-
ordenar por clave todos los resultados emi- tura de datos en tiempo real sobre Big
tidos por los mapper y por otra parte reco- Data. El objetivo de HBase es el almace-
ge todos los valores intermedios pertene- namiento de tablas de gran tamao, con
cientes a una clave para combinarlos en billones de filas por millones de columnas
una lista asociada a ella. [27]. Esta base de datos no relacional fue
Las caractersticas de MapReduce se modelada despus de Bigtable de Google
resumen a continuacin: [28], es open source, distribuida y versio-
nada. HBase provee capacidades similares
- Distribucin y paralelizacin a Bigtable sobre Hadoop y HDFS. Algunas
automticas de sus principales caractersticas son:
- Tolerancia a fallos y a redundancias
- Transparencia
- Escalabilidad horizontal

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

- Escalabilidad modular y linear dra ofrece un modelo de datos que cuenta


- Estricta consistencia de lectura y con comodidad para la indexacin de co-
escritura lumnas, soporte a la desnormalizacin y
- Facilidad de uso de la API de Java para materializacin a las vistas y un poderoso
el acceso de clientes almacenamiento en cach integrado. Es un
- Bloqueo de la cach para consultas en sistema de almacenamiento distribuido con
tiempo real un modelo de datos que soporta un control
- Soporte de para exportar mtricas a dinmico sobre el diseo y el formato de los
travs del subsistema de mtricas de datos [30]. Algunos de los principales atri-
Hadoop butos de Cassandra son:

Cassandra - Tolerancia a fallos, por medio de la


replicacin automtica de los datos en
La base de datos Cassandra, propiedad mltiples nodos
de Apache, brinda escalabilidad y alta - Descentralizacin, uso de muchos nodos
disponibilidad sin comprometer el rendi- idnticos, sin cuellos de botella en la res
miento. Se considera una plataforma ideal - Durable, diseada para evitar la
para tratar problemas de datos crticos, prdida de datos
puesto que cuenta con escalabilidad lineal - Elasticidad, capacidad de aadir nuevas
y la tolerancia a fallos en el hardware o en mquinas para aumentar el
la infraestructura en la nube [29]. Cassan- rendimiento de lectura y escritura

Fig. 6. Esquema general de los procesos MapReduce. Fuente: Autores

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Mahout mentados en Mahout, resumindolos en la


Tabla 3, la cual se presenta a continuacin.
Mahout es un proyecto de Apache que
tiene como objetivo ofrecer un ambiente Tcnicas Big Data
para la creacin rpida de aplicaciones de
aprendizaje mquina escalables y eficien- En cuanto a tcnicas de Big Data, se
tes [31]. Mahout ofrece una suite de algo- dar una breve introduccin, cabe aclarar
ritmos para clustering, categorizacin, que existen diferentes clasificaciones y que
filtrado colaborativo, clasificacin y pro- muchas de estas tcnicas se aplican tanto
gramacin evolutiva. Algunas de sus prin- en soluciones Big Data como en otros enfo-
cipales aplicaciones prcticas se enmarcan ques. En [34] se presenta una clasificacin
en la realizacin de clster de documentos, de las tcnicas de Big data en tcnicas
recomendaciones y organizacin de conte- estadsticas, mtodos de optimizacin,
nidos [32]. El machine learning o aprendi- minera de datos, tcnicas de machine
zaje mquina es el trasfondo principal de learning (aprendizaje mquina), tcnicas
Mahout y corresponde a un subcampo de la de clasificacin y Clustering y tcnicas de
inteligencia artificial que se centra en el anlisis y regresin. Para efectos de este
mejoramiento de procesamientos compu- documento se describen, sin entrar en
tacionales a partir del anlisis de experien- detalle, la minera de datos, el aprendizaje
cias previas. Mahout desde su aparicin ha mquina, el reconocimiento de patrones,
seguido siendo un proyecto en desarrollo, los algoritmos genticos y las reglas de
crecimiento y expansin. Grant Ingersoll asociacin.
en [33] presenta una descripcin de algu-
nos de los ms recientes algoritmos imple-

Tabla 3. Algunos algoritmos en Mahout. Fuente: Tomado y adaptado de [33].


Algoritmo Descripcin breve Aplicaciones
Regresin logstica, resuelta Clasificador brillante, rpido, simple y secuencial, capaz Recomendacin de publicidad,
por gradiente estocstico de aprendizaje on-line en entornos exigentes clasificacin de textos
descendiente (SGD)
Implementaciones secuenciales y paralelas del algoritmo Etiquetado de texto, reconoci-
Modelos ocultos de Markov clsico de clasificacin diseado para modelar procesos miento del discurso
(HMM) del mundo real cuando el proceso de generacin subya-
cente es desconocido
Diseado para reducir el ruido en matrices grandes, Clasificacin para realizar selec-
Descomposicin de valor
haciendo con esto que sean ms pequeas y que sea ms cin de recursos automticamen-
singular (SVD)
fcil trabajar con ellas te
Enfoque de almacenamiento en clster basado en mode- Almacenamiento en clster para
Almacenamiento en clster
lo, que determina la propiedad con base en si los datos se datos con sobreposicin o jerar-
Dirichlet
ajustan al modelo subyacente qua
Es una familia de enfoques similares que usa un enfoque Almacenamiento en clster para
Almacenamiento en clster
basado en grficas para determinar la membresa a conjuntos de datos grandes y no
espectral
clster vistos
Almacenamiento en clster Utiliza una estrategia de hash para agrupar elementos Clster
Minhash similares, produciendo as clsteres
Co-ocurrencia distribuida, SVD, mnimos cuadrados Recomendaciones en sitios de
Numerosas mejoras de
alternantes citas, e-commerce, recomendacio-
recomendador
nes de pelculas o de libros
Implementacin de colocacin reducida por correlacio- Encontrando frases estadstica-
Colocaciones
namiento mente interesantes en texto

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Minera de Datos Los algoritmos de aprendizaje mquina se


clasifican en supervisados y no supervisa-
La minera de datos (data mining - DM) dos.
se puede definir como el proceso de extrac-
cin de conocimiento a partir de cmulos Reconocimiento de patrones
de datos. Se suele utilizar el trmino mine-
ra de datos como sinnimo de descubri- El reconocimiento de patrones (Pattern
miento de conocimiento, pero realmente no Recognition) es una tcnica que se aplica
son sinnimos, la minera de datos es solo principalmente en procesos de ingeniera,
un paso en el proceso de descubrimiento de computacin y matemticas que tiene como
conocimiento [35]. La minera de datos objetivo extraer informacin, a partir de un
nace de la necesidad de conocer informa- cmulo de datos, que brinde la posibilidad
cin til a partir de los bases de datos o de establecer propiedades o relaciones
Datawarehouse, con el crecimiento de los entre estos datos. En el procesamiento de
datos disponibles, la inteligencia de nego- patrones generalmente se usan algoritmos
cios tuvo que dar paso a la aplicacin de la de optimizacin, puesto que su intencin es
minera de datos en soluciones empresaria- hallar una mejor solucin respecto a un
les y comerciales, puesto que de esta ma- criterio definido, teniendo en cuenta que
nera se permite el descubrimiento autom- un proceso de optimizacin es una situa-
tico o semiautomtico de informacin rele- cin que requiere elegir desde un conjunto
vante a partir de estos cmulos de datos. de alternativas, la que lleve al fin requeri-
En las ciencias y la ingeniera existe un do con el costo mnimo [44].
amplio rango de problemas y dominios de
aplicacin para la minera de datos [36]. Algoritmos genticos
Se encuentran soluciones a partir de mine-
ra de datos para problemas de los campos Los algoritmos genticos (genetic algo-
de mercadeo, comercio, salud, prediccin, rithms - GA) son una tcnica aplicada en la
transporte, meteorologa, entre otros. ingeniera computacional, pero que parte
de la concepcin biolgica de la gentica.
Machine learning Estos algoritmos comprenden un enfoque
que busca dar solucin a diversos proble-
Aprendizaje mquina es un rea de in- mas matemticos intangibles que no han
vestigacin bastante reconocida en las podido tener solucin desde otros enfoques
ciencias de la computacin, principalmente matemticos tradicionales [45]. Los algo-
comprende el descubrimiento de modelos, ritmos genticos utilizan tambin opera-
patrones y regularidades en los datos [37]. ciones genticas como la mutacin, recom-
El aprendizaje mquina puede ser visto binacin y cruce. En [46] se definen los
desde dos enfoques, los simblicos y los algoritmos genticos como mtodos de
estadsticos. Los primeros trabajan apren- bsqueda estocsticos diseados para ex-
dizaje inductivo de descripciones simbli- plorar problemas complejos, con el fin de
cas, mientras que los segundos se centran encontrar una solucin ptima, general-
en los mtodos de reconocimiento de patro- mente usando informacin propia del pro-
nes o en la estadstica. En los ltimos aos, blema como gua de la bsqueda. Los algo-
el uso del aprendizaje mquina se ha ex- ritmos genticos se enmarcan dentro de los
tendido con rapidez [38], se ven aplicacio- Algoritmos Evolutivos (Evolutionay Algo-
nes en dominios como deteccin de fraudes, rithms EA) siendo uno de los componen-
sistemas de recomendacin [39], deteccin tes ms importantes, junto con la progra-
de spam [40], predicciones financieras [41], macin gentica y las estrategias evoluti-
comercio y mercadeo [42], [43], entre otros. vas. En [47] se presentan como componen-

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

tes esenciales de los algoritmos genticos enfoques NoSQL (Not Only SQL). En el
los siguientes: trabajo se considera la necesidad de que
estos sistemas sigan garantizando caracte-
- Estrategia de codificacin que rsticas como: escalabilidad, fiabilidad,
determina la forma en que se durabilidad, tiempos de respuesta, interfa-
representar la solucin en forma de ces de consulta, esquemas de particiona-
cromosomas miento y estructura o carencia de esta. Se
- Poblacin de cromosomas o individuos describen los modelos de almacenamiento
- Mecanismo para la evaluacin de cada NoSQL: depsitos llave-valor, basado en
cromosoma documentos, tabular y orientados a grafos.
- Procedimiento de seleccin/reproduccin Los autores afirman que los sistemas
- Operadores genticos: cruce, mutacin NoSQL se adecuan a casos en los que se
- Probabilidades para los operadores necesita atender a muchos usuarios sin
genticos perder rendimiento, como puede pasar en
- Un criterio de finalizacin el caso de las redes sociales. Por su parte,
recomiendan los sistemas de bases de da-
Aprendizaje de reglas de asociacin tos relacionales cuando se trata de garan-
tizar integridad referencial, se requiere el
El aprendizaje de reglas de asociacin uso de conexiones entre servidores y clien-
(Association rule learning), es un mtodo tes, consultas arbitrarias, estandarizacin,
para encontrar las relaciones entre varia- herramientas de anlisis y pruebas de
bles en grandes bases de datos, su objetivo rendimiento.
es identificar reglas usando algunas medi- En [52] presentan la revisin de varios
das de relacin de intereses, por ejemplo, aspectos relacionados con Big Data, tales
en el caso de las redes sociales, se tratara como contenido, alcance, mtodos, venta-
de revisar las personas que posiblemente le jas, desafos, ejemplos y privacidad de los
interesaran seguir a otras dependiendo de datos. La revisin realizada por los autores
sus amistades o seguidores. En el caso de muestra que incluso con las herramientas
tiendas de productos, podra ser la revisin y tcnicas disponibles en la actualidad y la
de los productos que se compran juntos con literatura al respecto, existen muchos pun-
frecuencia para sugerirlos a un cliente que tos a ser considerados, desarrollados, mejo-
adquiera uno de los productos relaciona- rados y analizados. Es claro que la canti-
dos. Algunas aplicaciones del aprendizaje dad de datos ha ido en aumento, lo cual
de reglas de asociacin se encuentran en exige que tambin las tcnicas de anlisis y
[48][50]. tratamiento de datos se hagan ms compe-
titivas, el reto no es solo para recoger y
gestionar el gran volumen y diferentes
4. TENDENCIAS Y RETOS EN BIG DATA
tipos de datos, sino tambin para extraer
En esta seccin se presenta la explora- valor significativo de estos. Se presentan
cin de algunos trabajos que presentan una como las principales barreras para la im-
visin general de las tendencias y enfoques plementacin de analticas de Big Data: la
en el desarrollo de investigaciones en el carencia de expertos en el tema de Big
campo de Big Data. Data, el costo, el manejo de la privacidad
En [51] se muestra una revisin del es- en la manipulacin de los datos, la dificul-
tado del arte en cuanto a sistemas de al- tad en el diseo de sistemas de anlisis, la
macenamiento para grandes volmenes de falta de software que soporte grandes ba-
datos, incluyendo un comparativo entre los ses de datos permitiendo anlisis con tiem-
Sistemas de Administracin de Bases de pos de procesamiento rpido, los problemas
Datos (DBMS) tradicionales y los nuevos de escalabilidad, la incapacidad de hacer

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

que Big Data sea utilizable por usuarios naturaleza de algunos de los algoritmos de
finales, la falta de rapidez en la carga de machine-learning son difcilmente usados
datos con los sistemas de gestin de bases en ambientes como MapReduce, por lo cual
de datos actuales y la ausencia de un mo- se requiere de su adaptacin. En segundo
delo de negocio convincente y rentable en lugar, Big Data trae consigo datos sucios,
torno al tema. con errores potenciales, incompletos o de
En [4] los autores analizan algunas diferente precisin, la IA puede ser usada
tecnologas relacionadas con Big Data co- para identificar y limpiar estos datos su-
mo computacin en la nube, internet de las cios. En tercer lugar, la visualizacin de los
cosas, centros de datos y Hadoop. Tambin datos, con la IA se puede lograr incluir la
se enfocan en la discusin de los desafos captura de capacidades de visualizacin de
tcnicos y adelantos en cada una de las conocimiento para facilitar el anlisis de
fases de Big Data: generacin, adquisicin, datos, un enfoque es crear aplicaciones
almacenamiento y anlisis de datos. El inteligentes de visualizacin para determi-
anlisis de Big Data tiene que afrontar nados tipos de datos. En cuarto lugar, ya
muchos desafos, se requieren considera- que las tecnologas de almacenamiento
bles esfuerzos investigativos, los cuales se evolucionan, es cada vez ms factible pro-
pueden agrupar en los problemas abiertos porcionar a los usuarios, casi en tiempo
presentados en la Fig. 7. real, anlisis de bases de datos ms gran-
En [53] se hace nfasis en la utilizacin des, lo que acelera las capacidades de toma
de tcnicas de Inteligencia Artificial (IA) de decisiones.
para facilitar la captura y estructuracin En [54] presentan una descripcin con-
de grandes volmenes de datos y tambin solidada del concepto de Big Data, partien-
cmo se han implementado para el anlisis do de las definiciones dadas por profesiona-
de estos. Se presentan algunas preocupa- les y acadmicos del campo, como se ve en
ciones respecto a la integracin de IA con la Fig. 8. Sin embargo, el artculo se con-
Big Data, que no se resuelven solo con centra en revisar los mtodos de anlisis
pensar en la distribucin y paralelizacin, usados para Big Data. Se destaca que Big
sino que requieren otros anlisis. Las tc- Data no tiene un verdadero sentido si solo
nicas de IA para el tratamiento de Big se trata de un gran cmulo de datos, su
Data permiten la delegacin de tareas valor potencial se desbloquea solo cuando
complejas de reconocimiento de patrones, estos datos son aprovechados para impul-
aprendizaje y otras tareas basadas en en- sar la toma de decisiones. Para ello es ne-
foques computacionales, la IA contribuye a cesario mover y dar significado a los datos,
la velocidad en la manipulacin de los da- esto se puede hacer por medio de dos sub-
tos, facilitando la toma de decisiones rpi- procesos principales: la gestin y anlisis
das. Por ejemplo, muchas operaciones de la de datos. La gestin de datos implica pro-
bolsa son hechas por sistemas basados en cesos y tecnologas de apoyo para adquirir,
IA en lugar de personas, la velocidad de las almacenar, preparar y recuperar los datos
operaciones puede aumentar y una para su anlisis. El anlisis, por su parte,
transaccin puede conducir a otras. Exis- se refiere a las tcnicas utilizadas para
ten varios problemas emergentes asociados adquirir inteligencia a partir de Big Data.
a la IA y Big Data, en primer lugar, la

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Investigacin Desarrollo Implicaciones Seguridad de


terica tecnolgico prcticas datos
Problemas Formato de Administracin: Privacidad de
fundamentales: conversin: la se requieren datos: esto incluye
Big Data no est heterogeneidad de muchos esfuerzos la proteccin de los
formal ni los datos es una para la generacin datos personales
estructuralmente caracterstica de de nuevos modelos durante la
definido y los Big Data por ello al de adquisicin y
modelos existentes contar con un almacenamiento, durante el
no se verifican en formato de integracin de almacenamiento,
sentido estricto. conversin ms datos con mltiples trasmisin y uso;
eficiente se podr estructuras y se requiere de
Estandarizacin extraer ms valor gestin de datos mayor claridad y
: se requiere un Transferencia: distribuidos reglamentacin en
sistema de este aspecto en Big Bsqueda, este aspecto
evaluacin de la Data suele ser muy minera y Calidad de
calidad de los costoso pero anlisis: es datos: la baja
datos, un estndar inevitable e necesario contar calidad de los datos
de pre- involucra la con algoritmos se ve reflejada en
procesamiento, generacin, para bsqueda una pobre
simplificacin y adquisicin, distribuida, usabilidad de los
deteccin. trasmisin, sistemas de mismos. La calidad
almacenamiento y recomendacin de los datos se
otras masiva, minera de refleja en la
Evolucin de los
transformaciones datos en tiempo precisin,
modos de
de los datos real, minera de integridad,
computacin: la
Rendimiento en imgenes y de redundancia y
transferencia de
tiempo real: texto, entre otros consistencia
datos se ha
convertido en un definir un ciclo de Integracin y Mecanismos de
cuello de botella, vida y computar la procedencia: es seguridad: se
esto exige el tasa de un desafo ya que deben desarrollar
desarrollo de depreciacin de los se tienen mltiples mtodos de
nuevos algoritmos datos y construir patrones de datos y encriptacin
de computacin un modelo de un gran nmero de capaces de abordar
intensiva para computacin en datos redundantes, la diversidad y
afrontar los datos tiempo real as como tambin gran escala de Big
intensivos. influirn en los los datos proceden Data
resultados de de varios datasets Seguridad de la
anlisis de Big Aplicaciones: el informacin en
Data. estudio de Big las aplicaciones
Procesamiento: Data est en una de Big Data: se
se involucran etapa inicial, por lo presentan
problemas como re- cual la necesidad oportunidades para
utilizacin de los de aplicaciones en el desarrollo de
datos, re- diferentes ciencias nuevos
organizacin y el y campos es mecanismos de
fenmeno del data inminente. seguridad
exhaust que trae informtica, en
consigo muchos sistemas de
datos errneos en deteccin de
la adquisicin. intrusos, entre
otros.

Fig. 7. Problemas abiertos en Big Data. Fuente: Elaborado a partir de [4].

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Fig. 8. Definiciones de Big Data basadas en una encuesta en lnea realizada a profesionales y acadmicos del campo.
Fuente: Adaptado de [54].

Los mtodos de anlisis de Big Data a torno a este, incluyendo el planteamiento


los que hacen referencia los autores se de varios campos de investigacin que se
enfocan en los tipos de datos tratados, por encuentran abiertos, principalmente rela-
lo que se describen analticas de texto, cionados con la optimizacin de los siste-
analticas de audio, analticas de social mas de almacenamiento para grandes
media y analticas predictivas. Estas lti- volmenes de datos, los cuales todava
mas, las predictivas, se basan principal- presentan falencias en cuanto al trata-
mente en los mtodos estadsticos, sin miento de distintos tipos de datos a la vez,
embargo, hay algunos factores que requie- la optimizacin de consultas complejas y
ren el desarrollo de nuevos mtodos esta- operaciones sobre los datos.
dsticos para Big Data. En primer lugar, Tambin se ve la diversidad de plan-
los mtodos estadsticos convencionales se teamientos que presentan los autores en
concentran en una pequea muestra de la cuanto al concepto de Big Data y las carac-
poblacin y los resultados se generalizan a tersticas que este debe atender. Es claro
toda la poblacin, pero para el caso de Big que el tema ha tomado un carcter de mo-
Data, las muestras son enormes y repre- da mundial y que se ha dejado de asociar
sentan la mayora o la totalidad de la po- solo a la caracterstica de gran tamao. Se
blacin. En segundo lugar, en trminos de ven tambin posibilidades de explorar la
eficiencia de cmputo muchos mtodos aplicacin de Big Data a nuevos dominios
convencionales para muestras pequeas no de datos, ya que actualmente se han con-
se logran escalar hasta Big Data. El tercer centrado en social media, medicina, bioin-
factor corresponde a algunos de los rasgos formtica y seguridad, principalmente.
distintivos de Big Data: la heterogeneidad,
la acumulacin de ruido, las falsas correla-
ciones y la endogeneidad incidental. 5. CONCLUSIONES
Los trabajos revisados en esta seccin
muestran el estado actual del enfoque Big Teniendo en cuenta los objetivos plan-
Data y de las tendencias que giran en teados para la realizacin de esta explora-

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

cin, el principal aporte logrado con el plean en la construccin de soluciones


artculo es la caracterizacin en un solo particularizadas a problemas de entornos
documento de trabajos, enfoques y herra- de investigacin y produccin reales.
mientas recientes relacionadas con el tr-
mino en boga Big Data, que puede servir
como referente para trabajos posteriores y 6. AGRADECIMIENTOS
para la consulta de investigadores que
deseen adelantar trabajos en el marco de Este trabajo est en el marco del pro-
los campos de estudio abiertos que se dejan yecto titulado: "Consolidacin de las lneas
ver tras la exploracin presentada. de investigacin del Grupo de Investiga-
Este artculo se traz como objetivo cin en Ambientes Inteligentes Adaptati-
mostrar algunos trabajos desarrollados vos GAIA" con cdigo 32059, en el marco de
entorno a la temtica y describir tecnolo- la convocatoria interna de investigacin de
gas y tcnicas de Big Data, notndose que la Facultad de Administracin 2015, para
siguen siendo materia de investigacin y la formulacin y ejecucin de proyectos de
discusin, generando la posibilidad de consolidacin y/o fortalecimiento de los
proponer alternativas y modelos basados grupos de investigacin de la Universidad
en la tctica de divide y vencers. Nacional de Colombia, sede Manizales.
Las tecnologas asociadas al enfoque de
Big Data ya han comenzado a tomar ma-
durez y se vislumbran grandes oportuni- 7. REFERENCIAS
dades y retos en su utilizacin, optimiza-
cin y adaptacin a diferentes dominios de [1] K.C. Li, H. Jiang, L. T. Yang, and A.
datos. Sin embargo, ya se encuentran re- Cuzzocrea, Big Data: Algorithms, Analytics,
and Applications, Chapman &. CRC Press,
sultados que muestran sus beneficios en 2015.
aspectos como la reduccin de tiempos, [2] H. Mohanty, P. Bhuyan, and D. Chenthati,
optimizacin de recursos y mayor flexibili- Big Data: A Primer, vol. 11. Springer, 2015.
dad. Existe una estrecha relacin entre [3] W. M. P. van der Aalst, Data Scientist: The
Engineer of the Future, in Enterprise
diferentes mtodos y tecnologas para la Interoperability VI, no. 7, K. Mertins, F.
construccin de soluciones que integren las Bnaben, R. Poler, and J.-P. Bourrires, Eds.
capacidades de cada uno de estos y las Springer International Publishing, 2014, pp.
potencien en nuevas propuestas. 1326.
Big Data no trata solo de grandes vo- [4] M. Chen, S. Mao, and Y. Liu, Big Data: A
Survey, Mob. Networks Appl., vol. 19, no. 2,
lmenes de datos, sino que incluye otras pp. 171209, Apr. 2014.
dimensiones significativas en el tratamien- [5] L. A. Montenegro Mora, Cmo elaborar un
to de datos, como son la variedad, veloci- artculo de revisin?, San Juan de Pasto,
dad y veracidad. No obstante, una imple- Nario, Colombia, 2013.
[6] Elsevier, Scopus The largest database of
mentacin de Big Data requiere altos cos-
peer-reviewed literature, Scopus Elsevier.
tos en expertos, mayor tiempo de adapta- 2016. [Online]. Available:
cin tecnolgica, dificultad para implemen- https://www.elsevier.com/solutions/scopus.
tar nuevos anlisis y percepcin limitada. [7] S. Robledo Giraldo, G. Osorio Zuluaga, and
Big Data no busca sustituir a los sistemas C. Lpez Espinosa, Networking en pequea
empresa: una revisin bibliogrfica
tradicionales, sino construir una nueva
utilizando la teora de grafos, Rev. Vnculos,
tendencia donde se construyan arquitectu- vol. 11, no. 2, pp. 616, 2014.
ras de sistemas que permitan manejar [8] J. Dean and S. Ghemawat, MapReduce,
todas las peticiones. Y ya ha logrado incen- Commun. ACM, vol. 51, no. 1, p. 107, Jan.
tivar en la comunidad acadmica y comer- 2008.
[9] M. Armbrust, I. Stoica, M. Zaharia, A. Fox,
cial el desarrollo de tecnologas de apoyo R. Griffith, A. D. Joseph, R. Katz, A.
que toman los paradigmas base y los em- Konwinski, G. Lee, D. Patterson, and A.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

Rabkin, A view of cloud computing, [24] H. Zhang and N. Xiao, Parallel


Commun. ACM, vol. 53, no. 4, p. 50, Apr. implementation of multilayered neural
2010. networks based on Map-Reduce on cloud
[10] P. Zikopoulos and C. Eaton, Understanding computing clusters, Soft Comput., vol. 20,
Big Data: Analytics for Enterprise Class no. 4, pp. 14711483, Apr. 2016.
Hadoop and Streaming Data, 1st ed. [25] Y. Ji, Y. Tian, F. Shen, and J. Tran,
McGraw-Hill Osborne Media, 2011. Experimental Evaluations of MapReduce in
[11] T. White, Hadoop: The Definitive Guide, 2nd Biomedical Text Mining, in Information
ed. United States of America: OReilly Media, Technology: New Generations, Springer,
Inc, 2010. 2016, pp. 665675.
[12] D. Bollier, The Promise and Peril of Big [26] S. Singh and N. Ahuja, Article
Data, Washington, DC, 2010. recommendation system based on keyword
[13] C. L. P. Chen and C.-Y. Zhang, Data- using map-reduce, in 2015 Third
intensive applications, challenges, International Conference on Image
techniques and technologies: A survey on Big Information Processing (ICIIP), 2015, pp.
Data, Inf. Sci. (Ny)., vol. 275, pp. 314347, 548550.
2014. [27] T. A. S. Foundation, Apache HBase,
[14] J. Chen, Y. Chen, X. Du, C. Li, J. Lu, S. Apache HBase. 2016. [Online]. Available:
Zhao, and X. Zhou, Big data challenge: a http://hbase.apache.org/
data management perspective, Front. [28] G. C. Deka, A Survey of Cloud Database
Comput. Sci., vol. 7, no. 2, pp. 157164, Apr. Systems, IT Prof., vol. 16, no. 2, pp. 5057,
2013. Mar. 2014.
[15] X. Jin, B. W. Wah, X. Cheng, and Y. Wang, [29] T. A. S. Foundation, The Apache Cassandra
Significance and Challenges of Big Data Project, Apache Cassandra. 2015.
Research, Big Data Res., vol. 2, no. 2, pp. [30] E. Dede, B. Sendir, P. Kuzlu, J. Hartog, and
5964, Jun. 2015. M. Govindaraju, An Evaluation of
[16] Xindong Wu, Xingquan Zhu, Gong-Qing Wu, Cassandra for Hadoop, in 2013 IEEE Sixth
and Wei Ding, Data mining with big data, International Conference on Cloud
IEEE Trans. Knowl. Data Eng., vol. 26, no. Computing, 2013, vol. 2013, pp. 494501.
1, pp. 97107, Jan. 2014. [31] T. A. S. Foundation, Apache Mahout:
[17] T. A. S. Foundation, Welcome to ApacheTM Scalable machine learning and data mining,
Hadoop!, hadoop. 2016. [Online]. Availa- Apache Mahout. 2016.
ble: http://hadoop.apache.org/ [32] G. Ingersoll, Introducing Apache Mahout,
[18] M. Klein, R. Sharma, C. H. Bohrer, C. M. IBM developerWorks. 2009. [Online]. Availa-
Avelis, and E. Roberts, Biospark: scalable ble:
analysis of large numerical datasets from http://www.ibm.com/developerworks/java/libr
biological simulations and experiments using ary/j-mahout/
Hadoop and Spark, Bioinformatics, vol. 33, [33] G. Ingersoll, Apache Mahout: Aprendizaje
no. 2, pp. 303305, Jan. 2017. escalable con mquina para todos, IBM
[19] A. Aji, F. Wang, H. Vo, R. Lee, Q. Liu, X. developerWorks. 2012. [Online]. Available:
Zhang, and J. Saltz, Hadoop GIS: a high http://www.ibm.com/developerworks/ssa/libr
performance spatial data warehousing ary/j-mahout-scaling/
system over mapreduce, Proc. VLDB [34] S. M. D. MUJEEB and L. K. NAIDU, A
Endow., vol. 6, no. 11, pp. 10091020, 2013. Relative Study on Big Data Applications and
[20] A. M. Aly, H. Elmeleegy, Y. Qi, and W. Aref, Techniques, Int. J. Eng. Innov. Technol.,
Kangaroo, in Proceedings of the Ninth ACM vol. 4, no. 10, pp. 133138, 2015.
International Conference on Web Search and [35] J. Han, J. Pei, and M. Kamber, Data
Data Mining - WSDM 16, 2016, pp. 397406. mining: concepts and techniques, 3rd ed., E.
[21] R. Lmmel, Googles MapReduce Inc., Ed. Morgan Kaufmann Publishers,
programming model Revisited, Sci. 2011, p. 703.
Comput. Program., vol. 70, no. 1, pp. 130, [36] R. L. Grossman, C. Kamath, P. Kegelmeyer,
Jan. 2008. V. Kumar, and R. Namburu, Data Mining for
[22] K. Lee, K. Jung, J. Park, and D. Kwon, Scientific and Engineering Applications, vol.
ARLS: A MapReduce-based output analysis 2. Boston, MA: Springer US, 2013.
tool for large-scale simulations, Adv. Eng. [37] R. S. Michalski, J. G. Carbonell, and T. M.
Softw., vol. 95, pp. 2837, May 2016. Mitchell, Machine learning: An artificial
[23] J.-D. Wang, Extracting significant pattern intelligence approach. Springer Science &
histories from timestamped texts using Business Media, 2013.
MapReduce, J. Supercomput., vol. 72, no. 8,
pp. 32363260, Aug. 2016.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin

[38] P. Domingos, A few useful things to know [47] U. Maulik, S. Bandyopadhyay, and A.
about machine learning, Commun. ACM, Mukhopadhyay, Multiobjective Genetic
vol. 55, no. 10, p. 78, Oct. 2012. Algorithms for Clustering: Applications in
[39] I. Portugal, P. Alencar, and D. Cowan, The Data Mining and Bioinformatics. Springer
Use of Machine Learning Algorithms in Science & Business Media, 2011.
Recommender Systems: A Systematic [48] A. E. Doub, M. L. Small, A. Levin, K.
Review, arXiv, vol. 4, pp. 116, Nov. 2015. LeVangie, and T. R. Brick, Identifying users
[40] M. Crawford, T. M. Khoshgoftaar, J. D. of traditional and Internet-based resources
Prusa, A. N. Richter, and H. Al Najada, for meal ideas: An association rule learning
Survey of review spam detection using approach, Appetite, vol. 103, pp. 128136,
machine learning techniques, J. Big Data, Aug. 2016.
vol. 2, no. 1, p. 23, Dec. 2015. [49] H. Sundell, R. Konig, and U. Johansson,
[41] Wei-Yang Lin, Ya-Han Hu, and Chih-Fong Pragmatic Approach to Association Rule
Tsai, Machine Learning in Financial Crisis Learning in Real-World Scenarios, in 2015
Prediction: A Survey, IEEE Trans. Syst. International Conference on Computational
Man, Cybern. Part C (Applications Rev., vol. Science and Computational Intelligence
42, no. 4, pp. 421436, Jul. 2012. (CSCI), 2015, pp. 356361.
[42] R. Dash and P. K. Dash, A hybrid stock [50] R. Sarno, R. D. Dewandono, T. Ahmad, M. F.
trading framework integrating technical Naufal, and F. Sinaga, Hybrid association
analysis with machine learning techniques, rule learning and process mining for fraud
J. Financ. Data Sci., vol. 2, no. 1, pp. 4257, detection, IAENG Int. J. Comput. Sci., vol.
Mar. 2016. 42, no. 2, pp. 114, 2015.
[43] J. Patel, S. Shah, P. Thakkar, and K. [51] S. Jaramillo Valbuena and J. M. Londoo,
Kotecha, Predicting stock and stock price Sistemas para almacenar grandes
index movement using Trend Deterministic volmenes de datos, Rev. Gerenc.
Data Preparation and machine learning Tecnolgica Informtica, vol. 13, no. 37, pp.
techniques, Expert Syst. Appl., vol. 42, no. 1, 1728, 2015.
pp. 259268, Jan. 2015. [52] S. Sagiroglu and D. Sinanc, Big data: A
[44] E. Cuevas, D. Zaldvar, and M. Perez- review, in 2013 International Conference on
Cisneros, Applications of Evolutionary Collaboration Technologies and Systems
Computation in Image Processing and (CTS), 2013, pp. 4247.
Pattern Recognition, 1st ed., vol. 100. Cham: [53] D. E. OLeary, Artificial Intelligence and Big
Springer International Publishing, 2016. Data, IEEE Intell. Syst., vol. 28, no. 2, pp.
[45] K.-F. Man, K. S. TANG, and S. Kwong, 9699, Mar. 2013.
Genetic Algorithms: Concepts and Designs. [54] A. Gandomi and M. Haider, Beyond the
Springer Science & Business Media, 2012. hype: Big data concepts, methods, and
[46] G. Luque and E. Alba, Parallel Genetic analytics, Int. J. Inf. Manage., vol. 35, no. 2,
Algorithms: Theory and Real World pp. 137144, Apr. 2015.
Applications, vol. 367. Springer, 2011.

TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017

You might also like