Professional Documents
Culture Documents
ISSN 0123-7799
ISSN-e 2256-5337
Vol. 20, No. 39
Mayo - agosto de 2017
Emilcy J. Hernndez-Leal1,
Nstor D. Duque-Mndez2 y Julin Moreno-Cadavid3
Resumen
Big Data se ha convertido en una tendencia a nivel mundial y aunque an no
cuenta con un concepto cientfico o acadmico consensuado, se augura cada da
mayor crecimiento del mercado que lo envuelve y de las reas de investigacin
asociadas. En este artculo se reporta una exploracin de literatura sobre Big
Data, que comprende un estado del arte de las tcnicas y tecnologas asociadas a
Big Data, las cuales abarcan captura, procesamiento, anlisis y visualizacin de
datos. Se exploran tambin las caractersticas, fortalezas, debilidades y
oportunidades de algunas aplicaciones y modelos que incluyen Big Data,
principalmente para el soporte al modelado de datos, anlisis y minera de datos.
Asimismo, se introducen algunas de las tendencias futuras para el desarrollo de
Big Data por medio de la definicin de aspectos bsicos, alcance e importancia de
cada una. La metodologa empleada para la exploracin incluye la aplicacin de
dos estrategias, una primera corresponde a un anlisis cienciomtrico; y la
segunda, una categorizacin de documentos por medio de una herramienta web
de apoyo a los procesos de revisin literaria. Como resultados se obtiene una
sntesis y conclusiones en torno a la temtica y se plantean posibles escenarios
para trabajos investigativos en el campo de dominio.
Palabras clave
Big Data, anlisis de datos, ciencia de los datos, minera de datos, anlisis
Big Data.
Abstract
Big Data has become a worldwide trend and although still lacks a scientific or
academic consensual concept, every day it portends greater market growth that
surrounds and the associated research areas. This paper reports a systematic
review of the literature on Big Data considering a state of the art about
techniques and technologies associated with Big Data, which include capture,
processing, analysis and data visualization. The characteristics, strengths,
weaknesses and opportunities for some applications and Big Data models that
include support mainly for modeling, analysis, and data mining are explored.
Likewise, some of the future trends for the development of Big Data are
introduced by basic aspects, scope, and importance of each one. The methodology
used for exploration involves the application of two strategies, the first
corresponds to a scientometric analysis and the second corresponds to a
categorization of documents through a web tool to support the process of
literature review. As results, a summary and conclusions about the subject are
generated and possible scenarios arise for research work in the field.
Keywords
Big data, data analysis, data science, data mining, big data analysis.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
Lo que resta del artculo se organiza de los resultados obtenidos a partir de una
la siguiente forma: en la siguiente Seccin ecuacin de bsqueda, con ello se puede
se presenta la metodologa y principales extraer informacin relevante de la temti-
hallazgos de esta exploracin. En la Sec- ca de inters que se est abordando. Para
cin 3 se muestran las tecnologas y tcni- este acercamiento se utiliz como ecuacin
cas para el tratamiento de Big Data. Por su de bsqueda big data y a continuacin se
parte, en la Seccin 4 se muestran algunas presentan algunos aspectos relevantes que
tendencias y retos en el campo, y se finali- se extrajeron de los resultados en
za en la Seccin 5, con las conclusiones que SCOPUS. Se decidi utilizar esta ecuacin
parten del anlisis del contexto presentado de bsqueda poco delimitada, porque se
en las secciones previas. pretende presentar un estado general de
presencia y tratamiento de la temtica.
El total de recursos encontrados fue de
2. METODOLOGA 16.902. En la Fig. 1 se presenta el nmero
de documentos publicados por ao. Se
El desarrollo de esta exploracin se aprecia que los estudios del tema llevan
realiz siguiendo dos estrategias. Como poco ms de un lustro, se puede ver que en
primera estrategia, se hizo un acercamien- el ao 2012 es cuando realmente toma
to cienciomtrico por medio de la herra- fuerza y viene teniendo un crecimiento
mienta bibliogrfica SCOPUS, un ndice significativo, pasando de 646 resultados en
bibliogrfico que contiene una coleccin 2012 a 7508 resultados en 2015. Para el
representativa, completa y multidisciplinar 2016 se presentan los resultados corres-
a nivel mundial. La segunda estrategia pondientes a los cuatro primeros meses del
comprende el anlisis de algunos trabajos ao.
particulares referentes al soporte y estruc- Como se aprecia en la Fig. 2, si se revi-
tura conceptual de la temtica abordada. sa segn el tipo de recurso, se ve una mar-
Estos fueron seleccionados y clasificados cada tendencia hacia los artculos de confe-
por medio de la herramienta ToS (Tree of rencia, con un total de 9.493 resultados.
Science), desarrollada en la Universidad Los artculos cientficos muestran 4.824
Nacional de Colombia. A continuacin, se resultados, mientras que los captulos de
detallarn cada una de las estrategias y se libro y los libros solo despliegan 388 y 88
mostrarn los resultados obtenidos. resultados respectivamente, lo anterior
ratifica la etapa naciente en que se encuen-
2.1 Primera estrategia de exploracin tra este campo de estudio, puesto que sus
bases tericas apenas se estn consolidan-
SCOPUS es una de las ms grandes ba- do.
ses de datos de resmenes y citas de litera- Revisando los resultados agrupados por
tura revisadas por pares, contienen artcu- pas de publicacin, se puede ver una con-
los de revistas cientficas, libros y artculos centracin en Estados Unidos y China
de congresos, posibilitando tener una vi- como se aprecia en la Fig. 3. En los pases
sin global de la produccin acadmica e europeos se encuentra un nmero tambin
investigativa en campos de la ciencia, tec- significativo de trabajos, mientras que en
nologa, medicina, artes y humanidades Sur Amrica, Oceana y frica, el desarro-
[6]. Adems, esta herramienta permite llo de investigaciones en el campo es an
clasificar, refinar y analizar de forma gil incipiente.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
Fig. 1. Nmero de artculos publicados por ao, periodo 2010 2016. Fuente: Autores.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
2.2 Segunda estrategia de exploracin Para el caso particular, se usaron los si-
guientes parmetros para la bsqueda:
Como segunda estrategia se hizo un
anlisis detallado de algunos documentos, - Palabras de bsqueda: Big Data
utilizando para su seleccin y clasificacin - Restriccin de aos: 2010-2016
una herramienta desarrollada desde el - Categora de Web of Science: computer
Grupo de Investigacin en Ambientes Inte- science information systems
ligentes Adaptativos GAIA y como par- - Tipo de documento: documentos cientfi-
te de una tesis doctoral en la Universidad cos
Nacional de Colombia Sede Manizales.
La herramienta llamada ToS (Tree of Se hizo la bsqueda en el ndice biblio-
Science) [7], funciona en la web y se puede grfico Web of Science (ndice con el cual
acceder a ella a travs del enlace trabaja la herramienta ToS) y se obtuvo un
http://tos.manizales.unal.edu.co/. total de ciento setenta y cuatro (174) ar-
Los resultados que brinda la herra- tculos para los parmetros de bsqueda. A
mienta son construidos a partir de la utili- partir del anlisis de este grupo de artcu-
zacin de una serie de algoritmos de redes los y de las referencias citadas en los mis-
complejas, los cuales optimizan los resul- mos, la herramienta ToS hizo el respectivo
tados de la bsqueda y seleccin de docu- refinamiento y retorn diez artculos con-
mentos cientficos publicados. Esta herra- siderados raz, en el tronco se clasificaron
mienta clasifica los documentos en raz, otros diez y setenta artculos fueron ubica-
tronco y ramas a partir de la lista de dos en las ramas, como se aprecia en la
trabajos encontrados. Los documentos raz Fig. 4. Cabe aclarar que en este documento
hacen referencia a las investigaciones que no se reportar la totalidad de los artculos
dan soporte al enfoque o temtica abarca- arrojados por la herramienta, se ha reali-
da, los documentos tronco son aquellos que zado una seleccin de los documentos que
dan estructura al tema y los documentos cubren la temtica, permitiendo tener una
rama son las perspectivas y tendencias. visin general del estado del arte y de las
tendencias y campos de trabajo.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
Dimensin,
Autores - Tipo de campo o
Ttulo Sntesis del documento
Ao documento herramienta
analizado
Map Reduce es uno de los enfoques que se mues-
Dean, J. tra como base slida de las soluciones Big Data, ya
MapReduce: simpli- Artculo en que desde el paradigma de distribucin de proce-
Ghemawat,
fied data processing revista MapReduce
S. samiento se pueden afrontar problemas de trata-
on large clusters cientfica
2008 miento de grandes volmenes de datos que las
herramientas tradicionales no soportan.
Cloud computing, o computacin en la nube es una
tendencia que logr virtualizar procesos que
Armbrust, Artculo en requeran de grandes inversiones en hardware, las
A view of cloud Cloud Compu-
M. et al. revista cuales no siempre podan ser afrontadas por las
computing ting
2010 cientfica organizaciones. Con ello se ha permitido tambin,
que el crecimiento de los datos y su procesamiento
se pueda escalar.
Tomando dos perspectivas, la empresarial y la
tecnolgica se analiza Big Data y se concluye que
Understanding Big se debe realizar un anlisis previo a la implemen-
Perspectivas tacin de soluciones desde este enfoque, puesto
Zikopoulos, Data: Analytics for
Big Data:
P. et al. Enterprise Class Libro que segn el tipo de datos que se manejen, las
Empresarial,
2011 Hadoop and Stream- soluciones tradicionales pueden seguir siendo ms
tecnolgica
ing Data eficientes respecto a las que implementan Hadoop
o procesamiento distribuido, en otras ocasiones lo
indicado es tener una solucin mixta.
Se presenta todo el ecosistema Hadoop, tecnolo-
gas de almacenamiento, procesamiento y anlisis
White, T. Hadoop: The Defini- Ecosistema de datos adaptadas a diferentes tipos de datos.
Libro
2011 tive Guide Hadoop Desde esta gua se presentan casos de xito de
soluciones Big Data desde lo conceptual y aplica-
das a casos de estudio.
El mundo presenta una tendencia cada vez ms
marcada hacia la generacin de datos. Ya sea
desde la interaccin de las personas con las nue-
Bollier, D. The Promise and Analticas Big vas tecnologas, las mediciones de variables del
Informe
2010 Peril of Big Data Data entorno o los flujos de datos personales. Todas
estas fuentes de datos se convierten en posibilida-
des de investigacin cientfica e innovacin em-
presarial.
En [13] se presenta Big Data, sus apli- rentes campos cientficos, como la astro-
caciones, las oportunidades y desafos de noma, la meteorologa, la bioinformtica y
estas tecnologas, as como tambin tcni- la biologa computacional. Dichos campos
cas de ltima generacin que se han adop- basan gran parte de su descubrimiento
tado para hacer frente a los problemas de cientfico en el anlisis de grandes volme-
Big Data. Se discuten algunas metodolo- nes de datos. Otro de los aportes significa-
gas utilizadas para tratar cantidades con- tivos, es la descripcin de los principios
siderables de datos como es la computacin para el diseo de sistemas Big Data. Estos
granular, la computacin en la nube, la son: (1) Buenas arquitecturas y frame-
computacin bio-inspirada y la compu- works son necesarios y de alta prioridad.
tacin cuntica. Destacan el papel que han (2) Soportar una variedad de mtodos ana-
jugado los datos como promotores de dife- lticos. (3) No hay un tamao definido para
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
todo. (4) Conducir el anlisis de los datos. ponen las siguientes: contenidos generados
(5) El procesamiento debe ser distribuido. por usuarios, estos vienen de aplicaciones
(6) El almacenamiento de los datos debe que cuentan con usuarios masivos, por
ser distribuido. (7) Es necesaria una coor- ejemplo tweets o blogs; datos transacciona-
dinacin entre las unidades de procesa- les, son generados por sistemas masivos
miento y de datos. que procesan transacciones y operaciones
En [4] se revisan algunas de las tecno- como por ejemplo lectores de radio frecuen-
logas relacionadas a Big Data como cia, transacciones empresariales, entre
computacin en la nube, Internet de las otras; datos cientficos, estos son produci-
cosas, centros de datos y Hadoop. Tambin dos por aplicaciones o experimentos de
se mencionan las fases de la cadena de datos-intensivos, por ejemplo datos del
valor de Big Data y finalmente se exami- genoma o datos de asistencia sanitaria;
nan algunos casos de aplicacin como ges- datos web, provienen de los procesos que
tin empresarial, internet de las cosas, soportan aplicaciones web como bsquedas
redes sociales, aplicaciones mdicas, inteli- y minera, tambin de los billones de pgi-
gencia colectiva y redes elctricas inteli- nas web que existen; Grafos de datos, co-
gentes. En cuanto a las fases de Big Data, rresponden a un enorme nmero de nodos
se definen cuatro principales: generacin, de informacin y las relaciones entre estos
adquisicin, almacenamiento y anlisis de nodos. Adicionalmente, se habla de la
datos. Los autores afirman que, sin tratar reduccin de Big Data, entendida como la
de predecir el futuro, el panorama de Big reduccin de las cantidades exorbitantes a
Data se concentrar en: datos con escalas y los segmentos significativos, se presentan
diversidad cada vez mayores y estructuras tcnicas como machine learning y el proce-
mucho ms complejas, la necesidad de samiento paralelo masivo para este fin.
rendimiento de los recursos de datos, Big Es importante tambin, tener en cuenta
Data promover la fusin transversal de la cmo en el rea de la industria y los nego-
ciencia, tendr grandes retos de visualiza- cios se ha presentado una explosin en el
cin de datos y una orientacin a los datos nmero de datos, causada principalmente
cada vez ms marcada. A su vez, se pre- por el rpido desarrollo del internet, nue-
sentan los desafos de Big Data, estos re- vos conceptos como el internet de las cosas
quieren de un esfuerzo investigativo y son y la computacin en la nube. Big data se ha
agrupados en las siguientes categoras: constituido como un tpico caliente que
investigacin terica, desarrollo tecnolgi- atrae la atencin no solo de la industria,
co, implicaciones prcticas y seguridad de sino tambin de la academia y del Go-
datos. bierno. Los autores presentan desde dife-
Desde una perspectiva de la adminis- rentes perspectivas el significado y las
tracin de los datos, en [14] se presenta oportunidades que nos brinda el ecosiste-
una discusin acerca de la diversidad de ma Big Data y dan una serie de condicio-
Big Data, las necesidades de integracin y nes necesarias para que un proyecto de Big
limpieza, las consultas e indexacin y fi- Data sea exitoso. En primer lugar, se de-
nalmente la minera y anlisis sobre Big ben tener claros los requerimientos inde-
Data. El inicio de Big Data va directamen- pendientemente de si son tcnicos, sociales
te relacionado con el crecimiento de los o econmicos. En segundo lugar, para tra-
datos generados por la sociedad. Estos bajar de forma eficiente con Big Data se
datos suelen caracterizarse por su hetero- requiere explorar y encontrar la estructura
geneidad y por la variedad de fuentes des- central o el kernel de los datos a ser proce-
de las cuales provienen, sin embargo, se sados, ya que al tener esto se puede carac-
pueden clasificar estas fuentes de acuerdo terizar el comportamiento y las propieda-
con donde son generadas. Los autores pro- des subyacentes a Big Data. En tercer
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
lugar, se debe adoptar un modelo de admi- en una estructura de tres niveles. La parte
nistracin top-down, se puede considerar central, la "plataforma de minera de Big
tambin un modelo bottom-up, sin embar- Data" (nivel I), que se enfoca en el acceso a
go, solo servira cuando se trata de proble- los datos de bajo nivel y computacin. Los
mas especficos, y luego tratar de unirlos desafos en el intercambio de informacin y
para formar una solucin completa es com- la privacidad, los dominios de aplicacin de
plejo. Por ltimo, los autores exponen la Big Data y el conocimiento forman el nivel
necesidad de abordar desde los proyectos II, que se concentra en la semntica de alto
Big Data soluciones integradas, no con nivel, las aplicaciones de dominio de cono-
esfuerzos aislados [15]. cimiento y los problemas de privacidad del
Los retos que se desprenden del consu- usuario. Ya en el nivel III se presentan los
mo y creacin de informacin a travs de la desafos en los actuales algoritmos de mi-
red incluyen necesidades de captura, ma- nera.
nejo y procesamiento de grandes volme- Cabe resaltar, que los documentos con-
nes de datos. En [16] los autores proponen siderados tronco, para este caso, corres-
un teorema llamado HACE (Heteroge- ponden a revisiones del estado del arte en
neous, Autonomous, Complex y Evolving), Big Data. En la Tabla 2 se presenta una
con el cual buscan describir las caracters- sntesis de los mismos.
ticas de la revolucin de Big Data. El teo- En la exploracin se encontr que el
rema plantea la existencia de un gran termino Big Data ha tenido gran acogida
volumen de datos heterogneos y prove- en la comunidad, representado esto en el
nientes de fuentes autnomas con control surgimiento de tecnologas, tcnicas y en-
distribuido y descentralizado, y que trata foques.
de explorar relaciones complejas y cam- Sin embargo, se presenta an una mar-
biantes entre los datos. Los autores plan- cada tendencia hacia los aportes de tipo
tean que hay un gran desafo para descu- conceptual, son pocos los resultados y ha-
brir conocimiento til desde Big Data. La llazgos que permitan realmente vislumbrar
heterogeneidad se refiere a los diferentes de forma tangible sus beneficios frente a
tipos de representaciones para los mismos otras tendencias o tecnologas tradiciona-
individuos, y la diversidad de caractersti- les. Los trabajos se concentran, en su gran
cas se refiere a la variedad a la hora de mayora, en asociar Big Data a grandes
representar cada observacin particular. volmenes de datos o a la distribucin de
Las fuentes de datos autnomas con con- procesamiento. En el primer caso, no es
trol distribuido y descentralizado son, se- claro cul es la cantidad de datos que per-
gn los autores, la principal caracterstica mite esta calificacin; y para el segundo, no
de las aplicaciones de Big Data. Al ser hay coincidencia en determinar para qu
autnomas, cada fuente de datos tiene la tipo de datos el procesamiento distribuido
capacidad de generar y recopilar informa- consigue mejores resultados. La volatilidad
cin sin la participacin de un ente de con- y variabilidad an no reciben la atencin
trol centralizado. Se plantea, adems, que necesaria. Con lo anterior, se ratifica que
un marco de trabajo para el procesamiento existen numerosos vacos conceptuales y
de Big Data presenta ciertos desafos de tecnolgicos en los cuales se pueden plan-
investigacin, los cuales se pueden reunir tear trabajos investigativos y prcticos.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
tecnologas de Big Data que se revisarn duce, framework que permite al desarro-
en este documento. Se decide presentar llador aislarse de la programacin parale-
estas tecnologas ya que son software de la, permite ejecutar programas escritos en
libre uso y que permite la generacin de lenguajes de programacin conocidos (p.e
soluciones de Big Data de acuerdo con las Java) en el clster de Haddop. El HDFS
necesidades particulares de un dominio de cuenta con tres pilares bsicos. Namenode,
datos u organizacin. Cabe aclarar que se ocupa del control de acceso y tiene la
existen un mayor nmero de tecnologas informacin sobre la distribucin de datos
que soportan Big Data, tanto libres como en el resto de nodos. Datanodes, son los
propietarias, pero para efectos de este encargados de ejecutar el cmputo, es de-
documento se ha acotado de acuerdo con lo cir, las funciones Map y Reduce, sobre los
anteriormente expuesto y tomando las datos almacenados de manera local en
tecnologas que dieron las bases iniciales al cada uno de dichos nodos. Jobtracker, este
ecosistema Big Data. nodo se encarga de las tareas y ejerce el
control sobre la ejecucin del proceso de
Hadoop MapReduce. Adems, el HDFS cuenta con
las siguientes caractersticas fundamenta-
Hadoop es una librera de Apache defi- les:
nida como un framework que permite ha-
cer procesamiento de datos distribuido - Tolerancia a fallos
sobre volmenes de datos de considerable - Acceso a datos en streaming
tamao sobre clster. Est diseado pen- - Facilidad para el trabajo
sando en brindar poder de escalamiento - Modelo sencillo de coherencia
desde un par de servidores hasta cientos de - Portabilidad de convivencia
mquinas o nodos, las cuales manejan
almacenamiento y procesamiento local Varios trabajos donde se ha tomado
[17]. Hadoop como base y se ha potencializado
Hadoop cuenta con dos componentes algunas de sus caractersticas o se ha fu-
principales, el HDFS, sistema de archivos sionado con otra herramienta o tecnologa.
distribuidos que permite distribuir los Ejemplos de esto se pueden encontrar en
ficheros en distintas mquinas y MapRe- [18][20].
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
tes esenciales de los algoritmos genticos enfoques NoSQL (Not Only SQL). En el
los siguientes: trabajo se considera la necesidad de que
estos sistemas sigan garantizando caracte-
- Estrategia de codificacin que rsticas como: escalabilidad, fiabilidad,
determina la forma en que se durabilidad, tiempos de respuesta, interfa-
representar la solucin en forma de ces de consulta, esquemas de particiona-
cromosomas miento y estructura o carencia de esta. Se
- Poblacin de cromosomas o individuos describen los modelos de almacenamiento
- Mecanismo para la evaluacin de cada NoSQL: depsitos llave-valor, basado en
cromosoma documentos, tabular y orientados a grafos.
- Procedimiento de seleccin/reproduccin Los autores afirman que los sistemas
- Operadores genticos: cruce, mutacin NoSQL se adecuan a casos en los que se
- Probabilidades para los operadores necesita atender a muchos usuarios sin
genticos perder rendimiento, como puede pasar en
- Un criterio de finalizacin el caso de las redes sociales. Por su parte,
recomiendan los sistemas de bases de da-
Aprendizaje de reglas de asociacin tos relacionales cuando se trata de garan-
tizar integridad referencial, se requiere el
El aprendizaje de reglas de asociacin uso de conexiones entre servidores y clien-
(Association rule learning), es un mtodo tes, consultas arbitrarias, estandarizacin,
para encontrar las relaciones entre varia- herramientas de anlisis y pruebas de
bles en grandes bases de datos, su objetivo rendimiento.
es identificar reglas usando algunas medi- En [52] presentan la revisin de varios
das de relacin de intereses, por ejemplo, aspectos relacionados con Big Data, tales
en el caso de las redes sociales, se tratara como contenido, alcance, mtodos, venta-
de revisar las personas que posiblemente le jas, desafos, ejemplos y privacidad de los
interesaran seguir a otras dependiendo de datos. La revisin realizada por los autores
sus amistades o seguidores. En el caso de muestra que incluso con las herramientas
tiendas de productos, podra ser la revisin y tcnicas disponibles en la actualidad y la
de los productos que se compran juntos con literatura al respecto, existen muchos pun-
frecuencia para sugerirlos a un cliente que tos a ser considerados, desarrollados, mejo-
adquiera uno de los productos relaciona- rados y analizados. Es claro que la canti-
dos. Algunas aplicaciones del aprendizaje dad de datos ha ido en aumento, lo cual
de reglas de asociacin se encuentran en exige que tambin las tcnicas de anlisis y
[48][50]. tratamiento de datos se hagan ms compe-
titivas, el reto no es solo para recoger y
gestionar el gran volumen y diferentes
4. TENDENCIAS Y RETOS EN BIG DATA
tipos de datos, sino tambin para extraer
En esta seccin se presenta la explora- valor significativo de estos. Se presentan
cin de algunos trabajos que presentan una como las principales barreras para la im-
visin general de las tendencias y enfoques plementacin de analticas de Big Data: la
en el desarrollo de investigaciones en el carencia de expertos en el tema de Big
campo de Big Data. Data, el costo, el manejo de la privacidad
En [51] se muestra una revisin del es- en la manipulacin de los datos, la dificul-
tado del arte en cuanto a sistemas de al- tad en el diseo de sistemas de anlisis, la
macenamiento para grandes volmenes de falta de software que soporte grandes ba-
datos, incluyendo un comparativo entre los ses de datos permitiendo anlisis con tiem-
Sistemas de Administracin de Bases de pos de procesamiento rpido, los problemas
Datos (DBMS) tradicionales y los nuevos de escalabilidad, la incapacidad de hacer
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
que Big Data sea utilizable por usuarios naturaleza de algunos de los algoritmos de
finales, la falta de rapidez en la carga de machine-learning son difcilmente usados
datos con los sistemas de gestin de bases en ambientes como MapReduce, por lo cual
de datos actuales y la ausencia de un mo- se requiere de su adaptacin. En segundo
delo de negocio convincente y rentable en lugar, Big Data trae consigo datos sucios,
torno al tema. con errores potenciales, incompletos o de
En [4] los autores analizan algunas diferente precisin, la IA puede ser usada
tecnologas relacionadas con Big Data co- para identificar y limpiar estos datos su-
mo computacin en la nube, internet de las cios. En tercer lugar, la visualizacin de los
cosas, centros de datos y Hadoop. Tambin datos, con la IA se puede lograr incluir la
se enfocan en la discusin de los desafos captura de capacidades de visualizacin de
tcnicos y adelantos en cada una de las conocimiento para facilitar el anlisis de
fases de Big Data: generacin, adquisicin, datos, un enfoque es crear aplicaciones
almacenamiento y anlisis de datos. El inteligentes de visualizacin para determi-
anlisis de Big Data tiene que afrontar nados tipos de datos. En cuarto lugar, ya
muchos desafos, se requieren considera- que las tecnologas de almacenamiento
bles esfuerzos investigativos, los cuales se evolucionan, es cada vez ms factible pro-
pueden agrupar en los problemas abiertos porcionar a los usuarios, casi en tiempo
presentados en la Fig. 7. real, anlisis de bases de datos ms gran-
En [53] se hace nfasis en la utilizacin des, lo que acelera las capacidades de toma
de tcnicas de Inteligencia Artificial (IA) de decisiones.
para facilitar la captura y estructuracin En [54] presentan una descripcin con-
de grandes volmenes de datos y tambin solidada del concepto de Big Data, partien-
cmo se han implementado para el anlisis do de las definiciones dadas por profesiona-
de estos. Se presentan algunas preocupa- les y acadmicos del campo, como se ve en
ciones respecto a la integracin de IA con la Fig. 8. Sin embargo, el artculo se con-
Big Data, que no se resuelven solo con centra en revisar los mtodos de anlisis
pensar en la distribucin y paralelizacin, usados para Big Data. Se destaca que Big
sino que requieren otros anlisis. Las tc- Data no tiene un verdadero sentido si solo
nicas de IA para el tratamiento de Big se trata de un gran cmulo de datos, su
Data permiten la delegacin de tareas valor potencial se desbloquea solo cuando
complejas de reconocimiento de patrones, estos datos son aprovechados para impul-
aprendizaje y otras tareas basadas en en- sar la toma de decisiones. Para ello es ne-
foques computacionales, la IA contribuye a cesario mover y dar significado a los datos,
la velocidad en la manipulacin de los da- esto se puede hacer por medio de dos sub-
tos, facilitando la toma de decisiones rpi- procesos principales: la gestin y anlisis
das. Por ejemplo, muchas operaciones de la de datos. La gestin de datos implica pro-
bolsa son hechas por sistemas basados en cesos y tecnologas de apoyo para adquirir,
IA en lugar de personas, la velocidad de las almacenar, preparar y recuperar los datos
operaciones puede aumentar y una para su anlisis. El anlisis, por su parte,
transaccin puede conducir a otras. Exis- se refiere a las tcnicas utilizadas para
ten varios problemas emergentes asociados adquirir inteligencia a partir de Big Data.
a la IA y Big Data, en primer lugar, la
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
Fig. 8. Definiciones de Big Data basadas en una encuesta en lnea realizada a profesionales y acadmicos del campo.
Fuente: Adaptado de [54].
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017
Big Data: una exploracin de investigaciones, tecnologas y casos de aplicacin
[38] P. Domingos, A few useful things to know [47] U. Maulik, S. Bandyopadhyay, and A.
about machine learning, Commun. ACM, Mukhopadhyay, Multiobjective Genetic
vol. 55, no. 10, p. 78, Oct. 2012. Algorithms for Clustering: Applications in
[39] I. Portugal, P. Alencar, and D. Cowan, The Data Mining and Bioinformatics. Springer
Use of Machine Learning Algorithms in Science & Business Media, 2011.
Recommender Systems: A Systematic [48] A. E. Doub, M. L. Small, A. Levin, K.
Review, arXiv, vol. 4, pp. 116, Nov. 2015. LeVangie, and T. R. Brick, Identifying users
[40] M. Crawford, T. M. Khoshgoftaar, J. D. of traditional and Internet-based resources
Prusa, A. N. Richter, and H. Al Najada, for meal ideas: An association rule learning
Survey of review spam detection using approach, Appetite, vol. 103, pp. 128136,
machine learning techniques, J. Big Data, Aug. 2016.
vol. 2, no. 1, p. 23, Dec. 2015. [49] H. Sundell, R. Konig, and U. Johansson,
[41] Wei-Yang Lin, Ya-Han Hu, and Chih-Fong Pragmatic Approach to Association Rule
Tsai, Machine Learning in Financial Crisis Learning in Real-World Scenarios, in 2015
Prediction: A Survey, IEEE Trans. Syst. International Conference on Computational
Man, Cybern. Part C (Applications Rev., vol. Science and Computational Intelligence
42, no. 4, pp. 421436, Jul. 2012. (CSCI), 2015, pp. 356361.
[42] R. Dash and P. K. Dash, A hybrid stock [50] R. Sarno, R. D. Dewandono, T. Ahmad, M. F.
trading framework integrating technical Naufal, and F. Sinaga, Hybrid association
analysis with machine learning techniques, rule learning and process mining for fraud
J. Financ. Data Sci., vol. 2, no. 1, pp. 4257, detection, IAENG Int. J. Comput. Sci., vol.
Mar. 2016. 42, no. 2, pp. 114, 2015.
[43] J. Patel, S. Shah, P. Thakkar, and K. [51] S. Jaramillo Valbuena and J. M. Londoo,
Kotecha, Predicting stock and stock price Sistemas para almacenar grandes
index movement using Trend Deterministic volmenes de datos, Rev. Gerenc.
Data Preparation and machine learning Tecnolgica Informtica, vol. 13, no. 37, pp.
techniques, Expert Syst. Appl., vol. 42, no. 1, 1728, 2015.
pp. 259268, Jan. 2015. [52] S. Sagiroglu and D. Sinanc, Big data: A
[44] E. Cuevas, D. Zaldvar, and M. Perez- review, in 2013 International Conference on
Cisneros, Applications of Evolutionary Collaboration Technologies and Systems
Computation in Image Processing and (CTS), 2013, pp. 4247.
Pattern Recognition, 1st ed., vol. 100. Cham: [53] D. E. OLeary, Artificial Intelligence and Big
Springer International Publishing, 2016. Data, IEEE Intell. Syst., vol. 28, no. 2, pp.
[45] K.-F. Man, K. S. TANG, and S. Kwong, 9699, Mar. 2013.
Genetic Algorithms: Concepts and Designs. [54] A. Gandomi and M. Haider, Beyond the
Springer Science & Business Media, 2012. hype: Big data concepts, methods, and
[46] G. Luque and E. Alba, Parallel Genetic analytics, Int. J. Inf. Manage., vol. 35, no. 2,
Algorithms: Theory and Real World pp. 137144, Apr. 2015.
Applications, vol. 367. Springer, 2011.
TecnoLgicas, ISSN 0123-7799 - ISSN-e 2256-5337, Vol. 20, No. 39, mayo - agosto de 2017