Trabajo Análisis Computacional

El nuevo orden mundial de la información:
“Una sociedad dirigida por los datos”
Curso: Análisis Computacional

Nicole Muñoz Arias
Introducción
La era digital nos permite estar constantemente generando datos, los cuales la mayoría son
almacenados. A esto se le ha denomina Big Data (o macrodatos) lo que exige un nuevo modo
de visualizar la información. Los datos se han convertido en un valor añadido para la economía,
esto refleja un presente-futuro en el cual la sociedad se ve dirigida por datos informáticos. El
desafío de este nuevo “orden mundial” está en el tratamiento y aplicación de esta información
de forma que aporte bienestar en la sociedad. El propósito de este trabajo será examinar cómo
afecta la Big Data en la sociedad, específicamente en el campo de las redes sociales, ilustrando
estudios empíricos que logran elaborar pronósticos de acuerdo con la información de los
usuarios en su acto de generar datos, además de exponer las consecuencias que provoca la
utilización de esta información.
La estructura de este trabajo será de la siguiente forma: se comenzará exponiendo brevemente

las nuevas implicancias del Big Data en la teoría económica y campos empíricos. En la siguiente
sección se presenta una clasificación del Big Data, para luego enfocar el estudio en cómo se
analizan estos datos mediante el aprendizaje automático, ejemplificando dos trabajos
empíricos que se enfocan en el método de “análisis de sentimientos” bajo la red social Twitter.
En la última sección se discute sobre el problema de privacidad que conlleva la utilización y
recolección de la información disponible, explicado con una crítica sobre la vigilancia en la Big
Data. Finalmente, se concluirá y reflexionará respecto a lo expuesto en este trabajo.
Big Data y Teoría Económica
En nuestra vida cotidiana dejamos constantemente rastros virtuales en forma de datos,

información respecto a los lugares que visitamos, nuestro consumo de alimentos y los
productos adquiridos, pistas que logran relatar nuestra vida con mucha precisión. Esta “nueva”
información disponible ha cambiado drásticamente la forma de analizar y estudiar esta gran
magnitud de datos. Einav y Levin (2014)1 reconocen cómo la teoría económica y los estudios
empíricos han evolucionado con la recolección de esta nueva información debido a la Big Data.
Los autores describen cómo este nuevo set de datos disponibles ha traído ventajas y desafíos en
la economía mediante tres cualidades: 1) actualmente los datos están a menudo disponibles en tiempo
real, la información privada que está continuamente actualizándose contribuye un gran valor
en el momento de colaborar y orientar la política económica (e.g. el uso de datos de internet en
tiempo real para pronosticar índices como la inflación, ventas de retail, actividad del mercado
laboral, etc.); 2) los datos ahora están disponibles en actividades que previamente no eran medibles,
muchos datos almacenados son de actividades que previamente eran difíciles de cuantificar,
comunicaciones personales, conexiones sociales, datos de geolocalización, etc., estos datos
abren la puerta a problemas de estudio que los economistas reconocieron como importantes
por largo tiempo, pero no tenían los medios para estudiarlos empíricamente; 3) los nuevos datos
vienen con menos estructura y mayor dimensionalidad, los economistas acostumbran a trabajar con
datos “rectangulares”, es decir, con N observaciones y K < N variables por observación, los
nuevos datos almacenan una secuencia de eventos que pueden ser organizados en una enorme
cantidad de maneras, y por ende se puede crear un ilimitado número de variables. Resolver
cómo se puede estructurar esta dimensional de gran escala se ha convertido en un desafío
crucial en los estudios empíricos económicos.
En definitiva, el análisis de grandes cantidades de datos fácilmente disponibles de la Big Data

ha creado nuevas oportunidades para comprender e influir en cómo piensan y actúan las
personas. Las redes sociales permiten a los usuarios interactuar, crear, compartir e intercambiar
información. Diariamente personas de todo el mundo publican 500 millones de tweets en
Twitter (6.000 tweets por segundo), 35 millones actualizan su estado en Facebook y ven 5,01 mil
millones de videos en YouTube.2 Esto ha impulsado el desarrollo de nuevos enfoques técnicos
y metodológicos para capturar, procesar y analizar datos grandes y complejos. Las
organizaciones pueden usar esta información para informar sus actividades, mejorar la toma
de decisiones, identificar productos y servicios de manera más efectiva y tratar de influir en el
comportamiento de los usuarios en el futuro. Sin embargo, existe un debate acerca de si esta
información, acerca de nuestras vidas, se usa de manera responsable, los indicios apuntan a que
la privacidad de los usuarios no está garantizada, más adelante se discutirá este tema.

Tipos de Big Data (Macrodatos)
IBM3 ha clasificado 5 tipos de datos de Big Data:
•Contenido web e información que es obtenida de las redes sociales

Web and Social Media •Facebook, twitter, blogs
•Tecnologías que permiten conectarse a otros dispositivos. M2M utiliza

Machine-to-Machine dispositivos como sensores o medidores que capturan algún acontecimiento en
(M2M) particular. Se transmiten a través de redes inalámbricas, alámbrias o híbridas.
•(Velocidad, temperatura, presión, variables metereológicas)
•Incluye datos procedente de transacciones masivas de los centros de

atención telefónica, de banca, finanzas, atención a clientes, etc.
Big Transaction Data •Registros de facturación, registros detallados de las llamadas (call detail
record)
•Información biométrica. En el área de seguridad e inteligencia, los datos

biométricos son sumamente importantes para los gobiernos, seguridad provada,
Biometrics servivios de inteligencia, políca, etc.
•Huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
•Datos digitales generados por las personas, en sentido genérico.

Human Generated •Notas de voz, correos electrónicos, documetos electrónicos, multas, etc.
Recolectando datos de las redes sociales

El acceso a grandes cantidades de datos fácilmente disponibles sobre las actividades y
comportamientos de millones de personas es un recurso muy valioso para los investigadores y
las organizaciones. Las interfaces de programación de aplicaciones (APIs) son útiles en el
momento de extraer datos de plataformas de redes sociales.
Análisis de la información: Aprendizaje Automático
La tasa de producción de datos no estructurados en la Big Data dificulta el análisis utilizando

métodos tradicionales. Con las redes sociales, los usuarios tienen hoy en día todo tipo de
facilidades para mostrar sus opiniones sobre cualquier tema que deseen, esta relevante
información genera un nuevo campo de estudio que está desarrollando métodos automáticos
para analizar datos. Una técnica destacada se llama análisis de sentimientos, la cual utiliza
técnicas automatizadas de procesamiento del lenguaje natural para leer y atribuir el significado
a la información textual, dicho de otra forma, se centra en catalogar los documentos en función
de la connotación positiva o negativa del lenguaje utilizado. Es aquí donde el aprendizaje
automático (Machine Learning) recolecta la información del análisis de sentimientos, a través
de la creación de sistemas por medio de Inteligencia Artificial, en otras palabras, la máquina
aprende un algoritmo, el cual supervisa los datos con la intención de poder predecir
comportamientos futuros.
Oscar Romero Llombart4, utiliza cinco métodos diferentes de aprendizaje automático (dos
métodos son explicados con redes neuronales) que se han utilizado para datos de análisis de
sentimientos.
1. Naive Bayes: Es un método basado en la regla

de bayes, la probabilidad de que cada
característica contribuya independientemente
a la probabilidad final de ser una clase, cada
una tiene su distribución.
2. Random Forest: es un método que entrena

árboles de decisiones múltiples. Cada árbol
está entrenado usando un subconjunto
aleatorio de las características del vector. Las
decisiones de cada árbol se combinan usando
un algoritmo de votación que da el resultado.
La secuencia de características y el valor de la
característica genera la ruta hacia la hoja que
representa la decisión. Mientras se entrena, los
valores de los nodos intermedios se actualizan
para minimizar una función de costo que
evalúa el rendimiento de los árboles.
3. Máquinas de vectores de soporte (SVM): son un

método que considera que cada conjunto de
características representa una posición dentro
de un espacio intermedio y luego la SVM intenta
dividirlo usando un hiperplano que maximiza la
distancia entre este hiperplano y cada vector,
minimizando la función objetivo.
4. Neural Networks: es un método que trata de optimizar algunos pesos, el cuerpo de la
neurona, que se multiplican por el vector de características, las dendritas. El resultado
de esta multiplicación es la predicción hecha por esta neurona, la terminal del axón. Se
puede usar como resultado o como una función para el siguiente conjunto de neuronas,
llamadas redes neuronales multicapa (MLP). El objetivo es entrenar las ponderaciones
internas usando el método Gradement Descent y Back-propagation, donde se calcula
una función de costo y el resultado se propaga a los pesos de las neuronas que se
actualizan para minimizar la función objetivo en cada ronda.
Investigaciones con Análisis de Sentimientos
Existen variadas investigaciones basadas en la utilización de “análisis de sentimientos” para

predecir distintos tipos de acontecimientos, un ejemplo es la investigación hecha por Johan
Bollen, Huina Mao y Xiao-Jun Zeng5, en la cual logran concluir que los estados de ánimo (y no
los sentimientos) de los usuarios de Twitter pueden mejorar la precisión de las predicciones del
Dow Jones Industrial Average (DJIA). Los contrastes de medición se diferencian en que el
sentimiento es el estado de ánimo medido como positivo o negativo basado en palabras con
carga emocional (medido con OpinionFinder), en cambio, un método más sofisticado que
utilizaron los autores para medir el estado de ánimo del público fue a través de un algoritmo
llamado Google-Profile of Mood States (GPOMS), que registra el nivel de seis estados: felicidad,
amabilidad, estado de alerta, seguridad, vitalidad y calma.
Para confirmar que los estados de ánimo se pueden medir en Twitter, los investigadores
observaron el estado de ánimo de los usuarios el día de las elecciones de 2008 y Acción de
Gracias. Se logró observar que la medida de “calma” en el estado de ánimo cayó el día anterior
a las elecciones debido a la ansiedad previa del acontecimiento electoral, y volvió a la
normalidad el mismo día y después. En Acción de Gracias, la medida de "felicidad" del estado
de ánimo alcanzó su punto máximo como se podría esperar. Estos resultados están en línea con
el sentido común, por lo que la conclusión es que el estado de ánimo del público puede medirse
a través de Twitter. La pregunta está en por qué relacionar el estado de ánimo del público para
predecir el mercado de valores. Primero, corresponde hacer hincapié en la hipótesis de
eficiencia de mercado, en la cual los precios del mercado de valores están impulsados en gran
medida por las noticias en lugar de los precios pasados, por consiguiente, dado que las noticias
son esencialmente impredecibles, los precios del mercado bursátil seguirán un patrón aleatorio
que solo se puede predecir con un 50% de precisión. Sin embargo, los autores creen que los
precios del mercado de valores no siguen una caminata aleatoria y pueden predecirse hasta
cierto punto. Además, dado que las emociones y los estados de ánimo juegan un papel
importante en la toma de decisiones humanas, las noticias pueden no ser tan impredecibles
como se cree. La hipótesis que evaluó que el sentimiento público se puede utilizar para predecir
el mercado de valores, fue el dicho de que los mercados bursátiles están impulsados por el
miedo y la codicia.
Los autores de este trabajo utilizaron un algoritmo de aprendizaje y 9.7 millones de tweets para
predecir si el mercado de valores subiría o bajaría. Usando datos de días anteriores, pudieron
predecir la forma del mercado accionario con un 73.3% de precisión. Tras la inclusión de datos
GPOMS, su precisión de predicción subió al 86,7%. Especialmente la “tranquilidad” del público
fue predictiva de los cambios DJIA que ocurrieron 3 a 4 días después. Es importante tener en
cuenta que, si bien los datos GPOMS mejoran la eficiencia del modelo, los estados de ánimo
públicos positivos y negativos, no.
Otra investigación hecha por Sitaram Adur y Bernardo A. Huberman6, en la cual utilizan la red
social Twitter para predecir los ingresos de las películas en cartelera. Ellos concluyen que la
tasa tweets acerca de una película predice con exactitud sus ingresos de cartelera. Pero solo
después de que una película ha sido lanzada. Como he explicado anteriormente, una de las
grandes “ventajas” de la revolución de las redes sociales es la capacidad de rastrear el interés de
las personas sobre ciertas cosas en tiempo real. Sitaram Asur y Bernardo muestran que los datos
de las redes sociales no solo se pueden usar para evaluar el día a día de las películas sino para
predecir sus futuros ingresos de cartelera.
Los autores hicieron un seguimiento de las veces que se mencionó una película entre 2,9
millones de tweets de 1,2 millones de usuarios durante tres meses. Su enfoque de muestra
incluyó 24 películas de en cartelera, como Avatar y Twilight: Luna Nueva. Los resultados
demuestran una visión del poder y las limitaciones de Twitter. Además, se descubrió que la
velocidad a la que las personas producen tweets sobre películas puede pronosticar con
precisión los ingresos de taquilla de la película, pero solo después de su lanzamiento. Para el
fin de semana de apertura, su modelo de computadora monitoreó la tasa de tweets cerca de la
fecha de lanzamiento de una película y también tuvo en cuenta el número de salas que
muestran la película. Eso permitió al modelo predecir los ingresos del fin de semana de apertura
con una precisión del 97,3%, en comparación con la precisión del 96,5% de Hollywood Stock
Exchange. Para el segundo fin de semana, el modelo examinó tanto las tasas de tweets como la
proporción de tweets positivos a negativos. Ese enfoque diferente refleja el éxito de
rendimiento del segundo fin de semana basado en el “boca a boca”, en lugar del rendimiento
de fin de semana de apertura. Los resultados del modelo entregaron nuevamente un resultado
eficiente de 94% de precisión.
Invasión de nuestra privacidad
La privacidad es una esfera muy sensible en la vida de todos. A ninguno de nosotros nos gusta
sentirnos espiados u oprimidos por alguien que recopila datos sobre nosotros. El tema de la
privacidad se vuelve aún más importante en la era de la revolución tecnológica, debido a que
recopilar datos hoy en día es más fácil que nunca.
El tema principal del trabajo de David Lyon7 es un análisis del uso de Big Data en términos de
vigilancia. El artículo explica el fenómeno de la vigilancia contemporánea que fue un tema de
interés internacional después de la divulgación de los métodos utilizados por la Agencia de
Seguridad Nacional de los EE. UU. (NSA) en 2013 por Edward Snowden. Lyon señala que, en
situaciones como la filtración de Snowden, los medios masivos se centran en el tema de qué
tipo de datos se recopilan, mientras que el hecho más importante no es qué son estos datos sino
cómo las instituciones como la NSA los analizarán. Los registros telefónicos recopilados en sí
mismos no son los datos más valiosos, pero gracias a ellos, después del análisis adecuado,
pueden brindar información sobre la ubicación de los usuarios del teléfono, sus relaciones con
otros usuarios o incluso cómo es su día. La forma en que se analizan nuestros datos es
realmente importante para comprender el significado de Big Data en el proceso de vigilancia;
sin embargo, es igualmente importante la recopilación de nuestros datos. Según Lyon,
podemos distinguir tres tipos principales de recolección de datos en términos de su uso con
fines de vigilancia. El primero es la información que se recopila debido a cierta necesidad o
solicitud. Esta fuente de datos se conoce como dirigida. El segundo es una fuente de datos
automatizada que permite recopilar datos sin la necesidad de un operador humano como
ocurre en el caso de transacciones bancarias registradas rutinariamente. El tercer tipo de fuente
de datos se conoce como "voluntario". Se aplica a los datos proporcionados “conscientemente”
por los usuarios de plataformas de redes sociales como Facebook, Twitter o Instagram.
El fenómeno de la vigilancia a menudo es justificado por las agencias estatales que utilizan el
fundamento de la "seguridad nacional". Este argumento fue utilizado con entusiasmo para
justificar acciones y cambios de leyes después del ataque terrorista en 2001. David Lyon nota
que, una mayor aceptación social para la vigilancia después del ataque terrorista del 11 de
septiembre coincidió con el aumento de las redes sociales lo que llevó al impulso del "estado de
vigilancia". La arquitectura de las redes sociales y su importancia en la vida cotidiana la
convierten en una gran plataforma para el seguimiento y la supervisión en tiempo real.
En su artículo, Lyon señala que las agencias estatales, como las que se hicieron famosas debido
a las filtraciones de NSA de Snowden, no son los únicos actores que usan métodos de vigilancia.
Siguiendo su definición de Big Data, no es grande solo debido a su capacidad sino también, y
tal vez en particular, debido a su valor. Este valor se puede calcular con dinero real, por lo tanto,
no cabe duda de que empresas como Google o Facebook estén interesadas en él. Sin embargo,
lo que Lyon argumenta es que lo que está bien en términos de vigilancia para compañías como
Google, puede ser completamente inaceptable para agencias estatales como la NSA.
Lyon concluye que Big Data desempeña un papel muy importante en el proceso de vigilancia
moderno. En su opinión, las revelaciones de Snowden mostraron no solo cuánta vigilancia se
basa en Big Data hoy en día, sino también hasta qué punto, en términos de vigilancia, el estado
llega.
Conclusión y Reflexiones
La era digital ha hecho que dispositivos tecnológicos estén presentes diariamente en nuestras
vidas, esto implica una sociedad que genera constantemente datos, donde la mayoría son
almacenados digitalmente en lo que se ha denominado Big Data. Estos hechos marcan una
nueva revolución en nuestra sociedad, planteando cómo logramos generar y utilizar este
océano de información instantánea y continua. Es así como la teoría económica y la
investigación empírica han podido evolucionar con la utilización de la nueva información
disponible. El análisis de estas grandes cantidades de datos ha creado nuevas oportunidades
para comprender e influir en cómo piensan y actúan las personas. Las redes sociales (Twitter,
Facebook, etc.) son una fuente de información disponible para estudiar aspectos sobre la
ciudadanía tales como: análisis de opinión, estados de ánimo, percepción de seguridad, etc. Esto
abre la discusión de un problema muy importante en el tratamiento y almacenamiento del Big
Data: la privacidad y el control de la información.
La privacidad es un gran problema hoy y será un problema mayor mañana. Es necesario

mejorar el sistema legal para gobernar la privacidad, y así ir más allá del sistema de
consentimiento, es decir, cuando las empresas informan a los usuarios qué datos recopilan y
cómo se usan, y como consecuencia las personas dan su aprobación. En realidad, significa que
las personas marcan una casilla aceptando infinitas páginas de tecnicismo legal sin apenas
mirar.
Si bien la privacidad es un problema, existe actualmente una preocupación que se refiere a la

idea de que los algoritmos pueden hacer predicciones sobre lo que es probable que hagamos,
de esta forma podríamos encontrar que estamos penalizados antes de cometer una infracción.
Esto significa que los grandes datos pueden asignar con una alta probabilidad que una persona
robe, o suspenda un préstamo, lo que reflejaría una nueva forma de supervisión social, que
limita el libre comportamiento de la sociedad. Es necesario fortalecer la libre voluntad de la
humanidad, y al mismo tiempo, es fundamental una nueva clase de profesionales para revisar
los análisis de Big Data y así proporcionar a la sociedad transparencia y responsabilidad con el
uso de nuestros datos.
Bibliografía
1. Economics in the age of Big Data (2014), Liran Eivan, Jonathan Levin
2. ¿Qué es Big Data? (2012), IBM
3. 171 Amazing Social Media Statistics You Should Know in 2018 (SocialPilot)
4. Using Machine Learning Techniques for Sentiment Analysis, Oscar Romero Llombart
5. Twitter Mood Predicts the Stock Market (2010), Johan Bollen, Huina Mao, Xiao-Jun Zeng
6. Predicting the Future with Social Media, Sitaram Adur, Bernardo A. Huberman
7. Surveillance, Snowden, and Big Data: Capacities, consequences, critique (2014), David Lyon

Trabajo Análisis Computacional

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Trabajo Análisis Computacional

Uploaded by

Copyright:

Available Formats

El nuevo orden mundial de la información:

“Una sociedad dirigida por los datos”

Curso: Análisis Computacional

La estructura de este trabajo será de la siguiente forma: se comenzará exponiendo brevemente

En nuestra vida cotidiana dejamos constantemente rastros virtuales en forma de datos,

En definitiva, el análisis de grandes cantidades de datos fácilmente disponibles de la Big Data

•Contenido web e información que es obtenida de las redes sociales

•Tecnologías que permiten conectarse a otros dispositivos. M2M utiliza

•Incluye datos procedente de transacciones masivas de los centros de

•Información biométrica. En el área de seguridad e inteligencia, los datos

•Datos digitales generados por las personas, en sentido genérico.

Recolectando datos de las redes sociales

Análisis de la información: Aprendizaje Automático

La tasa de producción de datos no estructurados en la Big Data dificulta el análisis utilizando

1. Naive Bayes: Es un método basado en la regla

2. Random Forest: es un método que entrena

3. Máquinas de vectores de soporte (SVM): son un

Investigaciones con Análisis de Sentimientos

Existen variadas investigaciones basadas en la utilización de “análisis de sentimientos” para

Invasión de nuestra privacidad

La privacidad es un gran problema hoy y será un problema mayor mañana. Es necesario

Si bien la privacidad es un problema, existe actualmente una preocupación que se refiere a la

You might also like