You are on page 1of 11

Análisis de texto usando R y twitter

Jorge Aldana
Realizaremos la obtención de múltiples tweets para su posterior análisis de texto utilizando
la herramienta R como procesador de datos, la herramienta de creación de apps de twitter
para capturar los datos desde allí.

1. El primer paso a realizar es crear una app en twitter, pero primero se debe tener una
cuenta y en caso contrario, se debe registrar para poder crear la app, nos vamos al
enlace http://apps.twitter.com y si no tenemos ninguna app creada aparecerá un botón
que nos indica que debemos crear una.
En la siguiente ventana, se procederá a llenar la información pertinente para crear la
app
Al crear la app nos aparecerá esta ventana, mostrando las llaves que usaremos más adelante con R
Una vez finalizado solo queda entrar en la pestaña “keys and Access Tokens” pulsar en el botón de
“Generate My Access Token and Token Secret” y copiar las credenciales siguientes:

 consumer_key
 consumer_secret
 access_token
 access_secret
2. Acto seguido es realizar la autenticación hacia twitter usando la herramienta R Project,
lo que se debe hacer primero es crear un archivo .R para guardar las credenciales.
Se comienza por definir las librerías que usará este archivo y luego debemos inicializar
esas librerías obtenidas con el paquete.

Se añade la configuración para la librería de autenticación de twitter, se agregan los


valores de las llaves generadas en la página de aplicación de twitter en las variables
consumer_key, consumer_secret, Access_token, Access_secret.

Se obtienen los tweets mediante la función searchTwitter de la librería twitteR, se


guarda en un objeto los resultados que obtuvo y posteriormente se guarda en un
archivo .csv y se exporta a un archivo .xlsx de Excel, lo último es opcional y es la
visualización del objeto .csv en R.

La ejecución del script arroja la siguiente información


A simple vista es difícil de comprender, pero gracias al archivo exportado con la librería xlsx
podremos observar de manera ordenada como está compuesto el archivo xlsx de los tweets
obtenidos
Una vez obtenida toda la lista de tweets de diversas cuentas y hashtags, realizamos la construcción
del archivo arff de Weka para su posterior análisis de texto. Comenzamos agregando dos campos o
atributos uno llamado comentario que será el texto que tiene cada tweet y el otro atributo será su
valoración es decir si es Bueno, Malo o Neutro el tweet.

Este archivo lo
abrimos con
Weka
Estando en la pestaña de preprocesamiento, procedemos a aplicarle el filtro denominado
“StringToWordVector” encontrado en la carptea “Filters->unsupervised->attribute-
>StringToWordVector”.

Entrando a las configuraciones del filtro, encontramos el apartado “StopWordsHandler” aquí


añadiremos el archivo “Spanish-stopWords” proporcionado en la plataforma que no es más que
una colección de palabras en español. Y en el Stemmer seleccionaremos SnowballStemmer
Una vez aplicado el filtro con su respectiva configuración nos aparecerán segmentada cada
palabra de los comentarios como atributos del archivo como se ve en la siguiente figura
Cuando todo está listo, presionamos el botón Edit de la parte de arriba dentro de la pestaña
preprocesamiento, se abrirá un visualizador que contendrá todas las palabras halladas por el filtro.
Para finalizar con el análisis debemos seleccionar un atributo como clase, en este caso
seleccionamos cualquiera, para este ejemplo será “Barranquilla” y al final quedará nuestra clase
Barranquilla

You might also like