Professional Documents
Culture Documents
Grupo SIE
PROYECTO DE MINERIA:
Busqueda de características independientes
(Factorización de matrices no negativas)
INDICE DE CONTENIDO
En este caso, voy a trabajar con información sobre películas, estos datos son las
sinopsis, críticas,etc de las mismas y el objetivo es lograr aislar los temas de los que
tratan con únicamente estos textos.
Por lo tanto, el objetivo es crear unos temas generales para las películas, por lo
tanto, luego habría que analizar experimentalmente los resultados, para crear un numero
suficientemente alto de categorías para que aporten algo de información y
suficientemente bajo para que no sean demasiado concretas.
Vamos a trabajar sobre 1519 películas que tiene 503 comentarios y 333 críticas.
Sobre la información que voy a utilizar, cabe decir una cuantas cosas.
Las críticas son colaboraciones de los visitantes del portal, que han sido
supervisadas antes de ser añadidas. Tienen un estilo formal y están revisadas antes de
añadirse, lo que es importante por el funcionamiento del algoritmo. Aproximadamente
un 21 % de las películas tienen crítica y algunas de ellas, tienen varias.
Mediante un simple script, he creado un fichero xml para cada película, el cual,
sigue el estándar RSS. Aunque haber implementado un parser XML no es complicado,
por motivos de tiempo he creído mejor opción usar un parser ya desarrollado, y de entre
ellos, los que más rapidez ofrecían, eran los de RSS.
El susodicho fichero es muy simple. Los nombres de los archivos van de 1.xml
al 1518.xml y su estructura interna es la siguiente:
4. MODELADO
Para lograr esto, lo que vamos a intentar es lograr dos matrices que
multiplicadas, den un resultado lo más aproximado posible a la matriz de películas.
La segunda, la matriz de pesos, nos va a decir la importancia que tiene cada una
de las características anteriormente comentadas, para una película en concreto.
El algoritmo nos garantiza una solución, pero no nos permite acotar el error
máximo que queremos, es decir, siempre nos da una solución, pero no necesariamente
tiene que ser útil. Cuantas más iteraciones hagamos, la solución obtenida sera mejor. De
todas formas, en pocas iteraciones, el error decrece a un ritmo de orden similar a la
inversa de la exponencial.
Tras esto, las multiplica y calcula la diferencia que hay entre el resultado y la
matriz de películas. Para esto utilizamos una función de coste, que no es otra cosa que la
distancia euclídea entre el resultado de la multiplicación y la matriz de películas que
habíamos obtenido en un primer momento.
Por un lado, voy a analizar los resultados de la película con más críticas. Con
esto obtendremos una muestra sobre como se comporta el algoritmo disponiendo de
textos en un lenguaje formal.
Creo que también es importante analizar los resultados para la película que más
consultas tiene, ya que nos puede servir de muestra para ver cuanto de interesante puede
ser para los visitantes del portal.
Y por último, la película con menos visitas, que ademas no tiene ni comentarios
ni críticas. Con esto podremos observar el comportamiento del algoritmo en la situación
extrema, en la cual dispone del mínimo de información posible.
Monstruoso
1 2 3
Datos Peso Característica Peso Característica Peso Característica
'alatriste', 'visto', historia', 'guerra', mundo', 'mucho',
'cuando', 'parece', 'joven', 'personajes',
20 C. - 5 I. 24,4 19,1 16,7
'mundo', 'personajes', 'entre', 'bastante',
'monstruoso' 'final', 'familia' 'tanto'
'monstruo', 'barcelona',
'historia', 'superman', 'final', 'pelicula',
40 C. - 4 I. 36,0 'monstruoso', 33,6 'entre', 'hasta', 23,4 'cuando',
'todos', 'visto', 'monstruoso', 'historia', 'mundo',
'buena' 'fiesta' 'hasta'
'monstruo',
'monstruo',
'monstruoso', 'monstruoso',
'monstruoso',
'blair', 'david', 'bastante',
100 C. - 10 I. 108,5 'fiesta', 99,3 80,7
'visto', 'mucho', 'cloverfield',
'cloverfield',
'fiesta' 'pelicula',
'visto', 'bruja'
'provoca'
Los Edukadores
1 2 3
Datos Peso Característica Peso Característica Peso Característica
personajes',
tiene', 'comedia', tiene', 'alatriste',
'historia', 'hasta',
20 C. - 5 I. 4,2 'donde', 'final', 3,6 3,1 'buena', 'mejor',
'culas', 'entre',
'menos', 'mucho' 'parte', 'primera'
'cuenta'
barcelona',
espectador',
cuando', 'tiene', 'pelicula',
'leonor', 'aunque',
40 C. - 4 I. 8,4 7,2 'alatriste', 'puede', 4,0 'cuando',
'donde', 'mucho',
'parece', 'aunque' 'historia', 'mundo',
'elijah'
'hasta'
dupree',
peter', 'garfio', cuando', 'entre',
'mientras', 'amigo',
100 C. - 10 I. 28,2 'wendy', 'viaje', 15,1 12,0 'barrie', 'familia',
'trabajo', 'donde',
'james', 'donde' 'sobre', 'durante'
'molly'
Asesinato justo
1 2 3
Datos Peso Característica Peso Característica Peso Característica
mejor', 'hasta', barcelona', 'tiene', historia', 'guerra',
'hacer', 'aunque', 'joven',
20 C. - 5 I. 0,3 0,2 0,2
'superman', 'cuando', 'hasta', 'personajes',
'drama', 'tiempo' 'culas' 'final', 'familia'
aunque', 'historia', personajes', cuando', 'polic',
'superman', 'mucho', 'todos', 'historia',
40 C. - 4 I. 0,8 0,3 0,3
'hacer', 'donde', 'siempre', 'phoenix', 'guerra',
'alatriste' 'mundo', 'tanto' 'siempre'
scully', 'serie', familia', 'guerra', gangster', 'parte',
100 C. - 10 I. 2,5 'mulder', 'extra', 1,3 'entre', 'drama', 1,3 'roberts', 'tambi',
'historia', 'relaci' 'islas', 'soldados' 'frank', 'personaje'
Para explotarlo de una manera seria, creo que habría que realizar un análisis con
más detenimiento de los resultados obtenidos, aunque con la información actual creo
que estoy en disposición de extrapolar algunas reflexiones interesantes.
Por un lado, creo que su aplicación seria ideal con una base de datos donde todas
las películas tuviesen una cantidad de información relativamente homogenea, ya que
sino, las que tienen más generan una condensación de características, lo que obliga, a
que todas sean definidas en función de las primeras.
En cuanto a las posibles aplicaciones, son numerosas, por citar algunos ejemplos
integrar los resultados en las búsquedas, categorizar las películas, ofrecer a los visitantes
películas que tratan de temáticas similares, etc.