You are on page 1of 1

Mejoras Algortmicas y Estructuras de Datos para Bsquedas Altamente Ecientes

Gabriel H. Tolosa
1

1,2

y Esteban Feuerstein

tolosoft@unlu.edu.ar; efeuerst@dc.uba.ar
Depto. de Ciencias Bsicas. Universidad Nacional de Lujn. Cruce rutas 5 y 7, Lujn. 2 Depto. de Computacin, FCEyN. Universidad de Buenos Aires. P I, Ciudad Universitaria, Buenos Aires.

Introduccin
Internet es la ms grande, diversa y compleja plataforma de comunicaciones existente en el mundo1. Millones de usuarios acceden diariamente a la red con propsitos variados: comunicarse, informarse, entretenerse y realizar transacciones, entre otras. En particular, la Web se ha convertido en el repositorio de informacin ms grande que existe para la humanidad y sobre el cual se soportan decenas de tipos de servicios distribuidos de naturaleza diversa [Berners-Lee, 2000] [Wu, 2002] [Escudeiro, 2008]. Algunas de las caractersticas principales de la web son su heterogeneidad, tamao y dinamismo [Baeza, 2003]. Para navegar por este cmulo de datos, los usuarios utilizan cada vez ms motores de bsqueda, los cuales son implementados en un cluster de computadoras conectadas a una red local de alta velocidad, que habilita el procesamiento en paralelo (Figura 1).

Figura 2 Figura 3 Si bien se han propuesto diversos enfoques para cada caso, ninguno est completamente resuelto y existen oportunidades de optimizacin [Marn, 2010]. La optimizacin de las cachs de listas de posting e intersecciones se encuentran relacionadas con el esquema utilizado en la distribucin de los documentos. Si bien se han realizado aportes sobre los esquemas clsicos (ndice local y global), no existe suciente investigacin en las propuestas hbridas (2D y 3D).

Objetivos y Resultados
Proponer mejoras arquitecturales que permitan mejorar la eciencia de un sistema. *Estructuras de datos distribuidas, basadas en los esquemas hbridos. *Caching de resultados, enfocando el problema a las polticas de admisin, utilizando tcnicas de Web Mining. *Caching de intersecciones. Se propone un enfoque considerando distintos fragmentos de informacin simples y su relacin con consultas ms complejas. Posibles dominios: Motores de bsqueda de propsito general para la web, Buscadores verticales, Redes Sociales, Bsquedas sobre dispositivos mviles.

Figura 1 Esta arquitectura permite la distribucin de la carga de trabajo para el procesamiento de tal coleccin entre muchos nodos y utiliza estructuras de datos distribuidas y algoritmos ecientes (caching, list pruning) que permiten mantener la performance (throughput), picos de demanda y ser escalables.

Lineas de Investigacin
Distribucin del ndice invertido Dos enfoques clsicos [Badue, 2001]: * Particionado por documentos (ndice local): El conjunto de documentos (C) se divide entre los P procesadores. * Particionado por trminos (ndice global): Cada nodo mantiene informacin de las listas de posting completas de solo un subconjunto de los trminos. Propuestas recientes: Esquemas hbridos (ndice 2D [Feuerstein, 2009]) y 3D. En ambos casos se aplica el particionado por documentos en cada columna y por trminos a nivel de las (Figuras 2 y 3). El 3D incluye replicacin. Tcnicas de Caching en Motores de Bsqueda Habitualmente se implementan cachs para resultados de bsqueda [Markatos, 2001] listas de posting [Saraiva, 2001] [Zhang, 2008], intersecciones [Long, 2005] y documentos [Strohman, 2007].

Referencias
[Badue, 2001] C. Badue, R. Baeza-yates, B. Ribeiro-Neto, N. Ziviani. Distributed query processing using partitioned inverted les. SPIRE Proc. of the 9th String Processing and Information Retrieval Symposium. 2001. [Baeza, 2003] R. Baeza-Yates. Information Retrieval in the Web: beyond current search engines. International Journal on Approximated Reasoning 34 (2-3), 2003. [Berners-Lee, 2000] T. Berners-Lee, M. Fischetti, M.L. Dertouzos. Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web. HarperCollins Pub. 2000. [Escudeiro, 2008] N. F. Escudeiro, A. M Jorge. Satisfying Information Needs on the Web: a Survey of Web Information Retrieval. Polytech Studies Review, Vol 6, 2008. [Feuerstein, 2009] E. Feuerstein, M. Marn, M. Mizrahi, V. Gil Costa y R. A. Baeza-Yates. Twodimensional distributed inverted les. In SPIRE 2009, LNCS 5721. [Long, 2005] X. Long, T. Suel. Three-level caching for ecient query processing in large web search engines. In Proc. of the 14th World Wide Web Conference, 2005. [Marn, 2010] M. Marin, V. Gil-Costa, and C. Gomez-Pantoja. New caching techniques for web search engines. ACM HPDC, 2010. [Markatos, 2001] E. P. Markatos. On caching search engine query results. Computing Communications, 24(2), 137143. 2001. [Saraiva, 2001] P. C. Saraiva, E. S. de Moura, N. Ziviani, W. Meira, R. Fonseca, B. Ribeiro-Neto. Rank-preserving two-level caching for scalable search engines. In Proc. of the 24th annual international ACM SIGIR, 2001. [Strohman, 2007]T. Strohman, W. B. Croft. Ecient document retrieval in main memory. In Proceedings of the 30th Annual International ACM SIGIR, 2007. [Wu, 2002] W. Hu. World Wide Web Search Technologies, Architectural Issues of Web-Enables Electronic Business, Idea Group Publishing . 2002. [Zhang, 2008] J. Zhang, X. Long, T. Suel. Performance of compressed inverted list caching in search engines. In Proceedings of the 17th international world wide web conference. 2008.

You might also like