Professional Documents
Culture Documents
Resumen La presencia cada vez mayor de las Bases de Datos especializadas y su uso generalizado por un colectivo amplio de usuarios, as como las posibilidades de difusin que las nuevas tecnologas ofrecen, obligan a un anlisis mejor y ms pertinente de los documentos. Este trabajo aborda la teora y la prctica del anlisis documental, la indizacin conceptual y la elaboracin de resmenes. Palabras clave Bases de datos analticas;Anlisis de la informacin;Indizacin;Resumen
Abstract The increasing presence of specialised Databases, and their generalized usage of them by a wide sector of users, as well as the possibilities of dissemination provided by new technologies, requires a better and more appropriate analysis of documents. This paper concerns the theory and practice of document analysis, conceptual indexing and abstracts writing. Analytical Databases;Information Analysis;Indexation;Abstract
I. EL ANLISIS DOCUMENTAL. DEFINICIN Y CONCEPTO El anlisis documental es un trabajo mediante el cual por un proceso intelectual extraemos unas nociones del documento para representarlo y facilitar el acceso a los originales. Analizar, por tanto, es derivar de un documento el conjunto de palabras y smbolos que le sirvan de representacin. En este amplio concepto, el anlisis cubre desde la identificacin externa o descripcin fsica del documento a travs de sus elementos formales como autor, ttulo, editorial, nombre de revista, ao de publicacin, etc., hasta la descripcin conceptual de su contenido o temtica, realizada a travs de los lenguajes de indizacin, como palabras clave o descriptores del tesauro. El concepto de indizacin se identifica con el anlisis del contenido en la medida que dichos lenguajes se utilizan para elaborar los ndices temticos por los que se recupera la informacin. Muchos y muy diversos pueden ser los mtodos de anlisis utilizados para representar el documento. La mayor o menor profundidad del anlisis depender en gran medida de los siguientes aspectos: Tipo de usuarios y necesidades de informacin ms o menos especializadas Tipos de servicios que se ofrecen. Bibliotecas generales, empresas, Centros de Documentacin, etc. Documentos a analizar: Libros, artculos de revistas, literatura gris, prensa, legislacin.
Bases de datos y sistemas de recuperacin utilizados y sus posibilidades Finalidad tcnica del anlisis: catlogacin o recuperacin especializada.
Podremos hacer una descripcin fsica basada en las normas ISBD y un anlisis de contenido superficial a partir de una clasificacin universal o encabezamientos de materia, propio de los sistemas bibliotecarios de catalogacin y cuya finalidad primordial es la creacin de un inventario de documentos. Por el contrario, un sistema documental especializado realiza el anlisis de contenido basado en la significacin o contexto. Es un autntico anlisis en profundidad que implica las tcnicas documentales de indizacin y resumen.
Un lenguaje documental es un sistema convencional de signos que permite representar el contenido de los documentos con el fin de encontrar aquellos pertinentes en respuesta a preguntas sobre un tema. Para la mayora de los especialistas el concepto de lenguaje documental es sinnimo de lenguaje controlado, frente al lenguaje natural que es el que utiliza el discurso cientfico, tcnico o literario. Dicho discurso est cargado de metforas, sinonimias y hominimias y necesita ser organizado y normalizado para permitir una recuperacin eficaz del documento a salvo de los dos grandes problemas documentales: el ruido, -exceso de informacin encontrada no pertinente,- y el silencio,- ausencia de informacin pertinente que existe en la base de datos y no es recuperada. Un ttulo como Las sombras del pasado difcilmente nos orienta sobre el qu, el quin, el cundo o el dnde. Incluso en otros ttulos ms precisos la recuperacin por unitrminos a partir de las palabras de los ttulos crea muchos problemas derivados de la indizacin con lenguaje natural. Los principales problemas del lenguaje natural son: Normalizacin de singulares y plurales. Para dicho tema la indizacin debe ajustarse en lo posible a la Norma UNE 50-106-90.Normas para el desarrollo de tesauros monolinges. Adems el significado de muchos trminos vara segn su nmero (Derecho; derechos/Obligacin ;Obligaciones). Ambigedad y falta de especificidad. La utilizacin de unitrminos, propio del lenguaje natural1 crea adems ambigedad y falsas combinaciones en la recuperacin. Segn el ejemplo anterior un buen sistema controlado debera recoge formas como : Obligacin de declarar;Obligaciones del Estado.
Mortimer Taube idea en 1958 el sistema de indizacin por unitrminos en lenguaje natural extrados de los ttulos. Siguiendo este camino Lhun en 1959 crea los ndices KWIC y plantea la elaboracin de bases de datos a partir de ttulos y texto como el CITATION INDEX.
Muchos trminos estn perfectamente claros y definidos en su utilizacin. As, las notas de alcance de un tesauro nos permiten aclarar aquellos conceptos que ayuden a su uso en el contexto exacto.(Restauracin N.A. Reinado de Alfonso XII). Las posibles homonimias de este concepto pueden solucionarse apellidando el homnimo (Restauracin artstica) Adems al apellidar un unitrmino, convirtindolo en palabra clave evitamos la ambigedad y le damos mayor especificidad (Restauracin de la comunidad conyugal) Sinonimias. La utilizacin de sinnimos, que aporta valor y riqueza desde el punto de vista literario es el mayor problema en la recuperacin en texto libre en las bases de datos. No olvidemos que el principio ideal de la indizacin est en el uso del concepto frente a la palabra. As cada forma debe tener un nico significado y cada significado debe ir asociado a una nica forma. El tesauro controla las sinonimias mediante los reenvos: Enfermedad laboral Usado por Enfermedad profesional Enfermedad profesional Use Enfermedad laboral
Homonimias o polisemias. El distinto significado de una misma palabra es una caracterstica de la terminologa cientfica e incluso en las Ciencias Sociales es indicio de escuelas historiogrficas o geogrficas. (Edad Moderna (Europa), Encomiendas;Ingenios (Historia de Amrica Latina)) . En muchos casos la precoordinacin de trminos soluciona las homonimias (Restauracin artstica), en otros es necesaria una nota de alcance e incluso la adscripcin de un trmino a una familia o grupo semntico en el tesauro, le confiere una clara conceptualizacin. Un eficaz anlisis implica la utilizacin de vocabularios controlados y procedimientos sintcticos convencionales que permitan crear un vnculo entre el que emite el mensaje y el que lo recibe. Un metalenguaje que armonice pregunta y respuesta.
Los lenguajes y vocabularios controlados utilizados en la indizacin han evolucionado desde los primeros lenguajes clasificatorios hasta los actuales tesauros especializados. Las clasificaciones universales, (CDU, LC, UNESCO) resultan poco pertinentes como nico lenguaje de recuperacin en bases de datos. Parten de una divisin del saber hoy superada por la especificidad actual y los puntos de vista particulares de las disciplinas cientficas. Su estructura jerrquica impide la combinacin de los mltiples aspectos de una investigacin, y no permite recoger temas muy especficos o novedosos. Las clasificaciones especializadas, elaboradas para una disciplina o un sistema documental especfico, tienen sin embargo utilidad como complementarias a los descriptores. Permiten englobar en un marco amplio todos aquellos documentos de una
base de datos a los efectos de una acotacin posterior por descriptores. Posibilitan adems organizar subproductos de la base de datos, como bibliografas impresas. Dice Maniez 2 que para elegir la clasificacin ms idnea habra que analizar como recoge cada una de ellas un tema o aspecto disciplinar concreto y tratar prcticamente de ajustar un conjunto de documentos recientes a distintas clasificaciones. Los encabezamientos de materia utilizados tradicionalmente en las bibliotecas como descriptores del contenido de los documentos tienen tambin una serie de problemas a la hora de la recuperacin. Concebidos para la elaboracin de catlogos impresos, los mayores inconvenientes en el uso de encabezamientos vienen dados por el exceso de precoordinacin de los trminos y las normas de presentacin en los ndices. Dichas normas, excesivamente complejas, da como resultado una falta de criterios homogneos a la hora de escoger los trminos, convirtiendo este lenguaje en un sistema excesivamente encorsetado y rgido que impide las combinaciones en la recuperacin. . El tesauro es el vocabulario controlado ms eficaz para el anlisis y la recuperacin de la documentacin especializada. Sus ventajas fundamentales son: la especificidad de sus trminos y sus posibilidades combinatorias en la recuperacin. En el encontraremos los trminos preferentes de uso, as como los sinnimos rechazados; conceptos ms amplios o ms especficos de la misma familia semntica y aquellos otros que deben acompaarles en la indizacin por sus relaciones contextuales. Estos ltimos dan un valor aadido a los tesauros frente a otro tipo de vocabularios de indizacin ya que permiten abordar el anlisis del texto desde mltiples puntos de vista, incluso desde el plano contextual de las asociaciones de ideas que cobran sentido dentro de una disciplina o investigacin. Las listas de autoridades o de identificadores son vocabularios alfabticos independientes que permiten normalizar trminos tales como nombres propios de personas, instituciones, ttulos de obras, nombres geogrficos o cualquier otro nombre necesario en la indizacin y que por mltiples razones no es posible incluir en el tesauro. No olvidemos que segn la especialidad de la base de datos, necesitaremos diferentes campos complementarios de contenido. IV. METODOLOGA DE INDIZACIN 1. Descripcin del documento. La primera fase de la indizacin implica la descripcin fsica o anlisis formal de los documentos. Se utiliza un lenguaje controlado. Mientras en la catalogacin de bibliotecas se utilizan las normas ISBD o ISSD, en las bases de datos especializadas el panorama es muy heterogneo, mediatizado por el diseo de las bases de datos. Sin embargo, los campos descriptivos fundamentales debern ser todos aquellos necesarios para la identificacin y obtencin del documento.
Autor/es Lugar de trabajo de los autores Ttulo Lengua de la publicacin Ao de publicacin, pginas
Campos especficos segn tipo de documento Monografas Lugar de edicin Editorial Coleccin ISBN Signatura Compilaciones Ttulo del artculo Ttulo colectivo Compilador o Director (adems del resto de campos de monografas) Artculos de revistas Ttulo del artculo Nombre de la revista Volumen y/o Nmero ISSN Actas de Congresos Ttulo de la ponencia Nombre del Congreso Lugar de celebracin Ao de celebracin
El anlisis de contenido de la informacin implica la identificacin y representacin del contenido de los textos mediante dos tcnicas fundamentales: la indizacin y el resumen. Indizar es extraer una serie de conceptos que responden a los temas tratados en el documento, y que servirn como puntos de acceso para su recuperacin. El analista de la informacin que se enfrenta a un texto debe realizar un trabajo intelectual de lectura, abstraccin, anlisis y sntesis. Este ejercicio implica 3 tener en cuenta varios factores o elementos del texto: Mensaje del documento o informacin que ofrece La forma que adopta o como presenta la informacin La estructura interna o sistema de relaciones semnticas Las aportaciones del documento respecto al corpus cientfico general
Para un buen anlisis de la informacin es necesario abarcar todos estos factores, desde el conocimiento de la materia, pasando por la comprensin de los principales elementos y relaciones que el autor plantea, hasta la capacidad de discernir la importancia de dicho texto para la comunidad de especialistas. A estos factores hay que aadir la prctica documental consistente en convertir el texto original en un documento
3
Garca Gutierrez, A.L. Estructura lingstica de la documentacin: teora y mtodo. Murcia: Secretariado de Publicaciones, 1990
secundario: el registro, que permita en cualquier sistema la transferencia de la informacin mediante acceso por los descriptores seleccionados.
Seleccin de trminos de indizacin. La seleccin de trminos de indizacin depende de las siguientes caractersticas: Exhaustividad versus generalidad : Materia frente a tema. Campos semnticos: De qu trata el documento?; quines son sus protagonistas?; a qu poca se refiere? o a qu lugar?. Cmo se trata la informacin? y qu tipo de estudio se realiza?.
Los principales tipos de trminos de indizacion podran ser: Objetos contables: Libros Procesos:Emigracin;Conservacin Acciones:Contratacin;Juicio Conceptos histricos: Guerra de Cuba; Ilustracin Colectivos:Aliados;Ordenes religiosas Literarios: Martn Fierro Documentos Jurdicos: Constitucin de 1812 Artsticos: Las Meninas Polticos: Simn Bolivar Escritores: Jorge Luis Borges Instituciones: Congreso de los Diputados Fechas: 14/2/84 Cronologa Aos: 1898 Siglos: XX Pases: Ecuador Supranacionales:Pases rabes Topnimos Provincias: Buenos Aires Ciudades: Santiago de Cuba Fsico-naturales: Andes Histricos: Nueva Espaa Personajes