Professional Documents
Culture Documents
CUSCO
INFORME DE TRABAJO N° 01
“ALGORITMO DE PORTER, ALGORITMO DE
BRILL”
Cusco – Perú
2018
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
INDICE GENERAL
pág. 1
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
INDICE DE FIGURAS
Figura 1.1 Algoritmo de Porter ………………………………………................................ 4
Figura 1.2 Reglas que aplica Porter …………………………………………………………….... Página
4
Figura 1.3 Tipos de palabras con las que trabaja Porter ……………………………….. 5
Figura 1.4 Análisis morfológico de Porter ……………………………………………………… 5
Figura 2.1 Etiquetador Léxico ……………………………………………............................. 6
Figura 2.2 Etiquetador de palabras desconocidos …………………………………………. 6
Figura 2.3 Plantilla genérica de transformaciones léxicas ……………………………… 6
Figura 2.4 Ejemplos de Transformaciones …………………………………………………….. 7
Figura 2.5 Etiquetador contextual …………………………………………………………………. 7
pág. 2
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
I. INFORMACIÓN GENERAL
- Objetivos:
Conocer los fundamentos teóricos y el funcionamiento de los Algoritmos de
Porter y de Brill utilizando Python.
- Aplicación:
Su aplicación principal es como parte de un proceso de normalización de
términos que generalmente se realiza al configurar los sistemas de
recuperación de información.
- Definición
La lematización de corpus textuales (sobre todo en inglés) ha tenido un
avance considerable a partir de la implementación del Algoritmo de Porter.
Martin Porter desarrollo un algoritmo que, automáticamente, permite
identificar asociar la raíz (o stemmer) de un conjunto de palabras similares.
El algoritmo de derivación de Porter es un proceso para eliminar sufijos de
las palabras. Eliminar sufijos automáticamente es una operación que es
especialmente útil en el campo de la recuperación de información. En un
típico entorno IR (Recuperación de Información), un documento está
representado por un vector de palabras o términos. Los términos con una
raíz común tienen generalmente significados similares, por ejemplo:
CONECTAR
CONECTADO
CONECTANDO
CONEXIÓN
CONEXIONES
Por lo general, se desea que solo se eliminen los morfemas flexivos (los
correspondientes a las declinaciones, conjugaciones, etc.), no también
morfemas derivativos (que corresponden a diferentes partes del habla). El
pág. 3
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
Tal vez el mejor criterio para eliminar sufijos de dos palabras W1 y W2 para
producir un único tallo S, es decir que lo hacemos sí parece que no hay
diferencia entre las dos declaraciones.
- Algoritmo
El algoritmo de Porter se presenta de la siguiente manera:
pág. 4
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
2. Brill
- Objetivo:
Asociar etiquetas a formas de palabras, basado en transformaciones
basadas en errores.
- Aplicación:
Este algoritmo se aplica al Etiquetado de voz parcial, que es el proceso de
asociación de cada palabra en un texto de un discurso de categoría y
posiblemente un conjunto de característica morfosintáctico. Esta información
está representada por etiquetas de voz parcial.
- Definición:
Otro algoritmo útil en esta clase de procesamiento al nivel de palabra es el
que desarrolló Eric Brill, el cual reconoce formas de palabras, asociándolas
posteriormente a una etiqueta sintáctica.
pág. 5
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
- Algoritmo:
El algoritmo de Brill se fundamenta en el aprendizaje basado en
transformaciones y dirigido por el error. Este algoritmo consta de los
siguientes módulos:
Etiquetador léxico.
Etiquetador de palabras desconocidas
Etiquetador contextual
pág. 6
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
Un ejemplo de transformaciones:
III. PROCEDIMIENTO
- Algoritmo de Porter:
i. Buscar y analizar la librería “Porter.py” en la ubicación “C:\Users\Linford
JD\AppData\Local\Programs\Python\Python36-32\Lib\site-
packages\nltk\stem”
pág. 7
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
- Algoritmo de Brill:
i. Buscar y analizar la librería “Porter.py” en la ubicación “C:\Users\Linford
JD\AppData\Local\Programs\Python\Python36-32\Lib\site-
packages\nltk\tag” y también buscamos y analizamos “_init_.py” que
utiliza “brill.py” y que finalmente tiene la función que desarrolla el
algoritmo.
pág. 8
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
pág. 9
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
- ¿Que se ha encontrado?
2. Algoritmo de Brill
- ¿Qué indican los resultados?
- ¿Que se ha encontrado?
V. CUESTIONARIO
1. Probar el Algoritmo de Porter con un texto. Mostrar los resultados
Resultado:
4. Probar el Algoritmo de Porter con texto en otro idioma, mostrar los resultados,
¿A qué conclusión llego?
pág. 10
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
Resultado
8. Probar el Algoritmo de Brill con texto en otro idioma, mostrar los resultados, ¿A
qué conclusión llego?
pág. 11
INFORME DE TRABAJO N° 01 – DESARROLLO DE LOS ALGORITMOS DE PORTER Y DE BRILL
CONCLUSIONES
Se desarrolló los Conceptos teóricos para entender el funcionamiento de los algoritmos de Porter
y de Brill, así como también se desarrolló la aplicación de ambos para comprobar su
funcionamiento utilizando las librerías que nos brinda NLTK, observándose que los resultados
coinciden con lo que se presentó en la teoría.
RECOMENDACIONES
Antes de empezar analizar las librerías que podríamos utilizar para para desarrollar la practica
satisfactoriamente y comparar resultados con los ejemplos que tengamos de las clases teóricas.
BIBLIOGRAFIA
Lovins, J. B. (1968). Development of a stemming algoritm. Mechanical Translation and
Computational Linquistics.
Maria Larsson and M˚ans Norelius. Part-of-Speech Tagging Using the Brill Method. Lund Institute
of Technology Lund, Sweden.
WEBGRAFIA
César Antonio Aguilar Facultad de Lenguas y Letras (2012). Curso de Procesamiento del
lenguaje natural. Recuperado de
http://cesaraguilar.weebly.com/uploads/2/7/7/5/2775690/pln_uc_08.pdf
pág. 12