You are on page 1of 6

TdeA

Transformacin de lenguaje natural a


lenguaje controlado para la educcin de
requisitos a partir de documentacin tcnica
Turning natural language into controlled language in order to
educe requiriments from technical documentation
Bell Manrique Losada
Estudiante de Doctorado en Ingeniera, Profesora Asistente
Universidad de Medelln, bmanrique@udem.edu.co

Carlos Mario Zapata Jaramillo


Ph.D. en Ingeniera, Profesor Asociado Universidad Nacional de
Colombia, sede Medelln, cmzapata@unal.edu.co

Resumen
En la ingeniera de software, la educcin de requisitos es el proceso mediante el cual un analista intenta
capturar los requisitos que tiene un interesado respecto de un futuro aplicativo de software. Este proceso
implica una traduccin de un lenguaje naturaldel interesadoa un lenguaje controlado. Tradicionalmen-
te, para obtener estos requisitos se utilizan tcnicas relacionadas con entrevistas y dilogos, lo cual genera
grandes esfuerzos de los analistas y prdida de tiempo, por la complejidad que implica el procesamiento del
lenguaje natural. No es comn educir requisitos a partir de fuentes indirectas como documentacin tcnica
(manuales de procedimientos, reglamentos y estatutos, entre otros). En este artculo se contextualiza la
problemtica asociada con la educcin de requisitos y las brechas que existen entre los lenguajes controla-
dos, para especificar requisitos, y el lenguaje natural del interesado. Finalmente, se describe el escenario que
se plantea lograr con la puesta en marcha de estas propuestas, a partir de la revisin de literatura realizada.
Palabras clave: documentacin tcnica, educcin de requisitos, lenguaje controlado, lenguaje natural.

Abstract
Analysts try to capture the stakeholder requirements related to a future software application through a
requirements elicitation, a branch of software engineering. Requirements elicitation implies a translation

Recibido: 11 de junio 2011


9 Aprobado: 26 de octubre 2011
TdeA Bell Manrique Losada, Carlos Mario Zapata Jaramillo

from a natural languagethe stakeholdersinto a controlled language. Commonly, analysts use techniques
related to dialogues and interviews in order to meet such requirements. These techniques demand a huge
amount of analysis and a waste of time, due to the complexity of natural language processing. Eliciting
requirements from indirect sources, like technical documentation (i.e., procedure manuals, regulations,
and statutes) is not a common task. In this paper we contextualize the problems linked to the requirements
elicitation process and the existing gaps between the controlled languageto specify requirementsand
the stakeholders natural language. Finally, we describe a research scenario proposed, based on a state-of-
the-art review.
Keywords: controlled language, natural language, requirements elicitation, technical documentation.

Introduccin
La educcin es una de las primeras fases de la in- pesar de no comprenderlos suficientemente, pues los
geniera de requisitos para el desarrollo de software, lenguajes tcnicos se alejan del natural. Esta comuni-
cuyo propsito principal es descubrir todos los re- cacin entre los participantes (interesado-analista) se
quisitos que el futuro software necesita satisfacer, torna ms dbil an por las diferencias de formacin
para que alcance los objetivos definidos (Cheng & y experiencia entre ellos, lo que genera problemas en
Atlee, 2007). Se relaciona principalmente con la ac- la correcta validacin de los requisitos, en el alcance
cin de comunicacin analista-interesado, que busca de los modelos conceptuales generados y, finalmente,
recuperar informacin esencial y relevante acerca del en los costos de ejecucin del proceso de educcin
dominio (expresada en lenguaje natural). Esta infor- (Bolton et al., 1994).
macin se convertir en la base de los requisitos y
se captura con los interesados (cliente, usuario-final, A partir de las tcnicas de captura de requisitos utili-
experto del dominio, etc.; Kof, 2004). En este pro- zadas de forma tradicional (Christel & Kang, 1992),
ceso son determinantes la exactitud y la precisin en la intervencin del interesado se suele estimar inco-
los discursos en lenguaje natural, lenguaje en el cual, rrectamente, pues la mayora de las veces se realiza
segn Berry (2003), se escribe la gran mayora de en forma de dilogos y entrevistas (Leite, 1987) con
requisitos. Para el analista es muy importante iden- la resultante prdida de tiempo, costos, coherencia,
tificar los conceptos y las relaciones entre conceptos concisin, entre otros, como se ver ms adelante. A
que emplea el interesado, pues ellos se convertirn pesar de los acercamientos propuestos en la literatura
en la base del lenguaje comn que deben entender el para reducir la brecha entre los universos de discurso
analista y el interesado. Lo anterior requiere, segn del interesado y del analista, todava se exige mxima
Li et al. (2003), mayor intervencin y transforma- intervencin del analista en el proceso de educcin,
cin para las tareas posteriores de anlisis y diseo del en la conversin entre la descripcin de requisitos
producto software. y modelos de diseo y en el mtodo que gue este
proceso. Es necesario, entonces, lograr acercamien-
Este proceso se puede visualizar como una traduc- tos entre los lenguajes controlados existentes para
cin de un lenguaje a otro, de manera tal que el ana- especificar los requisitos y el lenguaje natural del in-
lista (traductor) debe reconocer y entender smbolos teresado. Este artculo presenta el rea problemtica
expresados en un lenguaje natural de un universo que describe este escenario, la revisin de literatura
de discurso (del interesado) y transformarlos en un asociada con el problema principal identificado y los
conjunto de smbolos definidos en un lexicn de un resultados que se espera lograr con la ejecucin de
lenguaje controlado (Castro et al., 2009). Posterior- tales acciones.
mente, el analista debe representar estos smbolos
en lenguajes tcnicos (generalmente de tipo grfico, El resto del artculo se organiza as: la Seccin 2
como los esquemas conceptuales). Los interesados, describe el rea problemtica y el marco terico-
por su parte, validan los requisitos capturados y plas- conceptual que lo sustenta; la Seccin 3 presenta
mados en dichos modelos y esquemas conceptuales, a una serie de problemas identificados y, finalmente, el

10
Transformacin de lenguaje natural a lenguaje controlado para la Educcin... TdeA

problema de investigacin que se propone abordar; Lenguaje natural y lenguaje


la Seccin 4 muestra, a manera de conclusiones, los controlado
resultados que se espera lograr con la ejecucin de Serrano (2005), citando a Ferdinand de Saussure, ex-
la propuesta y un acercamiento a la justificacin del presa que el lenguaje se concibe como el complemen-
tipo de aporte. to de dos entidades: lengua y habla. El lenguaje es
propiedad social, no individual, como la totalidad de
los sistemas lingsticos que emplean los miembros
rea problemtica de una comunidad, es decir, es un sistema de signos.
As, de acuerdo con Vernengo (1996), el lenguaje se
Para abordar terica y conceptualmente el tpico de puede entender como un conjunto de oraciones gra-
transformacin de lenguaje natural a lenguaje con- maticalmente bien formadas conforme a reglas fon-
trolado en la educcin de requisitos, es necesario ticas, lxicas, sintcticas y semnticas correspondien-
partir de la definicin de un objeto real de investi- tes a un lenguaje natural cualquiera. En su estado
gacin. El objeto real se representa con la descrip- normal, el lenguaje natural utiliza elementos grama-
cin de una necesidad de un interesado, expresada ticales, como: sustantivo, verbo, adjetivo, pronom-
en lenguaje natural dentro de un documento tcnico, bre, conjuncin, preposicin, adverbio y artculo.
y su traduccin a un lenguaje controlado que especi-
fica los requisitos (puede ser el lenguaje UN-Lencep; El lenguaje, que desde Grecia se considera esencial
Zapata, 2007). para la naturaleza humana, resulta poco confiable
cuando la comunicacin requiere ciertos niveles de
A partir del objeto real, se puede delimitar el objeto precisin y cuando las acciones futuras dependen de
de estudio considerando dos conceptos bsicos: len- los participantes en el proceso comunicativo. En este
guaje natural y lenguaje controlado. Estos conceptos sentido, es importante que en dominios como el de
se aplican el marco de la educcin de requisitos utili- la educcin de requisitos, donde son determinantes
zando tcnicas de procesamiento del lenguaje natural la exactitud y la precisin en los discursos en lenguaje
y de la lingstica computacional. natural, se pongan en claro reglas que determinen
las relaciones entre ciertas expresiones formadas y
Educcin de requisitos los sentidos que ellas pretenden transmitir (Berry,
Es una de las primeras fases de la ingeniera de re- 2003).
quisitos para el desarrollo de software, cuyo objetivo
principal es descubrir todos los requisitos que el fu- Por lenguaje natural se entiende la lengua utilizada
turo software necesita satisfacer para que se considere normalmente en una comunidad de individuos para
de calidad. Para lograr este objetivo, se deben llevar la comunicacin de estos entre s (Tendales, 2004).
a cabo, de manera iterativa e incremental, dos activi- El lenguaje natural se caracteriza por su enorme capa-
dades primordiales: educcin de requisitos y anlisis de cidad y su riqueza comunicativa, su flexibilidad y la
requisitos, involucrando un lenguaje natural y un len- posibilidad de jugar con las palabras y con las expre-
guaje de modelado, respectivamente (Li et al., 2003). siones, produciendo metforas y ambigedades. De
lo anterior se deduce que, si bien el lenguaje natural
La fase de educcin de requisitos tiene diferentes ac- es un instrumento idneo para ciertos propsitos, no
tividades, que incluyen: entendimiento del dominio lo es igualmente para reas cientficas o ingenieriles
de aplicacin, captura y clasificacin de requisitos, es- donde se requiere un mximo de exactitud y preci-
tablecimiento de prioridades, resolucin de conflictos sin (Li et al., 2003).
y negociacin de los requisitos del sistema (Robertson
y Robertson, 2006). La educcin de requisitos se rela- Segn Berry (2003), la gran mayora de requisitos se
ciona, principalmente, con la accin de comunicacin escribe en lenguaje natural. Para el analista es muy
analista-interesado, la cual busca recuperar la informa- importante identificar los conceptos y relaciones en-
cin esencial y relevante acerca del dominio, obtener tre conceptos que emplea el interesado, que constitu-
la base de los requisitos y extraerla de los interesados yen la base del lenguaje comn que deben entender
(cliente, usuario-final, experto del dominio, etc.). el analista y el experto. En general, segn Li et al.

11
TdeA Bell Manrique Losada, Carlos Mario Zapata Jaramillo

(2003), el lenguaje natural es altamente informal putacin, ciencias cognitivas, inteligencia artificial y
por naturaleza, lo que implica mayor intervencin y lgica formal (Clegg, 2008). En otras palabras, segn
transformacin, para las tareas posteriores de anlisis Cunningham (2000), la lingstica computacional se
y diseo de un producto software. concentra en el estudio de los lenguajes naturales, tal
como lo hace la lingstica tradicional, pero usando
Un lenguaje controlado (LC), segn Wojcik y Hoard equipos de cmputo como herramienta para mode-
(1995), es un subconjunto del lenguaje natural con lar fragmentos de teoras lingsticas con un inters
sintaxis, semntica o terminologa restringidas. Ha- particular.
ller y Schtz (2001) lo definen a partir de un conjun-
to de reglas que debe cumplir el lenguaje, as como el
glosario que se debe utilizar.
Problema de investigacin
Procesamiento de lenguaje natural En el marco de la ingeniera de requisitos, para ini-
La transformacin, cuando se habla del procesa- ciar el proceso de educcin, se requiere descubrir
miento del lenguaje natural, se refiere a la traduccin y obtener el mximo de informacin para el cono-
de la versin de un texto desde una lengua natural a cimiento de un contexto en cuestin. El discurso
otra (Moreiro, 1992). Para procesar el lenguaje na- contiene esta informacin. Una vez se consolida un
tural se requiere transformar el texto en una repre- discurso que describe el dominio del problema, el
sentacin semntica apta para razonar, tomar deci- analista representa, mediante un modelo, el mbito
siones y ejecutar ciertas tareas (Lourdes, 2006). Esta del dominio y su solucin; normalmente, se utiliza
representacin se consigue por medio del proceso de un modelo conceptual. Para desarrollar un modelo
parsing o construccin de un rbol de anlisis a partir conceptual, el analista o diseador debe identificar
de una gramtica (Gavald, 2011). Si la gramtica ciertos elementos conceptuales, identificar las rela-
es sintctica, por medio de un rbol de anlisis se ciones entre ellos y entender esta relacin, para luego
genera informacin sobre las categoras gramaticales representar esos elementos en un lenguaje de mode-
de las palabras y la funcin sintctica asociada (por lado (Gangopadhyay, 2001). Este proceso se puede
ejemplo, la identificacin del sujeto, el verbo, el pre- visualizar como una traduccin de un lenguaje base
dicado, los complementos, etc.). Mientras tanto, si la a otro diferente, de manera tal que el traductor reco-
gramtica es semntica, el rbol de anlisis ya es bas- nozca y entienda smbolos expresados en un lenguaje
tante prximo a la representacin lgica que permite natural de un universo de discurso, en un conjunto
el razonamiento y la ejecucin. de smbolos definidos en un lexicn de un lenguaje
de modelado (Castro et al., 2009).
Lingstica computacional
Diferentes disciplinas dentro del campo de la lin- Es en este proceso de traduccin donde el analista,
gstica estudian el lenguaje. A su vez, este campo se luego de capturar las necesidades y expectativas del
ocupa de todos los hechos y fenmenos relacionados interesado, las representa en modelos tcnicos. Los
con el lenguaje natural. El objetivo de la lingstica interesados, por su parte, validan los requisitos cap-
es producir modelos que se aproximen al comporta- turados y plasmados en dichos modelos (que suelen
miento humano en sus tareas bsicas: leer, escribir, ser en su mayora grficos), aunque no los compren-
escuchar y hablar. Este campo, segn Castro et al. den suficientemente, porque se describen en un len-
(2009), se enfoca en el estudio de los signos lingsti- guaje tcnico que se aleja del natural. Esta comuni-
cos e incluye la semntica, la sintaxis y la pragmtica. cacin entre los participantes (interesado-analista) se
Una de las disciplinas que estudia el lenguaje es la torna ms dbil an por la diferencia de formacin
lingstica computacional, cuyo propsito es desarro- y experiencia entre ellos (Zapata & Villa, 2008), lo
llar una teora computacional del lenguaje, a partir que genera problemas en cuanto a la correcta vali-
de las nociones de algoritmos y estructuras de datos dacin de los requisitos, el alcance de los modelos
de las ciencias de la computacin (Araujo, 2006). conceptuales generados y, finalmente, los altos costos
de ejecucin del proceso de educcin.
El trmino lingstica computacional (en ingls com-
putational linguistics) se refiere al campo interdiscipli- Por otro lado, tradicionalmente, la obtencin de re-
nario entre lingstica, fontica, ciencias de la com- quisitos parte de la aplicacin de tcnicas de captura,

12
Transformacin de lenguaje natural a lenguaje controlado para la Educcin... TdeA

como entrevistas y diseo de aplicaciones conjuntas cumentacin tcnica, para la educcin de requisitos en
(Christel & Kang, 1992), u otras tcnicas enfocadas el diseo de un producto de software?
hacia el anlisis de escenarios, como las que descri-
ben Zapata et al. (2007). No es muy comn educir
requisitos a partir de otro tipo de fuentes, como la
documentacin tcnica, la cual incluye informacin Conclusiones y resultados
en forma de manuales de procedimientos, reglamen-
tos y estatutos de organizacin, etc. Esta educcin
esperados
permitira principalmente: una comprensin y des-
En la literatura no se cuenta con un modelo descrip-
cripcin detallada de la propia organizacin y del pa-
tivo que represente el proceso de transformacin de
pel que representa el sistema en este contexto (Leite,
las necesidades y expectativas del interesado, expresa-
1987), la comprensin del dominio del interesado,
das en lenguaje natural, en requisitos expresados en
el diseo posterior de entrevistas, la aplicacin de
un lenguaje controlado, en la fase de educcin de re-
tcnicas de anlisis de requisitos y la generacin de
quisitos a partir de documentacin tcnica. Es nece-
modelos iniciales del dominio del problema.
saria una formalizacin de dicho proceso, a partir de
las teoras que ofrecen la lingstica computacional y
A partir de las tcnicas de captura de requisitos uti-
el procesamiento de lenguaje natural, lo que podra
lizadas de forma tradicional, la intervencin del in-
derivar en la propuesta de nuevos conceptos o la in-
teresado se suele estimar incorrectamente, pues, la
clusin de conceptos de otras disciplinas del proce-
mayora de las veces, se realiza en forma de dilogos
samiento de lenguaje, en la ingeniera de requisitos.
y entrevistas (Leite, 1987). En este proceso se pierde
tiempo, secuencia, coherencia y concisin, dado que
Es necesario realizar aportes que permitan, entre
los interesados tienden a dilatar sus intervenciones y
otros, generar los siguientes resultados esperados:
la entrega de informacin, lo que, como ya se indi-
c, acarrea mayores tiempos en la educcin y mayo-
Facilitar la tarea de modelado del analista, a par-
res costos. El compendio de informacin obtenida
tir de informacin capturada de documentacin
y las descripciones del dominio de aplicacin, que
tcnica que se pueda representar en un lenguaje
son resultado del trabajo con el interesado, tienen
tcnico o modelo tcnico, aplicando un mtodo
los problemas propios del lenguaje natural: mucha
establecido.
informacin, uso indiscriminado de sinnimos y
Mejorar la comprensin de los interesados so-
ambigedades, etc.
bre los modelos y esquemas conceptuales que
disean los analistas, por medio de un lenguaje
A pesar de los acercamientos propuestos en la lite-
cercano al natural.
ratura para reducir la brecha entre los universos de
Proveer tcnicas y formalismos que permitan
discurso del interesado y del analista, todava se exige
trasladar descripciones y conocimiento de la or-
mxima intervencin del analista en el proceso de
ganizacin, hacia los modelos cercanos al proce-
educcin, en la conversin entre la descripcin de
so de anlisis de requisitos.
requisitos y los modelos de diseo y en el mtodo
Definir un marco conceptual respecto de las va-
que gue este proceso. Es necesario lograr acerca-
riables que intervienen en el proceso de trans-
mientos entre los lenguajes controlados que existen
formacin de lenguaje natural a un lenguaje
para especificar los requisitos y el lenguaje natural del
controlado, a partir de documentacin tcnica,
interesado, el cual se puede traducir directamente a
en la educcin de requisitos.
partir de documentacin tcnica y as conducir a las
Extender, por medio de un formalismo o proce-
etapas posteriores del proceso de desarrollo del pro-
dimiento, el proceso de transformacin de len-
ducto software, que se realiza actualmente de forma
guaje natural a lenguaje controlado.
automtica, como propone Zapata (2007).
Mostrar cmo ciertas propiedades, teoras o he-
rramientas utilizadas en la lingstica, se pueden
A partir de la descripcin problemtica anterior, se
utilizar en el marco del procesamiento del len-
plantea la siguiente pregunta de investigacin: Cmo
guaje natural, para mejorar el proceso de trans-
especificar un proceso de transformacin automtico de
formacin de lenguaje a partir de documenta-
lenguaje natural a lenguaje controlado, a partir de do-
cin tcnica, en la educcin de requisitos.

13
TdeA Bell Manrique Losada, Carlos Mario Zapata Jaramillo

Haller, J. & Schtz, J. (2001). CLAT: Controlled language


Agradecimientos authoring technology. Proceedings of the 19th annual in-
ternational conference on computer documentation, Santa
Este trabajo se enmarca dentro de los resultados ob- Fe NM.
tenidos en el proyecto de investigacin Revisin de
Literatura en Transformacin de Lenguaje Natural a Kof, L. (2004). Natural language processing for requirements
Lenguaje Controlado en la Educcin de Requisitos, engineering: applicability to large requirements documents.
cofinanciado entre la Universidad Nacional de Co- Alemania: Fakultt fr Informatik, Technische Universitt
lombia, Sede Medelln, y la Universidad de Mede- Mnchen.
lln, Colombia.
Leite, J. (1987). A survey on requirements analysis. Advan-
ced software engineering project technical report RTP071.
EE.UU.: Department of Information and Computer
Referencias Science, University of California.

Bolton, D., Jones, S., Till, D., Furber, D. & S. Green Lourdes, A. (2006). Procesamiento de lenguaje natural.
(1994). Using domain knowledge in requirements capture Disponible http://tabasco.torreingenieria.unam.mx/gch/
and formal specification construction. Requirements Engi- PLN/cap1.pdf [Consultado el 10 de mayo de 2011].
neering: Social and Technical Issues, Academic Press, 2a. ed.,
pp. 141-162. Moreiro, J. (1992). Perspectiva documental del procesamien-
to de lenguaje natural. Memorias Congreso SEPLN VIII,
Castro, L., Baiao, F. & Guizzardi, G. (2009). A survey on Universidad Carlos III, Madrid.
conceptual modeling from a linguistic point of view. Rela- Serrano, W. (2005). Qu constituye a los lenguajes natu-
trios tcnicos do departamento de informtica aplicada da ral y matemtico? Sapiens: Revista Universitaria de Investi-
Unirio, N 0019/2009, pp. 3-12. gacin, Vol. 6 No. 001, pp. 47-59.
Tendales (s.f.). Lgica simblica. Lgica proposicional.
Clegg, A. (2008). Computational-linguistic approaches to http://blog.educastur.es/tendales/files/2009/12/logica-
biological text mining. Tesis de PhD. Londres: Escuela de teoria2.pdf
Cristalografa, University of London. [Consultado el 25 de mayo de 2011].

Cunningham, H. (2000). Software architecture for language Vernengo, R. (1996). El discurso del derecho y el lenguaje
engineering. Tesis de PhD. Reino Unido: Departamento de normativo. Isonoma, No. 4, pp. 87-95.
ciencias de la computacin, University of Sheeld.
Wojcik, R. & Hoard, J. Controlled languages in indus-
Cheng, B. & Atlee, J. (2007). Research directions in requi- try. http://www.cslu.ogi.edu/HLTsurvey/ch7node8.html
rements engineering. Proceedings of future of software engi- [Consultado el 22 de mayo de 2011].
neering (FOSE07), IEEE Computer Society, USA.
Zapata, C.M. (2007). Definicin de un esquema preconcep-
Christel, M. & Kang, K. (1992). Issues in requirements tual para la obtencin automtica de esquemas conceptuales
elicitation. Technical report CMU/SEI-92-TR-012 ESC- de UML. Tesis doctoral doctorado en ingeniera. Colom-
TR-92-012. USA: Software Engineering Institute. bia: Universidad Nacional de Colombia Sede Medelln.

Gangopadhyay, A. (2001). Conceptual modeling from Zapata, C.M., Palacio, C. & Olaya, N. (2007). UNC-
natural language functional specifications. Artificial Intelli- ANALISTA: Hacia la captura de un corpus de requisitos a
gence in Engineering, Vol. 15, No. 2, pp. 207-218. partir de la aplicacin del experimento Mago de Oz. Revis-
ta EIA, N. 7, pp. 25-40.
Gavald, M. (2011). La investigacin en tecnologas de
la lengua. Research in language technology. http://quark. Zapata, C.M. & Villa, F. A. (2008). La gramtica bsica
prbb.org/19/019021.htm [Consultado el 15 de mayo de de UN-Lencep expresada en HPSG. Avances en Sistemas e
2011]. Informtica, Vol.5 No.1, edicin especial, pp. 81-92.

14

You might also like