You are on page 1of 8

Adaptatividade para pesquisas em Lingustica de

Corpus
J. L. Moreira Filho and Z. M. Zapparoli

Abstract This paper introduces some of the main mundo real [1]. A utilizao de textos autnticos em sala de
computational tools, methodology and problems for language aula benfica para aprendizagem.
teaching research in Corpus Linguists, attempting to argue for the Entre os argumentos a favor dessa utilizao est o de que
need of investigation in the use of Adaptive Technology in the area ela promove um aumento da motivao, pois o aluno sente que
as an improvement. In order to illustrate the viability and relevance est aprendendo a lngua de verdade.
of the proposal, examples are also presented and discussed. It may
Conforme [2], muitos livros didticos, por uma srie de
be considered as a starting point for future works on both areas.
questes, utilizam textos inventados para o ensino de lnguas,
Keywords Corpus Linguistics, Adaptative Technology, o que pode trazer efeitos negativos para a aprendizagem:
computational tools. desmotivao, habilidades no plenamente desenvolvidas, e
uso no natural da lngua.
I. INTRODUO O trabalho com textos autnticos e o uso de corpus para fins
ste trabalho apresenta algumas das principais ferramentas pedaggicos na escola podem trazer alternativas significativas
E computacionais, metodologia e problemas
pesquisadores na rea de Lingustica de Corpus,
que para a aprendizagem de lngua. Com eles, possvel dar
condies para que os alunos se conscientizem sobre as
especificamente no campo de atuao do ensino-aprendizagem unidades pr-fabricadas da lngua, que so os padres lxico-
de lngua estrangeira, enfrentam em suas pesquisas, na gramaticais, e a caracterstica probabilstica da linguagem, isto
tentativa de argumentar sobre a necessidade de investigao do , como a lngua realmente funciona.
uso do conceito e tcnicas adaptativas na rea a fim de buscar Os exemplos extrados de corpus so importantes para a
solues que possam avanar as prticas correntes. aprendizagem de lnguas porque expem os alunos, desde os
Primeiro, destacamos a importncia do uso de corpus, estgios iniciais do processo de aprendizagem aos tipos de
textos autnticos, no ensino de lnguas, motivo pelo qual h frases e vocabulrios que possivelmente sero encontrados em
grande interesse de utilizao do material de corpus em textos autnticos da lngua ou no uso da lngua em situaes
pesquisas para elaborao de cursos, material pedaggico, reais de comunicao.
avaliao de livros didticos existentes, desenvolvimento de Para isso, existe uma ampla instrumentao que pode ser
software, entre outras aplicaes. aproveitada por professores e pesquisadores na rea de ensino
Em seguida, apresentamos brevemente as reas da de lnguas. H uma srie de corpora e ferramentas
Lingustica de Corpus e Tecnologia Adaptativa. Uma computacionais sendo desenvolvidas, ainda no totalmente
descrio um pouco mais detalhada sobre a Lingustica de conhecidas e utilizadas por esses profissionais,
Corpus fornecida, uma vez que ser o foco de anlise para as especificamente professores.
discusses que seguiro. Contudo, preciso verificar se as ferramentas disponveis
Logo aps, para ilustrar as ferramentas e prticas correntes so acessveis e adequadas para profissionais em diferentes
no contexto mencionado, so apresentadas e descritos os contextos, refletindo sobre a viabilidade de sua introduo. A
principais programas e a metodologia bsica para pesquisas disponibilidade de toda a instrumentao desejada, o que
em Lingustica de Corpus, principalmente no mbito do pode levar a questes de adaptao e criao de solues de
ensino-aprendizagem de lnguas, fcil uso.
Tendo fornecido uma viso geral das caractersticas do
instrumental para as pesquisas, argumentamos sobre a III. TECNOLOGIA ADAPTATIVA
necessidade de investigao da possibilidade de uso do Conforme [3], a Tecnologia Adaptativa est relacionada a
conceito e tcnicas adaptativas a partir de problemas e lacunas tcnicas, mtodos e disciplinas que estudam as aplicaes da
na prtica de pesquisa em Lingustica de Corpus. adaptatividade, que pode ser entendida como uma propriedade
Como fechamento, apresentamos as consideraes finais e que um determinado modelo tem de modificar
possveis caminhos para futuros trabalhos em ambas as reas. espontaneamente seu prprio comportamento em resposta
direta a uma entrada, sem auxilio externo.
Um sistema adaptativo aquele que possui a propriedade
II. A IMPORTNCIA DO USO DE TEXTOS AUTNTICOS de se auto modificar a partir de determinada entrada, sem a
A utilizao de textos autnticos, textos que no foram necessidade de um agente externo.
inventados para ensinar lngua, vital se o objetivo de ensino Dentro da Tecnologia Adaptativa, h a noo de
a comunicao, a interao social e a execuo de tarefas no dispositivo, uma abstrao formal. O dispositivo pode ser
adaptativo ou no adaptativo. O dispositivo no adaptativo
pode ser formado por um conjunto finito de regras estticas
que, em linguagem de programao, pode ser representado na Assim, surge uma grande variedade de software disponvel
forma de clusulas IF-THEN. A operao do dispositivo se d para os estudos de Lingustica de Corpus. Muitos softwares
pela aplicao das regras, tendo como retorno determinados exibem e permitem a manipulao de extensas listas de
estados. Quando o dispositivo no aplica nenhuma regra, a frequncia de palavras, fraseologias e colocaes.
operao terminada, gerando um erro. As aes de [5] apresenta uma srie de ferramentas computacionais que
dispositivos adaptativos podem ser chamadas quando ocorre podem ser utilizadas em pesquisas de Lingustica de Corpus,
algum erro (quando nenhuma regra aplicvel), ou quando a as quais sero citadas, brevemente, em trs categorias: i.
operao do dispositivo no adaptativo est em um programas para coleta de corpus; ii. Etiquetadores; iii.
determinado estado. programas para anlise da padronizao.
Basicamente, os dispositivos adaptativos so formados por
V. PRINCIPAIS FERRAMENTAS UTILIZADAS EM PESQUISAS DE
trs aes adaptativas elementares [4]: i. Consulta de
LINGUSTICA DE CORPUS
regras/estados; ii. Excluso de regras; iii. Incluso de regras.
Seu uso est ligado a situaes complexas em que h a Programas para coleta de corpus, como o WinHTTrack,
necessidade de tomadas de decises no triviais, por exemplo, um off-line browser, disponvel em http://www.httrack.com/,
na rea de estudos da linguagem, resoluo de ambiguidades permite o download de um site inteiro da Internet para o
em programas de anotao (morfolgica, sinttica, etc.). diretrio de um computador local, incluindo HTML, imagens e
outros tipos de arquivos. Em suas opes avanadas,
possvel especificar tipos de arquivos e condies de busca
IV. LINGUSTICA DE CORPUS
para a coleta. Embora o programa no seja destinado
A Lingustica de Corpus uma rea que estuda a lngua por especificamente para a pesquisa lingustica, suas funes vo
meio da observao de grandes quantidades de dados ao encontro da necessidade da coleta de grandes quantidades
lingusticos reais, isto , textos falados ou escritos de textos na rea, a qual tambm pode ser conseguida por meio
provenientes da comunicao no mundo real lngua em uso), de outros programas e scripts de linguagem de programao.
com o auxlio de ferramentas computacionais. Outro tipo de programa, geralmente necessrio aps uma
De forma geral, o conjunto de dados lingusticos reais coleta automtica de textos na Internet, um conversor de
criteriosamente coletados e utilizados em estudos de HTML para textos sem formatao e cdigos de script
Lingustica de Corpus chamado de corpus (plural: corpora). caractersticos. Tais programas podem ser encontrados
O corpus deve ser constitudo de dados autnticos (no facilmente na Web.
inventados), legveis por computador e representativos de uma Tambm possvel escrever scripts em linguagem de
lngua ou variedade da lngua que se deseja estudar. programao Shell ou Python, por exemplo, que utilizem
A Lingustica de Corpus faz uso de uma abordagem expresses regulares para a remoo de determinados cdigos
empirista e tem como central a noo de linguagem enquanto e textos indesejados, fazendo uma limpeza nos textos do
sistema probabilstico. De acordo com essa noo, os traos corpus para o prosseguimento das anlises. Para os usurios de
lingusticos no ocorrem de forma aleatria, sendo possvel Windows, uma opo a instalao do Cygwin, um emulador
evidenciar e quantificar regularidades (padres). comum na do sistema operacional Unix para Windows. Os scripts podem
rea afirmar que a linguagem padronizada (patterned), isto , ser escritos e executados em um terminal de comandos.
existe uma correlao entre os traos lingusticos e os Etiquetadores online e desktop, tais como o etiquetador do
contextos situacionais de uso da linguagem. site VISL, Brill e TreeTagger, so utilizados para inserir
Na Lingustica de Corpus, a padronizao evidencia-se por automaticamente etiquetas que podem indicar, dependendo do
colocaes, coligaes ou estruturas que se repetem tipo de etiquetagem, marcaes morfossintticas, sintticas,
significativamente semnticas ou discursivas. Um exemplo de tais marcaes
Algumas das reas de interesse da Lingustica de Corpus ilustrado a seguir:
so: compilao de corpora e desenvolvimento de ferramentas
para sua anlise, descrio de linguagem, explorao do uso de
descries baseadas em corpora para vrias aplicaes, tal
como o ensino de lnguas, processamento de linguagem
natural, reconhecimento de voz e traduo.
O computador desempenha um papel importante para os
estudos na rea, que foi impulsionada por seus avanos. As
ferramentas computacionais so geralmente utilizadas para
reorganizao e extrao de informaes no corpus para
observao e interpretao de dados, fornecendo novas
perspectivas para a anlise lingustica.
Por meio das ferramentas computacionais, as pesquisas
lingusticas podem ganhar velocidade, preciso e
confiabilidade. H uma comparao muito comum na literatura
Fig. 1. Exemplo de texto etiquetado
segundo a qual o computador e seus recursos seriam para o
desenvolvimento da Lingustica equivalentes ao do
microscpio para a biologia.
A maioria das ferramentas disponveis permite uma aprender palavras mais frequentes extremamente essencial,
utilizao avanada, em que o conjunto de etiquetas pode ser visto que podem aparecer em diversos contextos.
aumentado e/ou o usurio pode fazer um treinamento dos Ao analisar a ocorrncia das palavras gramaticais, podemos
dados para melhor satisfazer as necessidades especficas de tentar identificar quais palavras se destacam em relao ao tipo
sua pesquisa. de corpus, texto, gnero ou registro as quais pertencem.
Programas para anlise da padronizao, como Geralmente, a palavra mais frequente (nmero um da lista) em
listadores de palavras e concordanciadores, que so textos em lngua portuguesa a preposio de. Se alguma
programas que permitem a busca por palavras especficas em outra palavra gramatical ocupar esta posio, ser uma
um corpus, fornecendo exaustivas listas para as ocorrncias da ocorrncia marcada e merecedora de verificao.
palavra em contexto. A manipulao das listas por meio de funes de
Geralmente esses programas so encontrados em uma nica classificao permite, quando o pesquisador julgar necessrio,
soluo/software. o caso de software como o famoso juntar frequncias de palavras, como o caso da lematizao.
Wordsmith tools, com verses disponveis para download em No exemplo abaixo, o pesquisar poderia ter a necessidade de
http://www.lexically.net/wordsmith/, um dos mais utilizados juntar todas as frequncias das diferentes formas do verbo
em pesquisas de Lingustica de Corpus, cuja verso mais ABRIR sob uma nica forma (infinitivo):
estvel possui trs ferramentas principais: Wordlist (lista
palavras por frequncia no corpus), KeyWords (extrai
palavras-chave do corpus) e Concord (gera linhas de
concordncia).
Outros software que executam funes similares so:
Fig. 3. Exemplo de palavras marcadas para lematizao
MicroConcord (http://www.lexically.net/software/index.htm),
AntConc (http://www.antlab.sci.waseda.ac.jp/software.html),
Podemos tambm levantar informaes estatsticas gerais do
Unitex (http://www-igm.univ-mlv.fr/~unitex/) e Kitconc
corpus, como nmero total de palavras/itens (tokens), nmero
(http://www.fflch.usp.br/dl/li/x/?p=435), uma verso desktop
de vocbulos/formas (types), razo forma/item (TypeToken
simples em portugus.
Ratio), que pode ser calculada da seguinte maneira: ((nmero
Vejamos a interface de um programa que executa a funo
total de formas / nmero de itens)*100). A porcentagem
de contagem da frequncia de palavras em corpora:
resultante pode indicar a proporo de repetio das palavras
no corpus. Um valor baixo da razo forma/item indica que h
muita repetio no corpus, ou seja, um nmero menor de
formas. Um valor alto da razo forma/item indica pouca
repetio das palavras no corpus, um nmero mais de formas.
Outra maneira de fazer um recorte em relao s palavras
que devem ser analisadas a extrao de palavras-chave.
Muitas vezes, a lista de palavras-chave fornece uma filtragem
mais apurada das palavras que se destacam em corpus ou
texto.
Em um corpus formado por textos de anncios de emprego
em ingls, palavras como EXPERIENCE, SKILLS,
ABILITY, REQUIREMENTS e SALARY seriam palavras-
chave, uma vez que podem ser consideradas especificas do
gnero, revelando parte de sua estrutura padronizada:

Fig. 2. Lista de frequncia de palavras no Wordsmith tools 3.0

A partir de listadores de palavras, possvel descobrir quais


so as palavras mais utilizadas em um texto ou conjunto de
textos. Uma das opes permite listar tambm as expresses
mais ocorrentes formadas por duas ou mais palavras,
chamadas de n-gramas de um texto ou conjunto de textos.
A lista de palavras uma listagem ordenada por frequncia
de todas as formas que ocorrem em um corpus. A partir da
lista de frequncia podemos definir quais so as palavras mais
interessantes para anlise do corpus.
A ideia a de que palavras que possuem uma ocorrncia
maior so mais relevantes, visto que h uma probabilidade
maior de serem encontradas em outro corpus ou textos. Por
exemplo, para um aprendiz inicial de lngua estrangeira,
Fig. 4. Palavras-chave de no Kitconc 4.0
por meio da anlise de colocados, palavras esquerda e
Em programas que executam extrao de palavras-chave, direita que ocorrem significativamente com o ndulo. Por isso,
comum haver um recurso que possibilita a comparao em primeiro, no aconselhamos ficar buscando a totalidade
automtica de uma lista de frequncia de palavras do corpus dos fragmentos, a fim de completar a frases/sentenas.
de estudo com uma lista de frequncia de palavras de um Como exemplo, podemos primeiramente buscar quais
corpus de referncia, geralmente muito maior, a partir de um palavras da esquerda e da direita geralmente se colocam com a
corpus de lngua geral. palavra de busca a fim de determinar padres. Em seguida,
Em programao, tal comparao pode ser feita utilizando podemos analisar quais tipos de palavras formam tais padres,
uma frmula como mostra o script abaixo: classe gramatical, campo semntico, etc. Por fim, so
identificados os sentidos de cada padro. Vejamos a
padronizao da palavra resume nas linhas de concordncia a
seguir:

Fig. 5. Funo loglikelihood para extrao de palavras-chave

A funo aplicada para cada palavra na lista de


frequncia. Os argumentos da funo, em ordem, so:
frequncia da palavra no corpus de estudo, nmero total de
tokens no corpus de estudo, nmero total de tokens no corpus
de referncia, frequncia da palavra no corpus de referncia. Fig. 7. Concordncias da palavra resume no AntConc
O resultado da comparao retorna uma lista classificada em
que as principais palavras do corpus de estudos estaro no Podemos analisar linhas de concordncia e identificar trs
topo, geralmente palavras de contedo, em contraponto a uma tipos de padres: colocao, coligao e prosdia semntica.
lista de frequncia, em que as primeiras palavras so Colocao refere-se juno significativa, co-ocorrncia, entre
gramaticais. palavras (send/fax + resume + to). Coligao a relao
gramatical mantida pelas palavras (verbo + resume +
Uma concordncia a listagem das ocorrncias de uma preposio). Prosdia semntica negativa, positiva ou neutra
palavra de busca de um corpus, a qual fica centralizada, com (o padro send/fax resume to ocorre tipicamente com palavras
uma quantidade definida de contextos em ambos os lados de semntica e contextos neutros).
(esquerda e direita). A identificao de padres pode ser auxiliada tambm por
Em um primeiro momento, comum associar/confundir o outros tipos de visualizao, como lista de colocados:
termo concordncia apresentado aqui com o termo utilizado
em gramtica.
Quando utilizamos o termo concordncia, queremos nos
referir a um tipo de visualizao privilegiada do uso de
palavras, conforme j descrita. No exemplo abaixo, exibimos
linhas de concordncia da palavra tendncia em seu formato
mais comum, KWIC (key word in context).

Fig. 8. Lista de colocados da palavra resume no AntConc

Fig. 6. Exemplo de linhas de concordncia Na lista de colocados, podemos identificar a ocorrncia das
palavras send e fax, colocados que formam o padro
Diferentemente de um texto normal, as linhas de identificado.
concordncias so geralmente lidas a partir de seu ndulo, Quando h a necessidade de uso de algum recurso no
palavra ou expresso de busca, a qual fica centralizada para encontrado nessas ferramentas para manipulao de seus
anlise. Na leitura, buscamos a existncia de padres de uso dados, comum a utilizao de programas complementares.
Um desses programas pode ser a planilha eletrnica do Excel, Seleo de palavras para anlise;
que disponibiliza opes de filtro, classificao, clculos de o Delimitao de um nmero de palavras para
frmulas, entre outras. Vejamos a filtragem de substantivos, possvel anlise.
identificados pela etiqueta NN, a partir de um texto Anlise da padronizao das palavras selecionadas
etiquetado: por meio de concordncias, listas de colocados e n-
gramas;
Descrio da padronizao das palavras
selecionadas como resultado.
Utilizao dos padres em objetivos seguintes
(confeco de atividades, por exemplo).

A pequena metodologia descrita ponto de partida inicial


para uma gama de pesquisas em Lingustica de Corpus. Os
passos podem ser cclicos e envolver algum tipo de recurso
adicional durante o processo.
Ainda que seja uma metodologia bsica, exige grande
esforo e trabalho do pesquisador, tanto na preparao do
material, corpus, como na anlise, identificao de padres,
por exemplo.
Dado o conhecimento das principais ferramentas e noes
metodolgicas passaremos a seguir para uma reflexo sobre
lacunas e pontos a serem otimizados no processo de pesquisa e
Fig. 9. Utilizao do recurso de filtro em dados anotados possveis oportunidades para pesquisa e desenvolvimento de
recursos da adaptatividade em Lingustica de Corpus.
Embora o exemplo de utilizao parea simples, em
conjunto com outras funes, o aplicativo pode suprir VII. O MICROSCPIO DA LINGUSTICA DE CORPUS PODE TER
necessidades de determinadas pesquisas. ASPECTOS ADAPTATIVOS
Um exemplo a pesquisa de [6], que comparou os
resultados de diferentes ferramentas de anlise de corpus na Sem sobra de dvida, o computador com suas ferramentas
tarefa de identificao de palavras candidatas a termo em imprescindvel para pesquisas em Lingustica de Corpus, e em
textos sobre cncer de mama e desenvolveu uma metodologia muitas outras reas, o que justifica a citao da metfora do
com o auxlio do Excel para a filtragem dos candidatos mais microscpio para a rea. Muitas descobertas sobre a lngua
comuns entre todas as ferramentas e candidatos exclusivos de tm sido reveladas por meio de sua instrumentao, a ponto de
cada uma. se considerar uma nova maneira de estudar a lngua.
Contudo, preciso sempre fazer uma avaliao dos mtodos
VI. USO DAS FERRAMENTAS COMPUTACIONAIS EM e recursos utilizados a fim de obter avanos e facilitar o
METODOLOGIA BSICA PARA PESQUISAS trabalho de pesquisa. natural que se deseje um microscpio
cada vez mais preciso, abrangente e dinmico, que possa ser
As ferramentas descritas anteriormente podem ser aplicadas utilizado facilmente em diferentes tarefas.
nos seguintes passos em pesquisas, compondo uma O argumento o de que muitas das tarefas executadas em
metodologia bsica, em nvel menos profundo, para a pesquisas de Lingustica de Corpus podem ser beneficiadas
elaborao de cursos e extrao de material para confeco de com a introduo do conceito de Adaptatividade,
atividades pedaggicas. possvel que os passos descritos principalmente aplicaes desenvolvidas para determinada
tambm sejam utilizados em pesquisas com diferentes atividade.
objetivos alm dos especificados, tal como lexicografia anlise Novamente citando a pesquisa de [6], embora houvesse uma
de corpora de aprendizes. srie de ferramentas disponveis, as quais algumas delas j
Vejamos os seguintes passos: foram descritas, uma nova ferramenta foi criada
especificamente para o trabalho de identificao de possveis
Coleta do corpus; candidatos a termo, ZExtractor, disponvel em
o Manual ou automtica a partir de programas http://www.fflch.usp.br/dl/li/x/?p=559, a qual utilizou funes
especficos. similares s de concordanciadores e listadores de palavras. O
Preparao do corpus para as anlises; fato de que nem sempre as ferramentas disponveis sero
o Limpeza e organizao dos textos. totalmente adequadas s necessidades da pesquisa natural e,
Anlise das frequncias das palavras do corpus; por isso, h a necessidade de adapt-las.
o Busca de indcios de palavras que se No caso, o que se tem feito tornar as ferramentas
destacam no corpus. adaptveis, quando possvel. Como a ferramenta criada
Anlise de palavras-chave do corpus; ZExtractor.
o Busca de palavras que se destacam no
corpus.
corpus e/ou gnero, como o caso de algumas pesquisas que
procuram extrair a padronizao de palavras e fraseologias
para uso pedaggico. Seria desejvel o desenvolvimento de
uma soluo comum que pudesse lidar com as diferenas, sem
que o pesquisador tenha que passar por todos os passos
novamente. Em termos metodolgicos, pode parecer que
pesquisadores estejam fazendo sempre o mesmo esforo. O
caminho poderia ser encurtado.
Algumas ferramentas computacionais para anlise de corpus
possuem limites de processamento de textos. O Wordsmith
tools 3.0, por exemplo, no Concord, limita o nmero de linhas
de concordncia retornadas. Se a palavra ocorre mais do que o
limite, no possvel analis-la em sua totalidade, sendo
Fig.10. Configuraes do Programa ZExtractor necessrio fazer um recorte e estimativas.
O recorte muito comum nas pesquisas. Pode estar
O programa permite que o usurio faa uma srie de ajustes relacionado quantidade de itens a ser analisada, tempo e
para que a execuo das funes possa retornar os resultados esforo para a pesquisa. Contudo, todos esses fatores poderiam
desejados ou prximos. As opes envolvem a definio de: ser minimizados, sem que o pesquisador tivesse que executar a
frequncia mnima de ocorrncia do candidato no corpus, mesma pesquisa em dois momentos, como condio o aumento
ocorrncia mnima do candidato nos arquivos de texto do quantitativo dos itens analisados. O desenvolvimento de
corpus, definio de stoplists, valor de corte de chavicidade, solues de treinamento e aprendizado de mquina poderia
frequncia do candidato por arquivo e estatsticas de auxiliar em tarefas que filtrassem itens ou executassem
associao de palavras. anlises com dados previamente armazenados.
Porm, as funes so estticas e puramente quantitativas, O recurso de extrao de palavras-chave para filtragem de
dependendo da calibragem do pesquisador que analisar, a palavras a serem analisadas, que nas ferramentas aqui descritas
cada sada, os resultados obtidos. No que seja algo errado, so identificadas a partir de frmulas estatsticas, poderia ser
mas se h um modo que possivelmente melhore a execuo incrementado com regras dinmicas para a separao, por
das tarefas, preciso investig-lo, como a prpria pesquisa exemplo, de palavras relacionadas especificamente ao
citada o faz, ao testar as vrias ferramentas e a partir delas assunto/contedo do texto, em relao s palavras comuns ao
desenvolver uma metodologia para extrao de candidatos a gnero dos textos do corpus, uma necessidade tpica da
termo. pesquisa em Lingustica de Corpus.
Deste modo, fazemos uma reflexo sobre as ferramentas Retornando ao exemplo do programa ZExtractor, ao invs
computacionais e metodologia bsica descrita, com o objetivo de especificar regras/configuraes comuns para todas as
de apontar alguns problemas enfrentados e possveis pontos palavras do corpus, o conjunto de regras poderia ser aplicado
para o desenvolvimento de novas solues para pesquisa. Ao dinamicamente para cada possvel candidato, podendo em
faz-lo, tentamos relacionar a pesquisas e trabalhos que alguns casos at solicitar a interveno do usurio e memorizar
utilizam o conceito da Adaptatividade. sua ao para aplicaes futuras.
O reconhecimento de padres, uma das tarefas mais
VIII. ADAPTATIVIDADE PARA PESQUISAS EM LINGUSTICA DE importantes de pesquisas em Lingustica de Corpus poderia ser
CORPUS beneficiado por solues adaptativas, uma vez que na rea da
Tecnologia Adaptativa h vrios trabalhos nesse sentido.
Nesta seo, fazemos a descrio de alguns problemas e Como j de conhecimento, o computador lida melhor que
limitaes em pesquisas de Lingustica de Corpus, entendendo o ser humano em tarefas repetitivas, em que o nvel de ateno
que o conceito de adaptatividade e tcnicas adaptativas deve ser alto e contnuo. Descobertas interessantes em anlises
poderiam ser empregados para criao de solues dinmicas. poderiam surgir.
importante destacar que as descries fornecidas esto sob a A partir dessas poucas consideraes, possvel afirmar que
tica de pesquisas relacionadas ao uso da Lingustica de estudos que busquem adio do conceito e tcnicas adaptativas
Corpus para o desenvolvimento de aplicaes, cursos e em pesquisas da Lingustica de Corpus poderiam transformar a
materiais pedaggicos para o ensino de lnguas. maneira em que seu microscpio utilizado.
Em relao coleta e compilao de corpus, s vezes no Na seo a seguir, citamos aspectos de uma pesquisa em
possvel contar com uma grande quantidade de textos para um andamento que apresenta passos iniciais para o uso da
corpus, por vrias restries (direitos autorais, por exemplo), o Adaptatividade no desenvolvimento de um sistema de
que pode prejudicar sua utilizao em determinada aplicao montagem automtica de atividades de leitura em lngua
em que necessite de grandes quantidades de dados para obter inglesa com corpora. O objetivo salientar as possveis
um resultado confivel. o caso de aplicaes baseadas em contribuies da Tecnologia Adaptativa para a rea de
dados estatsticos. O uso de dispositivos baseados em regras Lingustica de Corpus, especificamente em relao linha de
poderia auxiliar em uma soluo. pesquisa que se preocupa com o desenvolvimento de
Em muitas pesquisas, os objetivos, a metodologia de anlise aplicativos e ferramentas para anlise de corpora e ensino de
e aplicao podem ser os mesmos, tendo apenas a distino do lnguas.
A implementao do sistema ser feita utilizando a
linguagem Python. Inicialmente, criamos um mdulo para
IX. GERADOR DE ATIVIDADES DE LEITURA ADAPTATIVO anlise lingustica de texto e corpora. Os dados da anlise
O desenvolvimento de um sistema de gerao e montagem serviro posteriormente para tomadas de deciso em um
de atividades de leitura tem como objetivo prtico de suprir a mdulo de anlise pedaggica do texto, que auxiliar na
necessidade de professores que desejam utilizar materiais composio de um script em xml, conforme a seguir:
baseados em corpora em suas aulas, mas que no esto
familiarizados com o uso de ferramentas de processamento e
explorao de corpora e/ou que no possuem muito tempo
para preparar atividades.
O projeto est baseado em um estudo realizado em uma
pesquisa de mestrado [7], que teve como produto final um
software desktop para preparao semiautomtica de
atividades de leitura em ingls, tomando como entrada um
texto selecionado pelo usurio com fins pedaggicos e
conduzindo-o, atravs de etapas, como um assistente
eletrnico, at a publicao de uma unidade didtica com
exerccios baseados em concordncias (data-driven learning),
Fig. 12. Exemplo de script para criao de exerccios
predio, lxico-gramtica e questes para leitura crtica,
utilizando anlises automticas do texto selecionado por meio
Aps a montagem do script, sua interpretao realizada
de frmulas estatsticas: lista de frequncia, palavras-chave,
possveis palavras cognatas, etiquetagem morfolgica, por meio de funes parametrizadas. O resultado final a
possveis padres (clusters) e densidade lexical do texto. impresso de exerccios para as atividades:
Nesse primeiro prottipo, com base no conceito de
standard exercise (atividade padro) introduzido em [8] para
cursos de ESP (English For Specific Purposes), embora os
resultados obtidos tenham demonstrado a viabilidade e o
potencial da soluo, h ainda a necessidade de muita pesquisa
e desenvolvimento para melhorias: diminuio de erros de
anlise, aumento da variedade de exerccios disponveis e
adequao do conjunto de exerccios ao texto de entrada.
Tendo em vista tais necessidades, a atual pesquisa estuda a
possibilidade do uso da Tecnologia Adaptativa para o Fig. 13. Interpretao de script para criao de exerccios
desenvolvimento de uma aplicao dinmica, em que o
conjunto de exerccios seja variado, flexvel e adequado As descries do sistema em questo caminham para o
entrada (texto/gnero). Em contraponto a um modelo padro entendimento e aplicao de tcnicas adaptativas. A montagem
de atividade, como no primeiro prottipo, prope-se o dinmica do script para a criao dos exerccios, com base nas
conceito de um gerador adaptativo de exerccios. anlises lingustica e pedaggica, considerando as opes
O esquema representado a seguir ilustra as etapas bsicas definidas pelo usurio, pode conferir aspectos adaptativos ao
para o funcionamento do sistema para que seja possvel a sistema, o que elevariam o conceito de atividade padro a um
incluso de tcnicas adaptativas na gerao automtica de conceito de atividade adaptativa para elaborao de materiais
exerccios de leitura, tendo como partida um texto e opes pedaggicos para o ensino de leitura em lngua estrangeira.
pr-definidas de um usurio. Embora haja muito trabalho a ser realizado, a investigao
importante para o estabelecimento de um dilogo concreto
entre Lingustica de Corpus e Tecnologia Adaptativa,
especificamente no desenvolvimento de aplicaes dinmicas
para anlise de corpora e ensino de lnguas.

X. CONSIDERAES FINAIS
O trabalho buscou mostrar as principais prticas e
necessidades em pesquisas de Lingustica de Corpus, em uma
linha de desenvolvimento de ferramentas para anlise de
corpus e ensino de lnguas, abordando questes de uso de
Fig. 11. Esboo para uma aplicao dinmica ferramentas computacionais e metodolgicas, as quais
poderiam ser foco de investigao em trabalhos futuros com o
dilogo entre reas da Lingustica de Tecnologia Adaptativa.
Podemos considerar as informaes apresentadas como um
primeiro esboo para tal dilogo. Esperamos que seja til para
fomentar uma srie de discusses sobre o assunto.

REFERNCIAS
[1] Guariento W. & Morley J. (2001). Text and task authenticity in the
EFL classroom. ELT Journal. 55/4 October, 1-7.
[2] GILMORE, A. (2004). A comparison of textbooks and authentic
interactions. ELT Journal,58/4 October, 1-12.
[3] DIZER, W. Formalismos Adaptativos Aplicados na Modelagem de
Softwares Educacionais. Tese de Doutorado, EPUSP, So Paulo,
2010.
[4] PADOVANI, D.; CONTIER, A.; JOS NETO, J. J.; Tecnologia
Adaptativa Aplicada ao Processamento da Linguagem Natural. In:
WTA 2010; Quarto Workshop de Tecnologia Adaptativa, 2010, So
Paulo. Memrias do WTA 2010: Quarto Workshop de Tecnologia
Adaptativa. So Paulo: Laboratrio de Linguagens e Tcnicas
Adaptativas, 2010. p. 35-42.
[5] BERBER SARDINHA, T. (2004) Lingustica de Corpus. So Paulo:
Manole.
[6] SILVA E TEIXEIRA, R.B. Termos de (Onco)mastologia: uma
abordagem mediada por corpus. 2010. Dissertao de mestrado.
Pontifcia Universidade Catlica de So Paulo.
[7] MOREIRA FILHO, P. Desenvolvimento de um software para
preparao semiautomtica de atividades de leitura em ingls.
Dissertao de Mestrado Indita, LAEL, PUC-SP, 2007.
[8] Disponvel em: <
http://wordsmithtools.com/downloads/corpus_linguistics/Standard%20Exercise.p
df>. Acesso em 01/02/2013.

Jos Lopes Moreira Filho Doutorando em Semitica


e Lingustica Geral (USP). Possui Mestrado em
Lingustica Aplicada e Estudos da Linguagem pela
Pontifcia Universidade Catlica de So Paulo
(PUCSP). Possui graduao em Letras Portugus e
Ingls (Bacharelado Traduo) pela Universidade de
Mogi das Cruzes (UMC). Atualmente, Professor
Coordenador de Centro de Lnguas da Diretoria Regional de Ensino da SEE-
SP, mantendo interesses na rea de Lingustica, Lingustica Aplicada,
Lingustica Informtica, Lingustica de Corpus, Processamento de Linguagem
Natural, atuando principalmente no desenvolvimento de ferramentas
computacionais para explorao de corpora, ensino de lnguas, entre outras
aplicaes que envolvem linguagem e tecnologia.

Zilda Maria Zapparoli professora associada


aposentada junto ao Departamento de Lingustica da
Faculdade de Filosofia, Letras e Cincias Humanas da
Universidade de So Paulo, instituio em que obteve os
ttulos de Mestre, Doutor e Livre-Docente, e onde
continua desenvolvendo atividades de ensino, pesquisa e
orientao no Curso de Ps-Graduao em Lingustica,
rea de Semitica e Lingustica Geral, linha de pesquisa Informtica no
Tratamento de Corpora e na Prtica da Traduo. Desde 1972, atua em
Lingustica Informtica, com tese de doutorado, tese de livre-docncia, ps-
doutorado na Universit de Toulouse II e trabalhos publicados na rea. lder
do Grupo Interdisciplinar de Pesquisas em Lingustica Informtica,
certificado pela USP e cadastrado no Diretrio de Grupos de Pesquisa no
Brasil do CNPq, em 2002. Integrou comisses e colegiados na USP,
destacando-se os trabalhos relativos ao processo de informatizao da
FFLCH-USP, enquanto membro da Comisso Central de Informtica da USP
e presidente da Comisso de Informtica da FFLCH-USP por cerca de treze
anos.

You might also like