Professional Documents
Culture Documents
Corpus
J. L. Moreira Filho and Z. M. Zapparoli
Abstract This paper introduces some of the main mundo real [1]. A utilizao de textos autnticos em sala de
computational tools, methodology and problems for language aula benfica para aprendizagem.
teaching research in Corpus Linguists, attempting to argue for the Entre os argumentos a favor dessa utilizao est o de que
need of investigation in the use of Adaptive Technology in the area ela promove um aumento da motivao, pois o aluno sente que
as an improvement. In order to illustrate the viability and relevance est aprendendo a lngua de verdade.
of the proposal, examples are also presented and discussed. It may
Conforme [2], muitos livros didticos, por uma srie de
be considered as a starting point for future works on both areas.
questes, utilizam textos inventados para o ensino de lnguas,
Keywords Corpus Linguistics, Adaptative Technology, o que pode trazer efeitos negativos para a aprendizagem:
computational tools. desmotivao, habilidades no plenamente desenvolvidas, e
uso no natural da lngua.
I. INTRODUO O trabalho com textos autnticos e o uso de corpus para fins
ste trabalho apresenta algumas das principais ferramentas pedaggicos na escola podem trazer alternativas significativas
E computacionais, metodologia e problemas
pesquisadores na rea de Lingustica de Corpus,
que para a aprendizagem de lngua. Com eles, possvel dar
condies para que os alunos se conscientizem sobre as
especificamente no campo de atuao do ensino-aprendizagem unidades pr-fabricadas da lngua, que so os padres lxico-
de lngua estrangeira, enfrentam em suas pesquisas, na gramaticais, e a caracterstica probabilstica da linguagem, isto
tentativa de argumentar sobre a necessidade de investigao do , como a lngua realmente funciona.
uso do conceito e tcnicas adaptativas na rea a fim de buscar Os exemplos extrados de corpus so importantes para a
solues que possam avanar as prticas correntes. aprendizagem de lnguas porque expem os alunos, desde os
Primeiro, destacamos a importncia do uso de corpus, estgios iniciais do processo de aprendizagem aos tipos de
textos autnticos, no ensino de lnguas, motivo pelo qual h frases e vocabulrios que possivelmente sero encontrados em
grande interesse de utilizao do material de corpus em textos autnticos da lngua ou no uso da lngua em situaes
pesquisas para elaborao de cursos, material pedaggico, reais de comunicao.
avaliao de livros didticos existentes, desenvolvimento de Para isso, existe uma ampla instrumentao que pode ser
software, entre outras aplicaes. aproveitada por professores e pesquisadores na rea de ensino
Em seguida, apresentamos brevemente as reas da de lnguas. H uma srie de corpora e ferramentas
Lingustica de Corpus e Tecnologia Adaptativa. Uma computacionais sendo desenvolvidas, ainda no totalmente
descrio um pouco mais detalhada sobre a Lingustica de conhecidas e utilizadas por esses profissionais,
Corpus fornecida, uma vez que ser o foco de anlise para as especificamente professores.
discusses que seguiro. Contudo, preciso verificar se as ferramentas disponveis
Logo aps, para ilustrar as ferramentas e prticas correntes so acessveis e adequadas para profissionais em diferentes
no contexto mencionado, so apresentadas e descritos os contextos, refletindo sobre a viabilidade de sua introduo. A
principais programas e a metodologia bsica para pesquisas disponibilidade de toda a instrumentao desejada, o que
em Lingustica de Corpus, principalmente no mbito do pode levar a questes de adaptao e criao de solues de
ensino-aprendizagem de lnguas, fcil uso.
Tendo fornecido uma viso geral das caractersticas do
instrumental para as pesquisas, argumentamos sobre a III. TECNOLOGIA ADAPTATIVA
necessidade de investigao da possibilidade de uso do Conforme [3], a Tecnologia Adaptativa est relacionada a
conceito e tcnicas adaptativas a partir de problemas e lacunas tcnicas, mtodos e disciplinas que estudam as aplicaes da
na prtica de pesquisa em Lingustica de Corpus. adaptatividade, que pode ser entendida como uma propriedade
Como fechamento, apresentamos as consideraes finais e que um determinado modelo tem de modificar
possveis caminhos para futuros trabalhos em ambas as reas. espontaneamente seu prprio comportamento em resposta
direta a uma entrada, sem auxilio externo.
Um sistema adaptativo aquele que possui a propriedade
II. A IMPORTNCIA DO USO DE TEXTOS AUTNTICOS de se auto modificar a partir de determinada entrada, sem a
A utilizao de textos autnticos, textos que no foram necessidade de um agente externo.
inventados para ensinar lngua, vital se o objetivo de ensino Dentro da Tecnologia Adaptativa, h a noo de
a comunicao, a interao social e a execuo de tarefas no dispositivo, uma abstrao formal. O dispositivo pode ser
adaptativo ou no adaptativo. O dispositivo no adaptativo
pode ser formado por um conjunto finito de regras estticas
que, em linguagem de programao, pode ser representado na Assim, surge uma grande variedade de software disponvel
forma de clusulas IF-THEN. A operao do dispositivo se d para os estudos de Lingustica de Corpus. Muitos softwares
pela aplicao das regras, tendo como retorno determinados exibem e permitem a manipulao de extensas listas de
estados. Quando o dispositivo no aplica nenhuma regra, a frequncia de palavras, fraseologias e colocaes.
operao terminada, gerando um erro. As aes de [5] apresenta uma srie de ferramentas computacionais que
dispositivos adaptativos podem ser chamadas quando ocorre podem ser utilizadas em pesquisas de Lingustica de Corpus,
algum erro (quando nenhuma regra aplicvel), ou quando a as quais sero citadas, brevemente, em trs categorias: i.
operao do dispositivo no adaptativo est em um programas para coleta de corpus; ii. Etiquetadores; iii.
determinado estado. programas para anlise da padronizao.
Basicamente, os dispositivos adaptativos so formados por
V. PRINCIPAIS FERRAMENTAS UTILIZADAS EM PESQUISAS DE
trs aes adaptativas elementares [4]: i. Consulta de
LINGUSTICA DE CORPUS
regras/estados; ii. Excluso de regras; iii. Incluso de regras.
Seu uso est ligado a situaes complexas em que h a Programas para coleta de corpus, como o WinHTTrack,
necessidade de tomadas de decises no triviais, por exemplo, um off-line browser, disponvel em http://www.httrack.com/,
na rea de estudos da linguagem, resoluo de ambiguidades permite o download de um site inteiro da Internet para o
em programas de anotao (morfolgica, sinttica, etc.). diretrio de um computador local, incluindo HTML, imagens e
outros tipos de arquivos. Em suas opes avanadas,
possvel especificar tipos de arquivos e condies de busca
IV. LINGUSTICA DE CORPUS
para a coleta. Embora o programa no seja destinado
A Lingustica de Corpus uma rea que estuda a lngua por especificamente para a pesquisa lingustica, suas funes vo
meio da observao de grandes quantidades de dados ao encontro da necessidade da coleta de grandes quantidades
lingusticos reais, isto , textos falados ou escritos de textos na rea, a qual tambm pode ser conseguida por meio
provenientes da comunicao no mundo real lngua em uso), de outros programas e scripts de linguagem de programao.
com o auxlio de ferramentas computacionais. Outro tipo de programa, geralmente necessrio aps uma
De forma geral, o conjunto de dados lingusticos reais coleta automtica de textos na Internet, um conversor de
criteriosamente coletados e utilizados em estudos de HTML para textos sem formatao e cdigos de script
Lingustica de Corpus chamado de corpus (plural: corpora). caractersticos. Tais programas podem ser encontrados
O corpus deve ser constitudo de dados autnticos (no facilmente na Web.
inventados), legveis por computador e representativos de uma Tambm possvel escrever scripts em linguagem de
lngua ou variedade da lngua que se deseja estudar. programao Shell ou Python, por exemplo, que utilizem
A Lingustica de Corpus faz uso de uma abordagem expresses regulares para a remoo de determinados cdigos
empirista e tem como central a noo de linguagem enquanto e textos indesejados, fazendo uma limpeza nos textos do
sistema probabilstico. De acordo com essa noo, os traos corpus para o prosseguimento das anlises. Para os usurios de
lingusticos no ocorrem de forma aleatria, sendo possvel Windows, uma opo a instalao do Cygwin, um emulador
evidenciar e quantificar regularidades (padres). comum na do sistema operacional Unix para Windows. Os scripts podem
rea afirmar que a linguagem padronizada (patterned), isto , ser escritos e executados em um terminal de comandos.
existe uma correlao entre os traos lingusticos e os Etiquetadores online e desktop, tais como o etiquetador do
contextos situacionais de uso da linguagem. site VISL, Brill e TreeTagger, so utilizados para inserir
Na Lingustica de Corpus, a padronizao evidencia-se por automaticamente etiquetas que podem indicar, dependendo do
colocaes, coligaes ou estruturas que se repetem tipo de etiquetagem, marcaes morfossintticas, sintticas,
significativamente semnticas ou discursivas. Um exemplo de tais marcaes
Algumas das reas de interesse da Lingustica de Corpus ilustrado a seguir:
so: compilao de corpora e desenvolvimento de ferramentas
para sua anlise, descrio de linguagem, explorao do uso de
descries baseadas em corpora para vrias aplicaes, tal
como o ensino de lnguas, processamento de linguagem
natural, reconhecimento de voz e traduo.
O computador desempenha um papel importante para os
estudos na rea, que foi impulsionada por seus avanos. As
ferramentas computacionais so geralmente utilizadas para
reorganizao e extrao de informaes no corpus para
observao e interpretao de dados, fornecendo novas
perspectivas para a anlise lingustica.
Por meio das ferramentas computacionais, as pesquisas
lingusticas podem ganhar velocidade, preciso e
confiabilidade. H uma comparao muito comum na literatura
Fig. 1. Exemplo de texto etiquetado
segundo a qual o computador e seus recursos seriam para o
desenvolvimento da Lingustica equivalentes ao do
microscpio para a biologia.
A maioria das ferramentas disponveis permite uma aprender palavras mais frequentes extremamente essencial,
utilizao avanada, em que o conjunto de etiquetas pode ser visto que podem aparecer em diversos contextos.
aumentado e/ou o usurio pode fazer um treinamento dos Ao analisar a ocorrncia das palavras gramaticais, podemos
dados para melhor satisfazer as necessidades especficas de tentar identificar quais palavras se destacam em relao ao tipo
sua pesquisa. de corpus, texto, gnero ou registro as quais pertencem.
Programas para anlise da padronizao, como Geralmente, a palavra mais frequente (nmero um da lista) em
listadores de palavras e concordanciadores, que so textos em lngua portuguesa a preposio de. Se alguma
programas que permitem a busca por palavras especficas em outra palavra gramatical ocupar esta posio, ser uma
um corpus, fornecendo exaustivas listas para as ocorrncias da ocorrncia marcada e merecedora de verificao.
palavra em contexto. A manipulao das listas por meio de funes de
Geralmente esses programas so encontrados em uma nica classificao permite, quando o pesquisador julgar necessrio,
soluo/software. o caso de software como o famoso juntar frequncias de palavras, como o caso da lematizao.
Wordsmith tools, com verses disponveis para download em No exemplo abaixo, o pesquisar poderia ter a necessidade de
http://www.lexically.net/wordsmith/, um dos mais utilizados juntar todas as frequncias das diferentes formas do verbo
em pesquisas de Lingustica de Corpus, cuja verso mais ABRIR sob uma nica forma (infinitivo):
estvel possui trs ferramentas principais: Wordlist (lista
palavras por frequncia no corpus), KeyWords (extrai
palavras-chave do corpus) e Concord (gera linhas de
concordncia).
Outros software que executam funes similares so:
Fig. 3. Exemplo de palavras marcadas para lematizao
MicroConcord (http://www.lexically.net/software/index.htm),
AntConc (http://www.antlab.sci.waseda.ac.jp/software.html),
Podemos tambm levantar informaes estatsticas gerais do
Unitex (http://www-igm.univ-mlv.fr/~unitex/) e Kitconc
corpus, como nmero total de palavras/itens (tokens), nmero
(http://www.fflch.usp.br/dl/li/x/?p=435), uma verso desktop
de vocbulos/formas (types), razo forma/item (TypeToken
simples em portugus.
Ratio), que pode ser calculada da seguinte maneira: ((nmero
Vejamos a interface de um programa que executa a funo
total de formas / nmero de itens)*100). A porcentagem
de contagem da frequncia de palavras em corpora:
resultante pode indicar a proporo de repetio das palavras
no corpus. Um valor baixo da razo forma/item indica que h
muita repetio no corpus, ou seja, um nmero menor de
formas. Um valor alto da razo forma/item indica pouca
repetio das palavras no corpus, um nmero mais de formas.
Outra maneira de fazer um recorte em relao s palavras
que devem ser analisadas a extrao de palavras-chave.
Muitas vezes, a lista de palavras-chave fornece uma filtragem
mais apurada das palavras que se destacam em corpus ou
texto.
Em um corpus formado por textos de anncios de emprego
em ingls, palavras como EXPERIENCE, SKILLS,
ABILITY, REQUIREMENTS e SALARY seriam palavras-
chave, uma vez que podem ser consideradas especificas do
gnero, revelando parte de sua estrutura padronizada:
Fig. 6. Exemplo de linhas de concordncia Na lista de colocados, podemos identificar a ocorrncia das
palavras send e fax, colocados que formam o padro
Diferentemente de um texto normal, as linhas de identificado.
concordncias so geralmente lidas a partir de seu ndulo, Quando h a necessidade de uso de algum recurso no
palavra ou expresso de busca, a qual fica centralizada para encontrado nessas ferramentas para manipulao de seus
anlise. Na leitura, buscamos a existncia de padres de uso dados, comum a utilizao de programas complementares.
Um desses programas pode ser a planilha eletrnica do Excel, Seleo de palavras para anlise;
que disponibiliza opes de filtro, classificao, clculos de o Delimitao de um nmero de palavras para
frmulas, entre outras. Vejamos a filtragem de substantivos, possvel anlise.
identificados pela etiqueta NN, a partir de um texto Anlise da padronizao das palavras selecionadas
etiquetado: por meio de concordncias, listas de colocados e n-
gramas;
Descrio da padronizao das palavras
selecionadas como resultado.
Utilizao dos padres em objetivos seguintes
(confeco de atividades, por exemplo).
X. CONSIDERAES FINAIS
O trabalho buscou mostrar as principais prticas e
necessidades em pesquisas de Lingustica de Corpus, em uma
linha de desenvolvimento de ferramentas para anlise de
corpus e ensino de lnguas, abordando questes de uso de
Fig. 11. Esboo para uma aplicao dinmica ferramentas computacionais e metodolgicas, as quais
poderiam ser foco de investigao em trabalhos futuros com o
dilogo entre reas da Lingustica de Tecnologia Adaptativa.
Podemos considerar as informaes apresentadas como um
primeiro esboo para tal dilogo. Esperamos que seja til para
fomentar uma srie de discusses sobre o assunto.
REFERNCIAS
[1] Guariento W. & Morley J. (2001). Text and task authenticity in the
EFL classroom. ELT Journal. 55/4 October, 1-7.
[2] GILMORE, A. (2004). A comparison of textbooks and authentic
interactions. ELT Journal,58/4 October, 1-12.
[3] DIZER, W. Formalismos Adaptativos Aplicados na Modelagem de
Softwares Educacionais. Tese de Doutorado, EPUSP, So Paulo,
2010.
[4] PADOVANI, D.; CONTIER, A.; JOS NETO, J. J.; Tecnologia
Adaptativa Aplicada ao Processamento da Linguagem Natural. In:
WTA 2010; Quarto Workshop de Tecnologia Adaptativa, 2010, So
Paulo. Memrias do WTA 2010: Quarto Workshop de Tecnologia
Adaptativa. So Paulo: Laboratrio de Linguagens e Tcnicas
Adaptativas, 2010. p. 35-42.
[5] BERBER SARDINHA, T. (2004) Lingustica de Corpus. So Paulo:
Manole.
[6] SILVA E TEIXEIRA, R.B. Termos de (Onco)mastologia: uma
abordagem mediada por corpus. 2010. Dissertao de mestrado.
Pontifcia Universidade Catlica de So Paulo.
[7] MOREIRA FILHO, P. Desenvolvimento de um software para
preparao semiautomtica de atividades de leitura em ingls.
Dissertao de Mestrado Indita, LAEL, PUC-SP, 2007.
[8] Disponvel em: <
http://wordsmithtools.com/downloads/corpus_linguistics/Standard%20Exercise.p
df>. Acesso em 01/02/2013.