You are on page 1of 4

Lingustica de Corpus Atividade Prtica: uso de corpora disponveis

BUSCA EM PORTUGUS 1. Recurso: Corpora disponveis on-line: CETENFolha (http://www.linguateca.pt/acesso/corpus.php? corpus=SAOCARLOS). 2. Objetivo: manipulao introdutria de corpora e de ferramentas disponveis on-line, procurando analisar o comportamento das palavras no contexto, bem como a utilizao de um corpus para extrair esse tipo de informao. 3. Tarefas: 3.1 Anlise do recurso a. Que gneros/tipos textuais esto disponveis? b. Qual o perodo mapeado pelo corpus? c. Qual o tamanho do corpus? d. E se voc clicar em NILC/So Carlos todos junots o que alterado em termos de contedo disponibilizado? e. Que tipos de buscas so possveis?

3.2 Utilizando banco como palavra de busca, faa a sua procura: a. De acordo com o corpus, qual o sentido de banco? b. A palavra de busca ocorre em mais de uma classe morfossinttica? Qual a predominante? c. O que voc percebe em termos de padres de colocao? Exemplifique. d. Voc consegue perceber algum uso no convencional? Exemplifique e. O que mais o corpus mostra sobre os usos de banco?

3.3 Repita a busca para outras palavras 3.4 Explore novas formas de busca

BUSCA EM INGLS
(conforme sugerido por Albert Gatt -http://staff.um.edu.mt/albert.gatt/home/teaching/corpusLing.html)

1. Recurso: Sketch Engine (http://the.sketchengine.co.uk/auth/)


Login: Unisinos Senha: 4kAqLtLcwa

3. Tarefas: 3.1 Anlise do recurso a. Observe os corpora disponveis e seus tamanhos b. Escolha o BNC e responda: i. Que variedades de textos podem ser consultadas? ii. O BNC contm todos os tipos de textos e de todos os perodos? O que isso significa? 3.2 Utilizando quiver como palavra de busca, responda a. A palavra de busca ocorre em mais de uma classe morfossinttica? Qual a predominante? a. Quando usado como verbo, quiver principalmente usado como transitivo ou como intrasitivo? b. Identifique pelo menos um exemplo de uso transitivo de quiver. c. O que mais o corpus mostra sobre os usos de quiver? BUSCA NO WebCorp
Site http://www.webcorp.org.uk/ Tutorial http://www.webcorp.org.uk/guide/

(1) Search Engine: as opes de motor de busca so Google, AllTheWeb, Altavista e Metacrawler; (2) Concordance Span: o nmero de palavras direita e esquerda do termo solicitado, possvel solicitar a visualizao da sentena completa; (3) Case Option: sensvel ou no a maisculas e minsculas; (4) Output Format: formato de visualizao - HTML, HTML Tables (KWIC), Plain Text (KWIC)-, sugerimos HTML Tables, por j

disponibilizarem a opo de seleo ou excluso das sentenas e construo de um crpus sentencial automaticamente; (5) Web Adresses (URLs): mostrar ou omitir as URLs; (6) Number of Concordance Lines: seleo da quantidade de concordncias criadas por linha do texto original. (7) Site Domain: para Google e AltaVista pode-se escolher um site ou certas restriesque indiquem o tipo de site desejado. No nosso caso, solicitamos consulta somente em .br; (8) Newspaper Domain: pode-se direcionar a busca, por exemplo, para jornais franceses, ingleses, ou tablides. (9) Textual Domain: aqui se pode selecionar o assunto do texto, como por exemplo, todos, recreao, notcas, jovens e adolescentes etc. (10) Word Filter: este campo serve para incluir palavras extras que devem ou no devem aparecer no mesmo site do termo solicitado na busca. Para excluir palavras basta usar o sinal de (-) para excuir palavras, para incluir, basta redigir a palavra. (11) Pages Last Modified: pode-se delimitar perodos especficos ou deixar em todos. (12) Collocation: (a) external collocates, para visualizar uma tabela de freqncias para as palavras em quatro posies a esquerda e a direita do termo de busca; (b) internal collocates, se esta opo for selecionada e o termo de busca segue algum dos padres (abaixo expressos), o sistema retornar uma tabela contendo os wildcards, as palavras mais freqentes que ocupam essas posies wilcard; (13) pode-se solicitar que o sistema exclua stopwords; (14) pode-se limitar o nmero de concordncias por web site para um; e (15) pode-se solicitar que sejam excludos da varredura os links do texto e os emails. (16) o uso de asterisco (*) aps a palavra solicitada para indicar que se deseja qualquer terminao

BUSCA NA Web geral


a. http://www.quia.com/quiz/106756.html

BUSCA NO CORPGRAFO
Corpgrafo a. Site: http://193.137.34.101/corpografo/ b. Usurio: unisinos c. Senha: unisinos

Tutorial

http://www.linguateca.pt/documentos/Corpografo-Tutorial.pdf BUSCA NO Sketch Engine


d. Site: http://the.sketchengine.co.uk/auth/ e. Login: Unisinos f. Senha: 4kAqLtLcwa

Tutorial http://trac.sketchengine.co.uk/wiki/SkE/Help/CreateCorpus#wbc