You are on page 1of 10

Anlise quantitativa da freqncia dos fonemas e

estruturas silbicas portuguesas


Mrio Eduardo Viaro1, Zwinglio O. Guimares-Filho2
1

Departamento de Letras Clssicas e Vernculas, FFLCH (USP)


2

Instituto de Fsica (USP)


maeviaro@usp.br, zwinglio@usp.br
Abstract. Statistical proprieties of the structure of the Portuguese syllables
and the combination of the phonemes are considered. The corpus is based on
a mechanical transcription of a large list of Portuguese words. In the CV
structure, some clear preferences and rejections between C and V are
perceptible by means of the rank analysis.
Key-words. Phonology; Portuguese language; frequency; syllables.
Resumo. Discutem-se caractersticas estatsticas da estrutura das slabas
portuguesas e da combinao de fonemas. O corpus baseado numa
transcrio mecnica de uma grande lista de palavras portuguesas. Na
estrutura CV, algumas preferncias e rejeies evidentes entre C e V so
perceptveis por meio da anlise de posto.
Palavras-chave. Fonologia; lngua portuguesa; freqncia; slabas.

0. Introduo
Nos textos tericos, principalmente nos de carter dedutivo, fazem-se, com
freqncia, algumas generalizaes que se tornam premissas de ampla argumentao. A
verificao quantitativa dos fenmenos em que se fundam essas generalizaes , sem
dvida, bastante necessria. Tal tarefa , ocasionalmente, atribuda aos que testam a
validade cientfica. Em lingstica, esse teste comumente feito com corpora, dos quais
se servem os pesquisadores, quer para corroborar o que se afirma, quer para romper o
que se pensava erroneamente de maneira intuitiva. Todo corpus, no entanto, tem suas
limitaes, mas verdade que quanto mais extenso ele for, mais considerveis so os
dados que podem fornecer.
O nosso corpus compe-se de 150.875 palavras, todas existentes no Dicionrio
Houaiss da Lngua Portuguesa. Trata-se, portanto, de um corpus da lngua escrita, sem
considerao freqncia de uso das palavras e composto de verbetes no-lematizados.
Foram deixadas de lado as abreviaes, siglas, elementos de composio,
estrangeirismos evidentes, bem como os homnimos e as palavras hifenizadas,
formadas por justaposio. Cumpre observar que os resultados extrados desses dados se
baseiam em um corpus bem maior que o apresentado em trabalhos parecidos (cf.
SILVA et alii, 1993)
Sobre essa lista de palavras, trabalhou-se com programas computacionais feitos
na plataforma MatLab (The MathWorks, Inc., 1984-2002). Inicialmente, separaram-se

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 27 / 36

as slabas, em seguida, localizou-se a tnica, transcreveu-se num alfabeto fonolgico


intermedirio (com 65 caracteres distintos, representando fonemas e arquifonemas,
especificados por seu contexto fonottico), construdo para abarcar uma grande gama de
variaes fonticas da lngua portuguesa e, por fim, fez-se uma simulao de
interpretao fontica para algumas variantes do portugus. A apresentada aqui seria
uma interpretao da transcrio fonolgica sob uma variante paulista, ou seja, que
tem [s], [w] e [R] nas codas, assim como [tS] e [dZ] antes de [i]. Para casos complexos de
transliterao, como os oferecidos pelos grafemas x, e, o, utilizou-se a ortopia
fornecida pelo dicionrio.
Antes da interpretao fontica, a transcrio fonolgica (ou base transcrita,
doravante BT) podia ter as opes de prever casos de adio de fonemas (prtese,
epntese e paragoge, doravante BE), assim como fuso de slabas por sinrese (BS).
Adies e sinreses juntas tambm podiam formar uma outra base, doravante BES.
Todos os resultados que se seguem, portanto, so associados s limitaes que a
metodologia imps. As separaes e transcries fonticas foram submetidas, por
amostragem, a uma verificao manual e, por meio dela, pode-se estipular que a
margem de erro inferior a 0,5%.

1. Tamanho das palavras


As palavras do corpus possuem de 1 a 45 fonemas (ou 46 na BE). Isso equivale
a dizer que tm de 1 a 20 slabas (ou 21 na BE). A maior palavra
pneumoultramicroscopicossilicovulcanoconitico. A quantidade de palavras por fonema
cresce at 9 fonemas (que registra cerca de vinte e trs mil verbetes) e em seguida cai.
Com relao s slabas, os tetrasslabos formam o maior grupo de palavras (por volta de
quarenta e sete mil verbetes), como se v pela tabela abaixo:
Tabela 1. Distribuio de palavras portuguesas segundo a quantidade de slabas
Nm. Slabas

BT

BE

BS

BES

546

467

790

704

11712

11274

13165

12698

36790

35742

38113

36957

48218

47127

47205

46174

33125

33231

31982

32148

13926

15116

13355

14540

4665

5483

4503

5345

1440

1807

1354

1733

362

489

324

447

10

76

97

71

91

>10

16

43

14

39

Cumpre observar que, diante da possibilidade combinatria dos fonemas, os


nmeros acima so sempre pequenos. Por exemplo, os monosslabos correspondem a
um mnimo de 467 formas (BE) e a um mximo de 790 formas (BS). Respeitando todas
as limitaes combinatrias entre ataque, ncleo e coda, o portugus seria capaz de
produzir 4627 seqncias monossilbicas (VIARO 2005). As palavras de monosslabos

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 28 / 36

reais, no corpus, portanto, equivalem a um percentual relativamente reduzido


(respectivamente 10,1% e 17,1%). Um estudo de freqncia de uso reduziria ainda mais
esse percentual.

2. Tonicidade
de especial importncia para os estudos de acento lexical partir da hiptese de
que o portugus seja uma lngua de acentuao paroxtona. Nossos dados confirmam
isso. No entanto, a proparoxtona, caso tido como excepcional no portugus, muitas
vezes no tem porcentagens to desprezveis como se pensa.
Tabela 2. Distribuio das palavras portuguesas conforme a posio da slaba tnica
Slaba tnica

BT

BE

BS

BES

ltima

37591

37496

37602

37514

penltima

94326

93604

94164

93443

antepenltima

18413

18652

18320

18558

As oxtonas equivalem a 25%, as paroxtonas a cerca de 62% e as


proparoxtonas a 12% do total. No esto nesta listagem os monosslabos (0,3% a
0,5%). O interessante que palavras como rtmico podem, na BE e na BES, ter acento
tnico na pr-antepenltima slaba. Este caso, longe de ser excepcional, ocorre em 653
palavras (sobretudo terminadas em -ptero, -xido etc. e 3,3% das terminadas em ico
com i tono). Isso equivale a 0,4% da BE, uma quantidade maior do que a de
monosslabos. H quatro palavras nas mesmas bases que tm acento tnico na pr-prantepenltima slaba: arquepterix, diatenpterix, dpterix, monpterix. Com base em
buscas realizadas no Google em 15/8/2006 restritas a pginas em portugus pudemos
constatar que estas palavras tm freqncias de uso extremamente raras: apenas 20
ocorrncias de pginas contendo a palavra arquepterix, e 1 ocorrncia para dpterix
foram encontradas na base de cerca de 500 milhes de pginas em portugus do Google.
Outro resultado interessante que quanto mais longa a palavra, maior a
tendncia de ela ser proparoxtona do que oxtona, conforme se pode observar na
Figura 1.
100
Oxtonas
Paroxtonas
Proparoxtonas

90

Percentual de palavras

80
70
60
50
40
30
20
10
0
2

5
6
7
8
Nmero de slabas fonticas

10

11 ou +

Figura 1 - Relao entre tonicidade e nmero de slabas fonticas.

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 29 / 36

Segundo a Figura 1, paroxtonas e oxtonas tm basicamente o mesmo


percentual nos disslabos, ao passo que o nmero de oxtonas pentasslabas menor do
que o de proparoxtonas, mantendo-se abaixo delas, sempre em queda, medida que o
nmero de slabas aumenta.
Os dados permitem ainda questionar alguns modelos, como o da consoante
abstrata nas oxtonas finalizadas em vogal e o da extrametricidade (BISOL 1992).
Apesar de a maioria das oxtonas terminarem em consoante e das paroxtonas, em
vogal, 5% das oxtonas (BT) terminam em alguma vogal no-nasal e 12% das
paroxtonas terminam em consoante, glide ou em vogal nasal, isso sem falar do nada
desprezvel nmero de proparoxtonas (0,5% termina em consoante e 16% em vogal).
Tabela 3. Distribuio de palavras portuguesas conforme a classe do ltimo fonema
-C

-V

Monosslabos

370

176

Oxtonas

32255

5336

Paroxtonas

4431

89894

Proparoxtonas

182

18231

Total

37238

113637

Se analisarmos mais de perto os dados da tabela 3, verificaremos que se a


consoante em questo for um /N/, as distncias entre as paroxtonas e as oxtonas
diminuem: 51,6% dessas palavras so oxtonas, mas 43% so paroxtonas. Com /S/ a
distncia ainda menor: 45% so indiferentemente oxtonas ou paroxtonas. Com /L/,
61% so oxtonas, mas 39% so paroxtonas. A distncia s marcada com /R/: 99%
so oxtonas e 1% paroxtonas. No entanto, a grande maioria so verbos: das 19.205
oxtonas terminadas em /R/, 15.325 so verbos (80%) e como sabido, interpretaes
mais fonticas que fonolgicas poderiam alterar significativamente esses dados, uma
vez que /L/ pode ser interpretado como o glide [w] e o /R/ final dos infinitivos (ao
menos dos verbos com maior freqncia de uso) no realizado, aumentando, assim, o
nmero de oxtonas terminadas em vogal. Formas no-lematizadas aumentariam os
casos de paroxtonas com o final /S/.
Por mais que COLLISCHONN (1999:146) se esforce para mostrar que os
procedimentos da consoante abstrata e da extrametricidade no so ad hoc, a anlise dos
dados mostra que no h sempre equivalncias para a extrametricidade em outros
registros da lngua (como em [aRvi] para rvore). Tambm aqui, o estudo das
freqncias de uso das palavras ajudar a resolver definitivamente esse ponto.
Tampouco h, em muitos casos, qualquer tipo de realizao dessas consoantes em
formas derivadas, mas, pelo contrrio, essas supostas evidncias so, na verdade,
resqucios de antigas analogias que subsistem muitas vezes como interfixos (MALKIEL
1964).

3. Estruturas silbicas do portugus


As informaes deste captulo se baseiam sobre o nmero total de slabas que
passa das seiscentas mil (634.320 BE; 626.324 na BES; 624.791 na BT; 616.477 na
BS). A estrutura CV tida como universal (CRYSTAL 2000:238), havendo lnguas que
s dispem de duas estruturas: V e CV. No caso do portugus, essa estrutura no s est

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 30 / 36

freqente, mas tambm a mais numerosa, oscilando entre 65,6% (BS) e 67,3% (BE).
Os casos GV (em que G um glide) representam um nmero bastante pequeno:
constantemente 0,3% em todas as bases.
Com relao tonicidade, 55% das slabas so pretnicas, 24% so tnicas, 18%
so ps-tnicas finais e 3% so ps-tnicas no-finais. Em todas as posies, a estrutura
CV a mais freqente conforme a tabela abaixo, referente BT (as demais bases no
geram diferenas significativas):
Tabela 4. Estruturas silbicas mais freqentes do portugus conforme a tonicidade

CV

378340 60.6%

70493

46.7%

203185

59.3%

16697

90.7%

87965

78.0%

CVC

96019 15.4%

44675

29.6%

47172

13.8%

0.0%

4164

3.7%

52592

8.4%

7981

5.3%

37365

10.9%

439

2.4%

6807

6.0%

CCV

27767

4.4%

5127

3.4%

19674

5.7%

1251

6.8%

1715

1.5%

VC

26826

4.3%

5663

3.8%

21112

6.2%

0.0%

50

0.0%

CGV

12200

2.0%

298

0.2%

1361

0.4%

0.0%

10533

9.3%

CVG

11453

1.8%

5884

3.9%

5568

1.6%

0.0%

0.0%

CVGC

6633

1.1%

6477

4.3%

121

0.0%

0.0%

35

0.0%

CCVC

5171

0.8%

1920

1.3%

3153

0.9%

0.0%

98

0.1%

GV

1828

0.3%

503

0.3%

413

0.1%

0.0%

903

0.8%

VG

1770

0.3%

429

0.3%

1339

0.4%

0.0%

0.0%

CCVG

909

0.1%

289

0.2%

620

0.2%

0.0%

0.0%

CVCC

772

0.1%

116

0.1%

547

0.2%

0.0%

109

0.1%

CGVC

608

0.1%

214

0.1%

271

0.1%

0.0%

123

0.1%

CCVCC

422

0.1%

82

0.1%

329

0.1%

0.0%

11

0.0%

VCC

310

0.0%

20

0.0%

290

0.1%

0.0%

0.0%

GVC

308

0.0%

271

0.2%

28

0.0%

0.0%

0.0%

VGC

334

0.0%

238

0.2%

96

0.0%

0.0%

0.0%

outras

529

0,1%

195

0,1%

121

0,0%

0,0%

213

0,2%

150875

100%

342765

100%

18413

624791 100%

Pretnicas

Ps-tnicas
finais

Total

total

Tnicas

Ps-tnicas
no-finais

silaba

100% 112738 100%

Como se analisa facilmente da tabela acima, as slabas ps-tnicas so


preponderantemente abertas (100% das no-finais e 97% das finais, sendo que as nicas
excees para as no-finais so: baxe, antspasto, cferd, oldfeldia, pnalti,
tsarvitche, fdingue, chlenger, lmingue). As slabas abertas representam 67% das
slabas tnicas e 87% das pretnicas. As tonas, sobretudo as ps-tnicas, tm mais
predileo por ataques complexos (7% nas pretnicas e ps-tnicas no-finais, 11% nas
finais) do que as tnicas (5%). Isso fica evidente em CGV, que corresponde a 9% das
slabas ps-tnicas finais mas a 0% em outras posies.

4. As slabas do portugus (variante paulista)


Numa interpretao segundo a variante paulista, o /N/ e o /L/ na coda no so
considerados C, mas, respectivamente, como trao de vogal nasal e glide [w]. H, ao
todo, 54.019 slabas terminadas em /N/ que se acrescentam s estruturas XV ou XVG.

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 31 / 36

Interpretando /L/ como glide o nmero de estruturas XVG aumenta, uma vez que h
12.024 slabas nessa condio. A diferena pode ser vista nos totais da seguinte tabela:
Tabela 5. Resultados da diferena de interpretao de /N/ e /L/
Padro fonolgico
(/N/ e /L/ consoantes)

Interpretao paulista
(vogais nasais e glide [w])

CV

378340

60,6%

411576

65,9%

CVC

96019

15,4%

54117

8,7%

52590

8,4%

64011

10,2%

CCV

27767

4,4%

29694

4,8%

VC

26826

4,3%

12822

2,1%

CGV

12200

2,0%

12441

2,0%

CVG

11453

1,8%

26963

4,3%

CVGC

6633

1,1%

250

0,0%

CCVC

5171

0,8%

3438

0,6%

outras

7792

1,2%

9479

1,5%

Total

624791

100%

624791

100%

Na interpretao paulista de BT, as slabas mais freqentes so: [a] (5%), e [tSi]
(3%). Com 2% ocorrem as slabas: [si], [ku], [ta], [ka], [du], [dZi], [li]. Com 1%, a gama
aumenta: [Ra], [tu], [na], [Ri], [ma], [mi], [o], [ni], [da], [la], [de], [te], [to], [e], [ko],
[Ru], [fi], [e)], [i], [pi], [pa], [bi], [nu], [mu], [ba], [zi], [ga], [s)w], [he], [es], [za], [se],
[Zi], [me)], [sa], [me], [mo], [lo]. Com 0,5%: [no], [pe], [lu], [i)], [po], [aR], [doR], [aw],
[ki], [su], [k], [vi]. Com 0,4%: [le], [Ro], [ne], [va], [)], [fa], [bu], [tRi], [so]. Com
0,3%: [gRa], [kaR], [Ze], [bo], [viw], [zu], [gu], [tRa], [do], [ha], [fo], [u], [pu], [Rju],
[des], [taR], [Re], [sja], [fu], [dZju]. Com 0,2%: [go], [be], [zaR], [zo], [Sa], [k)], [tRo],
[vu], [laR], [t], [pRo], [Za], [ze)], [a], [fe], [a], [ve], [sju], [se)], [Ze)], [], [m)], [ke],
[Si], [dez], [hi], [l], [kRo], [peR], [pRe], [l)], [Zu], [tRu], [naR], [ja], [ho] e assim por
diante. Nas outras bases, no h mudanas de porcentagem, uma vez que a mudana de
transcrio se d nas slabas menos freqentes. BEpaulista e BESpaulista, contudo, revelam
aumentos apenas nos percentuais das labiais+[i] e nas velares+[i], sobretudo nas surdas.
Desse modo [pi] oscila entre 0,8% (BTpaulista) e 1,2% (BEpaulista), [bi] respectivamente
entre 0,8% e 0,9%, [dZi] entre 1,6% e 1,7%, [ki] entre 0,5% e 1,1% e [gi] entre 0,1% e
1,1%. A explicao est, talvez, nas palavras prefixadas com ab-, ob-, ad- e outras
palavras cultas gregas e latinas. H entre 2600 a 3600 tipos de slabas distintas.
visvel que, apesar de a slaba mais freqente ser do tipo V, a grande maioria
do tipo CV, surgindo, aos poucos, os casos com coda e, depois os com ataque
complexo. Apesar de a lista ser extensa, no ocorre acima nenhum caso com a slaba
[E]. A mais freqente, [tE], aparece com cerca de 0,1%.

5. A slaba CV em portugus (variante paulista)


Para as ocorrncias de CV, os segmentos consonantais so, em ordem
decrescente de freqncia: [k] (10,0%), [t] (9,4%), [m] (8,4%), [l] (7,5%), [s] (7,4%),
[R] (7,4%), [n] (7,1%), [d] (7,0%), [p] (5,1%), [tS] (4,7%), [b] (4,3%), [z] (3,8%),

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 32 / 36

[f] (3,3%), [Z] (2,6%), [g] (2,5%), [dZ] (2,5%), [v] (2,4%), [h] (2,4%), [S] (1,2%),
[] (0,6%), [] (0,6%). Para as vogais temos: [i] (26,5%), [a] (24,1%), [u] (17,0%),
[e] (10,6%), [o] (10,0%), [e)] (3,3%), [)] (2,3%), [] (1,8%), [E] (1,3%), [] (1,2%),
[i)] (0,9%), [] (0,6%), [u)] (0,5%). Os glides no esto sendo computados porque eles
no fazem parte das CV. Os segmentos [a] e [] foram computados em um s fonema
/a/, com 24,7%. Os segmentos [t] e [tS] tambm foram computados num nico fonema
/t/, com 14,1% (ultrapassando, assim, o primeiro lugar). Idem [d] e [dZ] somados no
fonema /d/ computam 9,5%, subindo, da 8 posio para a 3. A seqncia de fonemas
consonantais, da mais freqente para a menos freqente nas slabas CV, : t k d m l s R n
p b z f Z g v h S . Curioso observar, nessa seqncia, que as consoantes [-voz] so
preferidas s [+voz] quando h um par. A nica exceo o caso de [Z], que preferida
a [S]. Os fonemas voclicos continuam praticamente inalterados: i a u e o e) ) E i) u).
Por esses dados, possvel observar que com respeito ao ataque, metade das CV
comea com /t/, /k/, /d/, /m/ ou /l/. Quanto rima das CV, mais da metade termina com
as vogais /i/ ou /a/. Por outro lado, todas as vogais nasais somadas juntamente com // e
/E/ equivalem a apenas 12% do total. interessante constatar que os sons menos
freqentes consonantais ou voclicos so, diacronicamente, mais recentes na lngua,
tendo, como ponto de partida, o latim. Abaixo de /b/, todas as consoantes so novas na
lngua, com exceo de /f/ e /g/ e, somadas, equivalem a 16,1% do total.
de se perceber, contudo, que nem todas as vogais so igualmente produtivas.
A CV mais freqente para cada vogal oscila entre 13% a 20% das slabas CV com essa
mesma vogal, mas h excees: /me)/ tem 28% de todas as CV com e) e /k/, com 58%.
Abaixo de 1% esto seqncias com /fe)/, /v/, /vu)/, /v/, /hu/, /n/, /gi/, /ge/, /gE/, /Se)/,
/Su/, /S/, /Z/, /Z/, /i/, /e/, /E/, /e)/, /i)/, /u/, /u)/, //, /i/, /e/, /E/, /i)/, //,
/u)/, //. A seqncia // no existe no corpus. Tambm /i)/ e /u)/ ocorrem apenas
uma vez cada, ou seja, tem produtividade praticamente nula.
O dado mais surpreendente foi que algumas C combinam melhor com algumas
V do que com outras. Seguindo as seqncias decrescentes acima, supe-se que, dada
uma vogal V, a freqncia decresceria da seguinte forma: [t]+V, [k]+V, [d]+V etc.
(conforme tambm decresce a freqncia da consoante). Tal fato no ocorre. Verificouse, assim, a seqncia das consoantes com relao a cada vogal, ou seja, realizou-se
uma anlise de posto (ABDI, 2007) para determinar as preferncias e rejeies dos
acoplamentos C+V.
A Tabela 6 apresenta, para cada vogal, a seqncia de freqncias das
correspondentes consoantes em ordem decrescente, ou seja, a ordem de postos das
consoantes de cada vogal em slabas CV. Assim, percebe-se que a slaba CV com a
vogal [i] mais freqente /ti/, seguida de /si/, /di/ etc at /i/. Verifica-se na Tabela 6
que as ordens de freqncia das consoantes de algumas vogais so muito diferentes da
observada quando se considera todo o conjunto das slabas CV, apresentada na ltima
linha.

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 33 / 36

Tabela 6 - Relao entre a ordem de preferncia das consoantes em relao s


vogais nas silabas CV do portugus (variante paulista)
Vogais

Consoantes

")

e)

o)

u)

todas

flagrante observar aqui alguns detalhes: a velar surda [k] predominante nos
casos de vogais [+rec] e rejeitada com [-rec]. Nesses casos, a distncia entre [k] e [g]
diminui sensivelmente; por outro lado, [s] mais freqente com vogais [-rec] do que
nas [+rec]. Impossvel no associar esses dados com um fato diacrnico.
Diacronicamente, a passagem de *[ki] > [si], *[ke] > [se] ocorreu no latim vulgar
(provavelmente por meio de intermedirios *[tsi], *[tse]). Trata-se de fato trivial, que se
v ao soletrarem-se as slabas, no estilo das cartilhas: ca, ce, ci, co, cu ([ka], [se], [si],
[ko], [ku]). Nosso corpus, no entanto, no formado apenas de palavras provenientes
do latim vulgar, mas, ao que tudo indica, as palavras que entraram para o lxico
portugus, provindas do latim medieval e renascentista, pelo latim cientfico, pelo
francs e por inmeras outras lnguas (inclusive no-indo-europias) parecem ter-se
pautado pelo molde fnico primitivo e, paulatinamente, reforado. A preferncia de
certas C com relao a certas V e vice-versa se vem ainda em outros casos de forma
menos contundente e tem casos aparentes de dissimilaes (por exemplo: [v] rejeita
sons arredondados como [], [], [o], [u], [u)] e prefere no-arredondados como [e)], [e],
[i]). Se NOGUEIRA (1958) tiver razo quando afirma que a assimilao o princpio
pelo qual se regem todas as transformaes fonticas, entendemos que os traos da
consoante e os da vogal desempenham um grande papel na preferncia de uma lngua
por uma slaba CV em detrimento de outra. O antigo termo assimilao adquire, em
teorias mais recentes, um papel muito importante, como, por exemplo, no modelo
autossegmental, sobretudo no fenmeno do espraiamento (CLEMENTS & HUME,
1995) mas poder ter grande aplicao, a partir de resultados como os nossos, em
solues derivadas do modelo da otimalidade, uma vez que h, como vimos, slabas
preferveis (timas) e no s estruturas silbicas (PRINCE & SMOLENSKY, 2004).
Em todo caso, trata-se de um campo novo a ser explorado.
Uma anlise estatstica mais completa foi empregada para quantificar as
preferncias e rejeies entre os acoplamentos de consoantes e vogais. Assim,
estimamos a probabilidade mdia de cada vogal v, p (v) , por p (v) = N CV (*, v) , onde
N CV (*,*)

N CV (*,v) o nmero de slabas CV formada por qualquer uma das consoantes e a

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 34 / 36

vogal v, e N CV (*,*) o nmero total de slabas CV, no caso, 411.576. De maneira


anloga, a probabilidade mdia de cada consoante c foi estimada por p (c) = N CV (c,*) , e
N CV (*,*)

a probabilidade mdia de cada slaba cv por p (c, v) = N CV (c, v) .


N CV (*,*)

Usando a definio de probabilidade condicional (MAGALHES & LIMA,


2002: 137), sabemos que p(c, v) = p(c). p(v / c) , onde p (v / c) a probabilidade de se
encontrar a vogal v em uma slaba cuja consoante c. Escrevendo p (v / c) em termos da
probabilidade mdia da vogal v e de um fator de acoplamento, (c, v ) , obtemos
p(v / c) = p (v). (c, v) . A interpretao do fator de acoplamento (c, v) a seguinte: a
ausncia de preferncia ou rejeio no acoplamento de c com v, implica que (c, v) ser
igual a 1, indicando que a probabilidade da vogal v no se altera pela presena da
consoante c e vice-versa. Nos casos de preferncia, (c, v) ser maior do que 1,
enquanto nas rejeies, (c, v) ser menor do que 1.

Manipulando as equaes acima, possvel relacionar o fator de acoplamento


com as probabilidades mdias determinadas experimentalmente, resultando em

(c, v ) =

p (c, v )
.
p (c). p (v)

(Equao 1)

Preferncias -cv
i
")
e
e)
E
)
a

o
o)
u
u)
p

Rejeies -cv
i
")
e
e)
E
)
a

o
o)
u
u)
p

Figura 2 - Fatores de acoplamentos (Equao 1) superiores a 10% entre vogais


e consoantes das slabas CV do portugus (variante paulista).

Na Figura 2 so apresentados os acoplamentos e a intensidade das preferncias e


rejeies superiores a 10%. A anlise da Figura 2 corrobora os resultados obtidos na
anlise de posto, porm, muito mais rica em detalhes evidenciando, por exemplo, que
as consoantes [k] e [g] possuem preferncias e rejeies similares.

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 35 / 36

6. Concluses
Nossos dados reforam diversas concepes intuitivas ou obtidas em corpora
bem menores (cf., por ex, BARBOSA, 1983: 223-229), que so pilares de muitas
teorias, sobretudo a preponderncia das paroxtonas e da slaba CV na lngua
portuguesa, mas os dados particulares acerca das CV parecem absolutamente novos e
do um passo para entender aquilo que, durante sculos, os estudos literrios e a
terminologia no-cientfica (e, portanto, raramente adotada pela fonologia) tenta
compreender com o nome de eufonia. A extenso do trabalho para outros tipos de
estruturas silbicas, ou at mesmo para relaes de preferncia entre ataque, ncleo e
coda parece promissora. Por exemplo, resultados preliminares mostraram que com
relao s slabas VC e VG, as vogais centrais e as posteriores combinam melhor com
[R] e [w] do que as anteriores, que combinam melhor com [s]. Dados de lngua falada,
que envolvam vocbulos flexionados (no-lematizados), associados com sua freqncia
de uso diro, em futuros artigos, se h de fato grande distino entre dados da lngua
escrita e os de lngua efetivamente falada. No entanto, os estudos de ALBANO et alii
(1995), nos levam a prever que a diferena ser, aparente, pequena.

7. Referncias bibliogrficas
ABDI, Herv. The Kendall rank correlation. In: SALKIND, Neil (org.). Encyclopedia of
Measurement and Statistics. Thousand Oaks (CA): Sage, 2007.
ALBANO, Eleonora et alii. Segment frequency and word structure in Brazilian
Portuguese. Proceedings of the XIVth IChS. Estocolmo, V.3, p. 346-349, 1995.
BARBOSA, Jorge M. tudes de phonologie portugaise. vora: Universidade de vora,
1983.
BISOL, Leda. O acento e o p mtrico binrio. Cadernos de estudos lingsticos.
Campinas: Unicamp, v. 23, p. 83-101, 1992.
CLEMENTS, George N. & HUME, Elizabeth V. The internal organization of speech
sounds. In: GOLDSMITH, John (org). The handbook of phonological theory.
London: Blackwell, 1995.
COLLISCHONN, Gisela. O acento em portugus. In: BISOL, Leda (org.) Introduo a
estudos de fonologia do portugus brasileiro. Porto Alegre: Edipucrs, 1999, p.
125-158.
CRYSTAL, David. Dicionrio de lingstica e fontica. Rio de Janeiro: Zahar, 2000.
MALKIEL, Yakov. Generic analyses of word formation (1964) .In: SEBEOK, Thomas
A. (org.) Current trends in linguistics. Paris: Mouton, 1970, p. 305-364.
MAGALHES, Marcos Nascimento & LIMA, Antonio Carlos Pedroso. Noes de
probabilidade e estatstica. So Paulo: Edusp, 2002.
NOGUEIRA, Rodrigo de S. Tentativa de explicao dos fenmenos fonticos em
portugus. Lisboa: Clssica, 1958.
PRINCE, Alan & SMOLENSKY, Paul. Optimality theory: constraint interaction in
generative grammar. Malden/Oxford/Carlton: Blackwell, 2004.
SILVA, Adelaide H. P. et alii. Codificao fonolgica informatizada do minidicionrio
Aurlio: um banco de dados para o estudo da fonologia portuguesa. Anais XLI
GEL. Ribeiro Preto: UNESP, v. 1: 1321-7, 1993.
VIARO, Mrio E. Relao entre produtividade e freqncia na produo do significado.
Estudos lingsticos. Campinas: Unicamp, v. 34: 1230-1235, 2005. Disponvel
em: www.gel.org.br/4publica-estudos2005-autores.htm

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 36 / 36

You might also like