Viaro Guimarães Filho - Análise Quantitativa Da Freqüência Dos Fonemas

Anlise quantitativa da freqncia dos fonemas e
estruturas silbicas portuguesas

Mrio Eduardo Viaro1, Zwinglio O. Guimares-Filho2
1
Departamento de Letras Clssicas e Vernculas, FFLCH (USP)

2
Instituto de Fsica (USP)

maeviaro@usp.br, zwinglio@usp.br
Abstract. Statistical proprieties of the structure of the Portuguese syllables
and the combination of the phonemes are considered. The corpus is based on
a mechanical transcription of a large list of Portuguese words. In the CV
structure, some clear preferences and rejections between C and V are
perceptible by means of the rank analysis.
Key-words. Phonology; Portuguese language; frequency; syllables.
Resumo. Discutem-se caractersticas estatsticas da estrutura das slabas
portuguesas e da combinao de fonemas. O corpus baseado numa
transcrio mecnica de uma grande lista de palavras portuguesas. Na
estrutura CV, algumas preferncias e rejeies evidentes entre C e V so
perceptveis por meio da anlise de posto.
Palavras-chave. Fonologia; lngua portuguesa; freqncia; slabas.
0. Introduo
Nos textos tericos, principalmente nos de carter dedutivo, fazem-se, com
freqncia, algumas generalizaes que se tornam premissas de ampla argumentao. A
verificao quantitativa dos fenmenos em que se fundam essas generalizaes , sem
dvida, bastante necessria. Tal tarefa , ocasionalmente, atribuda aos que testam a
validade cientfica. Em lingstica, esse teste comumente feito com corpora, dos quais
se servem os pesquisadores, quer para corroborar o que se afirma, quer para romper o
que se pensava erroneamente de maneira intuitiva. Todo corpus, no entanto, tem suas
limitaes, mas verdade que quanto mais extenso ele for, mais considerveis so os
dados que podem fornecer.
O nosso corpus compe-se de 150.875 palavras, todas existentes no Dicionrio
Houaiss da Lngua Portuguesa. Trata-se, portanto, de um corpus da lngua escrita, sem
considerao freqncia de uso das palavras e composto de verbetes no-lematizados.
Foram deixadas de lado as abreviaes, siglas, elementos de composio,
estrangeirismos evidentes, bem como os homnimos e as palavras hifenizadas,
formadas por justaposio. Cumpre observar que os resultados extrados desses dados se
baseiam em um corpus bem maior que o apresentado em trabalhos parecidos (cf.
SILVA et alii, 1993)
Sobre essa lista de palavras, trabalhou-se com programas computacionais feitos
na plataforma MatLab (The MathWorks, Inc., 1984-2002). Inicialmente, separaram-se
Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 27 / 36
as slabas, em seguida, localizou-se a tnica, transcreveu-se num alfabeto fonolgico

intermedirio (com 65 caracteres distintos, representando fonemas e arquifonemas,
especificados por seu contexto fonottico), construdo para abarcar uma grande gama de
variaes fonticas da lngua portuguesa e, por fim, fez-se uma simulao de
interpretao fontica para algumas variantes do portugus. A apresentada aqui seria
uma interpretao da transcrio fonolgica sob uma variante paulista, ou seja, que
tem [s], [w] e [R] nas codas, assim como [tS] e [dZ] antes de [i]. Para casos complexos de
transliterao, como os oferecidos pelos grafemas x, e, o, utilizou-se a ortopia
fornecida pelo dicionrio.
Antes da interpretao fontica, a transcrio fonolgica (ou base transcrita,
doravante BT) podia ter as opes de prever casos de adio de fonemas (prtese,
epntese e paragoge, doravante BE), assim como fuso de slabas por sinrese (BS).
Adies e sinreses juntas tambm podiam formar uma outra base, doravante BES.
Todos os resultados que se seguem, portanto, so associados s limitaes que a
metodologia imps. As separaes e transcries fonticas foram submetidas, por
amostragem, a uma verificao manual e, por meio dela, pode-se estipular que a
margem de erro inferior a 0,5%.
1. Tamanho das palavras

As palavras do corpus possuem de 1 a 45 fonemas (ou 46 na BE). Isso equivale
a dizer que tm de 1 a 20 slabas (ou 21 na BE). A maior palavra
pneumoultramicroscopicossilicovulcanoconitico. A quantidade de palavras por fonema
cresce at 9 fonemas (que registra cerca de vinte e trs mil verbetes) e em seguida cai.
Com relao s slabas, os tetrasslabos formam o maior grupo de palavras (por volta de
quarenta e sete mil verbetes), como se v pela tabela abaixo:
Tabela 1. Distribuio de palavras portuguesas segundo a quantidade de slabas
Nm. Slabas
BT
BE
BS
BES
546
467
790
704
11712
11274
13165
12698
36790
35742
38113
36957
48218
47127
47205
46174
33125
33231
31982
32148
13926
15116
13355
14540
4665
5483
4503
5345
1440
1807
1354
1733
362
489
324
447
10
76
97
71
91
>10
16
43
14
39
Cumpre observar que, diante da possibilidade combinatria dos fonemas, os

nmeros acima so sempre pequenos. Por exemplo, os monosslabos correspondem a
um mnimo de 467 formas (BE) e a um mximo de 790 formas (BS). Respeitando todas
as limitaes combinatrias entre ataque, ncleo e coda, o portugus seria capaz de
produzir 4627 seqncias monossilbicas (VIARO 2005). As palavras de monosslabos
reais, no corpus, portanto, equivalem a um percentual relativamente reduzido

(respectivamente 10,1% e 17,1%). Um estudo de freqncia de uso reduziria ainda mais
esse percentual.
2. Tonicidade
de especial importncia para os estudos de acento lexical partir da hiptese de
que o portugus seja uma lngua de acentuao paroxtona. Nossos dados confirmam
isso. No entanto, a proparoxtona, caso tido como excepcional no portugus, muitas
vezes no tem porcentagens to desprezveis como se pensa.
Tabela 2. Distribuio das palavras portuguesas conforme a posio da slaba tnica
Slaba tnica
BT
BE
BS
BES
ltima
37591
37496
37602
37514
penltima
94326
93604
94164
93443
antepenltima
18413
18652
18320
18558
As oxtonas equivalem a 25%, as paroxtonas a cerca de 62% e as

proparoxtonas a 12% do total. No esto nesta listagem os monosslabos (0,3% a
0,5%). O interessante que palavras como rtmico podem, na BE e na BES, ter acento
tnico na pr-antepenltima slaba. Este caso, longe de ser excepcional, ocorre em 653
palavras (sobretudo terminadas em -ptero, -xido etc. e 3,3% das terminadas em ico
com i tono). Isso equivale a 0,4% da BE, uma quantidade maior do que a de
monosslabos. H quatro palavras nas mesmas bases que tm acento tnico na pr-prantepenltima slaba: arquepterix, diatenpterix, dpterix, monpterix. Com base em
buscas realizadas no Google em 15/8/2006 restritas a pginas em portugus pudemos
constatar que estas palavras tm freqncias de uso extremamente raras: apenas 20
ocorrncias de pginas contendo a palavra arquepterix, e 1 ocorrncia para dpterix
foram encontradas na base de cerca de 500 milhes de pginas em portugus do Google.
Outro resultado interessante que quanto mais longa a palavra, maior a
tendncia de ela ser proparoxtona do que oxtona, conforme se pode observar na
Figura 1.
100
Oxtonas
Paroxtonas
Proparoxtonas
90
Percentual de palavras
80
70
60
50
40
30
20
10
0
2
5
6
7
8
Nmero de slabas fonticas
10
11 ou +
Figura 1 - Relao entre tonicidade e nmero de slabas fonticas.
Segundo a Figura 1, paroxtonas e oxtonas tm basicamente o mesmo

percentual nos disslabos, ao passo que o nmero de oxtonas pentasslabas menor do
que o de proparoxtonas, mantendo-se abaixo delas, sempre em queda, medida que o
nmero de slabas aumenta.
Os dados permitem ainda questionar alguns modelos, como o da consoante
abstrata nas oxtonas finalizadas em vogal e o da extrametricidade (BISOL 1992).
Apesar de a maioria das oxtonas terminarem em consoante e das paroxtonas, em
vogal, 5% das oxtonas (BT) terminam em alguma vogal no-nasal e 12% das
paroxtonas terminam em consoante, glide ou em vogal nasal, isso sem falar do nada
desprezvel nmero de proparoxtonas (0,5% termina em consoante e 16% em vogal).
Tabela 3. Distribuio de palavras portuguesas conforme a classe do ltimo fonema
-C
-V
Monosslabos
370
176
Oxtonas
32255
5336
Paroxtonas
4431
89894
Proparoxtonas
182
18231
Total
37238
113637
Se analisarmos mais de perto os dados da tabela 3, verificaremos que se a

consoante em questo for um /N/, as distncias entre as paroxtonas e as oxtonas
diminuem: 51,6% dessas palavras so oxtonas, mas 43% so paroxtonas. Com /S/ a
distncia ainda menor: 45% so indiferentemente oxtonas ou paroxtonas. Com /L/,
61% so oxtonas, mas 39% so paroxtonas. A distncia s marcada com /R/: 99%
so oxtonas e 1% paroxtonas. No entanto, a grande maioria so verbos: das 19.205
oxtonas terminadas em /R/, 15.325 so verbos (80%) e como sabido, interpretaes
mais fonticas que fonolgicas poderiam alterar significativamente esses dados, uma
vez que /L/ pode ser interpretado como o glide [w] e o /R/ final dos infinitivos (ao
menos dos verbos com maior freqncia de uso) no realizado, aumentando, assim, o
nmero de oxtonas terminadas em vogal. Formas no-lematizadas aumentariam os
casos de paroxtonas com o final /S/.
Por mais que COLLISCHONN (1999:146) se esforce para mostrar que os
procedimentos da consoante abstrata e da extrametricidade no so ad hoc, a anlise dos
dados mostra que no h sempre equivalncias para a extrametricidade em outros
registros da lngua (como em [aRvi] para rvore). Tambm aqui, o estudo das
freqncias de uso das palavras ajudar a resolver definitivamente esse ponto.
Tampouco h, em muitos casos, qualquer tipo de realizao dessas consoantes em
formas derivadas, mas, pelo contrrio, essas supostas evidncias so, na verdade,
resqucios de antigas analogias que subsistem muitas vezes como interfixos (MALKIEL
1964).
3. Estruturas silbicas do portugus

As informaes deste captulo se baseiam sobre o nmero total de slabas que
passa das seiscentas mil (634.320 BE; 626.324 na BES; 624.791 na BT; 616.477 na
BS). A estrutura CV tida como universal (CRYSTAL 2000:238), havendo lnguas que
s dispem de duas estruturas: V e CV. No caso do portugus, essa estrutura no s est
freqente, mas tambm a mais numerosa, oscilando entre 65,6% (BS) e 67,3% (BE).
Os casos GV (em que G um glide) representam um nmero bastante pequeno:
constantemente 0,3% em todas as bases.
Com relao tonicidade, 55% das slabas so pretnicas, 24% so tnicas, 18%
so ps-tnicas finais e 3% so ps-tnicas no-finais. Em todas as posies, a estrutura
CV a mais freqente conforme a tabela abaixo, referente BT (as demais bases no
geram diferenas significativas):
Tabela 4. Estruturas silbicas mais freqentes do portugus conforme a tonicidade
CV
378340 60.6%
70493
46.7%
203185
59.3%
16697
90.7%
87965
78.0%
CVC
96019 15.4%
44675
29.6%
47172
13.8%
0.0%
4164
3.7%
52592
8.4%
7981
5.3%
37365
10.9%
439
2.4%
6807
6.0%
CCV
27767
4.4%
5127
3.4%
19674
5.7%
1251
6.8%
1715
1.5%
VC
26826
4.3%
5663
3.8%
21112
6.2%
0.0%
50
0.0%
CGV
12200
2.0%
298
0.2%
1361
0.4%
0.0%
10533
9.3%
CVG
11453
1.8%
5884
3.9%
5568
1.6%
0.0%
0.0%
CVGC
6633
1.1%
6477
4.3%
121
0.0%
0.0%
35
0.0%
CCVC
5171
0.8%
1920
1.3%
3153
0.9%
0.0%
98
0.1%
GV
1828
0.3%
503
0.3%
413
0.1%
0.0%
903
0.8%
VG
1770
0.3%
429
0.3%
1339
0.4%
0.0%
0.0%
CCVG
909
0.1%
289
0.2%
620
0.2%
0.0%
0.0%
CVCC
772
0.1%
116
0.1%
547
0.2%
0.0%
109
0.1%
CGVC
608
0.1%
214
0.1%
271
0.1%
0.0%
123
0.1%
CCVCC
422
0.1%
82
0.1%
329
0.1%
0.0%
11
0.0%
VCC
310
0.0%
20
0.0%
290
0.1%
0.0%
0.0%
GVC
308
0.0%
271
0.2%
28
0.0%
0.0%
0.0%
VGC
334
0.0%
238
0.2%
96
0.0%
0.0%
0.0%
outras
529
0,1%
195
0,1%
121
0,0%
0,0%
213
0,2%
150875
100%
342765
100%
18413
624791 100%
Pretnicas
Ps-tnicas
finais
Total
total
Tnicas
Ps-tnicas
no-finais
silaba
100% 112738 100%
Como se analisa facilmente da tabela acima, as slabas ps-tnicas so

preponderantemente abertas (100% das no-finais e 97% das finais, sendo que as nicas
excees para as no-finais so: baxe, antspasto, cferd, oldfeldia, pnalti,
tsarvitche, fdingue, chlenger, lmingue). As slabas abertas representam 67% das
slabas tnicas e 87% das pretnicas. As tonas, sobretudo as ps-tnicas, tm mais
predileo por ataques complexos (7% nas pretnicas e ps-tnicas no-finais, 11% nas
finais) do que as tnicas (5%). Isso fica evidente em CGV, que corresponde a 9% das
slabas ps-tnicas finais mas a 0% em outras posies.
4. As slabas do portugus (variante paulista)

Numa interpretao segundo a variante paulista, o /N/ e o /L/ na coda no so
considerados C, mas, respectivamente, como trao de vogal nasal e glide [w]. H, ao
todo, 54.019 slabas terminadas em /N/ que se acrescentam s estruturas XV ou XVG.
Interpretando /L/ como glide o nmero de estruturas XVG aumenta, uma vez que h
12.024 slabas nessa condio. A diferena pode ser vista nos totais da seguinte tabela:
Tabela 5. Resultados da diferena de interpretao de /N/ e /L/
Padro fonolgico
(/N/ e /L/ consoantes)
Interpretao paulista
(vogais nasais e glide [w])
CV
378340
60,6%
411576
65,9%
CVC
96019
15,4%
54117
8,7%
52590
8,4%
64011
10,2%
CCV
27767
4,4%
29694
4,8%
VC
26826
4,3%
12822
2,1%
CGV
12200
2,0%
12441
2,0%
CVG
11453
1,8%
26963
4,3%
CVGC
6633
1,1%
250
0,0%
CCVC
5171
0,8%
3438
0,6%
outras
7792
1,2%
9479
1,5%
Total
624791
100%
624791
100%
Na interpretao paulista de BT, as slabas mais freqentes so: [a] (5%), e [tSi]
(3%). Com 2% ocorrem as slabas: [si], [ku], [ta], [ka], [du], [dZi], [li]. Com 1%, a gama
aumenta: [Ra], [tu], [na], [Ri], [ma], [mi], [o], [ni], [da], [la], [de], [te], [to], [e], [ko],
[Ru], [fi], [e)], [i], [pi], [pa], [bi], [nu], [mu], [ba], [zi], [ga], [s)w], [he], [es], [za], [se],
[Zi], [me)], [sa], [me], [mo], [lo]. Com 0,5%: [no], [pe], [lu], [i)], [po], [aR], [doR], [aw],
[ki], [su], [k], [vi]. Com 0,4%: [le], [Ro], [ne], [va], [)], [fa], [bu], [tRi], [so]. Com
0,3%: [gRa], [kaR], [Ze], [bo], [viw], [zu], [gu], [tRa], [do], [ha], [fo], [u], [pu], [Rju],
[des], [taR], [Re], [sja], [fu], [dZju]. Com 0,2%: [go], [be], [zaR], [zo], [Sa], [k)], [tRo],
[vu], [laR], [t], [pRo], [Za], [ze)], [a], [fe], [a], [ve], [sju], [se)], [Ze)], [], [m)], [ke],
[Si], [dez], [hi], [l], [kRo], [peR], [pRe], [l)], [Zu], [tRu], [naR], [ja], [ho] e assim por
diante. Nas outras bases, no h mudanas de porcentagem, uma vez que a mudana de
transcrio se d nas slabas menos freqentes. BEpaulista e BESpaulista, contudo, revelam
aumentos apenas nos percentuais das labiais+[i] e nas velares+[i], sobretudo nas surdas.
Desse modo [pi] oscila entre 0,8% (BTpaulista) e 1,2% (BEpaulista), [bi] respectivamente
entre 0,8% e 0,9%, [dZi] entre 1,6% e 1,7%, [ki] entre 0,5% e 1,1% e [gi] entre 0,1% e
1,1%. A explicao est, talvez, nas palavras prefixadas com ab-, ob-, ad- e outras
palavras cultas gregas e latinas. H entre 2600 a 3600 tipos de slabas distintas.
visvel que, apesar de a slaba mais freqente ser do tipo V, a grande maioria
do tipo CV, surgindo, aos poucos, os casos com coda e, depois os com ataque
complexo. Apesar de a lista ser extensa, no ocorre acima nenhum caso com a slaba
[E]. A mais freqente, [tE], aparece com cerca de 0,1%.
5. A slaba CV em portugus (variante paulista)

Para as ocorrncias de CV, os segmentos consonantais so, em ordem
decrescente de freqncia: [k] (10,0%), [t] (9,4%), [m] (8,4%), [l] (7,5%), [s] (7,4%),
[R] (7,4%), [n] (7,1%), [d] (7,0%), [p] (5,1%), [tS] (4,7%), [b] (4,3%), [z] (3,8%),
[f] (3,3%), [Z] (2,6%), [g] (2,5%), [dZ] (2,5%), [v] (2,4%), [h] (2,4%), [S] (1,2%),
[] (0,6%), [] (0,6%). Para as vogais temos: [i] (26,5%), [a] (24,1%), [u] (17,0%),
[e] (10,6%), [o] (10,0%), [e)] (3,3%), [)] (2,3%), [] (1,8%), [E] (1,3%), [] (1,2%),
[i)] (0,9%), [] (0,6%), [u)] (0,5%). Os glides no esto sendo computados porque eles
no fazem parte das CV. Os segmentos [a] e [] foram computados em um s fonema
/a/, com 24,7%. Os segmentos [t] e [tS] tambm foram computados num nico fonema
/t/, com 14,1% (ultrapassando, assim, o primeiro lugar). Idem [d] e [dZ] somados no
fonema /d/ computam 9,5%, subindo, da 8 posio para a 3. A seqncia de fonemas
consonantais, da mais freqente para a menos freqente nas slabas CV, : t k d m l s R n
p b z f Z g v h S . Curioso observar, nessa seqncia, que as consoantes [-voz] so
preferidas s [+voz] quando h um par. A nica exceo o caso de [Z], que preferida
a [S]. Os fonemas voclicos continuam praticamente inalterados: i a u e o e) ) E i) u).
Por esses dados, possvel observar que com respeito ao ataque, metade das CV
comea com /t/, /k/, /d/, /m/ ou /l/. Quanto rima das CV, mais da metade termina com
as vogais /i/ ou /a/. Por outro lado, todas as vogais nasais somadas juntamente com // e
/E/ equivalem a apenas 12% do total. interessante constatar que os sons menos
freqentes consonantais ou voclicos so, diacronicamente, mais recentes na lngua,
tendo, como ponto de partida, o latim. Abaixo de /b/, todas as consoantes so novas na
lngua, com exceo de /f/ e /g/ e, somadas, equivalem a 16,1% do total.
de se perceber, contudo, que nem todas as vogais so igualmente produtivas.
A CV mais freqente para cada vogal oscila entre 13% a 20% das slabas CV com essa
mesma vogal, mas h excees: /me)/ tem 28% de todas as CV com e) e /k/, com 58%.
Abaixo de 1% esto seqncias com /fe)/, /v/, /vu)/, /v/, /hu/, /n/, /gi/, /ge/, /gE/, /Se)/,
/Su/, /S/, /Z/, /Z/, /i/, /e/, /E/, /e)/, /i)/, /u/, /u)/, //, /i/, /e/, /E/, /i)/, //,
/u)/, //. A seqncia // no existe no corpus. Tambm /i)/ e /u)/ ocorrem apenas
uma vez cada, ou seja, tem produtividade praticamente nula.
O dado mais surpreendente foi que algumas C combinam melhor com algumas
V do que com outras. Seguindo as seqncias decrescentes acima, supe-se que, dada
uma vogal V, a freqncia decresceria da seguinte forma: [t]+V, [k]+V, [d]+V etc.
(conforme tambm decresce a freqncia da consoante). Tal fato no ocorre. Verificouse, assim, a seqncia das consoantes com relao a cada vogal, ou seja, realizou-se
uma anlise de posto (ABDI, 2007) para determinar as preferncias e rejeies dos
acoplamentos C+V.
A Tabela 6 apresenta, para cada vogal, a seqncia de freqncias das
correspondentes consoantes em ordem decrescente, ou seja, a ordem de postos das
consoantes de cada vogal em slabas CV. Assim, percebe-se que a slaba CV com a
vogal [i] mais freqente /ti/, seguida de /si/, /di/ etc at /i/. Verifica-se na Tabela 6
que as ordens de freqncia das consoantes de algumas vogais so muito diferentes da
observada quando se considera todo o conjunto das slabas CV, apresentada na ltima
linha.
Tabela 6 - Relao entre a ordem de preferncia das consoantes em relao s

vogais nas silabas CV do portugus (variante paulista)
Vogais
Consoantes
")
e)
o)
u)
todas
flagrante observar aqui alguns detalhes: a velar surda [k] predominante nos
casos de vogais [+rec] e rejeitada com [-rec]. Nesses casos, a distncia entre [k] e [g]
diminui sensivelmente; por outro lado, [s] mais freqente com vogais [-rec] do que
nas [+rec]. Impossvel no associar esses dados com um fato diacrnico.
Diacronicamente, a passagem de *[ki] > [si], *[ke] > [se] ocorreu no latim vulgar
(provavelmente por meio de intermedirios *[tsi], *[tse]). Trata-se de fato trivial, que se
v ao soletrarem-se as slabas, no estilo das cartilhas: ca, ce, ci, co, cu ([ka], [se], [si],
[ko], [ku]). Nosso corpus, no entanto, no formado apenas de palavras provenientes
do latim vulgar, mas, ao que tudo indica, as palavras que entraram para o lxico
portugus, provindas do latim medieval e renascentista, pelo latim cientfico, pelo
francs e por inmeras outras lnguas (inclusive no-indo-europias) parecem ter-se
pautado pelo molde fnico primitivo e, paulatinamente, reforado. A preferncia de
certas C com relao a certas V e vice-versa se vem ainda em outros casos de forma
menos contundente e tem casos aparentes de dissimilaes (por exemplo: [v] rejeita
sons arredondados como [], [], [o], [u], [u)] e prefere no-arredondados como [e)], [e],
[i]). Se NOGUEIRA (1958) tiver razo quando afirma que a assimilao o princpio
pelo qual se regem todas as transformaes fonticas, entendemos que os traos da
consoante e os da vogal desempenham um grande papel na preferncia de uma lngua
por uma slaba CV em detrimento de outra. O antigo termo assimilao adquire, em
teorias mais recentes, um papel muito importante, como, por exemplo, no modelo
autossegmental, sobretudo no fenmeno do espraiamento (CLEMENTS & HUME,
1995) mas poder ter grande aplicao, a partir de resultados como os nossos, em
solues derivadas do modelo da otimalidade, uma vez que h, como vimos, slabas
preferveis (timas) e no s estruturas silbicas (PRINCE & SMOLENSKY, 2004).
Em todo caso, trata-se de um campo novo a ser explorado.
Uma anlise estatstica mais completa foi empregada para quantificar as
preferncias e rejeies entre os acoplamentos de consoantes e vogais. Assim,
estimamos a probabilidade mdia de cada vogal v, p (v) , por p (v) = N CV (*, v) , onde
N CV (*,*)
N CV (*,v) o nmero de slabas CV formada por qualquer uma das consoantes e a
vogal v, e N CV (*,*) o nmero total de slabas CV, no caso, 411.576. De maneira

anloga, a probabilidade mdia de cada consoante c foi estimada por p (c) = N CV (c,*) , e
N CV (*,*)
a probabilidade mdia de cada slaba cv por p (c, v) = N CV (c, v) .

N CV (*,*)
Usando a definio de probabilidade condicional (MAGALHES & LIMA,

2002: 137), sabemos que p(c, v) = p(c). p(v / c) , onde p (v / c) a probabilidade de se
encontrar a vogal v em uma slaba cuja consoante c. Escrevendo p (v / c) em termos da
probabilidade mdia da vogal v e de um fator de acoplamento, (c, v ) , obtemos
p(v / c) = p (v). (c, v) . A interpretao do fator de acoplamento (c, v) a seguinte: a
ausncia de preferncia ou rejeio no acoplamento de c com v, implica que (c, v) ser
igual a 1, indicando que a probabilidade da vogal v no se altera pela presena da
consoante c e vice-versa. Nos casos de preferncia, (c, v) ser maior do que 1,
enquanto nas rejeies, (c, v) ser menor do que 1.
Manipulando as equaes acima, possvel relacionar o fator de acoplamento

com as probabilidades mdias determinadas experimentalmente, resultando em
(c, v ) =
p (c, v )
.
p (c). p (v)
(Equao 1)
Preferncias -cv
i
")
e
e)
E
)
a
o
o)
u
u)
p
Rejeies -cv
i
")
e
e)
E
)
a
o
o)
u
u)
p
Figura 2 - Fatores de acoplamentos (Equao 1) superiores a 10% entre vogais

e consoantes das slabas CV do portugus (variante paulista).
Na Figura 2 so apresentados os acoplamentos e a intensidade das preferncias e

rejeies superiores a 10%. A anlise da Figura 2 corrobora os resultados obtidos na
anlise de posto, porm, muito mais rica em detalhes evidenciando, por exemplo, que
as consoantes [k] e [g] possuem preferncias e rejeies similares.
6. Concluses
Nossos dados reforam diversas concepes intuitivas ou obtidas em corpora
bem menores (cf., por ex, BARBOSA, 1983: 223-229), que so pilares de muitas
teorias, sobretudo a preponderncia das paroxtonas e da slaba CV na lngua
portuguesa, mas os dados particulares acerca das CV parecem absolutamente novos e
do um passo para entender aquilo que, durante sculos, os estudos literrios e a
terminologia no-cientfica (e, portanto, raramente adotada pela fonologia) tenta
compreender com o nome de eufonia. A extenso do trabalho para outros tipos de
estruturas silbicas, ou at mesmo para relaes de preferncia entre ataque, ncleo e
coda parece promissora. Por exemplo, resultados preliminares mostraram que com
relao s slabas VC e VG, as vogais centrais e as posteriores combinam melhor com
[R] e [w] do que as anteriores, que combinam melhor com [s]. Dados de lngua falada,
que envolvam vocbulos flexionados (no-lematizados), associados com sua freqncia
de uso diro, em futuros artigos, se h de fato grande distino entre dados da lngua
escrita e os de lngua efetivamente falada. No entanto, os estudos de ALBANO et alii
(1995), nos levam a prever que a diferena ser, aparente, pequena.
7. Referncias bibliogrficas
ABDI, Herv. The Kendall rank correlation. In: SALKIND, Neil (org.). Encyclopedia of
Measurement and Statistics. Thousand Oaks (CA): Sage, 2007.
ALBANO, Eleonora et alii. Segment frequency and word structure in Brazilian
Portuguese. Proceedings of the XIVth IChS. Estocolmo, V.3, p. 346-349, 1995.
BARBOSA, Jorge M. tudes de phonologie portugaise. vora: Universidade de vora,
1983.
BISOL, Leda. O acento e o p mtrico binrio. Cadernos de estudos lingsticos.
Campinas: Unicamp, v. 23, p. 83-101, 1992.
CLEMENTS, George N. & HUME, Elizabeth V. The internal organization of speech
sounds. In: GOLDSMITH, John (org). The handbook of phonological theory.
London: Blackwell, 1995.
COLLISCHONN, Gisela. O acento em portugus. In: BISOL, Leda (org.) Introduo a
estudos de fonologia do portugus brasileiro. Porto Alegre: Edipucrs, 1999, p.
125-158.
CRYSTAL, David. Dicionrio de lingstica e fontica. Rio de Janeiro: Zahar, 2000.
MALKIEL, Yakov. Generic analyses of word formation (1964) .In: SEBEOK, Thomas
A. (org.) Current trends in linguistics. Paris: Mouton, 1970, p. 305-364.
MAGALHES, Marcos Nascimento & LIMA, Antonio Carlos Pedroso. Noes de
probabilidade e estatstica. So Paulo: Edusp, 2002.
NOGUEIRA, Rodrigo de S. Tentativa de explicao dos fenmenos fonticos em
portugus. Lisboa: Clssica, 1958.
PRINCE, Alan & SMOLENSKY, Paul. Optimality theory: constraint interaction in
generative grammar. Malden/Oxford/Carlton: Blackwell, 2004.
SILVA, Adelaide H. P. et alii. Codificao fonolgica informatizada do minidicionrio
Aurlio: um banco de dados para o estudo da fonologia portuguesa. Anais XLI
GEL. Ribeiro Preto: UNESP, v. 1: 1321-7, 1993.
VIARO, Mrio E. Relao entre produtividade e freqncia na produo do significado.
Estudos lingsticos. Campinas: Unicamp, v. 34: 1230-1235, 2005. Disponvel
em: www.gel.org.br/4publica-estudos2005-autores.htm

Viaro Guimarães Filho - Análise Quantitativa Da Freqüência Dos Fonemas

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Viaro Guimarães Filho - Análise Quantitativa Da Freqüência Dos Fonemas

Uploaded by

Copyright:

Available Formats

Anlise quantitativa da freqncia dos fonemas e

estruturas silbicas portuguesas

Departamento de Letras Clssicas e Vernculas, FFLCH (USP)

Instituto de Fsica (USP)

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 27 / 36

as slabas, em seguida, localizou-se a tnica, transcreveu-se num alfabeto fonolgico

1. Tamanho das palavras

Cumpre observar que, diante da possibilidade combinatria dos fonemas, os

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 28 / 36

reais, no corpus, portanto, equivalem a um percentual relativamente reduzido

As oxtonas equivalem a 25%, as paroxtonas a cerca de 62% e as

Figura 1 - Relao entre tonicidade e nmero de slabas fonticas.

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 29 / 36

Segundo a Figura 1, paroxtonas e oxtonas tm basicamente o mesmo

Se analisarmos mais de perto os dados da tabela 3, verificaremos que se a

3. Estruturas silbicas do portugus

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 30 / 36

100% 112738 100%

Como se analisa facilmente da tabela acima, as slabas ps-tnicas so

4. As slabas do portugus (variante paulista)

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 31 / 36

5. A slaba CV em portugus (variante paulista)

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 32 / 36

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 33 / 36

Tabela 6 - Relao entre a ordem de preferncia das consoantes em relao s

N CV (*,v) o nmero de slabas CV formada por qualquer uma das consoantes e a

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 34 / 36

vogal v, e N CV (*,*) o nmero total de slabas CV, no caso, 411.576. De maneira

a probabilidade mdia de cada slaba cv por p (c, v) = N CV (c, v) .

Usando a definio de probabilidade condicional (MAGALHES & LIMA,

Manipulando as equaes acima, possvel relacionar o fator de acoplamento

Figura 2 - Fatores de acoplamentos (Equao 1) superiores a 10% entre vogais

Na Figura 2 so apresentados os acoplamentos e a intensidade das preferncias e

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 35 / 36

Estudos Lingsticos XXXVI(1), janeiro-abril, 2007. p. 36 / 36

You might also like

vogal v, e N CV (,) o nmero total de slabas CV, no caso, 411.576. De maneira