Física, gramática e pragmática dos sons de fala

Eleonora C. Albano

doi:10.25189/2675-4916.2021.v2.n1.id334

Physics, Grammar, and Pragmatics of Speech Sounds

Eleonora C. Albano Universidade Estadual de Campinas https://orcid.org/0000-0002-6399-997X

Keywords

physics of speech

phonological grammar

oral language pragmatics

Abstract

This article argues that the split between phonetics and phonology must be superseded in favor of an integrated view of speech, which is gaining growing support in the literature. Part of this support comes from the evidence that certain speech processes can be categorical or gradient under just slightly different conditions, which renders implausible the existence of a phonological component independent of the phonetics. Another part of the support comes from the evidence against the existence of a universal speech mechanics, which renders implausible a phonetic component independent of the phonology. The article focuses on the latter case, which is still insufficiently discussed in the literature. The exposition builds on four arguments. The first holds that even strong biomechanical constraints are flexible. The exemplary case is the incompressibility of the tongue, an unavoidable consequence of its muscular hydrostat nature. The second argument draws on the manifestation of incompressibility in a region of known articulatory instability – the hard palate –, showing that some of its consequences are, anyhow, subject to rather abstract conditions. The third argument pushes this further by looking into phonological processes related to incompressibility in languages with distinct articulatory bases. The fourth argument leans on indications that languages use the articulatory basis not only as a preferential posture, but also as a bootstrapping platform for language acquisition. Taken together, these arguments strongly suggest that phonology and phonetics are interdependent.

À guisa de introdução: dois momentos de uma antinomia

No início do século XX, a antinomia entre o contínuo e o discreto alcançou uma solução eficaz e oportuna no estudo da fala: a fundação da Fonologia como disciplina independente da Fonética. Trubetzkoy demonstrou incontestavelmente que o que se sabia então sobre o som de fala se prestava melhor a uma análise lógica que a uma análise física. Isso abriu uma vigorosa frente contra as ideias fisicalistas dos foneticistas coetâneos (p. ex., SCRIPTURE, 1973 [1902]), baseadas em dogmas, não em princípios. O foco exclusivo no método, suscitado pelo advento de novas ferramentas, subordinava a Fonética às Ciências Naturais, semeando desprezo pelos aspectos mentais, sociais e culturais da linguagem.

Não obstante, ao final do mesmo século, a noção de sistema fonológico acabou por se revelar passível de releitura física (KELSO; MUNHALL, 1988). Há hoje princípios físicos capazes de explicar que um objeto possa ser ao mesmo tempo contínuo e discreto e manter uma rede de relações razoavelmente estáveis com objetos semelhantes. O conceito que viabiliza essa ideia é o de sistema dinâmico, i.e., um sistema geométrico cuja variável independente é o tempo.

Uma propriedade essencial dos sistemas dinâmicos é descrever trajetórias capazes de se estabilizar temporariamente. Diferentes pontos dessas trajetórias prestam-se a descrições quantitativas ou qualitativas, conforme a sua localização. Vistos como projeções da posição, movente ou estacionária, de um móvel em função do tempo, o contínuo e o discreto tornam-se faces da mesma moeda. Dessa forma, o conceito pode se aplicar facilmente à Fonologia, bastando para isso que se admita que os primitivos fonológicos são móveis.

O primitivo capaz de desempenhar esse papel é o gesto articulatório. Na visão dinâmica, os segmentos fônicos compõem-se de gestos articulatórios coordenados não só entre si, mas também com os gestos componentes dos segmentos adjacentes. Assim, a temporalidade da fala e a consequente sincronização dos seus componentes gestuais fazem parte da fonologia, dando lugar a realizações diferentes de um mesmo movimento, a depender de variáveis tais como taxa de elocução, variedade, gênero, posição social, etc.

A literatura da área documenta muitos processos fônicos capazes de se comportar como categóricos ou gradientes conforme o valor das variáveis mencionadas, entendidas como parâmetros de controle de um sistema dinâmico. Por contradizer a distinção entre processos fonológicos e fonéticos, esses casos frequentemente integram a argumentação a favor da unificação das duas disciplinas (OHALA, 1991; FLEMMING, 2001, entre outros). De qualquer modo, um argumento igualmente contundente, embora menos conhecido, é a inexistência de processos fonéticos automáticos.

Esse argumento assenta-se sobre o fato de que todos os processos fônicos gradientes observados numa língua desempenham um papel na sua caracterização, assumindo formas distintas das encontráveis em outras línguas. Não existem processos fônicos quantitativos que permaneçam invariáveis de língua para língua por razões puramente físicas. Por mais que balizem o detalhe fonético, as restrições físicas não esgotam a sua determinação. Determinações outras, de ordens várias, somam-se a elas para dar a cada língua ou variedade linguística o seu sotaque particular.

Na verdade, essas ideias já circulam na literatura há algum tempo, graças à obra seminal de Peter Ladefoged (1971). Entretanto, o mestre não focalizou diretamente a distinção entre processos fonológicos e fonéticos. Essa questão era alheia à Fonologia clássica, pré-gerativa, que fundamentava o seu trabalho. Os seus estudos sobre a diversidade fonética das línguas baseavam-se simplesmente na noção de sistema fônico. Assim, a sua famosa expressão “fonética linguística” significa que as leis fonéticas universais são suficientemente gerais para não se manifestar senão através de reflexos na pronúncia de línguas particulares.

À luz dessas considerações, pretendo aqui assumir a direção oposta à usual ao desenvolver o argumento de que a gramática fônica inclui categorias e gradientes. Ao invés de proceder do abstrato para o concreto (como em ALBANO, 2020: 47-63), procederei do concreto para o abstrato. Primeiro, apresentarei evidências de que o trato vocal humano tem uma afinidade física com processos fônicos ao mesmo tempo qualitativos e quantitativos. Em seguida, comentarei a evidência disponível de que não há outro meio de pôr em prática a física da fala senão aprender a gramática fônica de uma língua.

A meu ver, o exemplo mais adequado para respaldar essa demonstração é a flexibilidade articulatória permitida pela incompressibilidade da língua, cujo movimento, apesar de fino e acurado, está restrito ao trato vocal. Para tanto, será preciso primeiro mostrar que a língua é de fato incompressível – uma ideia clássica cuja confirmação experimental é bastante recente.

Em seguida, cabe mostrar que o problema de acomodá-la no trato vocal ou numa das suas regiões pode ter diferentes soluções. As línguas do mundo em geral utilizam várias, sendo uma a preferencial, usada como uma espécie de default: a chamada base articulatória (STRAKA, 1963; LAVER, 1978). O exemplo mais adequado para esta exposição é a região palatal, devido à sua conhecida instabilidade articulatória e à sua importante relação com a fonologia do português brasileiro (doravante, PB).

Os passos finais do argumento consistem em aprofundar as noções de base e postura articulatória, a fim de mostrar o seu potencial gerador de diversidade nas línguas do mundo e/ou em variedades da mesma língua. A comparação de bases distintas, assim como de posturas distintas sobrepostas à mesma base, permitirá arrematar com segurança o argumento de que os limites impostos pelas determinações físicas interagem com as demais determinações da fala de modo a conferir a cada língua uma forma sonora própria – e, portanto, regrada, fonológica.

1. A língua humana: um hidróstato muscular sensível à experiência

A literatura sobre modelos mecânicos da língua geralmente assume a sua incompressibilidade (MIYAWAKI, 1974), com base em conhecimentos sobre a física e a fisiologia de outros hidróstatos musculares (KIER; SMITH, 1985).

Os hidróstatos musculares são órgãos compostos quase só de músculos, dispostos de forma complexa. Costumam ter volume constante, suporte na musculatura intrínseca e maior variedade de movimentos que um sistema musculoesquelético. Essas propriedades foram atestadas em estudos de hidróstatos musculares tais como a tromba dos elefantes e os tentáculos dos polvos, mais fáceis de estudar experimentalmente que as línguas humanas.

De qualquer modo, o estudo experimental da incompressibilidade deslanchou recentemente, graças às novas tecnologias. Por exemplo, Badin e Serrurier (2007) coletaram imagens de ressonância magnética (doravante IRM) de um falante lendo um corpus foneticamente balanceado do francês a fim de embasar a construção de um modelo linear tridimensional do controle muscular da língua. Além dos resultados esperados sobre os papeis da musculatura intrínseca e extrínseca, encontraram que o volume da língua ao longo do seu corpo se desviou da média não mais que ± 5%, o que constitui evidência a favor da hipótese da incompressibilidade.

Skordilis et al. (2015) testaram diretamente a hipótese de que o volume da língua permanece constante sob diferentes formas do trato vocal. Para tanto, usaram IRM para estudar 17 falantes do inglês americano pronunciando pares mínimos monossilábicos com diferentes vogais, tais como em bat, bet, beet, boat. Em seguida extraíram cortes da língua ao longo dos planos usados nessa metodologia, a saber: axial, sagital e coronal1. Cada corte se reduzia facilmente a um polígono como o da Figura 1.

Somadas as áreas dos polígonos correspondentes a cada vogal, geraram-se poliedros para cada posição articulatória de cada participante, a fim de calcular e comparar os seus volumes. A variação intrassubjetiva entre os volumes foi menor que 11,5 %. Visto que o limiar de variabilidade estatística importante é 20%, os autores concluíram que os dados sustentam a hipótese da incompressibilidade.

Podemos, portanto, passar à questão de como os humanos aprendem a lidar com uma língua incompressível a fim de produzir som. A simples diversidade dos sistemas fônicos das línguas do mundo indica que os movimentos articulatórios espontâneos dos bebês não são pré-formados. Além disso, há fortes indícios de que o seu aprendizado é sensível à experiência linguística bem antes das primeiras palavras.

Num estudo da influência da língua-alvo no balbucio, Boysson de Bardies et al. (1989). analisaram 1.047 vogais produzidas nas cidades de origem por vinte bebês de dez meses imersos em quatro idiomas, a saber: francês parisiense, inglês londrino, árabe argelino e cantonês de Hong Kong. Análises estatísticas dos padrões espectrais das vogais por grupo sugerem que os bebês já apresentavam diferenças intergrupais nos seus espaços vocálicos durante o balbucio. As diferenças são semelhantes às encontradas entre adultos falantes das línguas de imersão.

Se, no balbucio, os bebês brincam com os seus órgãos vocais de modo a produzir aproximações dos sons da língua-alvo, deve haver um mecanismo simples para a aprendizagem espontânea de constrições no trato vocal a partir da imersão linguística. Um bom candidato é o processo de auto-organização proposto por Iskarous (2019). Trata-se de uma simulação inspirada no mecanismo de “particulação” espaço-temporal do trato vocal para fins fônicos sugerido por Studdert-Kennedy (1998).

Respondendo à afirmação de Chomsky (2000) de que a propriedade da infinitude discreta é praticamente exclusiva das línguas naturais humanas, Studdert-Kennedy e Goldstein (2003) contra-argumentaram que essa impressão se deve à sua excepcionalidade entre os sistemas de comunicação animal. Mostraram, então, que, não obstante, o fenômeno é bastante frequente na matéria viva ou inerte.

Trata-se, na verdade, da manifestação de um princípio comum a todos os sistemas naturais que "fazem uso infinito de meios finitos" (HUMBOLDT, 1999 [1836]: 91, apud STUDDERT-KENNEDY; GOLDSTEIN, 2003). Tais sistemas, que existem na Física, na Química, na Genética, etc., obedecem ao “princípio particulado dos sistemas autodiversificantes”, conforme a feliz nomenclatura de Abler (1989). Esse princípio diversifica objetos inicialmente uniformes no tempo e no espaço através de processos reiterados conducentes à auto-organização.

A simulação de Iskarous visa a elucidar como sistemas fônicos de baixo grau de liberdade emergem a partir de sistemas motores de alto grau de liberdade. Para tanto, testa o potencial de um modelo matemático do movimento auto-organizado para gerar constrições como estruturas espaço-temporais macroscópicas no trato vocal a partir de interações locais entre unidades microscópicas organizadas topograficamente ao longo do corpo da língua. O modelo descreve uma dinâmica “morfogenética” baseada em padrões de Turing2 e Hopf, amplamente usados na Física e na Biologia para explicar os movimentos dos fluidos.

A Figura 2 exemplifica esses padrões separada e conjuntamente. Nela, a abscissa representa o espaço como um conjunto arbitrário de pontos, e a ordenada, o tempo como o número de iterações do movimento.

Note-se que a diferenciação se intensifica da esquerda para a direita. O padrão de Turing só diferencia listras verticais a partir de 4000 iterações, ao passo que o de Hopf esboça listras horizontais desde o início, alcançando maior diferenciação em torno das 4000 iterações. Já o padrão combinado de Turing e Hopf esboça um quadriculado desde o início e alcança diferenciação a partir de 2000 iterações.

Segundo Iskarous, esse é o padrão que melhor simula o princípio da particulação fônica. Em relativamente poucas iterações, gera curvas como as da Figura 3, que correspondem às trajetórias de posição e velocidade de um ponto arbitrário da língua constringindo o trato vocal.

Iskarous observa, ainda, que esse mecanismo só é capaz de gerar constrições semelhantes às do balbucio, tais como ‘da, da, da’, ‘ga, ga, ga’, etc. Entretanto, apresenta resultados coerentes com não só com as vocalizações, mas também com a percepção de fala no período (BRUDERER et al., 2015). Provavelmente, as unidades microscópicas cuja organização topográfica origina movimentos constritivos no trato vocal são inervações locais estimuláveis pela experiência auditiva reiterada (ver, p. ex., MOULIN-FRIER et al., 2014).

A simulação oferece, assim, uma primeira indicação de que o bebê pode facilmente achar meios de constringir o trato vocal e gerar som em harmonia com a incompressibilidade da língua. Ele não precisa debater-se muito entre ensaios e erros para conseguir acomodá-la de modo a controlar o movimento no trato vocal e começar, progressivamente, a emular a fala circundante. Basta obedecer às tendências à auto-organização da maquinaria sensório-motora humana e, ao mesmo tempo, entrar em sintonia com o idioma ambiente. Dado esse primeiro passo, o resto virá naturalmente ao longo da aquisição da primeira língua.

2. O “escorregadio” palato duro

O Alfabeto Fonético Internacional (doravante, IPA), apesar do sucesso em normatizar as transcrições fonéticas desde a sua criação em 1886, tem limitações inerentes à sua natureza puramente taxonômica. Entretanto, elas são úteis para ilustrar a dificuldade de alcançar uma grade classificatória universal para sons semelhantes que participam de sistemas e gramáticas fônicas muito diferentes. A esse respeito, o caso das consoantes coronais vem a calhar.

Com base em extensa documentação de línguas australianas, Dixon (1980) observou que, para descrever a posição das constrições coronais ao longo trato vocal, são necessários ao menos dois critérios: ‘articulador’ e ‘ponto de contato’. Se, por um lado, as apicais reúnem as alveolares e pós-alveolares (retroflexas), por outro, as laminais reúnem as dentais e alveolopalatais. Em outras palavras, o critério usado pelo IPA para o resto do trato – ponto de contato – não funciona bem na região coronal. Haja vista o termo ‘retroflexa’, que confunde ponto com modo de articulação.

De fato, a tentativa de listar as coronais ao longo do trato vocal exige o uso conjunto de ambos os critérios: a lâmina abre a sequência com as lâmino-dentais; o ápice segue com as ápico-alveolares e as ápico-pós-alveolares (retroflexas); e, finalmente, a lâmina volta com as lâmino-alveolopalatais.

Essa dificuldade classificatória deve-se à incompressibilidade da língua, aliada aos limites espaciais à sua movimentação. Não há como estirar o ápice ao longo da arcada dentária frontal, assim como não há como recuá-lo para tocar a região alveolopalatal; por outro lado, apenas o ápice – e não a lâmina – é capaz de retroflexão. Em suma, qualquer movimento fino da língua numa região do trato vocal exige que o seu volume se redistribua ao longo das demais regiões tendo em conta toda a cavidade supraglótica.

Apesar da sua debilidade teórica, essa taxonomia não incomoda foneticistas experientes. Mais difíceis de tratar são as instabilidades articulatórias da região palatal. Elas respondem pela diversidade de pontos de contato entre as regiões alveolopalatal e palatal.

Recentemente, o avanço da eletropalatografia digital permitiu notar que os pontos de contato das consoantes dessas regiões tendem a diferir bastante de língua para língua. Isso levou Recasens (2013) a propor uma modificação da tabela do IPA para acomodar esse fato. Trata-se de permitir múltiplas células vazadas na região em questão, como na Tabela 1 abaixo.

Em suma, o palato duro tem um comportamento “escorregadio” porque a língua, incompressível, busca acomodar uma constrição entre ele e os alvéolos. As constrições coronais de cada idioma estão sujeitas a outras pressões – biomecânicas, sistêmicas e/ou sócio-históricas. Por isso, a pronúncia das alveolopalatais é tão variável.

Assim, as instabilidades dos pontos de contato ao longo do palato duro sugerem que a incompressibilidade da língua potencializa processos compatíveis com uma gramática fônica específica. Esse fato será ilustrado aqui com exemplos do PB que envolvem gradientes tanto fônicos como fonotáticos.

Comecemos por um viés fonotático lexical que ocorre, na verdade, não só no PB, mas também em muitas línguas afins. Trata-se de uma tendência à concorrência de consoantes dentais/alveolares com vogais anteriores. Em Albano (2016a), confirmei a presença dessa tendência em grandes léxicos do PB e do inglês britânico (doravante, IB) e explorei a sua relação com restrições biomecânicas conhecidas. Os resultados contrariam algumas interpretações consideradas óbvias pela literatura precedente.

A ideia presumidamente óbvia é a de que o viés em combinar um ataque dental/alveolar com um núcleo palatal decorre de uma atração. MacNeilage e Davis (2000) atribuem tal atração a oscilações mandibulares enraizadas no processo de aquisição da linguagem. Whalen et al. (2012), por sua vez, atribuem-na a sinergias do trato vocal. Como (a) a evidência favorável a oscilações mandibulares em bebês é tão escassa como controversa; (b) e a existência de sinergias entre constrições consonânticas e vocálicas ainda está por demonstrar, saí em busca de uma terceira via.

A solução encontrada consiste em considerar que o fenômeno é um efeito estatístico de uma restrição biomecânica muito bem documentada na literatura fonética: as consistentes diferenças entre os locais de constrição consonantais ou vocálicos quanto à resistência à coarticulação e à agressividade articulatória.

Recasens et al. (1997) demonstraram que as influências recebida e exercida por segmentos adjacentes são inversamente proporcionais, variando conforme o seu local de constrição. Assim, algumas classes consonantais ou vocálicas, ao mesmo tempo em que resistem às pressões coarticulatórias do segmento vizinho, impõem as suas próprias pressões coarticulatórias agressivamente.

Com base em medidas de variabilidade acústica e articulatória3, os autores elaboraram duas escalas de resistência à coarticulação/agressividade coarticulatória: uma para as consoantes e outra para as vogais. São elas: entre as consoantes, alveopalatais e palatais > velares > alveolares > labiais; entre as vogais, i > a > u. Essas escalas respaldaram o meu argumento, que se divide em duas partes.

A primeira parte consiste em admitir que não se podem interpretar os resultados de uma tabela de contingência com base numa única célula. Os dados disponíveis são, em princípio, consistentes com duas interpretações: a da atração entre as consoantes coronais e as vogais anteriores, defendida pela literatura; e a repulsão entre as consoantes velares e as vogais anteriores4, alternativa fisicamente mais plausível defendida por mim.

A segunda parte do argumento sustenta que a hipótese da repulsão é a única que prevê o possível realce do efeito em ambientes que contenham outras dificuldades articulatórias conhecidas. Os dois ambientes escolhidos para testar a hipótese foram: (1) a repetição do mesmo par CV na palavra (para o efeito complicador da repetição, ver WALTER, 2007); (2) a ocorrência de um par CV contendo oclusivas ou africadas5 em posição átona inicial, onde a tendência ao fortalecimento (KEATING et al., 2003) entra naturalmente em conflito com a atonicidade6.

Tanto no IB como no PB, a força das associações cresce nos ambientes que contêm esses complicadores. Nos léxicos como um todo, o tamanho do efeito de associação na tabela de contingência é inferior a 20% e, portanto, pode ser considerado negligenciável. Ou seja, esses vieses não chegam a perturbar a combinação livre significativamente.

Já, nos subconjuntos lexicais que contêm palavras repetidas e/ou sílabas átonas iniciais com oclusivas e africadas, a força da associação alcança níveis entre 30% e 40%, o que indica uma perturbação moderada da combinação livre (representada abaixo pelo parâmetro V). É evidente que a hipótese da evitação de um par resistente à coarticulação é mais consistente com esse resultado.

A Figura 4 resume essa situação para as átonas iniciais do IB nas quais C é uma oclusiva ou africada. As barras representam os resíduos ajustados do teste de χ2 (df = 4, N = 3.272) = 1.021; V7 = 0.4, p<0.0001.

Os pares CV repetidos apresentam efeito semelhante, embora o número de casos seja bem menor, conforme atesta a Figura 5 abaixo. Note-se que, em todos os gráficos desta seção, o zero indica igualdade entre o observado e o esperado (como nas labiais), os resíduos positivos indicam ocorrências além do esperado, e os negativos, ocorrências aquém do esperado (comparar as dentais/alveolares com as velares). Note-se, igualmente, que as barras correspondentes às consoantes coronais e dorsais são complementares. Parece que, de fato, conforme previsto, a evitação de uma coocorrência leva ao predomínio da outra.

Da mesma forma, as barras da Figura 5 representam os resíduos ajustados do teste de χ² (df = 4, N = 675) = 144; V = 0.33, p<0.0001.

Para interpretar esses achados de acordo com o modelo DAC da coarticulação (cf. o inglês degree of articulatory constraint model), basta atribuir o padrão de evitação do par C velar + V anterior à acumulação de dificuldades articulatórias. As velares são necessariamente palatalizadas pelas vogais anteriores, o que exige um delicado ajuste do local de constrição. É complicado realizá-lo e, ao mesmo tempo, dosar a duração de uma pretônica inicial para que soe, ao mesmo tempo, átona e fortalecida. É mais complicado ainda realizar esse ajuste e, em seguida, repeti-lo numa mesma palavra.

Esses achados se baseiam em grandes corpora do IB e do PB, a saber: o CELEX (BAAYEN et al., 1996) e o LAEL (BERBER-SARDINHA, sem data). A exemplo da literatura precedente, a contagem nos léxicos foi representada pelas frequências de tipo. Não havia nessa literatura, tanto quanto eu soubesse, estudos análogos baseados em frequências de ocorrência.

Ora, isso configurava uma lacuna, que tentei preencher com um trabalho, ainda inédito, apresentado no LabPhon 15 (ALBANO, 2016b). Além do IB e do PB, analisei o espanhol americano, usando o corpus CALL HOME (i.e., espanhol dos residentes nos EUA, doravante ER; CAVANAN, ZIPPERLEN, 1996).

Notemos que a pergunta colocada agora é outra: não concerne à constituição CV preferencial do léxico e, sim, às preferências dos falantes ao usá-lo na fala corrente. Em outras palavras, trata-se de investigar se as preferências da língua falada refletem diretamente as preferências lexicais. Em caso positivo, cabe reexaminar a direção da pergunta: o reflexo é o uso ou o léxico?

Embora a questão pareça de ovo ou galinha, a hipótese mais coerente com o pressuposto de uma relação pacífica entre a biomecânica e a gramática é a de que o uso se reflete no léxico, ao mesmo tempo em que é alimentado por ele. Esmiuçando: assim como as pressões biomecânicas atuantes na língua contribuem para determinar a sedimentação dos itens lexicais, o acesso lexical é facilitado por uma composição vocabular coerente com as mesmas restrições biomecânicas.

Os resultados corresponderam ao esperado, i.e., seguiram os mesmos padrões dos léxicos. A título de ilustração, a Figura 6 abaixo exibe os resíduos ajustados para os pares CV átonos iniciais contendo oclusivas e africadas no IB. Os valores dos parâmetros estatísticos foram χ² (df = 4) = 188.377, N = 423.697; V = 0,47, p<0.0001.

Os resultados do ER foram muito semelhantes aos do IB e do PB. De novo, a título de ilustração, a Figura 7 abaixo exibe os pares CV repetidos do ER. Os valores dos parâmetros estatísticos foram χ² (df = 4) =50.242, N = 366.081; V = 0,26, p<0.0001.

Cabe notar que o V de Crámer permanece acima de 0,2, embora tenha oscilado mais que nos dados lexicais, tanto para cima como para baixo. O princípio da infinitude discreta, que, como já vimos, pervade as línguas naturais, leva a esperar que o efeito das preferências fonotáticas seja apenas moderado, não perturbando demais a livre combinatória.

Outra observação metodológica relevante é a de que todos os exemplos envolvem uma comparação múltipla de resíduos, requerendo um tratamento do erro estatístico acumulado. O método escolhido foi o False Discovery Rate8, sendo o ponto de corte de +/-3.3 para p = 0.0005, compatível com um erro de 5% em 27 comparações.

Podemos, finalmente, voltar à questão teórica inicial. Apesar de quantitativos, os resíduos ajustados de χ², usados para avaliar as preferências fonotáticas, têm sua variação controlada por parâmetros discretos e abstratos: a repetição ou o fortalecimento do início de palavra. Portanto, não faz sentido tratá-los como reflexos diretos da física da fala. Trata-se, claramente, de um indício de que a física e a gramática fônicas interagem para determinar a composição preferencial do léxico, assim como das escolhas vocabulares no seu uso.

3. Processos fônicos com oclusivas coronais seguidas de /i/ no PB

Se a atração entre as consoantes coronais e as vogais anteriores fosse de fato tão simples quanto supõe a literatura, não se esperaria que as sílabas CV assim formadas suscitassem processos fônicos motivados por resistência à coarticulação/agressividade articulatória. Entretanto, a vogal anterior alta, extremamente agressiva, tende a modificar as consoantes coronais vizinhas, em maior ou menor grau.

Um caso exemplar é a africação das oclusivas dentais/alveolares, processo encontrável em várias línguas. No PB, por exemplo, recebeu atenção considerável (ver CRISTÓFARO-SILVA et al., 2012 para uma resenha). Aqui nos basearemos na retomada de Pozzani e Albano (2016) dos achados de Pozzani (2011) sobre o contato entre duas variedades do interior de São Paulo.

A coleta de dados consistiu num experimento de leitura com três calouros da Unicamp naturais e residentes de Jundiaí, onde a pronúncia das oclusivas dentais/alveolares /t, d/ diante de [i] é conservadora, ao contrário da de Campinas, onde a pronúncia africada já se consolidou. O corpus, lido em diferentes taxas de elocução, consistiu em textos com várias ocorrências desses pares.

Uma análise fonético-acústica transversal revelou que a africada emergente tinha valores intermediários entre os das fricativas dental/alveolar e pós-alveolar. O parâmetro que melhor expressou essa gradação foi o centroide, i.e., a média das frequências dos componentes do espectro ponderada pelas respectivas amplitudes. Note-se a semelhança entre /t/ e /d/. Em ambos os casos, os centroides das africadas são ligeiramente superiores aos das suas contrapartes pós-alveolares /ʃ/ e /ʒ/, como indica a Figura 8.

Uma análise longitudinal dos dados dos dois participantes presentes nas três coletas revelou diferenças individuais ao longo do tempo, conforme indica a Figura 9. Os dois são designados S₁ e S₂; e as coletas, C₁, C₂ e C₃.

Note-se que as trajetórias dos dois participantes são bem distintas ao longo do tempo, embora ambas apontem para a reversibilidade do processo. O centroide de S₁ abaixou na segunda coleta, mas praticamente voltou ao padrão conservador na terceira. Já o de S₂ voltou ao padrão conservador na segunda coleta, mas retomou a direção da mudança na terceira.

Essas instabilidades, aparentemente comuns em falantes que estão adquirindo a africação, sugerem que é fácil controlar a agressividade do /i/ precedido por coronais, já que o default dessas, diferentemente do das velares, não é palatalizado. Note-se que tal controle, necessário à pronúncia conservadora, se relaxa no processo de africação.

Concluindo, a coerência entre esse processo fônico e o processo fonotático acima descrito encoraja-nos a continuar perseguindo a questão de como as línguas lidam com o espaço físico limitado da região do palato. Para tanto, será necessário introduzir dois conceitos originados em intuições do século XIX que vêm sendo retornados com sucesso pela fonologia de laboratório, a saber: a base e a postura articulatória.

4. Bases e posturas articulatórias

A ideia de base articulatória, sugerida por Sweet (1890), entre outros precursores, foi respaldada por Straka (1963) através de estudos de raios X sobre o francês. Trata-se de uma configuração de longo prazo do trato vocal que facilita a prontidão para a fala numa dada língua. Segundo o autor, cada língua tem uma base articulatória própria. A do francês, por exemplo, inclui a sua labialização típica, entre outros vieses. Gick et al. (2004) consubstanciaram essa hipótese comparando imagens de raios X das posições de repouso do inglês e do francês.

Laver (1980) estendeu a noção de configuração de longo prazo do trato vocal aos estilos de fala. Segundo ele, os vieses articulatórios posturais, tanto da laringe como do trato vocal, dão um colorido característico a estilos grupais ou mesmo individuais. Ele aponta, ainda, que vieses extensos de ponto ou modo de articulação (p. ex., a dentalização e a nasalização) podem caracterizar posturas articulatórias, já que alteram consistentemente a acústica da fala.

Apesar de atraente e intuitiva, essa ideia só deslanchou quando os avanços tecnológicos permitiram o cálculo de funções de área de seções detalhadas do plano sagital do trato vocal. Os modelos simplificados, tão úteis à fonética acústica, não incluem suficientes detalhes, neutralizando grande parte dos vieses posturais linguísticos ou estilísticos.

Recentemente, imagens 2 D de ressonância magnética mostraram-se úteis ao cálculo das funções de área de diferentes posturas. Destacam-se aqui os trabalhos de Ramaranayanan et al. (2010; 2013), que propõem um procedimento automático de coleta de IRM em tempo real para a análise de longo prazo do trato vocal em movimento.

Os autores coletaram dados de fala lida e espontânea de cinco falantes saudáveis do inglês americano. As variáveis independentes foram: pausas, preenchidas ou não, e gramaticais ou não; intervalos de prontidão; e intervalos de repouso absoluto, em ambas as condições. A maioria das diferenças foi significativa. Os resultados indicam, portanto, que a configuração de repouso do plano sagital é suficiente para caracterizar vieses do trato vocal e/ou da laringe.

A Figura 10 exibe a lógica dessa análise. À esquerda está a etiquetação inicial dos articuladores; e, à direita, a sua redução a quatro seções, chamadas descritores das áreas do trato vocal (VTADs9).

A Figura 11 exibe os resultados do procedimento para A₁, ou seja, o descritor que vai dos lábios até os alvéolos. A variável independente foi o tipo de pausa, a saber: intervalos entre falas lidas e falas espontâneas; intervalos gramaticais e agramaticais; repouso na leitura e na fala espontânea; e prontidão para a leitura e para a fala espontânea. As condições lidas encontram-se à esquerda, e as da fala espontânea, à direita. Note-se a sua maior variabilidade.

Os resultados indicam que as áreas médias das posturas do trato vocal diferem entre si nas posições de repouso e prontidão e nas pausas da fala lida e espontânea. Os autores sugerem que essa ordem reflete um crescente controle ativo do planejamento cognitivo da fala. Apontam também diferenças individuais na realização dos estilos. Perfis individuais para cada estilo podem ser obtidos somando-se os quatro descritores.

A Figura 12 exibe-os para os 5 participantes em 4 estilos: repouso; prontidão; intervalo lido; e intervalo gramatical falado. Note-se que todos os estilos distinguem a posição de repouso de todas as demais. Já os demais tipos de pausa apresentam muitas diferenças individuais. Só se assemelham entre si os participantes 4 e 5, por distinguirem claramente a prontidão da fala propriamente dita, e os participantes 2 e 4, por terem maior abertura nas pausas da fala espontânea que nas da leitura.

Em conclusão, os estudos resenhados não deixam dúvida da existência de diferentes posturas articulatórias, assim como da sua capacidade de sinalizar aspectos vários da pragmática da enunciação, confirmando as previsões da obra seminal de John Laver (1980). O exposto permite-nos, então, passar a discutir os possíveis usos das bases e posturas articulatórias pelas línguas, falantes e/ou comunidades de fala.

5. Usos gramaticais da base articulatória

Se cada língua tem uma posição de repouso característica, essa deve facilitar a produção da fala e otimizar a sua fluência, constituindo um ponto de apoio para os processos fônicos da fala corrente. Esses, por sua vez, costumam envolver aquilo que a fonologia formal trata como assimilações, apagamentos e inserções. A última seção tratou de uma assimilação. Vejamos, agora, uma suposta inserção.

Gafos et al. (2010) defenderam que os schwas de encontros CC no árabe marroquino não são inseridos. Sustentaram que, na verdade, provêm de uma sobreposição relativamente frouxa dos gestos das duas consoantes, que cria entre elas um breve lapso cujo som é vocálico. Essa ideia se coaduna facilmente com a noção de base articulatória. Uma decorrência instigante é a de que os vieses tímbricos de bases articulatórias distintas devem colorir as vogais “inseridas”.

O doutorado em andamento de Pozzani (em preparo) consiste justamente em testar essa hipótese pela comparação do PB ao francês da França (doravante, FF). Como não há propriamente epêntese em FF, já que os encontros intravocabulares não produzem lapsos, a alternativa possível foi estudar a epítese, processo análogo que ocorre entre palavras.

O corpus tomou como unidade de análise o sintagma fonológico. O encontro alvo ocorria sempre no sintagma inicial de frases com o mesmo número aproximado de sílabas. São exemplos: O ritmo final está próximo, no PB, vs. Le garde malade sourit, no FF. A análise acústica revelou diferenças que nos encorajaram a perseguir uma análise articulatória. Essas estão claras na Figura 13, que compara as formas de onda e os espectrogramas das duas frases.

No PB, cabe notar a brevidade da vogal epentética e a convergência entre F₂ e F₃, forte indício espectral de uma cor como a de [ɪ]. No FF, cabe notar a duração ligeiramente maior da vogal epitética e o espaçamento regular entre os formantes, forte indício espectral de uma cor neutra como a de [ə].

Em geral, os formantes do FF estão de acordo com o achado de Gick et al. (2004) de que [ə] é ligeiramente anteriorizado em francês canadense. Assim, com base nos resultados acústicos, procedemos a uma coleta de dados de áudio e ultrassom sincronizados, realizada pela doutoranda no Laboratoire de Phonétique et Phonologie da Sorbonne Nouvelle, sob a supervisão de Didier Demolin.

A Figura 14 exibe contornos de língua extraídos das imagens de ultrassom pelo programa MATTong, criado por Fux (2013) para o ambiente MATLAB. Os contornos exibem os deslocamentos máximos da língua no [ɪ] do PB e no [ə] do FF. Compare-se viés coronal do contorno do [ɪ] à quase simetria do contorno do [ə].

A interpretação de que esses fatos se originem nas diferentes bases articulatórias do PB e do FF é respaldada pela Figura 15, que mostra as posições de prontidão para a fala nos dois enunciados, comparando-os ao ponto médio das vogais epentética e epitética. As imagens de cima dizem respeito ao PB, e as de baixo, ao FF.

Essas imagens tornam as diferenças entre o PB e o FF ainda mais claras. A prontidão é claramente palatal no PB e neutra, centralizada, no FF. Chama atenção também o fato de a língua ter permanecido aproximadamente nas mesmas posições até o ponto médio das vogais.

Embora o estudo ainda esteja em andamento, esses dados bastam para respaldar a plausibilidade da hipótese de que o lapso entre as consoantes de um encontro quebrado por vogal, epentética ou epitética, é preenchido não por uma vogal inserida e, sim, pela postura articulatória que confere à base da língua o seu colorido vocálico característico.

6. Outros usos da base articulatória

A consistência desses dados com a literatura sobre a base articulatória tem inspirado o meu grupo de pesquisa, o DINAFON, a refletir sobre o seu uso em outras situações. Uma delas é a aquisição da linguagem.

Apesar de ainda não contar com estatísticas de ocorrência, o processo de palatalização é reportado na fonologia infantil de muitas línguas. Por exemplo, Zharkova (2005) considera-o uma dificuldade para a aquisição do contraste de palatalização em russo. No PB, sabe-se que as fricativas dentais/alveolares tendem a se palatalizar na aquisição fonológica típica, o que se resolve naturalmente até cerca de 5 anos de idade (BERTI, 2006; FREITAS, 2012). Sabe-se também, por outro lado, que essa tendência persiste até bem mais tarde em crianças portadoras do diagnóstico de transtorno dos sons de fala (doravante, TSF).

O TSF, também chamado de desvio fonológico, torna-se identificável entre 5 e 7 anos de idade. É o diagnóstico padrão da Fonoaudiologia nos casos de dificuldades de pronúncia sem comorbidades associadas, tais como alterações auditivas, respiratórias, de voz ou de motricidade orofacial; ou, ainda, alterações mais amplas de linguagem.

Recentemente, a partir de dados de ultrassom coletados por Aline Oliveira no laboratório de Larissa Berti, na UNESP-Marília, levantei a questão da possível participação da base articulatória na palatalização infantil (típica ou não), tendo em conta que, como já visto, o palato duro dificulta o movimento da língua.

A hipótese é a de que crianças que já usam a base articulatória na produção de outros sons precisem, em algum momento, lidar com a dificuldade natural de abaixar a fronte da língua na região palatal para fazer uma constrição crítica (i.e., com produção de ruído) na região dental ou alveolar. Por alguma razão ainda obscura, de ordem física ou psicológica, os portadores de TSF se mantêm atrelados às atribulações desse momento.

Dados preliminares, ainda incompletos11, indicam que a hipótese é plausível. A Figura 16 mostra contornos de ultrassom de duas meninas portadoras de TSF no início da constrição do /s/ de ‘sapo’. As gravações, feitas em sessões individuais numa sala tratada acusticamente, são anteriores a qualquer intervenção terapêutica. A tarefa foi a de repetição, inserida numa atividade lúdica (p. ex., “ensine o robô falar”). Cabe notar que o caso da direita, de oitiva, aparenta ser mais grave que o da esquerda.

A taxa de elocução de ambas as crianças é relativamente baixa, indicando esforço para falar. Não obstante, ensaiam movimentos pertinentes, ainda que descoordenados, em diferentes graus. A criança menos comprometida abaixa levemente a fronte da língua em direção à região dental, elevando o pré-dorso apenas discretamente. Assim, o seu [s] soa mais dentalizado que palatalizado. Já a mais comprometida abaixa a fronte fortemente, elevando o pré-dorso em direção ao palato. Consequentemente, o seu [s] soa fortemente palatalizado, sendo, antes, um [s^j]. Além disso, a sua pronúncia é silabada, o que indica esforço maior ainda.

A Figura 17 mostra os contornos de ultrassom do ponto médio do /a/ de ‘sapo’ nas mesmas crianças. Dois fatos chamam atenção. Primeiro, a elevação da fronte da língua ainda é visível em ambas as imagens. Segundo, na da criança da direita, ela é também um tanto saliente, sugerindo uma realização lenta da transição da sua anteriorização para a retração do dorso necessária à produção do /a/.

Esses fatos são difíceis de interpretar na impossibilidade de compará-los com um caso controle, devido ao contexto pandêmico. Entretanto, podemos levantar a hipótese de que ambas as crianças usam a base articulatória como ponto de passagem para fazer as constrições consonantais e vocálicas. Assim, os gestos da consoante e da vogal, ao invés de se sobreporem completamente, têm uma ligeira defasagem entre si no início da sílaba – o que é agravado no caso da criança mais comprometida.

A hipótese se baseia numa instrutiva observação de Tilsen (2013) sobre o controle motor dos gestos articulatórios. Ele aponta que, no controle motor em geral, a competição é mais custosa que o sequenciamento e, portanto, emerge posteriormente. Embora ele tenha usado o ataque complexo – e não o simples – como termo de comparação, as suas considerações sobre a tendência ao sequenciamento na coda sugerem que a ontogênese da coordenação entre o ataque simples e o núcleo não seja tão automática quanto parece.

Para sobrepor a consoante de ataque à vogal núcleo, é preciso alcançar uma perfeita sincronia de fase dos seus gestos constitutivos, deslanchando-os ao mesmo tempo. Os portadores de TSF parecem ser muito imaturos nesse aspecto. Ou seja, por razões a investigar, talvez não tenham conseguido adquirir suficiente experiência em automatizar essa sincronização durante o balbucio, sendo, mais tarde, levados a criar uma estratégia alternativa para executar a tarefa – dificultada, nesse momento, pela maior carga cognitiva da fala.

A previsão decorrente é a de que os portadores de TSF tenham problemas com o faseamento de gestos em geral, usando a base articulatória como ponto de apoio para deslanchar cada novo gesto ou conjunto de gestos.

Fica aqui, portanto, esta primeira versão da hipótese, como sugestão para a pesquisa futura. No momento, porém, o essencial é termos conseguido ao menos indicar que os aprendizes de uma língua recorrem à base articulatória desde cedo para os mais diversos fins, inclusive, possivelmente, o de contornar dificuldades de fluência.

7. Considerações finais

Espero ter conseguido, neste artigo, mostrar que as restrições ao movimento da língua impostas pela biofísica do trato vocal podem ser resolvidas de várias maneiras. As soluções que moldam o inventário fônico de uma língua são coletivas, constituindo um patrimônio cultivado e renovado pela comunidade falante ao longo da sua história. Assim, os processos fônicos da fala corrente apoiam-se em geral na base articulatória para ressincronizar dois ou mais gestos de forma a criar um efeito audível gramaticalizável.

Gafos (2002) tentou solucionar o impasse entre o contínuo e o discreto na sincronização dos gestos articulatórios dividindo-os em marcos naturais. Contudo, a proposta não obteve suficiente respaldo empírico – talvez por precisar de maior articulação teórica. Hoje admite-se que a ressincronização pode ocorrer em qualquer fase da trajetória gestual, com vasta variação intra e interlinguística (GAFOS et al., 2019). A dificuldade teórica decorrente é se e como a gramática fônica deve incorporar parâmetros contínuos – no caso, os ângulos de fase.

Sabe-se que a fonologia dos exemplares propõe que o detalhe fonético se incorpore à memória lexical e se atualize por ordem de recência (JOHNSON, 2006). Albano (2020, pp. 192-199) faz uma crítica filosófica minuciosa dessa visão, que não caberia resumir aqui.

Prefiro indicar três possíveis mecanismos, complementares entre si, para o controle do detalhe fonético. Trata-se de descritores discretos alinháveis, com maior ou menor precisão, aos marcos dos gestos articulatórios. Essas ideias, até onde sei, não circularam ainda na literatura, a não ser por breves e incipientes sugestões minhas.

A primeira sugestão foi apresentada e desenvolvida em parte em Albano (2020, pp. 91-93). Trata-se de enriquecer a especificação motora dos gestos articulatórios com descritores de propriedades audíveis tais como ‘com explosão’, ‘com voz soante’, ‘com contato’, etc. Acresço a isso agora a suposição de que esses descritores tenham janelas de ativação específicas para cada língua/variedade linguística e se alinhem a marcos tais como a borda esquerda, a chegada ao alvo, a soltura, etc. Isso pode explicar ao menos uma parte da variabilidade do faseamento.

Note-se que a proposta é coerente com o fato de os bebês serem extremamente sensíveis à língua ambiente. Um elo percepto-motor12 dessa natureza decerto alavancaria a aprendizagem das sincronias e assincronias de fase que caracterizam o sotaque da comunidade de imersão.

A segunda sugestão é levar ainda mais adiante a ideia de alinhar os marcos naturais dos gestos articulatórios com outros descritores discretos dotados de janelas de ativação variáveis. Para tanto, seria necessário incluir comandos não propriamente fonológicos – mas, de qualquer forma, capazes de controlar o detalhe fonético de cima para baixo, a partir de níveis cognitivos altos. Trata-se dos descritores da situação interlocutória armazenados na memória semântica, tais como ênfase, coloquialidade, grupo identitário, etc.

Tais parâmetros exerceriam controle sobre os parâmetros contínuos compartilhados por todo o sistema motor, tais como a aceleração, a desaceleração, o tensionamento, o relaxamento, etc. Faz sentido supor que a fala e o sistema motor em geral conectem esse tipo de informação a parâmetros discretos de alto nível ativáveis e desativáveis durante a situação interlocutória.

Os gatilhos dessa conexão poderiam ser semelhantes aos das fronteiras prosódicas, a saber: oscilações abstratas, somadas às dos gestos em curso, com o efeito de tensionar, relaxar, acelerar ou desacelerar (BYRD; SALTZMAN, 2003). A diferença é que, ao invés de demarcar constituintes, o alinhamento desses parâmetros à trajetória dos gestos articulatórios demarcaria pontos de ancoragem para a construção do sentido.

A terceira sugestão é explorar o potencial das posturas articulatórias para estender o detalhe fonético a intervalos longos. Como já vimos, posturas baseadas em mais de um órgão podem se somar. Além disso, há posturas capazes matizar a base articulatória, desencadeando efeitos de sentido – tais como os estilos de pausa vistos acima ou, ainda, o viés labial analisado de oitiva por Albano (1988).

Ademais, a própria base pode incluir mais de uma postura somando vieses introduzidos por órgãos diferentes. Um exemplo conhecido é o do francês, que tende à centralidade do corpo da língua como default, mas, em situação bilíngue, contrasta também um viés labial com o viés dorsal do inglês. Assim, provavelmente, a sua base inclui dois vieses, a saber: um labial e outro lingual central.

É razoável, finalmente, supor que as línguas adaptem as suas bases articulatórias a usos específicos do trato vocal, otimizando ressoadores em resposta a outras demandas da situação elocutória. É o que ocorre na fala cantada, como demonstraram Raposo de Medeiros (2002) e Pessotti (2012). Ambos os autores encontraram no canto lírico alterações de parâmetros acústicos que só se explicam pela suposição de uma delicada busca de equilíbrio entre afinação e inteligibilidade.

Em conclusão, espero que este artigo tenha conseguido revelar os atrativos da hipótese de que a gramática fônica de cada língua é a sua solução para o problema de dividir e alinhar os contínuos fônicos de modo a tirar partido da infinitude discreta na comunicação humana. Espero também que esta exposição tenha tornado plausível a ideia de que o impasse entre o contínuo e o discreto pode se resolver através de parâmetros de controle de ordem perceptual, semântica, pragmática e/ou cognitiva compartilhados com outras formas de ação motora de cunho simbólico.

8. Agradecimentos

Ao CNPq, processo no. 309555-2019-1. A Miguel de Oliveira Jr., pela oportunidade de participar do evento Abralin ao Vivo. A Adamantios Gafos, Didier Demolin, Thaïs Cristófaro-Silva e Ubiratã Kickhöfel Alves, pelos comentários. Aos que cederam dados e/ou prepararam ilustrações para este artigo: Aline Oliveira, Antonio Pessotti, Denise Pozzani e Larissa Berti.

XML

PDF

Issue: Vol. 2 No. 1 (2021)
Submitted: 03/11/2020
Published: 17/04/2021
DOI: 10.25189/2675-4916.2021.v2.n1.id334

How to Cite

ALBANO, E. C. Physics, Grammar, and Pragmatics of Speech Sounds. Cadernos de Linguística, Campinas, SP, Brasil, v. 2, n. 1, p. e334, 2021. DOI: 10.25189/2675-4916.2021.v2.n1.id334. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/334. Acesso em: 12 jan. 2026.

ACM
ACS
APA
ABNT
Chicago
Harvard
IEEE
MLA
Turabian
Vancouver

Statistics

Article viewed: 827 time(s)
XML downloaded: 49 time(s)
PDF downloaded: 184 time(s)

Research Report