Share

Abstract

This work has investigated the prosody of metadiscursivity. The aim was to analyze the prosodic characteristics of metadiscursive utterances when coming between two non-metadiscursive ones. The hypothesis which led to this work was that there would be f0 and durational patterns in the prosodic realization of metadiscursive statements in the speech context mentioned above. With that in mind, this study analyzed pitch range, pitch reset, intonational distribution, boundary tones, speech rate, and occurrence of pauses and their duration. Those analyses had as support the prosodic phonology and metric and self-segmentation of intonation theories. Seven surveys were selected from the NURC Digital Project portal, from which it took excerpts with three utterances (the pre-metadiscursive one, the metadiscursive one, and the pos-metadiscursive one). Statistical analyzes used the mixed linear model and the binomial logistic regression. The findings evidence that the metadiscourse is produced as an independent structure of those adjacent to it. That independence is evidenced by a higher speech rate and by non-low border tones in their limits. Beyond this, it was found, in about half of the analyzed contexts, a co-occurrence of silent pauses and non-low border tones within the terms of the metadiscursive statements. Pitch range and intonational distribution patterns were not observed though. Although pitch reset has been observed among utterances, its performance was not significant. These results contribute to the description of metadiscursivity's prosody of Brazilian Portuguese, as well as to the teaching of the constitution and functioning of discourse genres of orality.

Introdução1

Ao entrarmos no jogo da interação com outro indivíduo que partilha da mesma língua que nós, temos em vista um propósito comunicacional. Para alcançá-lo, articulamos nossos enunciados de modo a estabelecer entre eles uma lógica semântico-pragmática, que é responsável pela coerência da nossa mensagem. Tal coerência entre os enunciados os agrupa em uma unidade linguística maior que a sentença: o discurso.

Os enunciados metadiscursivos são um dos mecanismos responsáveis por garantir essas relações semântico-pragmáticas entre os enunciados, “criando”, assim, o discurso. Eles são formas linguísticas usadas pelo falante para organizar e monitorar o seu próprio dizer. Ao monitorar seu próprio dizer, o falante procura assegurar que seu parceiro de comunicação compreenda o máximo possível da mensagem da comunicação. A função de um enunciado metadiscursivo é, portanto, estabelecer um intercâmbio linguístico eficiente entre os sujeitos participantes da interação (HYLLAND, 2005a; RISSO; JUBRAN, 1998).

Além do metadiscurso, um outro mecanismo responsável pela organização do discurso é a prosódia. Já é consenso na literatura a importância do papel desse elemento suprassegmental na estruturação do discurso falado. Estudos têm demonstrado que componentes como variação de F0, reinício de F0, taxa de elocução e pausas funcionam como propriedades suprassegmentais usadas para estruturar o discurso oral em diferentes gêneros textuais, incluindo aí a fala espontânea (OLIVEIRA JR.; CRUZ; SILVA, 2012; PIJPER; SANDERMAN, 1994; SWERTS; GELUYKENS, 1994; SWERTS, 1996).

A despeito desse número de estudos sobre o papel da prosódia na estruturação do discurso falado, é escassa a quantidade daqueles que descrevem a estruturação prosódica do metadiscurso no português brasileiro. A maioria dos estudos que investigam as implicações dos enunciados metadiscursivos no português do Brasil centra-se em análises segmentais ancoradas em perspectivas da linguística textual e da análise do discurso (CAVALCANTE, 1998; MORATO, 2012; RISSO; JUBRAN, 1998; SILVA, A.; 2017, entre outros).

Por esses motivos, o objetivo deste estudo é descrever as características prosódicas de enunciados metadiscursivos produzidos por falantes recifenses em contextos nos quais o metadiscurso seja ladeado por enunciados não-metadiscursivos, quer dizer, quando ele intercala enunciados “pertencentes” ao fluxo informacional.

A hipótese geral que norteia a investigação proposta é a de que existem padrões de F0 (distribuição do contorno melódico2 do enunciado, variação de F0, reinício de F0 e tons de fronteira), de duração (taxa de elocução) e de pausas que permitem caracterizar os enunciados metadiscursivos quando estes são produzidos entre dois enunciados pertencentes ao fluxo informacional na variedade linguística analisada.

1. O discurso e o metadiscurso

O termo “discurso” tem sido abordado nos estudos linguísticos sob diversas perspectivas teóricas. Wichmann (2014) as sintetiza em três principais: (i) “discurso” como um dos níveis da gramática da língua; (ii) “discurso” como língua em uso; e (iii) “discurso” como construção/reflexo da realidade social. Neste estudo, adotamos a primeira concepção, ou seja, aquela que compreende o discurso de um ponto de vista estrutural como sendo um dos níveis da gramática da língua.

Conceber o discurso como um dos níveis da estrutura da língua significa dizer que ele compõe um dos sistemas de unidades linguísticas da língua. Ele estaria no último “degrau” das classes de unidades linguísticas, figurando acima dos fonemas, das palavras, dos sintagmas e, por fim, dos enunciados (WICHMANN, 2014, p. 2-8). A unidade imediatamente inferior ao discurso seria, nesse sentido, os enunciados, que, conectados entre si por relações semântico-pragmáticas, formariam o todo maior, isto é, o discurso (OLIVEIRA JR., 2000; OLIVEIRA JR.; CRUZ; SILVA, 2012; SWERTS; GELUYKENS, 1994; SWERTS, 1996).

É nessa “integração” dos enunciados que compõem o discurso que o metadiscurso ganha relevância. Para além das questões de organização discursiva e de monitoramento, por parte do falante, sobre o próprio dizer, o metadiscurso é o elemento responsável por garantir que a estrutura informacional esteja adequada ao contexto em que esta se dá (HYLLAND, 2005a). Em outros termos, o metadiscurso realiza uma espécie de fiscalização que visa assegurar que as demandas sociais da comunicação estejam sendo atendidas.

A primeira abordagem sistemática sobre “metadiscurso” se deu com Meyer, Brandt e Bluth (1980) e com Williams (1981). A partir do que propuseram esses autores, surgiram várias discussões e modelos teóricos na tentativa de explicá-lo e categorizá-lo (ÄDEL, 2005a, 2010; RISSO; JUBRAN, 1998, entre outros).

O metadiscurso é passível de análise por ser materializado linguisticamente, pois o falante, ao monitorar a ação verbal na qual ele e outrem estão inseridos, se inscreve dentro do próprio ato de dizer, deixando marcas na enunciação que podem se referir à organização da fala, a correções linguísticas, a previsões do que o seu interlocutor pode estar compreendendo, etc. Vejamos um exemplo de enunciado metadiscursivo (em negrito) retirado de entrevista feita com um falante recifense, a qual está disponível no portal NURC Digital3:

Ex. 1) Inf: “o ônibus... descrever primeiro o ônibus elétrico... o ônibus elétrico...” (NURC/RE DID 037).

Nesse exemplo, após introduzir o tópico, o informante usa o enunciado metadiscursivo com vistas a deixar claro para o seu interlocutor (neste caso, o documentador) que ele pretende dividir o tópico “ônibus” em subtópicos. Assim, ele, por meio do metadiscurso, suspende temporariamente o fluxo informacional para tecer algum comentário sobre a própria fala, retornando ao mesmo fluxo a posteriori.

Dada essa cadeia lógica de enunciação do metadiscurso (fluxo informacional –> suspensão do fluxo e enunciação do metadiscurso –> volta para o fluxo informacional) (HYLLAND, 2005a), chamamos, neste trabalho, o enunciado que antecede o metadiscursivo de “anterior ao metadiscursivo”, e o que o procede, de “pós-metadiscursivo”. As noções de “anterior ao metadiscursivo” e “pós-metadiscursivo”, portanto, estão associadas à ordem de produção dos três enunciados na cadeia da fala.

Adotamos aqui a compreensão de metadiscurso proposta por Hylland (2005a). A partir desse modelo, definimos o metadiscurso como a enunciação de elementos linguísticos voltados para o gerenciamento das relações que se dão entre (i) o locutor e o seu interlocutário e (ii) entre o discurso e os participantes da comunicação. Hylland (2005a) divide o metadiscurso em duas grandes categorias:

a) Interativa: os recursos linguísticos usados demonstram como o locutor organiza e estrutura o seu texto de modo a contemplar as expectativas geradas por seu interlocutário;

b) Interacional: o locutor deixa ecoar sua voz, faz avaliações, prevê comportamentos de seu interlocutário, convidando-o a engajar-se no discurso.

Investigar o metadiscurso é extremamente importante, pois permite compreender de que forma o falante usa os recursos linguísticos com vistas a envolver seu interlocutor na interação. Ele tem sido objeto de estudo em várias subáreas do conhecimento dentro da linguística. No entanto, é escassa a abordagem desse fenômeno na perspectiva dos estudos prosódicos. O presente estudo apresenta-se como uma contribuição para essa área de investigação.

2. A prosódia como mecanismo estruturador do discurso falado

Muitos estudos experimentais têm investigado a influência da prosódia na organização do discurso falado. Isso porque ela é um fenômeno linguístico-estrutural que molda nosso dizer através de elementos acústicos que incidem sobre nossa fala (BARBOSA, 2012).

Ao usar um corpus de fala lida como input em um experimento que visava investigar se os elementos prosódicos eram percebidos pelos ouvintes como pistas para delimitar as estruturas discursivas, Collier (1993) observou que os trechos de fala percebidos como mais prováveis a “finalizar” uma unidade discursiva sofriam a influência de um maior número de elementos prosódicos em suas fronteiras.

Ao montar um experimento similar ao de Collier (1993), mas que tinha, agora, como input um corpus de fala espontânea, Swerts, Collier e Terken (1994) observaram que os ouvintes também se baseavam na prosódia para prever se ainda haveria algo a ser dito pelo falante ou se um determinado trecho de fala finalizava o discurso.

No mesmo ano, Swerts e Geluykens (1994), com vistas a verificar o “peso”, portanto, da prosódia na configuração do discurso, filtraram os picos espectrais dos dados de fala, de modo a obter uma fala deslexicalizada, isto é, uma fala que preserva a informação prosódica, mas que “mascara” a informação segmental. O objetivo era saber se a prosódia era, por si só, um elemento favorável à percepção das estruturas do discurso. A hipótese dos autores foi confirmada. Os elementos prosódicos que tinham maior relevância nessa percepção eram a pausa silenciosa e a diferença de tom.

Em outro estudo, Swerts (1996), ao dividir os participantes de seu experimento em dois grupos (um que tinha acesso apenas a um texto oral transcrito; e outro que, além de ter acesso ao texto oral transcrito, tinha acesso ao arquivo de áudio da fala correspondente à transcrição), notou que o grupo que teve acesso ao arquivo de áudio concordava significativamente na tarefa de segmentar o discurso em unidades menores. Ao investigar que elementos prosódicos tinham maior peso nessa tarefa, Swerts verificou que a pausa tinha maior peso na percepção do ouvinte, seguida da diferença de tom, assim como foi observado em Swerts e Geluykens (1994).

Embora esses estudos tenham partido de experimentos de percepção, eles confirmam a hipótese de que a prosódia é um recurso importante no processo comunicacional, dando credibilidade às análises acústicas feitas pelos autores, pois os resultados validam a relevância dos elementos prosódicos na demarcação da estrutura discursiva do ponto de vista do ouvinte (OLIVEIRA JR.; CRUZ; SILVA, 2012).

Ao analisar dados de fala espontânea, Oliveira Jr. (2000) observou que elementos prosódicos como variação de F0, amplitude, taxa de elocução e duração de pausa funcionam como mecanismos estruturantes que permitem ao ouvinte segmentar o discurso em unidades menores. Confirma-se, dessa forma, o pressuposto de que o falante, consciente ou inconscientemente, lança mão da prosódia para estruturar sua fala, dando pistas ao seu interlocutor acerca da mensagem comunicada, do assunto tratado, da organização de tópicos na fala etc.

Sabendo que o falante usa a prosódia para estruturar seu discurso (PIJPER; SANDERMAN, 1994; OLIVEIRA JR., CRUZ; SILVA, 2012) e sabendo que o metadiscurso é uma estratégia linguística usada por esse mesmo falante com vistas a tornar a sua mensagem compreensível para o seu interlocutor (HYLLAND, 2005a; SILVA, A. 2017; RISSO; JUBRAN, 1998) cabe a pergunta: de que forma os elementos prosódicos atuam na marcação/estruturação do metadiscurso na fala espontânea? Há algum padrão prosódico que o diferencia, na cadeia da fala, dos enunciados que o ladeiam, haja vista que, do ponto de vista discursivo, o metadiscurso tem uma função que o separa daqueles enunciados que compõem o fluxo informacional (HYLLAND, 2005a)? Este trabalho procura responder a essas questões.

3. Metodologia

Baseados no modelo teórico proposto por Hylland (2005a) para explicar o metadiscurso, investigamos contextos de fala constituídos por três enunciados: o anterior ao metadiscursivo (Antmeta), o metadiscursivo (Meta) em si e o pós-metadiscursivo (Posmeta).

Para tanto, foram selecionados 7 inquéritos provenientes do portal NURC Digital, sendo 3 com informantes do sexo masculino e 4 com informantes do sexo feminino. Os informantes estavam no grupo da primeira faixa etária do NURC (25 a 35 anos de idade). Além disso, todos tinham o ensino superior completo, conforme critérios traçados na conceptualização do Projeto NURC, exercendo as seguintes profissões: advogado, médica, funcionária pública estadual, psicóloga, bibliotecária, dentista e engenheiro eletricista. Todos eram naturais de Recife. Por fim, cabe destacar que os 7 inquéritos foram gravados na segunda metade da década de 1970.

A escolha dos dados do acervo NURC Digital para este estudo foi motivada pelo seguinte: (i) todos os arquivos de áudio e transcrições disponíveis no referido banco de dados foram digitalizados de acordo com recomendações internacionais protocolares para a construção de corpora eletrônicos; (ii) todos os dados estão disponíveis, virtualmente, para consultas e análises da comunidade acadêmica; e (iii) os dados do Projeto NURC já são consagrados nos estudos linguísticos, seja na literatura que trata de questões segmentais, seja na que trata de questões suprassegmentais, o que possibilita comparações de resultados mais adequadas.

Para a seleção dos inquéritos de onde extraímos o material de análise para o presente estudo, utilizamos os seguintes critérios: (i) inquéritos do tipo DID (diálogo entre informante e documentador), pois estes possuíam uma menor sobreposição de vozes, o que garantiria uma análise acústica mais acurada dos dados; (ii) inquéritos que não possuíssem cortes de pico, isto é, que tiveram conservadas, durante o processo de digitalização dos áudios, suas amplitudes máximas; (iii) inquéritos que possuíssem anotação ortográfica alinhada adequadamente com o segmento de áudio correspondente; (iv) inquéritos cujos julgamentos de aceitabilidade e inteligibilidade apontavam, respectivamente, para uma otimização da gravação e para uma significativa compreensão dos arquivos de som; e (v) inquéritos que tivessem como informantes sujeitos situados numa faixa etária de 25 a 35 anos de idade.

De cada um dos 7 inquéritos selecionados, foram coletados 8 trechos de áudio contendo os três enunciados em análise. O critério para a seleção desses trechos foi o de que o arquivo de áudio, contendo os três enunciados em questão, não ultrapassasse 11 segundos. Isso permitiria uma análise mais precisa das características prosódicas de cada enunciado. Um total de 56 trechos foram selecionados para análise.

Uma vez coletados, esses trechos foram segmentados conforme a identificação de enunciados entonacionais (BARBOSA, 2012). A delimitação dos enunciados metadiscursivos também se deu a partir de critérios prosódicos entonacionais. Para segmentar a cadeia de fala a partir de critérios entonacionais, levamos em consideração o tipo de contorno de F0, que pode finalizar uma unidade prosódica em um formato ascendente ou descendente, características que possibilitam a percepção de fronteira não terminal e terminal, respectivamente (BARBOSA, 2012). As anotações e análises acústicas foram feitas no ambiente do software de análise acústica da fala Praat (BOERSMA; WEENINK, 2001). Durante essas análises e anotações, foram utilizados quatro scripts: “BeatExtractor”, “Momel/Intsint”, “Analyse Tier” e “ProsodyPro”.

O “BeatExtractor” é um script adaptado por Barbosa (2006) para identificar automaticamente sílabas fonéticas no fluxo da fala. Ele segmenta esse fluxo em unidades VV, que compreendem o espaço entre uma vogal e o ataque vocálico da sílaba posterior. Esse tipo de segmentação permite ao pesquisador observar o que é produzido foneticamente (o que atende aos objetivos deste estudo) e não o que seria, em termos fonológicos, uma sílaba ideal.

O “Momel/Intsint” é um script desenvolvido e divulgado por Hirst (2007) para descrever, foneticamente, a curva melódica de enunciados. O Momel estima pontos-alvo de frequência fundamental ao longo do enunciado e suaviza os valores de F0 estimados. O Intsint, por sua vez, a partir dos valores detectados pelo Momel, descreve o percurso entonacional dos enunciados, representando-o por meio de um conjunto de símbolos.

Os símbolos usados na rotulagem do Intsint para descrever a curva de F0 são T (Topo); M (Médio); B (Base); H (Mais alto que o tom anterior); S (Igual ao tom anterior); L (Mais baixo que o tom anterior); U (Subida suave); e D (Descida suave). Seguindo Almeida (2017), para descrever o percurso melódico dos enunciados, foram considerados apenas cinco símbolos: T, M, B, U e D. Já que S significa que um dado ponto da curva entonacional demonstra a mesma altura que o ponto anterior, esse símbolo foi descartado. Valores mais altos, diferentes de T (Topo), foram classificados como U (Subida leve), e valores mais baixos, diferentes de B (Base), foram classificados como D (Descida leve). Assim, apenas os símbolos H e L foram substituídos, respectivamente, por U e D, enquanto M, T e B foram mantidos.

Esses símbolos também foram importantes na análise dos tons de fronteira4. Tendo em vista que U, T e M representam movimentos melódicos ascendentes, e que D e B representam movimentos melódicos descendentes, caracterizamos os tons de fronteira assim: U, M e T foram categorizados como NL (significando tom não-baixo), e D e B foram caracterizados como L (significando tom baixo). Para computar o tom de fronteira, observamos o símbolo que fosse mais próximo à última sílaba tônica de cada um dos enunciados.

O “Analyse Tier” também é um script desenvolvido por Hirst (2012) para coletar informações dos correlatos acústicos dos enunciados. Essa coleta tem como ponto de partida as segmentações e anotações feitas nas camadas do Praat.

O “ProsodyPro”, por fim, é um script desenvolvido por Xu (2013) para a realização de análises prosódicas semiautomáticas. Além de permitir a confecção de gráficos a partir de medidas contínuas coletadas ao longo do sinal de fala, esse script fornece dados discretos que podem ser usados em análises estatísticas. No entanto, apenas o utilizamos para gerar curvas representacionais dos contornos de F0 a partir das informações de frequência fundamental coletadas por ele. A razão disso é que tal procedimento permitiria a comprovação da descrição fonética feita pelo “Momel/Intsint”.

Cada trecho de áudio foi anotado com 9 camadas: “Momel” (com os pontos de frequência fundamental estimados pelo Momel); “Intsint” (com as anotações da descrição entonacional); “Momel/Intsint” (com os valores da curva de F0 suavizada); “VowelOnsets” (com a segmentação de cada enunciado em sílabas fonéticas/unidades VV); CategEnun (com a identificação de cada enunciado – Antmeta, Meta e Posmeta); Trans (com a transcrição ortográfica dos enunciados); “TomFronteira” (com a sinalização dos tons de fronteira em L ou NL, baseada nos dois agrupamentos formados a partir dos símbolos do Intsint) (BARBOSA, 2012); e Pausas (com os registros dos períodos de silêncio nos trechos). A figura 1, abaixo, mostra um exemplo de anotação com todas as camadas mencionadas acima.

Figure 1.Figura 1: Exemplo de anotação dos trechos de áudio contendo os três enunciados em análise.Fonte: Autores (2021)

Os elementos prosódicos analisados neste estudo estão relacionados a dois principais parâmetros acústicos: a frequência fundamental (no caso de variação de F0, de reinício de F0, da distribuição de contorno melódico dos enunciados e dos tons de fronteira) e a duração (no caso da taxa de elocução e das pausas). Todos os valores referentes a esses dois parâmetros foram extraídos, respectivamente, da curva de F0 gerada automaticamente pelo Praat e de informações da extensão temporal dos segmentos e dos períodos de silêncio que constituíam os trechos anotados no ambiente do software. Por meio desses recursos, os scripts supracitados coletaram informações que foram armazenadas em tabelas do Excel para posteriores análises estatísticas.

As medidas discretas de frequência fundamental referente à variação de F0 e as medidas de duração referentes às pausas silenciosas foram coletadas, de forma automática, pelo script Analyse Tier” (HIRST, 2012). Durante a coleta dos dados de variação de F0, esse script coletou os valores mínimo, médio e máximo de F0 para cada unidade prosódica. No entanto, não há consenso na literatura acerca dos procedimentos necessários para medir a variação de F0. Há trabalhos que investigam essa propriedade prosódica considerando a diferença entre a F0 máxima e a F0 mínima de uma determinada unidade prosódica como o método mais adequado (t’HART; COLLIER; COHEN, 1990). Por outro lado, há aqueles que consideram o registro do pico de F0 da unidade prosódica como o procedimento mais adequado (SWERTS, 1996; OLIVEIRA JR., 2000). Diante dessa falta de consenso, optamos por levar em consideração apenas o pico de F0 de cada enunciado. Conforme mencionado anteriormente, a representação da curva melódica dos enunciados foi feita pelo “Momel/Intsint”.

Para confirmar a descrição entonacional feita pelo “Momel/Intsint”, foram plotadas representações “médias” de todas as curvas melódicas produzidas por todos os falantes para cada categoria de enunciado. A plotagem dessas representações se deu a partir das medidas contínuas de F0 coletadas e normalizadas pelo script “ProsodyPro”. Foram estimados dez pontos de coleta em cada categoria de enunciado. Isso garantiu maior minuciosidade na análise do comportamento entonacional dos enunciados.

A análise de reinício de F0 na passagem entre os enunciados foi feita a partir da comparação entre a F0 máxima vista na última sílaba tônica do enunciado ora finalizado e a F0 máxima encontrada na primeira sílaba tônica do novo enunciado. A decisão de investigar o reinício de F0 entre os enunciados se deu devido aos achados da literatura que relatam esse elemento prosódico como um importante mecanismo de segmentação do discurso (OLIVEIRA JR., 2000; SWERTS; GELUYKENS, 1994; SWERTS, 1997; entre outros).

As sílabas em posição final e inicial dos enunciados foram etiquetadas, na tabela de dados, desta forma: tônica final do enunciado anterior ao metadiscursivo (TF_Antimeta); tônica inicial do enunciado metadiscursivo (TI_Meta); tônica final do enunciado metadiscursivo (TF_Meta); tônica inicial do enunciado pós-metadiscursivo (TI_Posmeta).

Conforme dito antes, na análise dos tons de fronteira, também observamos a descrição fonético-entonacional feita pelo Intsint. Os movimentos representados pelos símbolos U, M e T foram categorizados como NL (significando tom não-baixo), e os movimentos representados pelos símbolos D e B foram caracterizados como L (significando tom baixo).

As análises da taxa de elocução, por sua vez, também foram baseadas no conceito de sílabas fonéticas/unidades VVs (BARBOSA, 2006). Uma vez feita a anotação semiautomática das sílabas fonéticas (unidades VVs) pelo “BeatExtractor”, o valor da taxa de elocução de cada enunciado se deu pela razão entre a quantidade de unidades VVs produzidas e o tempo levado para produzi-las. A unidade de medida utilizada foi a de sílabas por segundo.

Por fim, o parâmetro escolhido para o apontamento de pausas foi o período de silêncio igual ou superior a 150 ms. Ao realizarem uma comparação entre os padrões rítmicos presentes na fala de diversas línguas por meio de experimentos com narrativas espontâneas, Kowal, Wiese e O’Connel (1983) observaram que não havia na literatura, à época, um consenso acerca do tempo mínimo para que um instante de silêncio fosse considerado pausa. Os pesquisadores observaram que havia estudos que adotavam um limiar de 0,3 s; outros adotavam um limiar de 1 s ou 0.6 s, e assim por diante.

Estabelecer um limiar mínimo para o que vai ser considerado como pausa tem grande relevância para as pesquisas que investigam os aspectos rítmicos da fala, pois a duração da pausa afeta diretamente a taxa de elocução e a taxa de articulação da fala. Quando Kowal, Wiese e O’Connel (1983) compararam os instantes de silêncio do inglês, com os do alemão, do italiano, do francês, do português e do espanhol, notaram que as pausas, nessas línguas, tinham em média 0.150 s. A partir de então, estudos que investigam características prosódicas do português brasileiro tem estabelecido esse limiar de 0,150 s para o que será considerado como pausa (ALMEIDA; 2017; OLIVEIRA JR.; 2000).

Houve 4 etiquetas de anotação em relação às pausas: NP (quando não havia pausa); P (quando havia uma pausa interna ao enunciado – essas não foram objeto de estudo deste trabalho); PEE1 (quando havia pausa na fronteira entre o enunciado anterior ao metadiscursivo e o metadiscursivo); e PEE2 (quando havia pausa na fronteira entre os enunciados metadiscursivo e pós-metadiscursivo).

Após as anotações dos trechos e o armazenamento dos dados coletados pelos scripts em planilhas eletrônicas, as análises estatísticas foram feitas no software R (R CORE TEAM, 2019). O tratamento dos dados no R foi conduzido por meio de alguns pacotes operacionais, dentre os principais, estes: readr, readxl, dplyr, ggplot2, lme4 e lmerTest. Os dois testes utilizados em nossas análises foram o modelo linear misto e a regressão logística binomial. O que foi analisado em cada um desses testes será descrito na seção seguinte.

4. Resultados

4.1. Variação de F0

Em relação à variação de F0, trabalhamos com a hipótese de que o enunciado metadiscursivo teria um pico de F0 significativamente diferente, para mais ou para menos, daqueles encontrados no enunciado anterior ao metadiscursivo e no pós-metadiscursivo. Para tanto, ajustamos um modelo linear misto com variação de F0 (f0max) como variável resposta e categoria de enunciado como efeito fixo. O modelo também continha interceptos aleatórios por inquérito. O gráfico abaixo mostra a variação de F0 observada nos três enunciados (da esquerda para a direita: Antmeta: anterior ao metadiscursivo; Meta: metadiscursivo; e Posmeta: pós-metadiscursivo). As médias de F0 para os três enunciados foram, respectivamente: 173Hz, 182 Hz e 185Hz.

Figure 2.Gráfico 1: Variação de F0 (f0max) por categoria de enunciado.Fonte: Autores (2021)

Nele observamos uma grande dispersão dos dados em relação à média de variação de F0 encontrada em cada categoria de enunciado. O modelo ajustado mostrou que as diferenças de variação entre o enunciado anterior ao metadiscursivo e o metadiscursivo (p = 0.45) e entre os enunciados metadiscursivo e pós-metadiscursivo (p = 0.63) não foram significativas. Nossa hipótese, portanto, não foi confirmada.

4.2. Distribuição dos contornos melódicos

Em relação à distribuição do contorno entonacional dos enunciados (formatos da curva de F0), verificamos uma grande variabilidade de movimentos melódicos. A nossa hipótese era a de que haveria uma padronização entonacional na prosodização do enunciado metadiscursivo. Ainda que as distribuições entonacionais encontradas em cada uma das categorias de enunciado fossem relativamente semelhantes entre si, nossa hipótese não foi confirmada. Quer dizer, não se observou um padrão entonacional característico para o metadiscurso. Nossa hipótese, portanto, não foi confirmada. Por isso, decidimos representar uma configuração melódica média a partir de todas as realizações melódicas dos falantes para cada um dos três enunciados.

Levando-se em conta as diversas funções desempenhadas pelo metadiscurso na organização da fala, as curvas melódicas médias calculadas para cada tipo de enunciado podem ser um índice do comportamento entonacional característico do contexto de fala investigado por este estudo, qual seja, o de um enunciado metadiscursivo ladeado por dois outros associados ao fluxo informacional. O gráfico abaixo mostra curvas representacionais médias dos dados entonacionais de todos os falantes para cada uma das três categorias de enunciado. Essas representações foram calculadas a partir da coleta de dados discretos de F0 pelo ProsodyPro (da esquerda para a direita: média de todos os enunciados anteriores ao metadiscursivo; média de todos os enunciados metadiscursivos; e média de todos os enunciados pós-metadiscursivo).

Figure 3.Gráfico 2: Curvas representacionais do contorno melódico médio de todos os falantes para cada categoria de enunciado com os 10 pontos de coleta, feitos pelo ProsodyPro ao longo dos enunciados, representados no eixo das abcissas.Fonte: Autores (2021)

É possível observar que, com exceção do enunciado anterior ao metadiscursivo – que se inicia em um tom considerado o topo melódico, o movimento entonacional dos dois outros enunciados é iniciado por um tom médio (M). A despeito disso, as três categorias enunciativas aparentam constituir-se de movimentos melódicos ora descendentes ora ascendentes no fluxo da fala, sendo este finalizado, na maior parte das vezes, em um tom não-baixo.

Essas representações melódicas da curva de F0 poderiam ser os contornos-médio típicos dos três enunciados que constituem o contexto discursivo analisado. O fato de os últimos tons serem não-baixos vai ao encontro, inclusive, dos achados da alta taxa de tons não-baixos finalizando as três categorias enunciativas (ver a seção de resultados de tons de fronteira).

Não podemos ignorar, entretanto, a variabilidade de configurações melódicas encontrada nesses enunciados. Para ilustrar essa variabilidade, vejamos o gráfico abaixo, que mostra modelizações entonacionais diversas dentro de cada categoria enunciativa produzidas por um mesmo falante:

Figure 4.Gráfico 3: Exemplos da variabilidade de contorno melódico nos três enunciados, com os 10 pontos de coleta de F0, feitos pelo ProsodyPro ao longo dos enunciados, produzidos por um único falante.Fonte: Autores (2021)

Podemos observar, no gráfico, exemplos da alta taxa de variabilidade melódica. Como dito antes, a despeito de as configurações melódicas, para cada enunciado, serem muito semelhantes entre si, não é possível concluir haver uma padronização para o contexto investigado. Isso talvez reflita exatamente o propósito comunicativo do falante em usar o metadiscurso para organizar sua fala e torná-la compreensível para o parceiro de comunicação. Dessa forma, a depender da função do metadiscurso na comunicação, podem existir configurações melódicas diversas para veiculá-lo.

É necessário notar também que, uma vez mudando a configuração melódica do enunciado metadiscursivo na fala, os enunciados adjacentes a ele parecem ter suas configurações melódicas também alteradas. Daí a variabilidade entonacional tanto no anterior ao metadiscursivo, quanto no pós-metadiscursivo.

4.3. Reinício de F0

Seguindo o que já foi encontrado na literatura, investigamos o papel desempenhado pelo reinício de F0 na prosodização dos três enunciados. Nossa hipótese era a de que (i) a diferença de semitons entre a última sílaba tônica do enunciado anterior ao metadiscursivo e a primeira sílaba tônica do enunciado metadiscursivo seria estatisticamente significativa; e (ii) a diferença de semitons entre a última sílaba tônica do enunciado metadiscursivo e a primeira sílaba tônica do enunciado pós-metadiscursivo seria estatisticamente significativa. Sendo estatisticamente significativas essas diferenças, confirmaríamos que o reinício de F0 seria um elemento prosódico de relevância na marcação da passagem de um enunciado para o outro. Para tanto, ajustamos um modelo linear misto com semitons de referência a 100Hz como variável resposta, e com posição de sílaba no enunciado como variável preditora. O modelo também continha interceptos aleatórios por inquérito. O gráfico abaixo mostra o reinício de F0 na passagem entre os enunciados (TF_Antmeta: tônica final do enunciado anterior ao metadiscursivo; TI_Meta: tônica inicial do enunciado metadiscursivo; TF_Meta: tônica final do enunciado metadiscursivo; e TI_Posmeta: tônica inicial do enunciado pós-metadiscursivo):

Figure 5.Gráfico 4: reinícios de F0 (diferença de semitons) nas duas fronteiras do contexto de fala investigado.Fonte: Autores (2021)

No gráfico acima, verificamos que, na passagem do enunciado anterior ao metadiscursivo para o metadiscursivo, a diferença de semitons não parece ser significativa (média da última sílaba tônica do enunciado anterior ao metadiscursivo = 12.5 semitons; média da primeira sílaba tônica do enunciado metadiscursivo = 13.5 semitons). Da mesma forma, a diferença de semitons não parece ser significativa na passagem do enunciado metadiscursivo para o pós-metadiscursivo (média da última sílaba tônica do enunciado metadiscursivo = 12.4 semitons; média da primeira sílaba tônica do enunciado pós-metadiscursivo = 13.4 semitons).

Observamos, portanto, que, embora haja uma descontinuidade melódica à medida que um enunciado é encerrado e outro inicia, a diferença de semitons é extremamente pequena. Isso foi confirmado pelos dados estatísticos inferenciais. O modelo ajustado mostrou que a diferença de semitons na primeira fronteira não foi estatisticamente significativa (p = 0.14). O mesmo aconteceu na segunda fronteira, cuja diferença de semitons também não se mostrou estatisticamente significativa (p = 0.08). A nossa hipótese referente à atuação do reinício de F0 na delimitação do enunciado metadiscursivo também não foi confirmada.

4.4. Taxa de elocução (sílabas por segundo)

Sobre a medida de taxa de elocução, nossa hipótese era a de que o enunciado metadiscursivo seria produzido ou com uma taxa de elocução menor ou maior que aquelas observadas nos enunciados que lhe eram adjacentes. Propúnhamos que tal diferença, para mais ou para menos, seria estatisticamente significativa. Com isso em vista, ajustamos um modelo linear misto com taxa de elocução como variável resposta e categoria de enunciado como efeito fixo. O modelo também continha interceptos aleatórios por inquérito. O gráfico abaixo mostra a taxa de elocução (sílabas fonéticas por segundo) nos três enunciados (da esquerda para a direita: Antmeta: anterior ao metadiscursivo; Meta: metadiscursivo; e Posmeta: pós-metadiscursivo):

Figure 6.Gráfico 5: Média de taxa de elocução (sílabas fonéticas por segundo) por categoria de enunciado.Fonte: Autores (2021)

Em um teste anova que comparou o modelo ajustado com outro sem efeitos fixos, aquele se revelou muito significativo para explicar a variância dos dados (χ² = 11.98, p < 0.01). Além disso, o modelo também mostrou que, de fato, havia um padrão na realização do enunciado metadiscursivo: a taxa de elocução encontrada nesse enunciado foi maior que aquela encontrada nos enunciados adjacentes. A diferença das taxas de elocução entre o enunciado anterior ao metadiscursivo (4.68 sílabas/segundo) e o metadiscursivo (5.58 sílabas/segundo) foi significativa (p < 0.001). O mesmo aconteceu com a diferença entre as taxas de elocução dos enunciados metadiscursivo (5.58 sílabas/segundo) e pós-metadiscursivo (4.99 sílabas/segundo) sendo também significativa (p < 0.05). Nossa hipótese sobre a atuação da taxa de elocução, portanto, foi confirmada.

4.5. Pausas

Em relação à ocorrência e duração de pausas, nossa hipótese era a de que a ocorrência de pausas silenciosas nas duas fronteiras seria estatisticamente significativa. Por isso, investigamos a frequência com que o enunciado metadiscursivo era separado dos demais por pausas. Calculamos, ainda, a média de duração dessas pausas tanto na primeira fronteira (entre o enunciado anterior ao metadiscursivo e o metadiscursivo), quanto na segunda (entre os enunciados metadiscursivo e o pós-metadiscursivo). A tabela 1 abaixo sintetiza essas informações, além de mostrar o p-valor referente à diferença entre a ocorrência e a não ocorrência de pausas em cada uma das fronteiras.

Posição da pausa % Ocor. Pausas Dur. Pausas p-valor
Pausa entre enunciados na primeira fronteira (pee1) 54.2% 0.386 s 0.564
Pausa entre enunciados na segunda fronteira (pee2) 62.5% 0.464 s 0.086
Table 1.Tabela 1: Percentual de ocorrência, média de duração e p-valor referentes à ocorrência de pausas nas duas fronteiras do enunciado metadiscursivo.Fonte: Autores (2021)

Os resultados acima revelam que há um certo equilíbrio na ocorrência de pausas nas duas fronteiras do enunciado metadiscursivo, ainda que a ocorrência na segunda fronteira seja maior que na primeira. Além disso, as pausas da segunda fronteira também são mais longas que as da primeira. Já as informações relatadas pelo p-valor mostram que a diferença entre a ocorrência e a não-ocorrência de pausas não é significativa em nenhuma das duas fronteiras. Vemos, assim, que nossa hipótese sobre a presença de pausas silenciosas nas fronteiras do enunciado metadiscursivo não foi confirmada.

A despeito disso, decidimos verificar também se as chances de ocorrência de pausa na segunda fronteira eram determinadas pela ocorrência na primeira fronteira do enunciado metadiscursivo. A tabela 2 abaixo mostra essa relação de ocorrências, tanto em números absolutos quanto relativos:

Presença de pausa entre enunciados na primeira fronteira (pee1) Presença de pausa entre enunciados na segunda fronteira (pee2) Quantidade absoluta (48 trechos de fala) Quantidade relativa
Não Não 12 54,5%
Não Sim 10 45,5%
Sim Não 6 23,1%
Sim Sim 20 76,9%
Table 2.Tabela 2: Relação entre a ocorrência de pausa na primeira (pee1) e na segunda (pee2) fronteiras.Fonte: Autores (2021)

A tabela acima mostra que, de fato, quando há pausas silenciosas na primeira fronteira, há uma frequência considerável de pausas também na segunda fronteira (76,9%). No entanto, quando não há pausas silenciosas na primeira fronteira, as chances de haver pausa na segunda fronteira são reduzidas (45,5%).

A regressão logística é um modelo estatístico que produz, a partir de um conjunto de dados, uma predição de valores representáveis por uma variável categórica, isto é, nominal, frequentemente binária. Sendo, portanto, um modelo geralmente usado para variáveis dependentes ou de respostas binomialmente distribuídas (GODOY, 2019), decidimos rodar uma regressão logística binomial para checar a probabilidade de ocorrência de pausa na segunda fronteira em função da ocorrência de pausa na primeira fronteira.

Ajustamos uma regressão logística binomial com pee2 (pausa em segunda fronteira) como variável resposta e pee1 (pausa em primeira fronteira) como efeito fixo. Como tínhamos apenas um efeito fixo – pee1 – e esse efeito tem apenas dois níveis (“não” e “sim”), usamos o contraste dummy coding. O uso desse tipo de contraste na variável de efeito fixo permite uma comparação direta entre os níveis binomiais do efeito que estamos analisando. Nesse caso, a não-ocorrência de pausa silenciosa na segunda fronteira foi usada como nível de referência da variável resposta.

A regressão mostrou que a presença de uma pausa na primeira fronteira aumenta significativamente (p < 0.05) as chances de ocorrência de pausa na segunda. Já quando não há pausa na primeira fronteira, a diferença entre a ocorrência e a não-ocorrência na segunda não foi significativa (p = 0.67). Assim, a presença de uma pausa na primeira fronteira parece influenciar a ocorrência de pausa na segunda.

4.6. Tons de fronteira

Por fim, em relação aos tons de fronteira que delimitavam o enunciado metadiscursivo, nossa hipótese era a de que a diferença entre a ocorrência de tons baixo e não-baixo seria estatisticamente significativa nas delimitações do metadiscurso, o que estaria também de acordo com o encadeamento lógico-semântico do metadiscurso na fala, qual seja, a suspensão temporal do fluxo informacional e o posterior retorno a ele.

Com isso em vista, também ajustamos uma regressão logística binomial com tom de fronteira como variável resposta e categoria de enunciado como efeito fixo. Os contrastes ajustados aqui também foram do tipo dumming coding, com “L” (tons baixos: agregação dos movimentos melódicos descendentes descritos como D e B pelo Intsint) como nível de referência da variável resposta. A tabela 3 abaixo mostra as quantidades absoluta e relativa de ocorrência de cada tipo de tom nas três categorias de enunciado (Antmeta: anterior ao metadiscursivo; Meta: metadiscursivo; e Posmeta: pós-metadiscursivo):

Categoria de enunciado Tom de fronteira Quantidade absoluta (144 enunciados) Quantidade relativa
Antmeta L 11 22,9%
Antmeta NL 37 77,1%
Meta L 15 31,2%
Meta NL 33 68,8%
Posmeta L 25 52,1%
Posmeta NL 23 47,9%
Table 3.Tabela 3: Frequência de ocorrências de cada tipo de tom de fronteira nas três categorias de enunciado.Fonte: Autores (2021)

A regressão mostrou que a diferença de ocorrência entre tom de fronteira baixo e não-baixo foi extremamente significativa no enunciado anterior ao metadiscursivo (p < 0.001), com o predomínio de tom não-baixo (77,1%). Nos enunciados metadiscursivos, também houve uma diferença significativa (p < 0.05), com predomínio do tom de fronteira não-baixo (68,8%), confirmando, assim, nossa hipótese. Já em relação aos enunciados pós-metadiscursivos, não houve diferença significativa entre baixo e não-baixo (p = 0.77).

Por fim, com vistas a observar a atuação conjunta de pausa silenciosa e tons de fronteira nos limites do enunciado metadiscursivo, dada a relevância desses dois elementos acústicos na sinalização de fronteiras prosódicas (OLIVEIRA JR., 2000; SWERTS, 1996, entre outros), analisamos as combinações entre os níveis das variáveis pausa (ocorrência/ausência nas duas fronteiras) e tom de fronteira (baixo = L, não-baixo = NL). A tabela 4 abaixo sintetiza essas informações:

Posição da pausa Ocorrência de pausa % Tom baixo % Tom não-baixo
Pee1 (entre Antmeta e Meta) Sim 30.8% 69.2%
Não 13.6% 86.4%
Pee2 (entre Meta e Posmeta) Sim 40% 60%
Não 16.7% 83.3%
Table 4.Tabela 4: Relação entre a ocorrência de pausas nas fronteiras e o tipo de tom de finalização (baixo e não-baixo) dessa fronteira.Fonte: Autores (2021)

Para tanto, usamos, mais uma vez, a regressão logística binomial. Ajustamos duas regressões logísticas binárias. A primeira tinha tom de fronteira como variável resposta e pee1 (pausa na primeira fronteira) como efeito fixo. Os contrastes ajustados foram do tipo dumming coding, com “não” (significando não-ocorrência) como nível de referência da variável resposta. A regressão mostrou que, quando não ocorre pausa na primeira fronteira (entre o enunciado anterior ao metadiscursivo e o metadiscursivo), a taxa de ocorrência de tom de fronteira não-baixo (86,4%) no enunciado anterior ao metadiscursivo é significativa (p < 0.01). Do mesmo modo, quando há pausa na primeira fronteira, embora não seja estatisticamente significativa (p = 0.056), há também uma maior ocorrência de tom não-baixo nesse mesmo enunciado (69,2%).

Já a segunda regressão tinha tom de fronteira como variável resposta e pee2 (pausa na segunda fronteira) como efeito fixo. Os contrastes ajustados também foram do tipo dumming coding, com “N” (significando não-ocorrência) como nível de referência da variável resposta. A regressão mostrou que, quando não ocorre pausa na segunda fronteira (entre o enunciado metadiscursivo e o pós-metadiscursivo), a taxa de ocorrência de tom de fronteira não-baixo (83,3%) no enunciado metadiscursivo também é significativa (p < 0.05). Na condição em que há pausa silenciosa na segunda fronteira, existe também uma maior ocorrência de tom não-baixo na finalização do enunciado metadiscursivo (60%), embora essa ocorrência não seja significativa (p = 0.27). Esses dados mostram que, independentemente de haver pausa nas duas fronteiras, tanto o enunciado anterior ao metadiscursivo quanto o metadiscursivo em si tendem a ser finalizados com tom de fronteira não-baixo.

5. Discussão

A hipótese geral que conduziu este estudo foi a de que existiriam padrões de frequência fundamental (variação de F0, reinício de F0, distribuição dos contornos melódicos e tons de fronteira), de duração (taxa de elocução) e de pausas que permitiriam dizer se os enunciados metadiscursivos ladeados por não-metadiscursivos possuem uma prosodização definida.

Observamos que a variação de F0 não consegue discriminar as categorias de enunciado. Ao tomarmos o pico de F0 como parâmetro de comparação entre os três enunciados analisados, verificamos que o enunciado metadiscursivo não possuía nem um pico (altura máxima) nem um vale (altura mínima) de F0 mais significativos do que aqueles verificados nos enunciados que lhe eram adjacentes. Houve, na verdade, uma grande variabilidade de picos de F0 nas três categorias de enunciado, o que pode significar que não há uma faixa de variação de F0 que particularize o metadiscurso.

A literatura que analisa o papel da prosódia na marcação da estrutura do discurso tem reportado que tal marcação não se dá pela atuação de um único elemento. Na verdade, somados aos padrões de variação de graves e agudos ao longo dos enunciados, outros elementos, como os tons de fronteira, os acentos de pitch e o ritmo da fala, se conjugam para evidenciar atitudes, distinções ilocucionárias, unidades do discurso etc. (BARBOSA, 2012; COLLIER, 1993; SWERTS; COLLIER; GELUYKENS, 1994; SWERTS; GELUYKENS, 1994; SWERTS, 1996). Portanto, embora a variação de F0 por si só não dê conta de distinguir o enunciado metadiscursivo daqueles que o ladeiam, outros elementos, juntamente a ela, o fazem.

Sabe-se, ainda, que inúmeros fatores de ordem linguística, paralinguística e extralinguística incidem conjuntamente na realização prosódica da fala, inclusive no parâmetro entonacional. Barbosa (2012) argumenta que fatores socioculturais e biológicos, como as atitudes proposicionais e sociais (“confiante”, “duvidoso”; “hostil”, “solidário” etc.), as emoções, o gênero do falante, sua faixa etária, classe social, grupo cultural do qual faz parte etc. podem trazer consequências para a prosódia como um todo, incluindo aí os aspectos entonacionais.

Embora os efeitos micromelódicos presentes na enunciação de alguns segmentos não tenham sido objeto de investigação deste estudo, é necessário considerar também sua influência no contorno de F0. A produção de consoantes surdas exerce mais influência na curva entonacional, por exemplo, que as sonoras por empregar maior pressão no trato vocal, característica comum às consoantes sonoras, o que acarreta uma maior vibração das pregas vocais (BARBOSA, 2019).

O enunciado metadiscursivo não foge a isso. Todos esses fatores, em simultaneidade, podem ter influenciado a produção dos enunciados aqui analisados, evidenciando, portanto, que a variação de F0, ao menos nos dados linguísticos analisados (dialeto de Recife e estilo de fala espontânea), aparentemente não funciona sozinha como marca de caracterização do metadiscurso dentro do contexto enunciativo analisado. Além disso, fatores de cunho informacional, tais como focalização, topicalização e ênfase, também têm grande relevância no que diz respeito às influências sobre a curva de F0. Esses fatores, entretanto, não foram objetos de investigação deste trabalho.

O reinício de F0, denominado em outros estudos de diferença de tom (ALMEIDA, 2017; SWERTS, 1996; SWERTS; GELUYKENS, 1994), não se mostrou significativo no que se refere a uma performance de segmentação dos três enunciados. No entanto, ao pensarmos em “reinício de F0”, é importante levarmos em consideração, além das questões acústicas, as de natureza fisiológica. Como lembra Barbosa (2019), eventos entonacionais como os tons de fronteira e os acentos de pitch são eventos que, do ponto de vista temporal, acontecem em curto prazo, pois geralmente estão associados a um dado local durante a produção do enunciado. Há, no entanto, os eventos que acontecem ao longo de toda a cadeia de produção da fala, sendo um deles o declínio de F0 (ALMEIDA, 2017; BARBOSA, 2019; OLIVEIRA JR., 2000).

Estudos anteriores (PIJPER; SANDERMAN, 1994, por exemplo) observaram que a frequência fundamental tende a declinar no curso de produção do enunciado, sendo reiniciada nas fronteiras do fluxo informacional, isto é, na passagem entre enunciados ou unidades discursivas maiores que o enunciado. Esse declínio, que permite o reinício de F0, se deve, em grande parte, a uma diminuição da pressão subglotal durante a produção da fala, o que, por sua vez, está associado à diminuição do fluxo de ar proveniente dos pulmões na emissão sonora. Tal fato fisiológico traz consequências acústicas, como a redução da intensidade da fala (amplitude) e da taxa de vibração das pregas vocais (diminuição de F0) (BARBOSA, 2012; 2019). Portanto, ao longo da fala, é natural haver reinícios constantes de F0, já que tal elemento acústico está relacionado às dinâmicas respiratórias da fala.

Oliveira Jr. (2000), ao investigar o papel do reinício de F0 como índice segmentador de narrativas orais espontâneas em unidades menores, observou dois comportamentos de descontinuidade melódica: quando a fronteira prosódica entre unidades entonacionais adjacentes coincidia com fronteiras de seções discursivas, o reinício de F0 (a diferença, neste estudo, entre semitons de uma unidade prosódica para a outra) era maior. Já quando a fronteira prosódica não coincidia com uma fronteira de seção discursiva, quer dizer, quando não havia mudança significativa no tópico discursivo ou, ainda, quando não havia a percepção de mudança de eventos no texto narrativo, o reinício de F0 tinha padrões menores.

Nessa perspectiva, acreditamos que a não significância do reinício de F0 na segmentação dos três enunciados aqui investigados se dá pelo fato de esse contexto discursivo ser relativamente pequeno, em termos temporais (os três enunciados eram produzidos, em média, dentro de 8 ou 9 segundos), e por não haver mudanças significativas no tópico que o falante enuncia, ainda que haja a inserção do metadiscurso no fluxo informacional. Isso porque o metadiscurso não altera o tópico discursivo, mas, sim, dá suporte e robustez semântica a ele (HYLLAND, 2005a; RISSO; JUBRAN, 1998).

A variabilidade de distribuição dos movimentos melódicos encontrada nos enunciados metadiscursivos acentua a ideia de que não há um padrão único na curva de F0 do metadiscurso. Ao analisar as configurações entonacionais da fala recifense, Cunha (2000) observou que uma característica marcante da fala espontânea pernambucana era que todas as sílabas tônicas proeminentes do enunciado eram produzidas com uma F0 menor que aquela verificada nas pretônicas (CUNHA, 2000, p. 100). Essa queda melódica variava de 60 Hz a 140 Hz. Ao expor um conjunto de dados de grupos entonacionais a julgadores com o objetivo de verificar se estes reconheciam esse determinado padrão melódico como característico da fala recifense, a pesquisadora teve sua hipótese confirmada.

Ainda sobre a fala recifense, dados do ALiB (Projeto do Atlas Linguístico do Brasil) sobre as características entonacionais da capital de Pernambuco (CARDOSO et al., 2014, p. 130) revelam que, em enunciados assertivos, os acentos de pitch pré-nucleares são mais proeminentes que o acento nuclear (MOTA, 2016). Cunha (2000), por sua vez, ao analisar variedades prosódicas de algumas cidades do Brasil (dentre elas Recife), constatou que, nos dados de fala espontânea de todas essas cidades, ora os enunciados eram finalizados com tons de fronteira não-baixos ora com tons de fronteira baixos. Isso significa que outros estudos têm apontado padrões melódicos para a fala espontânea recifense.

É certo que não houve padrão melódico para o enunciado metadiscursivo nos dados linguísticos analisados. Tomando por comparação os achados de Cunha (2000) e os dados de Cardoso et al. (2014), cabe a pergunta: a que se deve, no entanto, essa não padronização nos enunciados metadiscursivos? Uma resposta possível é que, além dos fatores que incidem sobre os padrões entonacionais na produção da fala já mencionados acima, há de se levar em conta que o metadiscurso exerce variadas funções no contexto comunicativo. Daí a ideia de haver categorias e subcategorias metadiscursivas, como argumenta Hylland (2005a).

O propósito comunicacional do falante pode influenciar, portanto, o contorno melódico do metadiscurso. Ademais, por se tratar de um fluxo informacional, a configuração de F0 do enunciado metadiscursivo parece determinar o comportamento entonacional predecessor e posterior a ele, daí o motivo de haver alta taxa de variabilidade também no enunciado anterior ao metadiscursivo e no pós-metadiscursivo. Hipotetizamos, assim, que pode haver contornos entonacionais próprios para cada uma das várias funções metadiscursivas possíveis.

A taxa de elocução também é um elemento prosódico que sofre influência de aspectos como o estilo de elocução (fala espontânea, leitura, entrevista etc.); o grau de formalidade da produção (aula, conversa, palestra etc.); o gênero do falante, entre outros. Todos esses aspectos determinam, conjuntamente, o número de sílabas fonéticas que serão produzidas pelo falante em um dado espaço de tempo (BARBOSA, 2012; 2019). Isso implica que, diferentemente das sílabas fonológicas, que partem de uma estrutura silábica ideal, o número de sílabas fonéticas a serem produzidas pelo falante dependerá de características próprias a ele. Por exemplo, um falante pode elidir uma sílaba, e outro, não. Um falante pode introduzir na cadeia da fala um segmento epentético, e outro, não, e assim por diante. A despeito desse favorecimento, por parte das sílabas fonéticas, para uma não padronização da taxa de elocução, os enunciados analisados demonstram ter uma padronização quanto à taxa de elocução.

Observamos que, de todos os elementos prosódicos analisados, ela parece ser o que mais se destaca no que se refere à atribuição de um padrão ao enunciado metadiscursivo no contexto analisado. Esse padrão é traduzido por uma taxa baixa no enunciado anterior ao metadiscursivo, seguida de um pico no metadiscursivo e, finalmente, uma nova queda, que configura o fim deste enunciado e a entrada no pós-metadiscursivo.

O fato de o anterior ao metadiscursivo possuir uma taxa menor que a encontrada nos outros enunciados indica uma lentificação da fala. Tomando como aporte uma interface com os estudos sobre o metadiscurso, poderíamos dizer que tal fato dá indícios de que a propriedade autorreflexiva, isto é, o monitoramento sobre o próprio discurso, que foi discutido por Risso e Jubran (1998) e Morato (2012), não é ativada no momento da enunciação do metadiscurso em si. O enunciado metadiscursivo parece ser o produto linguístico desse automonitoramento, quer dizer, é nele que a propriedade autorreflexiva deixa marcas na enunciação. Esse processamento se manifesta, portanto, acusticamente, numa diminuição da taxa de produção de sílabas fonéticas por segundo.

Já o fato de o enunciado metadiscursivo ter a maior taxa de elocução pode estar associado à circunstância de ele não estar diretamente vinculado à estrutura informacional. Ele parece funcionar como um fator de incremento do discurso, desempenhando uma atividade de organização nos “bastidores” da informação, ora deixando transparecer sua propriedade de automonitoramento na enunciação, ora ocultando-a. Pode estar associado também à própria essência do metadiscurso, que se sustenta numa funcionalidade e estilo discursivos próprios. Esse é um fator que determinada a taxa de elocução (BARBOSA, 2012). O que podemos sugerir, assim, é que a taxa de elocução funciona como um elemento prosódico de segmentação da fala, evidenciando níveis de discurso (aqui, evidenciando o que seria pertencente ao fluxo informacional e o que não seria) representados e concretizados, na fala, acusticamente (SWERTS; GELUYKENS, 1994; SWERTS, 1996).

Em relação à ocorrência de pausas silenciosas nas duas fronteiras do enunciado metadiscursivo, constatamos que, embora a pausa seja um dos elementos prosódicos mais salientes para a percepção de fronteiras entre unidades prosódicas (SWERTS; GELUYKENS 1994; SWERTS, 1996), sua presença não é obrigatória na segmentação dos enunciados. Essa não obrigatoriedade já foi observada por Cruttenden (1997 [1986]) e Oliveira Jr. (2000), por exemplo.

Um ponto a se destacar em relação às pausas é o fato de que a ocorrência de uma delas na primeira fronteira determina a ocorrência na segunda. A pausa parece ser, portanto, um mecanismo suplementar que põe em evidência/destaque a estrutura metadiscursiva durante a comunicação. Essa estrutura fica bem delimitada, inclusive, pelo tempo de duração dessas pausas: a média de duração, na primeira fronteira, foi de 0.386 s, enquanto que, na segunda, foi de 0.484 s. Mas, por não ser um mecanismo obrigatório, também são usados outros recursos para marcar a segmentação do metadiscurso, sendo um deles o tom de fronteira.

Os tons de fronteira encontrados no enunciado anterior ao metadiscursivo (primeira fronteira) e no metadiscursivo (segunda fronteira) foram, em sua maioria, não-baixos, o que daria pistas a um ouvinte de que o falante ainda teria algo a falar. Esses resultados partilham do que já foi discutido na literatura acerca do contorno melódico nuclear de aspecto continuativo no português brasileiro (CUNHA, 2000; SERRA, 2009; TENANI, 2002, entre outros). Além disso, tais resultados corroboram o fato de que, no que se refere mais uma vez à interação prosódia/discurso, os tons de fronteira são recursos prosódicos usados para indicar terminalidade ou não terminalidade de uma seção discursiva (COLLIER, 1993; SWERTS, 1996).

Já no enunciado pós-metadiscursivo, houve um equilíbrio entre a ocorrência de tons baixos e não-baixos. Isso pode ser explicado ao se analisar a posição que esse enunciado ocupa dentro de uma unidade discursiva: ora conclui uma seção discursiva, ora está inserido dentro de uma dessas seções, não constituindo, portanto, fronteiras terminais (SWERTS; GELUYKENS, 1994; OLIVEIRA JR., 2000).

A relação vista entre a ocorrência de pausa e o tom de fronteira não-baixo sugere que esses elementos prosódicos concorrem como mecanismos de segmentação do enunciado metadiscursivo. É interessante notar que, havendo ou não pausa nas duas fronteiras, os tons finais tendem a ser não-baixos. Swerts e Geluykens (1994) chamam essa atuação conjunta de elementos prosódicos de “peso” de fronteira. Assim, os autores argumentam que, quanto maior for o número de elementos acústicos sinalizando uma fronteira discursiva/prosódica, mais “robusta” é essa fronteira. Assim, as ações conjuntas de pausa e tons de fronteira, juntamente à taxa de elocução, reforçam o pressuposto de que o enunciado metadiscursivo é uma estrutura independente das demais que o ladeiam não só do ponto de vista discursivo (HYLLAND, 2005a; RISSO; JUBRAN, 1998), mas também do ponto de vista prosódico.

6. Considerações finais

Constatamos que o enunciado metadiscursivo é realizado, prosodicamente, de maneira independente dos seus adjacentes, por uma taxa de elocução maior e por tons de fronteira não-baixos tanto no enunciado que o antecede, quanto nele próprio. Além disso, a presença de pausa silenciosa, com uma média de 0.386 s e 0.464 s, na primeira e na segunda fronteiras, respectivamente, associada à ocorrência de tons de fronteira não-baixos funciona como um marcador de destaque do metadiscurso durante a comunicação. Não foram encontrados, porém, nem padrões de variação de F0 nem um movimento melódico específico para o metadiscurso.

Esses achados contribuem para a descrição prosódica do português brasileiro e permitem compreender de que modo a prosódia rege a organização do metadiscurso na fala, bem como ressaltam que um texto possui níveis de hierarquia em sua estrutura informacional, e que, em um discurso oral, a prosódia serve para demonstrar que informações são importantes para a compreensão do que se fala.

Há de se levar em conta, no entanto, a necessidade de uma expansão de estudos que abordem esse tema. Os dados de fala tomados como corpus de análise deste trabalho não são todos de fala espontânea, uma vez que algumas falas dos informantes eram respostas dadas aos questionamentos feitos pelos documentadores durante a condução das entrevistas. Outro ponto a se destacar é o número relativamente pequeno de enunciados coletados para a investigação. Dessa forma, propomos, para estudos posteriores, um maior número de itens de análise. Propomos também a análise de outros parâmetros prosódicos, como a intensidade, por exemplo.

Por fim, sugerimos, para pesquisas futuras, a análise prosódica dos enunciados metadiscursivos dentro de um quadro que permita categorizar as funções metadiscursivas desempenhadas por eles no contexto em que se inserem. Para esse fim, é preciso uma interface cada vez maior entre as teorias prosódicas e as do discurso, além da filiação a um modelo teórico que explique as funções metadiscursivas. Trata-se, portanto, de uma linha de estudos que ainda precisa desvendar inúmeras questões sobre a prosódia da metadiscursividade no português brasileiro.

Referências

ÄDEL, A. Just give kind of map of where we are going: a taxonomy of metadiscourse in spoken and written academic English. Nordic Journal of English Studies, v. 9, n. 2, p. 69–97, 2010. DOI: . Acesso em: 17 de fevereiro de 2020.

ALMEIDA, A. N. S. Análise prosódica de agrupamentos numéricos no português do Brasil. 2017. 400f. Tese (Doutoramento em Letras e Linguística) – Faculdade de Letras, Universidade Federal de Alagoas, Maceió, 2017.

BARBOSA, P. A. Incursões em torno do ritmo da fala. Campinas, SP: Pontes ed.: FAPESP. 40 p.

BARBOSA, P. A. Conhecendo melhor a prosódia: aspectos teóricos e metodológicos daquilo que molda nossa enunciação. Revista de Estudos da Linguagem, v. 20, n. 1, p. 11-27, 2012. DOI: . Acesso em: 17 de fevereiro 2020.

BARBOSA, P. A. Prosódia. 1 ed. São Paulo: Parábola, 2019.

BOERSMA, P.; WEENINK, D. (2001) Praat: doing phonetics by computer. Disponível em: <>. Acesso em jul. 2018.

CARDOSO, S. A. M. S., et al. Atlas linguístico do Brasil: cartas linguísticas 1. Londrina: EDUEL; 2014.

CAVALCANTE, M. M. Metadiscursividade, argumentação e referenciação. Estudos linguísticos, São Paulo, v. 38, p. 345-354, 1998. Disponível em: < >. Acesso em: 17 de fevereiro 2020.

COLLIER, R. On the communicative function of prosody: some experiments. IPO Annual Progress Report, v. 28, p. 67–75, 1993.

CRUTTENDEN, A. Intonation. 2.ed. Cambridge: Cambridge University Press, 1997[1986].

CUNHA C. S. Entoação regional no português do Brasil. 2000. Tese (Doutorado em Linguística). Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2000.

GODOY, M. C. (2019) Introdução aos modelos lineares mistos. Disponível em: < https//doi.org/10.17605/OSF_IO/9T8UR >. Acesso em: 19 de dezembro de 2019.

HIRST, D. A Praat plugin for MOMEL and INTSINT with improved algorithms for modelling and coding intonation. In: INTERNATIONAL CONGRESS OF PHONETIC SCIENCES (ICHPhS), 16., 2007, Saarbrücken, Germany. Proceedings […]. Saarbrücken, p. 1233-1236.

HIRST, D. Analyse tier PRAAT script, 2012. Disponível em: <https://uk.groups. yahoo.com/neo/groups/praat-users/files/Daniel_Hirst/analyse_tier.praat>. Acesso em: 20 abril 2020.

HIRST, D.; DI CRISTO, A. Intonation Systems: a survey of twenty languages. Cambridge: Cambridge University Press, 1998.

HYLLAND, K. Metadiscourse: exploring interaction in writing. Londres: Continuum, 2005a.

KOWAL, S.; WIESE, R.; O’CONELL, D. The use of time in storytelling. Language and Speech, vol. 26, n. 4, p. 377-392, 1983.

MEYER, B. J.; BRANDT, D. M.; BLUTH, G. J. Use of top-level structure in text: key for reading comprehension of ninth-grade students. Reading research quarterly, v. 16, n. 1, p. 72-103, 1980.

MORATO, E. M. Referenciação metadiscursiva no contexto das afasias e da Doença de Alzheimer. Letras de Hoje, v. 47, n. 1, p. 45-54, 2012. Disponível em: < >. Acesso em: 19 de fevereiro 2020.

OLIVEIRA JR., M. Prosodic Features in Spontaneous Narratives. 2000. 286f. Thesis (Doctor of Philosophy). Department of Linguistics, Simon Fraser University, Vancouver, 2000.

OLIVEIRA JR., M; CRUZ, R.; SILVA, E. W. A relação entre a prosódia e a estrutura de narrativas espontâneas: um estudo perceptual. Revista Diadorim / Revista de Estudos Linguísticos e Literários do Programa de Pós-Graduação em Letras Vernáculas da Universidade Federal do Rio de Janeiro, vol. 12, Dezembro 2012. Disponível em: < http://www.revistadiadorim.letras. ufrj.br >. Acesso em 02 de outubro de 2021.

PIJPER, J. R; SANDERMAN, A. On the perceptual strength of prosodic boundaries and its relation to suprasegmental cues. Journal of the Acoustical Society of America, vol. 96, n. 4, p. 2037-2047, 1994. Disponível em: < >. Acesso em 02 de outubro de 2021.

R CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2019. Disponível em: <>. Acesso em dez. 2019.

RISSO, M.; JUBRAN, C. O Discurso Autorreflexivo: processamento metadiscursivo do texto. In: D.E.L.T.A., v. 14, n. especial, p. 227-242, 1998. DOI: . Acesso em: 17 de fevereiro 2020.

SERRA, C. R. Realização e percepção de fronteiras prosódicas no português do Brasil: fala espontânea e leitura. 2009. 244f. Tese (Doutoramento em Linguística) – Faculdade de Letras, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2009.

SILVA, A. Metadiscurso na perspectiva de Hylland: definições, modelos de categorização e possíveis contribuições. LETRAS, v. 27, n. 54, p. 41-67, 2017. DOI: . Acesso em: 22 de fevereiro 2020.

SWERTS, M. Prosodic features at discourse boundaries of different strength. In: Journal of the Acoustical Society of America, vol. 101, n. 1, p. 514-521, 1996. DOI:. Acesso em: 27 de fevereiro 2020.

SWERTS, M. Prosodic features at discourse boundaries of different strength. The Journal of the Acoustical Society of America, v. 101, n. 1, p. 514–521, 1996. DOI: . Acesso em: 02 de outubro de 2021.

SWERTS, M.; COLLIER, R.; TERKEN, J. Prosodic predictors of discourse finality in spontaneous monologues. Speech Communication, v. 15, n. 1-2, p. 79–90, 1994.

SWERTS, M.; GELUYKENS, R. Prosody as a marker of information flow in spoken discourse. Language and Speech, v. 37, n. 1, p. 21–43, 1994. DOI: . Acesso em: 02 de outubro de 2021.

TENANI, L. E. Domínios prosódicos no português do Brasil: implicações para a prosódia e para a aplicação de processos fonológicos. 2002. 317f. Tese (Doutoramento em Linguística) – Instituto de Estudos da Linguagem, Universidade Estadual de Campinas, Campinas, 2002.

t’HART, J.; COLLIER, R.; COHEN, A. A perceptual study of intonation: an experimental phonetic approach to speech melody. Cambridge: Cambridge University Press, 1990.

WICHMANN, A. Discourse Intonation. Covenant Journal of Language Studies, vol. 2, n. 1, june, 2014, p. 1-16.

WILLIAMS, J. M. Ten lessons in clarity and grace. Chicago: University of Chicago Press, 1981.

XU, Yi. ProsodyProa tool for large-scale systematic prosody analysis. In: TOOLS AND RESOURCES FOR THE ANALYSIS OF SPEECH PROSODY, 1., 2013, Aix-en-Provence, France. Proceedings […]. Aix-en-Provence, Laboratoire Parole et Langage, p. 7-10. Disponível em: < >. Acesso em: 08 de junho 2020.