<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.2 20190208//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:ali="http://www.niso.org/schemas/ali/1.0">
  <front>
    <article-meta>
      <article-id pub-id-type="doi">10.25189/2675-4916.2026.V7.N1.ID912</article-id>
      <article-categories>
        <subj-group>
          <subject content-type="Tipo de Contribuição">Relato Registrado</subject>
        </subj-group>
      </article-categories>
      <title-group>
        <article-title>Testando a Eficiência de um Método de <bold id="bold-00000000000000000000000000006001">Segmentação Prosódica Automática</bold> Baseado em Aprendizado de Máquina para o Português Brasileiro</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Testing the Efficiency of a Machine Learning-Based <bold id="bold-00000000000000000000000000006002">Automatic Prosodic Segmentation</bold> Method for Brazilian Portuguese</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group content-type="author">
        <contrib id="person-00000000000000000000000000001001" contrib-type="person" equal-contrib="no" corresp="yes" deceased="no">
          <n>
            <surname>Alves</surname>
            <given-names>Caroline Adriane</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/methodology/">Methodology</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-original-draft/">Writing – original draft</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-review-editing/">Writing – review and editing</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002001"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001002" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Fernandes</surname>
            <given-names>Rian Pereira</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/methodology/">Methodology</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-original-draft/">Writing – original draft</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-review-editing/">Writing – review and editing</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002001"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001003" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Galdino</surname>
            <given-names>Julio Cesar</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/writing-original-draft/">Writing – original draft</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-review-editing/">Writing – review and editing</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002002"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001004" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Craveiro</surname>
            <given-names>Giovana Meloni</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/data-curation/">Data curation</role>
          <role content-type="http://credit.niso.org/contributor-roles/methodology/">Methodology</role>
          <role content-type="http://credit.niso.org/contributor-roles/software/">Software</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-original-draft/">Writing – original draft</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-review-editing/">Writing – review and editing</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002002"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001005" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Svartman</surname>
            <given-names>Flaviane Romani Fernandes</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/conceptualization/">Conceptualization</role>
          <role content-type="http://credit.niso.org/contributor-roles/methodology/">Methodology</role>
          <role content-type="http://credit.niso.org/contributor-roles/supervision/">Supervision</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-original-draft/">Writing – original draft</role>
          <role content-type="http://credit.niso.org/contributor-roles/writing-review-editing/">Writing – review and editing</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002001"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001006" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Aluísio</surname>
            <given-names>Sandra Maria</given-names>
          </n>
          <role content-type="http://credit.niso.org/contributor-roles/conceptualization/">Conceptualization</role>
          <role content-type="http://credit.niso.org/contributor-roles/methodology/">Methodology</role>
          <role content-type="http://credit.niso.org/contributor-roles/supervision/">Supervision</role>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002002"/>
        </contrib>
      </contrib-group>
      <contrib-group content-type="editor">
        <contrib id="person-00000000000000000000000000001007" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Oliveira Jr.</surname>
            <given-names>Miguel</given-names>
          </n>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002003"/>
        </contrib>
        <contrib id="person-00000000000000000000000000001008" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <n>
            <surname>Mota</surname>
            <given-names>Mailce Borges</given-names>
          </n>
          <xref ref-type="aff" rid="affiliation-00000000000000000000000000002004"/>
        </contrib>
      </contrib-group>
      <aff id="affiliation-00000000000000000000000000002001">
        <institution content-type="orgname">Faculdade de Filosofia, Letras e Ciências Humanas – Universidade de São Paulo (USP), São Paulo, São Paulo, Brasil</institution>
      </aff>
      <aff id="affiliation-00000000000000000000000000002002">
        <institution content-type="orgname">Instituto de Ciências Matemáticas e de Computação – Universidade de São Paulo (USP), São Carlos, São Paulo, Brasil</institution>
      </aff>
      <aff id="affiliation-00000000000000000000000000002003">
        <institution content-type="orgname">Universidade Federal de Alagoas, Alagoas, Brasil</institution>
      </aff>
      <aff id="affiliation-00000000000000000000000000002004">
        <institution content-type="orgname">Universidade Federal de Santa Catarina, Santa Catarina, Brasil</institution>
      </aff>
      <volume>7</volume>
      <issue>1</issue>
      <elocation-id>e912</elocation-id>
      <history>
        <date date-type="received" iso-8601-date="2025-10-31"/>
        <date date-type="accepted" iso-8601-date="2026-02-10"/>
      </history>
      <permissions id="permission">
        <license>
          <ali:license_ref>http://creativecommons.org/licenses/by/4.0/</ali:license_ref>
        </license>
      </permissions>
      <abstract>
        <p id="_paragraph-1">A fala natural é organizada em unidades compostas por segmentos cujas fronteiras são marcadas por elementos prosódicos. Métodos têm sido propostos para identificar automaticamente tais unidades, levando em consideração os elementos prosódicos e visando aprimorar tarefas que envolvem a automatização da fala, como a conversão de texto em voz e a transcrição da fala. O método apresentado em Craveiro <italic id="italic-00000000000000000000000000005001">et al</italic>. (2025), que inclui um classificador treinado em português brasileiro (PB), revelou-se capaz de realizar previsões adequadas quanto à identificação dessas unidades de fala em uma amostra de dados dessa variedade do português. O presente trabalho pretende replicar esse método em uma nova amostra de dados do PB, a fim de verificar se os mesmos resultados são obtidos em uma nova condição. Espera-se que os resultados da nova amostra se aproximem daqueles alcançados no estudo original, por meio das mesmas métricas, ferramentas e técnicas estatísticas que foram empregadas.</p>
      </abstract>
      <abstract abstract-type="executive-summary">
        <title>Abstract</title>
        <p id="paragraph-00000000000000000000000000004001">Natural speech is organized into units composed of segments whose boundaries are marked by prosodic elements. Methods have been proposed to automatically identify such units, taking into account prosodic elements and aiming to improve speech-related automatic tasks, such as text-to-speech conversion and speech transcription. The method proposed by Craveiro et al. (2025), which includes a classifier trained on Brazilian Portuguese (BP), has proven effective in predicting the identification of these speech units in a data sample from this Portuguese variety. This paper aims to replicate this method on a new BP data sample, to verify whether similar results can be obtained under new conditions. It is expected that the results from the new sample will approximate those achieved in the original study, based on the same metrics, tools, and statistical techniques employed.</p>
      </abstract>
      <kwd-group>
        <kwd>Segmentação Prosódica Automática</kwd>
        <kwd>Aprendizado de Máquina</kwd>
        <kwd>Português Brasileiro</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>Automatic Prosodic Segmentation</kwd>
        <kwd>Machine Learning</kwd>
        <kwd>Brazilian Portuguese</kwd>
      </kwd-group>
      <pub-date pub-type="epub"><day>31</day><month>12</month><year>1969</year></pub-date>
      <pub-date pub-type="pub"><day>04</day><month>03</month><year>2026</year></pub-date>
    </article-meta>
  </front>
  <body id="body">

    <sec id="heading-00000000000000000000000000003001">
      <title>Introdução</title>
      <p id="paragraph-00000000000000000000000000004002">A segmentação prosódica consiste no agrupamento da fala em unidades menores, com base em aspectos prosódicos que marcam as fronteiras dessas unidades, como a entoação, a intensidade e a duração. Tais unidades, que nem sempre correspondem a unidades morfossintáticas, ajudam a estruturar a fala e facilitar a compreensão da mensagem oralizada. Entre uma unidade e a seguinte, fronteiras prosódicas são inseridas. Há também estudos que fazem uma distinção entre enunciados de fronteiras terminais (TB - <italic id="italic-00000000000000000000000000005002">terminal break</italic>), que marcam sequências completas, ou seja, que comunicam a conclusão de uma ideia, constituindo a menor unidade de fala autônoma pragmaticamente, de enunciados de fronteiras não terminais (NTB - <italic id="italic-00000000000000000000000000005003">non terminal break</italic>), que sinalizam uma unidade não autônoma, cuja informação não é completada dentro da mesma unidade. A identificação dessas fronteiras baseia-se, sobretudo, na relevância perceptual (auditiva) das pistas prosódicas, como variações na frequência fundamental (F0), na duração do segmento e na presença de pausas (<xref ref-type="bibr" rid="ref-serra-2009">Serra, 2009</xref>; <xref ref-type="bibr" rid="ref-raso-2020">Raso <italic id="italic-00000000000000000000000000005004">et al</italic>., 2020</xref>), além da inspeção visual do sinal acústico.</p>
      <p id="paragraph-00000000000000000000000000004003">A segmentação prosódica é aplicada em uma variedade de áreas, incluindo sintetizadores de fala (TTS) e sistemas de reconhecimento de fala (ASR), além de análises linguísticas (<xref ref-type="bibr" rid="ref-chen-2004">Chen; Hasegawa-Johnson, 2004</xref>; <xref ref-type="bibr" rid="ref-liu-2022">Liu <italic id="italic-00000000000000000000000000005005">et al</italic>., 2022</xref>; <xref ref-type="bibr" rid="ref-lin-2019">Lin <italic id="italic-00000000000000000000000000005006">et al</italic>., 2019</xref>; <xref ref-type="bibr" rid="ref-viola-2008">Viola; Madureira, 2008</xref>). Muitos dos estudos que abordaram segmentação prosódica automática consideraram apenas corpora de fala controlada e lida. Nesses casos, fronteiras prosódicas e sintáticas coincidem, já que o falante segue a pontuação da escrita, baseada em fronteiras sintáticas marcadas pelas convenções da escrita, e consequentemente realiza, na fala, fronteiras prosódicas nas mesmas posições onde fronteiras sintáticas marcadas na escrita ocorrem. Contudo, estudos que abordam fala espontânea podem ter mais dificuldade em atingir bons resultados devido à presença de disfluências, e ao fato de serem raras em fala controlada (<xref ref-type="bibr" rid="ref-biron-2021">Biron <italic id="italic-00000000000000000000000000005007">et al</italic>., 2021</xref>), e as fronteiras prosódicas são menos claras, já que o falante formula o texto simultaneamente à produção da fala, frequentemente realizando fronteiras em momentos imprevisíveis, diferentemente do que ocorreria em uma tarefa de leitura de um texto previamente pontuado.</p>
      <p id="paragraph-00000000000000000000000000004004">A tarefa de segmentação prosódica automática de fala espontânea é um desafio de longa data (<xref ref-type="bibr" rid="ref-biron-2021">Biron <italic id="italic-00000000000000000000000000005008">et al</italic>., 2021</xref>), que continua sendo tema relevante de estudos atuais, devido aos obstáculos mencionados e ainda não ultrapassados. As abordagens de segmentação prosódica automática incluem métodos baseados em heurísticas, aprendizado de máquina tradicional e aprendizado de máquina profundo. Há abordagens baseadas exclusivamente em sinais acústicos, outras que se baseiam também em informações lexicais e sintáticas, incluindo extensivas etapas de preparação, como anotação manual. Aqui apresentaremos uma revisão de literatura que cobre os oito estudos apresentados no trabalho de <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005009">et al</italic>. (2025)</xref>, cuja abordagem estamos nos propondo a replicar. Tais estudos foram selecionados por terem sido desenvolvidos para o português ou por terem alcançado resultados relevantes para o inglês através de diferentes tipos de abordagens, seja por meio da utilização de heurísticas, de aprendizado de máquina tradicional ou de aprendizado de máquina profundo.</p>
      <p id="paragraph-00000000000000000000000000004005"><xref ref-type="bibr" rid="ref-biron-2021">Biron <italic id="italic-00000000000000000000000000005010">et al</italic>. (2021)</xref> detectaram fronteiras prosódicas em fala espontânea de inglês americano através de heurísticas baseadas na duração de pausas e descontinuidades de taxa de fala (SRDs). Os autores utilizaram o <italic id="italic-00000000000000000000000000005011">Santa Barbara Corpus</italic> (SBC), um corpus balanceado em gênero composto por aproximadamente vinte horas de áudio, e também a ferramenta <italic id="italic-00000000000000000000000000005012">Montreal Forced Aligner</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007001" id="external-link-1">[1]</xref></sup> para realizar o alinhamento fonético forçado dos áudios, gerando previsões de início e final de cada fone. Com o uso dessas marcações, para cada palavra e a partir de seu início, a duração de todos os fones não silenciosos presentes em uma janela de 300 ms é extraída e, a partir desses valores brutos de duração, é calculada a média de duração, correspondente à taxa de elocução<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007002" id="external-link-2">[2]</xref></sup> daquela palavra. As SRDs são indicadas quando a diferença de taxa de elocução de palavras subsequentes excede determinado patamar: a primeira heurística utiliza como patamar 88% da maior diferença de valores de taxa de elocução em um turno e a segunda heurística utiliza como patamar 70% e só é aplicada a trechos resultantes da primeira heurística que sejam também maiores que 3 segundos e que contenham mais de 10 palavras. Esse estudo reportou uma medida f1<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007003" id="external-link-3">[3]</xref></sup> de 66% e comparou os resultados obtidos automaticamente com a anotação manual utilizada como referência, reportando similaridades nas características das fronteiras prosódicas, como a localização do valor mais alto da frequência fundamental (F0) da unidade entoacional<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007004" id="external-link-4">[4]</xref></sup> (UE) na segunda palavra da UE.<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007005" id="external-link-5">[5]</xref></sup></p>
      <p id="paragraph-00000000000000000000000000004006">Em <xref ref-type="bibr" rid="ref-kocharov-2017">Kocharov <italic id="italic-00000000000000000000000000005013">et al</italic>. (2017)</xref>, a predição de unidades segmentadas prosodicamente foi proposta com base na combinação de informação sintática e acústica e com o uso de um classificador <italic id="italic-00000000000000000000000000005014">Random Forest</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007006" id="external-link-6">[6]</xref></sup>. Essa abordagem assume que certas fronteiras entre palavras, como entre preposições e substantivos, são improváveis posições de fronteiras prosódicas, de modo que a sintaxe restringe potenciais localizações de fronteiras prosódicas. De fato, o estudo reportou que 97% das fronteiras prosódicas localizavam-se em posições sintaticamente possíveis, e que de 2% a 2,5% dos remanescentes 3% poderiam ser identificados por meio de regras específicas do idioma<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007007" id="external-link-7">[7]</xref></sup> abordado. Os autores utilizaram o <italic id="italic-00000000000000000000000000005015">Boston University Radio Corpus</italic> (BURNC), um corpus balanceado em gênero de cerca de três horas de fala espontânea em inglês americano. Na primeira etapa, os autores desenvolveram um sistema que prevê potenciais fronteiras prosódicas sempre que duas palavras adjacentes não estão sintaticamente conectadas. Para tal, utilizaram uma árvore de dependências<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007008" id="external-link-8">[8]</xref></sup> e adicionaram uma série de regras simples. Na segunda etapa, um classificador Random Forest determina quais potenciais fronteiras prosódicas previstas na primeira etapa são de fato fronteiras prosódicas, a partir de características acústicas. Tais características incluem declínio de contorno da frequência fundamental (F0), desaceleração na taxa de elocução ao fim do enunciado ou sintagma entoacional<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007009" id="external-link-9">[9]</xref></sup>, intensidade<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007010" id="external-link-10">[10]</xref></sup> e pausas. O estudo obteve medida f1 de 76% e acurácia de 86,5%. Variações da F0, da taxa de elocução e da intensidade foram indícios acústicos fundamentais na predição de fronteiras de unidades segmentadas nesse trabalho. Os autores também reportaram que erros de <italic id="italic-00000000000000000000000000005016">parsing</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007011" id="external-link-11">[11]</xref></sup> devem ter sido responsáveis parcialmente pelos casos de erro, mas que não puderam calcular tal porcentagem já que o padrão ouro da anotação sintática do material utilizado ainda não estava disponível.</p>
      <p id="paragraph-00000000000000000000000000004007"><xref ref-type="bibr" rid="ref-roll-2023">Roll <italic id="italic-00000000000000000000000000005017">et al</italic>. (2023)</xref> introduziram o método PSST, que faz um <italic id="italic-00000000000000000000000000005018">fine-tuning</italic> (ajuste) do modelo <italic id="italic-00000000000000000000000000005019">Whisper</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007012" id="external-link-12">[12]</xref></sup> de 764M de parâmetros para segmentar a fala, integrando informações prosódicas e sintáticas, funcionando também como uma ferramenta de transcrição. Eles utilizaram o <italic id="italic-00000000000000000000000000005020">Santa Barbara Corpus</italic>, já mencionado anteriormente, e revisaram manualmente as transcrições, preservando pausas preenchidas e disfluências, mas removendo tokens indesejados, como, por exemplo, tokens compostos por sons de respiração e risadas. Os autores testaram a influência das informações sintáticas e probabilidades léxicas/sintáticas para a segmentação através de duas outras versões do modelo, uma com a sintaxe mascarada e outra sem as informações acústicas, a qual partiu diretamente dos tokens de texto transcritos pelo <italic id="italic-00000000000000000000000000005021">Whisper</italic>. A versão com a sintaxe mascarada foi construída através da substituição de todos os tokens por um token comum, preservando somente as informações acústicas e marcações de fronteiras. O modelo que obteve melhor desempenho foi o que combinava informações acústicas e sintáticas, alcançando 96% de acurácia e 87% de medida f1. O método é semissupervisionado e não requer extensivas anotações ou recursos computacionais, tornando-o prático para aplicações de processamento de linguagem natural (PLN), e foi disponibilizado<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007013" id="external-link-13">[13]</xref></sup> pelos autores.</p>
      <p id="paragraph-00000000000000000000000000004008"><xref ref-type="bibr" rid="ref-teixeira-2022">Teixeira (2022)</xref> desenvolveu um classificador de análise discriminante linear (LDA) aplicado à fala espontânea em PB, baseado em parâmetros acústicos. Os dados utilizados no estudo consistiram em gravações de áudio de aproximadamente um minuto, extraídas dos corpora C-ORAL BRASIL I e II, compostos por 7 amostras de cada corpora, representando fala espontânea monológica informal, fala midiática e fala formal em contexto natural em 14 amostras (denominadas aqui amostra I e amostra II), totalizando 17 minutos de fala masculina com limites prosódicos anotados por especialistas. Foram extraídas 111 características fonético-acústicas, por meio do <italic id="italic-00000000000000000000000000005022">script</italic> Praat, ao longo do sinal de fala para todas as unidades V-V em uma janela centrada em todos os limites entre palavras fonológicas. As características extraídas compreenderam 5 grupos de medidas: 1) Velocidade e ritmo da fala; 2) Duração normalizada; 3) Frequência fundamental; 4) Intensidade; 5) Pausa silenciosa (presença/ausência e duração). As posições em que pelo menos 50% dos anotadores indicaram um limite do mesmo tipo foram consideradas limites. Vários modelos foram treinados para identificar limites terminais (LTs), e limites não terminais (LNTs)<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007014" id="external-link-14">[14]</xref></sup>: (i) o modelo TB-b1, com pausa e F0 como parâmetros principais, foi treinado na amostra I (balanceada), e o teste na amostra II teve uma acurácia de 76,3% para LTs; (ii) o modelo TB-b2 foi treinado na amostra II (balanceada), e o teste na amostra I teve uma acurácia de 80,8% para LTs; (iii) o modelo NTB-b1 foi treinado na amostra I e testado na amostra II, tendo uma acurácia de 71,2% para LNTs; (iv) o modelo NTB-b2 foi treinado na amostra II e testado na amostra I, tendo uma acurácia de 75,6% para LNTs. As pausas, o reset de F0 e a inclinação média de F0 em unidades próximas ao final das palavras fonológicas foram as principais características relacionadas à identificação dos limites terminais, enquanto a pausa, a taxa de articulação e a duração do segmento padrão foram as principais características para a identificação dos limites não terminais.</p>
      <p id="paragraph-00000000000000000000000000004009">Hoi <italic id="italic-00000000000000000000000000005023">et al</italic>. (2022)<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007015" id="external-link-15">*</xref></sup> propuseram um método baseado na detecção de pausas utilizando espectrogramas e uma rede neural convolucional (CNN)<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007015" id="external-link-15b">[15]</xref></sup>. Os autores extraíram 15.000 sentenças<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007016" id="external-link-16">[16]</xref></sup> do <italic id="italic-00000000000000000000000000005024">website</italic> de notícias RTP<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007017" id="external-link-17">[17]</xref></sup>, totalizando 33 horas de fala lida em português europeu, sem balanceamento de gênero. O método detectou se pausas maiores ou com exatamente 250 ms marcavam fronteiras terminais ou não terminais. Janelas de áudio (100 ms antes da pausa + 300 ms depois da pausa) foram classificadas com uma CNN de três camadas. Sem o uso de alinhamento fonético forçado ou de características semânticas, o modelo atingiu 95,6% de acurácia. Apesar de ser eficiente e funcionar para qualquer idioma, o método só lida com fronteiras baseadas em pausas, de modo que não identifica fronteiras prosódicas sem esse aspecto, o que nos parece ser mais relevante para fala lida do que para fala espontânea.</p>
      <p id="paragraph-00000000000000000000000000004010"><xref ref-type="bibr" rid="ref-craveiro-2024">Craveiro <italic id="italic-00000000000000000000000000005025">et al</italic>. (2024)</xref> adaptaram a metodologia descrita em <xref ref-type="bibr" rid="ref-biron-2021">Biron <italic id="italic-00000000000000000000000000005026">et al</italic>. (2021)</xref> para o português brasileiro, utilizando o alinhador fonético forçado <italic id="italic-00000000000000000000000000005027">UFPAlign</italic> (<xref ref-type="bibr" rid="ref-batista-2022">Batista <italic id="italic-00000000000000000000000000005028">et al</italic>., 2022</xref>), elaborado para o PB. Por trabalharem com áudios longos (30-90 minutos), foi necessária a segmentação dos áudios em trechos de 10 minutos para o alinhamento. A metodologia utilizada levou em consideração as mesmas heurísticas de <xref ref-type="bibr" rid="ref-biron-2021">Biron <italic id="italic-00000000000000000000000000005029">et al</italic>. (2021)</xref>, que utilizaram janelas de áudio de 300 ms para detectar pausas e descontinuidades de taxa de elocução. Os autores aplicaram a metodologia a trechos do corpus NURC-SP, os quais contêm fala espontânea de dois homens e quatro mulheres, todos advindos de São Paulo e com educação de nível superior, totalizando aproximadamente 5 horas. A medida f1 reportada é de 31% com margem de acerto de 0,25 segundos, considerando uma média de resultados para fronteiras terminais e não terminais. A margem de acerto considera em qual segundo a fronteira prosódica de referência está localizada e define a previsão do segmentador como acerto, somente se o tempo de previsão da fronteira estiver a uma distância de tempo anterior ou posterior de, no máximo, 0,25 segundos da fronteira de referência. O código<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007018" id="external-link-18">[18]</xref></sup> da metodologia apresentada está disponível publicamente.</p>
      <p id="paragraph-00000000000000000000000000004011">O estudo de <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005030">et al</italic>. (2025)</xref>, que pretendemos replicar neste trabalho, inspira-se no trabalho de <xref ref-type="bibr" rid="ref-ananthakrishnan-2008">Ananthakrishnan e Narayanan (2008)</xref>, no qual os autores exploraram três classificadores de aprendizado de máquina: um LDA (<italic id="italic-00000000000000000000000000005031">Linear Discriminant Analysis</italic>), um GMM (<italic id="italic-00000000000000000000000000005032">Gaussian Mixture Model</italic>), e uma rede neural, baseando sua abordagem de identificação de fronteiras de frases prosódicas<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007019" id="external-link-19">[19]</xref></sup> em informações acústicas, mas também na combinação de informações sintáticas e lexicais. Os dados utilizados foram parte do <italic id="italic-00000000000000000000000000005033">Boston University Radio Speech Corpus</italic>, totalizando aproximadamente três horas de fala espontânea em inglês americano, balanceada em termos de gênero dos falantes. Os autores extraíram as seguintes informações acústicas de cada sílaba: (i) duração de pausas imediatamente após as sílabas; (ii) duração da vogal núcleo; (iii) diferença da F0 mínima e máxima; (iv) diferença da F0 mínima e média da sílaba; (v) diferença da F0 média e máxima da sílaba; (vi) diferença da energia mínima e média da sílaba; (vii) diferença da energia média e máxima da sílaba; (viii) diferença da energia máxima e mínima; e (ix) diferença da média de F0 da sílaba e da média de F0 do enunciado falado (<italic id="italic-00000000000000000000000000005034">spoken utterance</italic> nas palavras dos autores). Com seu classificador baseado em rede neural, obtiveram acurácia de 91,6% com a abordagem que utiliza informações sintáticas e acústicas, e 89,9% com a abordagem que se vale apenas de informações acústicas. Contudo, o parâmetro relativo à diferença da F0 média da sílaba e da F0 média do enunciado depende de conhecimento prévio das posições de fronteiras prosódicas para ser utilizado, já que para calcular a média de F0 de um enunciado é preciso saber quais sílabas pertencem a esse enunciado. Tal conjunto de parâmetros é necessário tanto para treino quanto para teste, já que o classificador depende dessas informações acústicas dos dados de teste para realizar as previsões de posição das fronteiras prosódicas.</p>
      <p id="paragraph-00000000000000000000000000004012">Por fim, <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005035">et al</italic>. (2025)</xref> basearam-se na extração das mesmas informações acústicas de <xref ref-type="bibr" rid="ref-ananthakrishnan-2008">Ananthakrishnan e Narayanan (2008)</xref>, mas disponibilizando também um modelo que considera apenas as oito informações que não requerem uma anotação prévia das fronteiras prosódicas. As autoras adaptaram a abordagem para a identificação somente de fronteiras prosódicas terminais em PB, utilizando o alinhador fonético forçado <italic id="italic-00000000000000000000000000005036">UFPAlign</italic> e o corpus MuPe-Diversidades<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007020" id="external-link-20">[20]</xref></sup> (<xref ref-type="bibr" rid="ref-craveiro-galdino-2024">Craveiro; Galdino, 2024</xref>), apresentando também uma avaliação de viés, considerando o perfil de falante, definido por gênero, região de origem, idade e nível de escolaridade. O corpus MuPe-Diversidades permite tal avaliação, pois contém fala espontânea de um conjunto de 30 falantes, balanceados em termos de estado de origem (17 estados brasileiros estão contidos) e gênero, e englobando diferentes idades e níveis de escolaridade, totalizando aproximadamente duas horas e meia de áudio. Na avaliação de viés, as autoras compararam a performance do modelo para cada grupo de falantes separados por aspecto de perfil de falante, verificando se ele é igualmente eficaz para cada grupo. Através de uma validação cruzada (K-fold=5), <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005037">et al</italic>. (2025)</xref> testaram sete classificadores, optando por um <italic id="italic-00000000000000000000000000005038">Random Forest</italic>. As autoras reportaram: medida f1 de 77%, medida f1 binária de 55% e acurácia de 97%, além de um total de apenas 8,2g de emissão de carbono, medido com a biblioteca de python codecarbon<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007021" id="external-link-21">[21]</xref></sup>. Durante os últimos anos, houve expressiva popularização de métodos de aprendizado de máquina profundo e modelos de linguagem, os quais exigem poder computacional massivo e, consequentemente, geram significativo impacto ambiental (<xref ref-type="bibr" rid="ref-bender-2021">Bender <italic id="italic-00000000000000000000000000005039">et al</italic>., 2021</xref>; <xref ref-type="bibr" rid="ref-ferraro-2024">Ferraro <italic id="italic-00000000000000000000000000005040">et al</italic>., 2024</xref>). Por isso, <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005041">et al</italic>. (2025)</xref> enfatizam que têm a preocupação de trabalhar com um modelo energeticamente eficiente. As autoras reportaram, também, que a avaliação de vieses teve resultados inconclusivos. Os modelos elaborados no estudo e o código<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007022" id="external-link-22">[22]</xref></sup> do método estão disponíveis publicamente.</p>
      <p id="paragraph-00000000000000000000000000004013">O objetivo do trabalho que iremos desenvolver e ao qual se refere este relato registrado é replicar a abordagem descrita em <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005042">et al</italic>. (2025)</xref>, que se baseia exclusivamente em informações acústicas, utiliza aprendizado de máquina tradicional e considera fala espontânea. Esse estudo inova ao treinar um modelo de segmentação prosódica automática para o PB baseado em duas horas e meia de fala por pessoas de perfis relativamente diversos, levando em conta variáveis como gênero, idade, nível de escolaridade e região de origem dos falantes. Ademais, <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005043">et al</italic>. (2025)</xref> foi selecionado para replicação pois o código do classificador e os modelos treinados estão disponíveis publicamente, permitindo sua reprodução. O estudo que será por nós realizado tem a intenção de avaliar a robustez da abordagem proposta em <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005044">et al</italic>. (2025)</xref>, através de sua aplicação em um novo conjunto de dados, o corpus NURC-CM (<xref ref-type="bibr" rid="ref-santos-2022">Santos <italic id="italic-00000000000000000000000000005045">et al</italic>., 2022</xref>), especificado na seção "1. Métodos". Esse corpus foi selecionado pela significativa quantidade de horas com anotação de segmentação prosódica (17 h 35 min 19 s), apesar de as gravações terem sido feitas na década de 70, implicando baixa qualidade em alguns dos áudios. Considerando esse intuito, temos a seguinte pergunta de pesquisa: resultados semelhantes quanto à segmentação automática das unidades de fala são obtidos com o mesmo segmentador em amostras de dados de corpus de fala diferentes do português brasileiro?</p>
    </sec>

    <sec id="heading-00000000000000000000000000003002">
      <title>1. Métodos</title>
      <p id="paragraph-00000000000000000000000000004014">A fim de testar a eficiência do segmentador prosódico automático em um corpus diferente daquele utilizado no estudo original, usaremos os dados do Corpus Mínimo CORAA NURC-SP. Esse corpus é um subcorpus do NURC-SP, sendo um recurso em português brasileiro que fornece:</p>
      <p id="paragraph-00000000000000000000000000004015">• 21 arquivos de áudio (.<italic id="italic-00000000000000000000000000005046">wav</italic>, 2 canais, 16 bits, 48 kHz), totalizando 17 h 35 min 19 s, 155.394 palavras, com seis monólogos, classificados como elocuções formais (EF) (4 h 28 min 52 s, 29.607 palavras), seis diálogos entre dois informantes (D2) (6 h 55 min 07 s, 71.350 palavras) e nove diálogos entre informante e entrevistador (DID) (6 h 11 min 20 s, 54.437 palavras).</p>
      <p id="paragraph-00000000000000000000000000004016">• Arquivos texto alinhados à fala (.<italic id="italic-00000000000000000000000000005047">textgrid</italic>, UTF-8), contendo as seguintes camadas de intervalos anotadas no software Praat (<xref ref-type="bibr" rid="ref-boersma-2025">Boersma; Weenink, 2025</xref>), conforme ilustrado na Figura 1<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007023" id="external-link-23">[23]</xref></sup>:</p>
      <fig id="figure-00000000000000000000000000008001">
        <label>Figura 1</label>
        <caption>
          <title>Excerto do inquérito SP_EF_153 com cinco camadas anotadas no <italic id="italic-00000000000000000000000000005048">Praat</italic>.</title>
          <p id="paragraph-00000000000000000000000000004017"><bold id="bold-00000000000000000000000000006003">Fonte:</bold> Adaptado de Santos <italic id="italic-00000000000000000000000000005049">et al.</italic> (2022).</p>
        </caption>
      </fig>
      <p id="paragraph-00000000000000000000000000004018">• 2 camadas (TB-, NTB-) nas quais a fala de cada locutor (-L1, -L2) e documentador (-DOC1, -DOC2) é segmentada em unidades prosódicas e transcrita de acordo com as normas do Projeto NURC.</p>
      <p id="paragraph-00000000000000000000000000004019">• 1 camada (LA) para a fala transcrita e segmentada de locutores eventuais<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007024" id="external-link-24">[24]</xref></sup>.</p>
      <p id="paragraph-00000000000000000000000000004020">• 2 camadas para comentários: uma voltada a observações gerais sobre o áudio (com), como qualidade sonora, presença de ruídos ou trechos inaudíveis; e outra destinada a anotações temporárias dos anotadores (com-anotadores), utilizadas para o registro de dúvidas, decisões analíticas provisórias e observações metodológicas, sendo excluídas ao final da anotação.</p>
      <p id="paragraph-00000000000000000000000000004021">• 1 camada contendo a versão normalizada (-normal)<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007025" id="external-link-25">[25]</xref></sup> da transcrição de todas as camadas TB e LA<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007026" id="external-link-26">[26]</xref></sup>.</p>
      <p id="paragraph-00000000000000000000000000004022">• 1 camada contendo a pontuação (-ponto) que marca a fronteira final de cada TB.</p>
      <p id="paragraph-00000000000000000000000000004023">• Arquivo de metadados (.<italic id="italic-00000000000000000000000000005050">csv</italic>) associados a cada inquérito, contendo informações relativas ao inquérito (ID, duração e qualidade do áudio, data e tema da gravação) e aos principais locutores (ID, sexo, idade, faixa etária, estado civil, ocupação e locais de origem do participante e de seus pais).</p>
      <p id="paragraph-00000000000000000000000000004024">O conjunto de dados está disponível publicamente no repositório Portulan Clarin<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007027" id="external-link-27">[27]</xref></sup>, sob a licença CC BY-NC-ND 4.0. O corpus compreende pelo menos 55 falantes distintos: sendo 27 informantes principais, 23 documentadores e 5 falantes eventuais. Entre os locutores principais, há 14 homens e 13 mulheres, com idades variando de 25 a 85 anos (média = 44; desvio padrão = 16,8). Todos são naturais da cidade de São Paulo, com exceção de dois participantes que nasceram em outras cidades e se mudaram para São Paulo ainda jovens. Esses falantes pertencem a diversas áreas profissionais, incluindo: advocacia, biblioteconomia, docência, economia, engenharia, estatística, jornalismo, nutrição, odontologia, pedagogia, psicologia, publicidade e vendas.</p>
      <p id="paragraph-00000000000000000000000000004025">O conjunto de dados contém gravações datadas de dezembro de 1971 a maio de 1977. Além de aulas e palestras gravadas (sobre língua, cinema, estética, desenvolvimento intelectual, dinheiro, arte pré-histórica), o corpus contém conversas sobre uma ampla variedade de tópicos, como família, saúde, alimentação, tempo, vestuário, profissão, educação, religião, transporte e viagens, entretenimento, cinema, televisão, rádio e teatro, telecomunicações, finanças, casa, terreno, vegetais, agricultura, animais e gado.</p>
      <p id="paragraph-00000000000000000000000000004026">As gravações originais foram capturadas com gravadores de rolo, como <italic id="italic-00000000000000000000000000005051">National</italic> RQ 501s, <italic id="italic-00000000000000000000000000005052">Sony Tapecorder</italic> TC-105 e AKAI 707, e ocorreram em diferentes locais. Assim, os arquivos de áudio digitalizados atuais possuem diferentes níveis de inteligibilidade como resultado do equipamento de gravação utilizado, do ambiente de gravação ou da deterioração das fitas de gravação. No arquivo de metadados, são fornecidos comentários sobre (i) o volume do áudio percebido pelos comentaristas e (ii) a qualidade das gravações em relação à voz dos locutores e à presença de eventos externos<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007028" id="external-link-28">[28]</xref></sup> (como chiado, ruído de fundo ou música, interferência aleatória dos locutores), consistindo em descrições positivas (bom, muito bom, audível, claro) e negativas (baixo, muito baixo, grave, ruidoso). Assim, há 10 arquivos de áudio com avaliação positiva, 6 com avaliação negativa e 5 com avaliação mista. É interessante incluir os áudios com avaliação negativa, pois áudios gravados em condições cotidianas podem não refletir alta qualidade, e desse modo é possível também avaliar a performance do modelo em condições não ideais de qualidade de áudio.</p>
      <p id="paragraph-00000000000000000000000000004027">No estudo, utilizaremos apenas as camadas de TB normalizadas de cada falante. Antes de iniciar os experimentos no modelo de segmentação prosódica automática, os dados serão pré-processados, tendo em vista os procedimentos relatados no estudo original. Converteremos os áudios em 16 kHz, em sinal monofônico e no formato .<italic id="italic-00000000000000000000000000005053">wav</italic>. No experimento original, os dados do MuPe-Diversidades tinham exemplos de cinco a dez minutos. Para a replicabilidade a ser realizada em nosso estudo, adaptações serão necessárias, uma vez que o NURC-Corpus Mínimo possui áudios mais longos, mas faremos uso do mesmo alinhador fonético utilizado no estudo original, que não processa áudios muito longos. Visto que para uma boa generalização do classificador, o ideal é utilizar a maior quantidade de dados disponíveis para treinamento, o que também contribui com a avaliação de robustez do método, optamos por processar o corpus inteiro. Assim, verificaremos se o modelo suporta processar os áudios com duração de aproximadamente 20 minutos. Desse modo, dividiremos os inquéritos do NURC-Corpus Mínimo nessa estimativa. As tentativas podem levar a possíveis limitações do alinhador fonético, o que pode resultar em cortes do corpus em trechos ainda menores, de 5 a 10 minutos. Os cortes serão feitos manualmente, de forma que não haja interrupções inadequadas de fala, como, por exemplo, no meio das palavras.</p>
      <p id="paragraph-00000000000000000000000000004028">Cada uma das transcrições dos áudios precisará conter palavras separadas por um único espaço, sem sobreposições e sinais de pontuação. Para esta normalização, será empregado o mesmo <italic id="italic-00000000000000000000000000005054">script</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007029" id="external-link-29">[29]</xref></sup> utilizado no estudo original. Cada transcrição será alinhada manualmente com os arquivos de áudio do NURC-Corpus Mínimo dividido em trechos menores.</p>
      <p id="paragraph-00000000000000000000000000004029">Após o pré-processamento, os dados estarão prontos para serem testados no modelo. O experimento será realizado em três etapas: (i) alinhamento fonético com <italic id="italic-00000000000000000000000000005055">UFPAlign</italic>; (ii) extração de informações prosódicas; (iii) segmentação prosódica automática do áudio com o classificador de Craveiro et al. 2025, já treinado em PB. Na primeira etapa, o alinhamento fonético vai marcar o tempo inicial e final de cada fone, sílaba e palavra dos dados. Na segunda, as informações prosódicas ((i) duração de pausas imediatamente após as sílabas; (ii) duração da vogal núcleo; (iii) diferença da F0 mínima e máxima; (iv) diferença da F0 mínima e média da sílaba; (v) diferença da F0 média e máxima da sílaba; (vi) diferença da energia mínima e média da sílaba; (vii) diferença da energia média e máxima da sílaba; (viii) diferença da energia máxima e mínima; e (ix) diferença da média de F0 da sílaba e da média de F0 do enunciado falado) serão extraídas com o auxílio da biblioteca <italic id="italic-00000000000000000000000000005056">Parselmouth</italic><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007030" id="external-link-30">[30]</xref></sup>. Finalmente, a segmentação prosódica automática será executada, usando o modelo <italic id="italic-00000000000000000000000000005057">Random Forest</italic> treinado no estudo original. Assim como no estudo original, o produto do método empregado será um <italic id="italic-00000000000000000000000000005058">textgrid</italic> com diferentes intervalos, segmentado em unidades, separadas prosodicamente pelo classificador.</p>
      <p id="paragraph-00000000000000000000000000004030">As ferramentas que serão utilizadas incluem: <italic id="italic-00000000000000000000000000005059">UFPAlign</italic> para o alinhamento fonético forçado; <italic id="italic-00000000000000000000000000005060">Python</italic> (com bibliotecas <italic id="italic-00000000000000000000000000005061">sklearn</italic>, <italic id="italic-00000000000000000000000000005062">tgt</italic>, <italic id="italic-00000000000000000000000000005063">parselmouth</italic>, pandas, <italic id="italic-00000000000000000000000000005064">scipy</italic>, entre outras) para a segmentação e extração de informações acústicas; e Praat para análise linguística qualitativa dos resultados. Usaremos exatamente as mesmas técnicas estatísticas do trabalho original (<xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005065">et al</italic>. 2025</xref>), pois o estudo que será replicado é muito recente.</p>
      <p id="paragraph-00000000000000000000000000004031">Em relação aos critérios de inclusão e exclusão, todos os áudios que passarem automaticamente na fase de pré-processamento e de processamento do modelo serão analisados. Caso os dados não sejam processados pelo modelo em alguma das duas etapas, serão excluídos e listados no artigo final.<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007031" id="external-link-31">[31]</xref></sup></p>
      <p id="paragraph-00000000000000000000000000004032">Quanto à análise dos resultados obtidos, utilizaremos as mesmas métricas do estudo original, considerando a segmentação do corpus inteiro e também os resultados obtidos em grupos específicos divididos por idade e gênero. Avaliaremos a relevância estatística desses resultados e a relevância das informações prosódicas utilizadas pelo classificador. Nessa replicação, apenas escolaridade e região de origem, duas das variáveis de análise do estudo original não serão contempladas, uma vez que a nova amostra (NURC-CM) não apresenta a possibilidade de verificar esses vieses, porque os dados são apenas de uma região de origem (SP) e relativos a falantes com grau de escolaridade superior completo. Será também realizada a análise linguística qualitativa, com base em inspeção de parâmetros acústicos, dos erros da segmentação automática aplicada no presente estudo, de forma comparativa aos erros obtidos no estudo de <xref ref-type="bibr" rid="ref-craveiro-2025">Craveiro <italic id="italic-00000000000000000000000000005066">et al</italic>. (2025)</xref><sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007032" id="external-link-32">[32]</xref></sup>.</p>
      <p id="paragraph-00000000000000000000000000004033">O experimento será aplicado de forma automatizada. O método analítico previsto irá averiguar a relevância estatística com <italic id="italic-00000000000000000000000000005067">one-way</italic> ANOVA da biblioteca <italic id="italic-00000000000000000000000000005068">SciPy</italic> e analisar, de forma comparativa aos resultados observados no corpus original, os resultados das medidas f1 binária e f1 macro com <italic id="italic-00000000000000000000000000005069">sklearn.metrics</italic> obtidos no novo corpus. Enquanto a f1 binária<sup><xref ref-type="fn" rid="footnote-00000000000000000000000000007033" id="external-link-33">[33]</xref></sup> considera apenas os valores de falsos positivos, falsos negativos, verdadeiros positivos e verdadeiros negativos para a classe TB, a f1 macro considera uma média entre os valores da classe TB e da classe NB, uma classe secundária que indica todas as sílabas que não estão imediatamente anteriores a fronteiras. Utilizaremos o código aberto disponibilizado pelas autoras para esses cálculos. Uma reprodução bem-sucedida ocorrerá caso:</p>
      <p id="paragraph-00000000000000000000000000004034">(i) a replicação do método e geração de arquivos segmentados prosodicamente seja concluída com sucesso, ou seja, sem erros de algoritmo que inviabilizem a conclusão do processo; e</p>
      <p id="paragraph-00000000000000000000000000004035">(ii) com alcance de resultados que atinjam padrões quantitativos semelhantes aos observados no corpus original, incluindo f1 binária acima de 50% e f1 macro acima de 70%.</p>
      <p id="paragraph-00000000000000000000000000004036">Em relação ao cronograma aproximado de atividades, pretendemos iniciar os experimentos imediatamente após a aprovação desta fase inicial do relato registrado. O pré-processamento, o processamento e a análise dos dados serão executados em aproximadamente 8 semanas. A escrita final será concluída dentro de 4 semanas. Assim, a finalização do relatório está prevista para cerca de 3 meses após o recebimento da aprovação deste presente estágio 1.</p>
    </sec>

    <sec id="heading-00000000000000000000000000003003">
      <title>Informações Complementares</title>
      <sec id="heading-00000000000000000000000000003004">
        <title>Conflito de Interesse</title>
        <p id="paragraph-00000000000000000000000000004037">Os autores declaram que não possuem interesses financeiros ou relações pessoais que possam ter influenciado o trabalho relatado neste artigo.</p>
      </sec>
      <sec id="heading-00000000000000000000000000003005">
        <title>Link para Preprint</title>
        <p id="paragraph-00000000000000000000000000004038">Versão 1:</p>
        <p id="paragraph-00000000000000000000000000004039"><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.17495823">https://doi.org/10.5281/zenodo.17495823</ext-link></p>
        <p id="paragraph-00000000000000000000000000004040">Versão 2:</p>
        <p id="paragraph-00000000000000000000000000004041"><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.18601236">https://doi.org/10.5281/zenodo.18601236</ext-link></p>
      </sec>
      <sec id="heading-00000000000000000000000000003006">
        <title>Declaração de Disponibilidade de Dados</title>
        <p id="paragraph-00000000000000000000000000004042">O compartilhamento de dados não é aplicável a este artigo, pois nenhum dado novo foi criado ou analisado neste estudo.</p>
      </sec>
      <sec id="heading-00000000000000000000000000003007">
        <title>Declaração de Uso de IA</title>
        <p id="paragraph-00000000000000000000000000004043">Os autores declaram que nenhuma ferramenta de IA foi utilizada na criação deste manuscrito nem em qualquer aspecto dos trabalhos realizados cujo resultado será reportado no manuscrito.</p>
      </sec>
    </sec>

    <sec id="heading-00000000000000000000000000003008" sec-type="open-peer-review" specific-use="collapsible">
      <title>Avaliação</title>
      <p id="paragraph-00000000000000000000000000004044"><bold id="bold-00000000000000000000000000006004">DOI:</bold> <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.25189/2675-4916.2026.V7.N1.ID912.R">https://doi.org/10.25189/2675-4916.2026.V7.N1.ID912.R</ext-link></p>
      <sec id="heading-00000000000000000000000000003009">
        <title>Decisão Editorial</title>
        <p id="paragraph-00000000000000000000000000004045">EDITOR 1: Miguel Oliveira Jr</p>
        <p id="paragraph-00000000000000000000000000004046">ORCID: <ext-link ext-link-type="uri" xlink:href="https://orcid.org/0000-0002-0866-0535">https://orcid.org/0000-0002-0866-0535</ext-link></p>
        <p id="paragraph-00000000000000000000000000004047">AFILIAÇÃO: Universidade Federal de Alagoas, Alagoas, Brasil.</p>
        <p id="paragraph-00000000000000000000000000004048">-</p>
        <p id="paragraph-00000000000000000000000000004049">EDITOR 2: Mailce Borges Mota</p>
        <p id="paragraph-00000000000000000000000000004050">ORCID: <ext-link ext-link-type="uri" xlink:href="https://orcid.org/0000-0002-8674-2480">https://orcid.org/0000-0002-8674-2480</ext-link></p>
        <p id="paragraph-00000000000000000000000000004051">AFILIAÇÃO: Universidade Federal de Santa Catarina, Santa Catarina, Brasil.</p>
        <p id="paragraph-00000000000000000000000000004052">-</p>
        <p id="paragraph-00000000000000000000000000004053">CARTA DE DECISÃO: Este manuscrito apresenta o protocolo do Relato Registrado cujo objetivo é avaliar a generalização de um segmentador prosódico automático para o português brasileiro por meio de sua aplicação a um corpus independente de fala espontânea (NURC-SP), com condições de gravação, gêneros interacionais e distribuição prosódica distintas daquelas do conjunto utilizado no desenvolvimento do método. O interesse do estudo reside em transformar uma questão recorrente, mas raramente testada de forma sistemática — a sensibilidade de segmentadores automáticos ao corpus — em um procedimento controlado e verificável. O protocolo define antecipadamente o fluxo completo de processamento, os critérios de comparação entre segmentação automática e referência, as métricas de avaliação e os limiares interpretativos, assegurando que a leitura dos resultados não dependa de ajustes posteriores às análises. A proposta metodológica é adequada a um estudo de replicação voltado à generalização porque mantém o enquadramento analítico do trabalho original e o submete a dados independentes, permitindo avaliar de maneira direta até que ponto o desempenho observado se sustenta fora do contexto em que o segmentador foi originalmente testado. Ao fazê-lo, o protocolo estabelece condições claras para uma avaliação transparente da robustez do método e para a interpretação informada de seus limites de aplicação.</p>
      </sec>
      <sec id="heading-00000000000000000000000000003010">
        <title>Rodadas de Avaliação</title>
        <p id="paragraph-00000000000000000000000000004054">AVALIADOR 1: Plinio Almeida Barbosa</p>
        <p id="paragraph-00000000000000000000000000004055">ORCID: <ext-link ext-link-type="uri" xlink:href="https://orcid.org/0000-0001-6317-3548">https://orcid.org/0000-0001-6317-3548</ext-link></p>
        <p id="paragraph-00000000000000000000000000004056">AFILIAÇÃO: Universidade Estadual de Campinas, São Paulo, Brasil.</p>
        <p id="paragraph-00000000000000000000000000004057">-</p>
        <p id="paragraph-00000000000000000000000000004058">AVALIADOR 2: Tommaso Raso</p>
        <p id="paragraph-00000000000000000000000000004059">ORCID: <ext-link ext-link-type="uri" xlink:href="https://orcid.org/0000-0002-3446-313X">https://orcid.org/0000-0002-3446-313X</ext-link></p>
        <p id="paragraph-00000000000000000000000000004060">AFILIAÇÃO: Universidade Federal de Minas Gerais, Minas Gerais, Brasil.</p>
        <p id="paragraph-00000000000000000000000000004061">-</p>
        <p id="paragraph-00000000000000000000000000004062"><bold id="bold-00000000000000000000000000006005">RODADA 1</bold></p>
        <p id="paragraph-00000000000000000000000000004063">AVALIADOR 1 </p>
        <p id="paragraph-00000000000000000000000000004064">2026-01-19 | 10:47 AM</p>
        <p id="paragraph-00000000000000000000000000004065">O relato registrado, em português, propõe a replicação de um segmentador prosódico automático treinado numa base do português brasileiro para ser testado em outra base, com dados do NURC-SP. Tendo em vista que segmentadores automáticos podem ser sensíveis ao corpus de treinamento, o teste em outro conjunto de dados é primordial para testar sua robustez. Não há muitos dessas ferramentas para o português brasileiro, o que reforça a importância de um relato registrado.</p>
        <p id="paragraph-00000000000000000000000000004066">É um estudo relevante e bem apresentado. Sugestões para esclarecimento de algumas partes são dadas como comentários no documento revisado anexo.</p>
        <p id="paragraph-00000000000000000000000000004067">-</p>
        <p id="paragraph-00000000000000000000000000004068">AVALIADOR 2 </p>
        <p id="paragraph-00000000000000000000000000004069">2026-01-10 | 06:56 PM</p>
        <p id="paragraph-00000000000000000000000000004070">The paper presents a proposal for the reproducibility of an automatic prosodic segmenter. The aim is to reproduce the work carried out by Craveiro et al. (2025) on different data. The topic is highly relevant and timely. An automatic segmenter into prosodic units capable of achieving high levels of effectiveness would be extremely useful in several fields, ranging from natural language processing to corpus compilation. The manuscript is potentially useful for other scholars who wish to gain an overview of the state of the art in automatic segmentation or who intend to contribute to the development of a new segmenter.</p>
        <p id="paragraph-00000000000000000000000000004071">The proposal presents several studies with similar objectives, based on both Brazilian Portuguese corpora and American English corpora, outlining the benefits and limitations of each. After a review of the relevant literature, the paper states its intention to reproduce a specific study on different data in order to assess its effectiveness. This is certainly a useful proposal; however, it could be improved to make the text clearer and more useful for a broader audience.</p>
        <p id="paragraph-00000000000000000000000000004072">-</p>
      </sec>
    </sec>

    <sec id="heading-00000000000000000000000000003011" sec-type="author-response" specific-use="collapsible">
      <title>Resposta dos Autores</title>
      <p id="paragraph-00000000000000000000000000004073"><bold id="bold-00000000000000000000000000006006">DOI:</bold> <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.25189/2675-4916.2026.V7.N1.ID912.A">https://doi.org/10.25189/2675-4916.2026.V7.N1.ID912.A</ext-link></p>
      <p id="paragraph-00000000000000000000000000004074"><bold id="bold-00000000000000000000000000006007">RODADA 1</bold></p>
      <p id="paragraph-00000000000000000000000000004075">2026-02-10</p>
      <p id="paragraph-00000000000000000000000000004076">Prezados,</p>
      <p id="paragraph-00000000000000000000000000004077">Agradecemos o serviço prestado pelos revisores, considerando que esse trabalho prestado aprimorou muito o relato registrado. As melhorias de escrita, de formatação e de complementação de informações específicas e pequenas foram atendidas e seguem alteradas na versão revisada do relato em anexo. Na maioria dos casos de complementação de informações específicas, adicionamos notas ao longo do manuscrito. Comentaremos a seguir apenas os pontos que precisam de explicações mais detalhadas.</p>
      <p id="paragraph-00000000000000000000000000004078">- Resposta ao Revisor 1, Plínio A. Barbosa</p>
      <p id="paragraph-00000000000000000000000000004079">Nas citações, havia duas menções a trabalhos de Craveiro et al. (2025). Alteramos as citações para os trabalhos em que eram relacionados cada um dos artigos. Assim, as menções do trabalho Craveiro et al. (2025) se referem a apenas este produto. A outra produção de 2025 refere-se a Craveiro &amp; Galdino (2025).</p>
      <p id="paragraph-00000000000000000000000000004080">Em relação ao uso de decibelímetro, informamos que o volume foi avaliado apenas perceptualmente na época da realização da tarefa de anotação do Corpus Mínimo CORAA NURC-SP.</p>
      <p id="paragraph-00000000000000000000000000004081">- Resposta ao Revisor 2, Tommaso Raso</p>
      <p id="paragraph-00000000000000000000000000004082">Iremos replicar o estudo de Craveiro et al. (2025), porque é um trabalho que inova, ao treinar um modelo de segmentação prosódica automática para o português brasileiro baseado em duas horas e meia de fala por pessoas de perfis relativamente diversos, levando em conta variáveis, como gênero, idade, nível de escolaridade e região de origem dos falantes. Além disso, Craveiro et al. (2025) foi selecionado para replicação, pois o código do classificador e os modelos treinados estão disponíveis publicamente, permitindo sua reprodução. O estudo que será realizado tem a intenção de avaliar a robustez da abordagem proposta em Craveiro et al. (2025), através de sua aplicação em um novo conjunto de dados, o corpus NURC-CM.</p>
      <p id="paragraph-00000000000000000000000000004083">Dado que são identificadas exclusivamente fronteiras terminais (TB - terminal breaks) pelo modelo de segmentação prosódica automática de Craveiro et al. (2025) e nosso trabalho se propõe à replicação do mesmo modelo dos autores em um novo conjunto de dados, voltaremos nossa atenção também apenas para a identificação das fronteiras terminais no corpus NURC-CM. Acrescentamos que o aprimoramento do modelo para a identificação de fronteiras não terminais será tema de pesquisas futuras.</p>
      <p id="paragraph-00000000000000000000000000004084">Utilizaremos o NURC-CM, pois ele possui uma significativa quantidade de horas com anotação de segmentação prosódica (17 h 35 min 19 s), apesar de as gravações terem sido feitas na década de 70, implicando baixa qualidade em alguns dos áudios.</p>
      <p id="paragraph-00000000000000000000000000004085">Sobre a qualidade do corpus escolhido, mesmo com gravação de rolo, o NURC é um conjunto de dados válido para este teste, porque as gravações, muitas vezes, são influenciadas por fatores externos, como o ruído do ambiente ou até mesmo pelo tipo de gravação. Dessa forma, a gravação de rolo da época é interessante também, porque esse fator pode indicar se o modelo computacional consegue processar conjuntos de dados, mesmo com condições desafiadoras. Por essa razão, também incluímos áudios descritos com avaliação negativa nos metadados do corpus, pois condições cotidianas podem não refletir alta qualidade, e desse modo é possível também avaliar a performance do modelo em condições não ideais de qualidade de áudio.</p>
      <p id="paragraph-00000000000000000000000000004086">No que diz respeito ao comentário sobre "regras específicas de idioma" do trabalho de Kocharov et al. (2017), não há mais informação no texto dos autores sobre isso, além das informações que apresentamos na nota 13 da página 5: "Os autores afirmam que para cada idioma há um conjunto de dez a vinte regras que dizem respeito a parênteses, nomes compostos, verbos frasais, entre outros."</p>
      <p id="paragraph-00000000000000000000000000004087">Quanto ao comentário sobre não estar claro, na redação do texto do relato, de que se trata de um relato registrado de um trabalho ainda a ser feito, modificamos a sentença relativa à definição do objetivo (p. 9-10), da maneira que segue: "O objetivo do trabalho que iremos desenvolver e ao qual se refere este relato registrado é replicar a abordagem descrita em Craveiro et al. (2025), que se baseia exclusivamente em informações acústicas, utiliza aprendizado de máquina tradicional e considera fala espontânea."</p>
      <p id="paragraph-00000000000000000000000000004088">Agradecemos novamente e estamos disponíveis para mais esclarecimentos, caso necessário.</p>
    </sec>

  </body>
  <back>
    <fn-group>
      <fn id="footnote-00000000000000000000000000007001">
        <p id="paragraph-00000000000000000000000000004089"><ext-link ext-link-type="uri" xlink:href="https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner">https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007002">
        <p id="paragraph-00000000000000000000000000004090">Embora os autores tenham calculado a taxa de elocução a partir da média de duração de fones, normalmente a taxa de elocução é calculada em sílabas por segundo ou palavras por minuto.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007003">
        <p id="paragraph-00000000000000000000000000004091">A métrica "precisão" avalia quantas vezes o modelo detectou a fronteira corretamente em relação a todas as vezes que indicou uma fronteira. Já a métrica "<italic id="italic-00000000000000000000000000005070">recall</italic>" mede quantas vezes o modelo detectou uma fronteira corretamente em relação a todas as vezes que deveria ter identificado uma fronteira, sem se importar com quantas vezes ele acertou ou errou. Em suma, se a precisão está focada em ser correta quando afirma que há uma fronteira, o recall está focado em não perder nenhuma fronteira correta. Por sua vez, a métrica "f1" combina precisão e recall por meio de uma média harmônica, proporcionando uma avaliação equilibrada do modelo. O valor de f1 varia de 0 a 100, pois é calculado por uma média harmônica. Assim, é sensível a baixos valores de precisão ou <italic id="italic-00000000000000000000000000005071">recall</italic>, exigindo que ambos sejam altos para um f1 elevado.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007004">
        <p id="paragraph-00000000000000000000000000004092">Os autores reportam que não há consenso a respeito da definição de unidade entoacional, mas sugerem que está relacionada à presença de um contorno de frequência e que as fronteiras prosódicas que separam tais unidades estão relacionadas a pausas, mudanças em valores de intensidade e frequência, desaceleração na taxa de elocução no final da unidade, bem como aceleração em seu início.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007005">
        <p id="paragraph-00000000000000000000000000004093">Conforme Biron <italic id="italic-00000000000000000000000000005072">et al</italic>. (2021, p. 10): <italic id="italic-00000000000000000000000000005073">Given the mean duration of first words of IUs and the distribution of IU durations, the timing of peak pitch would typically correspond to the second word of the IU. [...] To summarize, although the boundary detection itself did not make use of pitch data in any way, and although the recordings varied in speakers, genre and communicative purpose, a consistent and clear pitch reset was observed. As expected, randomly segmenting speech into intervals of about one second (the mean duration of a phrase) and then averaging over them exhibited no such decline in pitch. We conclude that measurements of pitch reset and of pitch variability at the closure of phrases support the notion of similarity between the automatic and manual boundary detection.</italic></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007006">
        <p id="paragraph-00000000000000000000000000004094">Algoritmo de aprendizado de máquina que combina várias árvores de decisão, de maneira aleatória, formando o que pode ser considerado uma floresta, em que cada árvore é utilizada para a escolha do resultado final.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007007">
        <p id="paragraph-00000000000000000000000000004095">Os autores afirmam que para cada idioma há um conjunto de dez a vinte regras que dizem respeito a parênteses, nomes compostos, verbos frasais, entre outros.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007008">
        <p id="paragraph-00000000000000000000000000004096">Uma árvore de dependências representa a estrutura sintática de uma frase. As arestas representam as relações de dependência entre as palavras, representadas pelos nós. Em geral, o nó raiz é o verbo principal da frase.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007009">
        <p id="paragraph-00000000000000000000000000004097">Kocharov <italic id="italic-00000000000000000000000000005074">et al</italic>. (2017, p. 2) definem sintagma entoacional nos termos de Ladd (1986): <italic id="italic-00000000000000000000000000005075">As discussed by Ladd (1986, p. 311), IP in its traditional sense has the following main properties: (i) they are the largest phonological chunk into which utterances are divided, extending from one phonetically definable boundary to the next; (ii) they are a specifiable intonational structure, including — in most versions of the theory — a single most prominent point (primary stress, tonic, nucleus); (iii) the are phonological units which are nevertheless assumed, ideally, to match up in poorly understood way with elements of syntactic or discourse-level structure.</italic></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007010">
        <p id="paragraph-00000000000000000000000000004098">A intensidade é estimada da seguinte maneira no trabalho dos autores: <italic id="italic-00000000000000000000000000005076">We estimate this reset using amplitude values: for each clitic group, it is the difference between its mean amplitude values and that of the following clitic group. Amplitude was calculated as absolute value of speech signal</italic> (Kocharov <italic id="italic-00000000000000000000000000005077">et al</italic>., 2017, p. 4).</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007011">
        <p id="paragraph-00000000000000000000000000004099"><italic id="italic-00000000000000000000000000005078">Parsing</italic>, em PLN, é um processo de análise gramatical de uma cadeia de texto para determinar sua estrutura sintática, ou seja, identificar suas partes constituintes, como sujeito, verbo, objeto, advérbios etc. No estudo, uma ferramenta automática de <italic id="italic-00000000000000000000000000005079">parsing</italic> foi utilizada, o que pode ocasionar erros que são propagados para as etapas seguintes da tarefa.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007012">
        <p id="paragraph-00000000000000000000000000004100">Um modelo <italic id="italic-00000000000000000000000000005080">transformer</italic> de reconhecimento de fala estado da arte, proposto por <xref ref-type="bibr" rid="ref-radford-2023">Radford <italic id="italic-00000000000000000000000000005081">et al</italic>. (2023)</xref>, que é pré-treinado em milhares de horas de fala, capaz de realizar eficientemente uma variedade de tarefas relacionadas à fala e de generalizar para muitos conjuntos de dados e domínios. Os autores disponibilizam modelos treinados com diferentes quantidades de dados; o modelo de 764 M de parâmetros é considerado de tamanho médio.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007013">
        <p id="paragraph-00000000000000000000000000004101"><ext-link ext-link-type="uri" xlink:href="https://github.com/Nathan-Roll1/PSST">https://github.com/Nathan-Roll1/PSST</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007014">
        <p id="paragraph-00000000000000000000000000004102">Os modelos que identificam limites terminais usam a sigla TB em seus nomes, enquanto aqueles que identificam limites não terminais usam a sigla NTB.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007015">
        <p id="paragraph-00000000000000000000000000004103">Uma CNN é um algoritmo de aprendizado profundo que aprende como atribuir importância a determinados aspectos de uma imagem para diferenciá-la de outra.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007016">
        <p id="paragraph-00000000000000000000000000004104">Embora "sentença" se refira a uma unidade da escrita, segundo os autores, eles utilizam esse termo ao referirem a enunciado, visando manter consistência quanto ao uso da mesma terminologia de outros estudos: "<italic id="italic-00000000000000000000000000005082">... we adopt the notion of utterance in this research, a stream of speech bounded by pauses or constituting a single semantic unit [...]. However, to remain consistent with the use of terminology in other studies, we use the term 'sentence' to represent what we mean by 'utterance', even though we have a clear understanding of the difference in linguistic meaning between them.</italic>" (<xref ref-type="bibr" rid="ref-hoi-2022">Hoi <italic id="italic-00000000000000000000000000005083">et al</italic>., 2022</xref>, p.1-2).</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007017">
        <p id="paragraph-00000000000000000000000000004105"><ext-link ext-link-type="uri" xlink:href="https://www.rtp.pt/noticias/">https://www.rtp.pt/noticias/</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007018">
        <p id="paragraph-00000000000000000000000000004106"><ext-link ext-link-type="uri" xlink:href="https://github.com/nilc-nlp/ProsSegue/tree/main/baseline%20approach">https://github.com/nilc-nlp/ProsSegue/tree/main/baseline%20approach</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007019">
        <p id="paragraph-00000000000000000000000000004107">Termo utilizado pelos autores, cuja função é agrupar um conjunto de unidades semânticas presentes em um enunciado. Tais unidades são divididas em dois tipos de categorias: fronteira fraca de sintagma intermediário e fronteira "completa" de sintagma entoacional. De acordo com (<xref ref-type="bibr" rid="ref-ananthakrishnan-2008">Ananthakrishnan <italic id="italic-00000000000000000000000000005084">et al</italic>., 2008</xref>, p. 217): "<italic id="italic-00000000000000000000000000005085">Prosodic phrase boundaries serve to group together semantic units in the utterance. These are divided in two coarse categories, weak intermediate phrase boundaries and full intonational phrase boundaries</italic>".</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007020">
        <p id="paragraph-00000000000000000000000000004108"><ext-link ext-link-type="uri" xlink:href="https://github.com/nilc-nlp/MuPe-Diversidades/">https://github.com/nilc-nlp/MuPe-Diversidades/</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007021">
        <p id="paragraph-00000000000000000000000000004109"><ext-link ext-link-type="uri" xlink:href="https://codecarbon.io/">https://codecarbon.io/</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007022">
        <p id="paragraph-00000000000000000000000000004110"><ext-link ext-link-type="uri" xlink:href="https://www.github.com/nilc-nlp/ProsSegue">https://www.github.com/nilc-nlp/ProsSegue</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007023">
        <p id="paragraph-00000000000000000000000000004111">Na Figura 1, não estão representadas a camada LA, uma vez que não houve locutor eventual nesse áudio, nem a camada de comentários com anotações temporárias (com-anotadores), já excluída na etapa do trabalho em que a imagem foi gerada.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007024">
        <p id="paragraph-00000000000000000000000000004112">Participantes que não integram o conjunto principal de locutores da gravação (L1, L2) nem exercem o papel de documentador, mas que podem, ocasionalmente, intervir de forma pontual e não sistemática na gravação, geralmente por meio de breves comentários.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007025">
        <p id="paragraph-00000000000000000000000000004113">Nas camadas TB e NTB, há marcações de pontuação indicando, por exemplo, silêncios marcados por "..." ou risadas marcadas por "((risos))". Nas camadas normalizadas, não há esse tipo de marcação.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007026">
        <p id="paragraph-00000000000000000000000000004114">Não há camadas normalizadas referentes às NTBs.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007027">
        <p id="paragraph-00000000000000000000000000004115"><ext-link ext-link-type="uri" xlink:href="https://hdl.handle.net/21.11129/0000-000F-73CA-C">https://hdl.handle.net/21.11129/0000-000F-73CA-C</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007028">
        <p id="paragraph-00000000000000000000000000004116">No arquivo de metadados não há informação sobre razão sinal-ruído.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007029">
        <p id="paragraph-00000000000000000000000000004117"><ext-link ext-link-type="uri" xlink:href="https://github.com/nilc-nlp/ProsSegue/blob/main/utils/textgridToCleanTxt.py">https://github.com/nilc-nlp/ProsSegue/blob/main/utils/textgridToCleanTxt.py</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007030">
        <p id="paragraph-00000000000000000000000000004118"><ext-link ext-link-type="uri" xlink:href="https://parselmouth.readthedocs.io/en/latest/api/parselmouth.html">https://parselmouth.readthedocs.io/en/latest/api/parselmouth.html</ext-link></p>
      </fn>
      <fn id="footnote-00000000000000000000000000007031">
        <p id="paragraph-00000000000000000000000000004119">Caso o alinhamento fonético forçado ou a extração de <italic id="italic-00000000000000000000000000005086">features</italic> não sejam concluídos com sucesso, é impossível utilizar o classificador para a previsão das fronteiras prosódicas, já que não teremos as informações prosódicas de cada sílaba, seja por não saber quando cada sílaba se inicia e se finaliza, ou por não termos conseguido extrair suas informações acústicas.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007032">
        <p id="paragraph-00000000000000000000000000004120">Ressaltamos que, devido a critérios de delimitação, Craveiro <italic id="italic-00000000000000000000000000005087">et al</italic>. (2025) não fizeram uma análise linguística qualitativa de seus resultados. Diante disso, propomos, neste trabalho, realizar essa análise qualitativa dos resultados obtidos previamente pelas autoras, a fim de compará-los aos novos resultados alcançados, o que nos permite testar, assim, por outros critérios (qualitativos), a replicabilidade do método apresentado.</p>
      </fn>
      <fn id="footnote-00000000000000000000000000007033">
        <p id="paragraph-00000000000000000000000000004121">Conforme descrito anteriormente, a fórmula para o cálculo de medida f1 se dá multiplicando a precisão pela revocação, e multiplicando esse resultado por 2: 2*precisão*revocação).</p>
      </fn>
    </fn-group>
    <ref-list>
      <title>Referências</title>
      <ref id="ref-ananthakrishnan-2008">
        <mixed-citation publication-type="journal">
          ANANTHAKRISHNAN, S.; NARAYANAN, S. S. Automatic prosodic event detection using acoustic, lexical, and syntactic evidence. <bold>IEEE Transactions on Audio, Speech, and Language Processing</bold>, v. 16, n. 1, p. 216-228, 2008. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/TASL.2007.907570">http://dx.doi.org/10.1109/TASL.2007.907570</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-batista-2022">
        <mixed-citation publication-type="journal">
          BATISTA, C.; DIAS, A. L.; NETO, N. Free resources for forced phonetic alignment in Brazilian Portuguese based on Kaldi toolkit. <bold>EURASIP Journal on Advances in Signal Processing</bold>, v. 1, n. 11, 2022. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/s13634-022-00844-9">https://doi.org/10.1186/s13634-022-00844-9</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-bender-2021">
        <mixed-citation publication-type="confproc">
          BENDER, E. M.; GEBRU, T.; MCMILLAN-MAJOR, A.; SHMITCHELL, S. On the dangers of stochastic parrots: Can language models be too big? In: 2021 ACM CONFERENCE ON FAIRNESS, ACCOUNTABILITY, AND TRANSPARENCY. <bold>Proceedings of [...]</bold>. Online, 2021. p. 610-623. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/3442188.3445922">https://doi.org/10.1145/3442188.3445922</ext-link>. Acesso em: 8 fev. 2026.
        </mixed-citation>
      </ref>
      <ref id="ref-biron-2021">
        <mixed-citation publication-type="journal">
          BIRON, T.; BAUM, D.; FRECHE, D.; MATALON, N.; EHRMANN, N.; WEINREB, E.; BIRON, D.; MOSES, E. Automatic detection of prosodic boundaries in spontaneous speech. <bold>PLoS ONE</bold>, v. 16, n. 5, p. 1-21, 2021. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1371/journal.pone.0250969">https://doi.org/10.1371/journal.pone.0250969</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-boersma-2025">
        <mixed-citation publication-type="book">
          BOERSMA, P.; WEENINK, D. <bold>Praat</bold>: doing phonetics by computer [Computer program]. Version 2025: University of Amsterdam, 2025. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://www.fon.hum.uva.nl/praat/">https://www.fon.hum.uva.nl/praat/</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-chen-2004">
        <mixed-citation publication-type="confproc">
          CHEN, K.; HASEGAWA-JOHNSON, M. A. How prosody improves word recognition. In: ISCA INTERNATIONAL CONFERENCE ON SPEECH PROSODY 2004. <bold>Proceedings of [...]</bold>. Nara, Japan, 2004. p. 583-586. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.21437/SpeechProsody.2004-134">http://dx.doi.org/10.21437/SpeechProsody.2004-134</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-craveiro-2025">
        <mixed-citation publication-type="confproc">
          CRAVEIRO, G. M.; ALVES, C. A.; SVARTMAN, F. R. F.; ALUÍSIO, S. M. Machine Learning Classifiers with Acoustic Features for Prosodic Segmentation in Brazilian Portuguese: A Comprehensive Evaluation. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 2025, Fortaleza/CE. <bold>Anais [...]</bold>. Porto Alegre: Sociedade Brasileira de Computação, 2025. p. 113-124. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5753/stil.2025.37818">https://doi.org/10.5753/stil.2025.37818</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-craveiro-galdino-2024">
        <mixed-citation publication-type="book-chapter">
          CRAVEIRO, G. M.; GALDINO, J. C. Diversity in Data for Speech Processing in Brazilian Portuguese. In: PAES A.; VERRI, F. A. N. (eds.) <bold>Intelligent Systems. BRACIS 2024</bold>. Lecture Notes in Computer Science, v. 15415. Springer, Cham. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/978-3-031-79038-6_9">https://doi.org/10.1007/978-3-031-79038-6_9</ext-link>. Acesso em: 31 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-craveiro-2024">
        <mixed-citation publication-type="confproc">
          CRAVEIRO, G. M.; SANTOS, V. G.; DALALANA, G. J. P.; SVARTMAN, F. R. F.; ALUÍSIO, S. M. Simple and fast automatic prosodic segmentation of Brazilian Portuguese spontaneous speech. In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE, Santiago de Compostela. <bold>Proceedings of the 16th International Conference on Computational Processing of Portuguese</bold> - v. 1. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, p. 32-44, 2024. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://aclanthology.org/2024.propor-1.4/">https://aclanthology.org/2024.propor-1.4/</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-ferraro-2024">
        <mixed-citation publication-type="confproc">
          FERRARO, V. R.; GULLO, G.; DA SILVA COSTA, D.; MOURA, P. N. D. S. Aprendizagem Profunda e Inteligência Artificial Verde: Caminhos para um Futuro mais Sustentável. In: WORKSHOP DE COMPUTAÇÃO APLICADA À GESTÃO DO MEIO AMBIENTE E RECURSOS NATURAIS (WCAMA). <bold>SBC</bold>, 2024. p. 159-168. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5753/wcama.2024.3033">https://doi.org/10.5753/wcama.2024.3033</ext-link>. Acesso em: 8 fev. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-hoi-2022">
        <mixed-citation publication-type="confproc">
          HOI, L. M.; SUN, Y.; IM, S. K. An automatic speech segmentation algorithm of Portuguese based on spectrogram windowing. In: IEEE WORLD AI IOT CONGRESS (AIIoT), 2022, Seattle. <bold>2022 IEEE World AI IoT Congress (AIIoT)</bold>: IEEE, p. 290-295, 2022. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.1109/AIIoT54504.2022.9817299">http://dx.doi.org/10.1109/AIIoT54504.2022.9817299</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-kocharov-2017">
        <mixed-citation publication-type="confproc">
          KOCHAROV, D.; KACHKOVSKAIA, T.; SKRELIN, P. Eliciting Meaningful Units from Speech. In: <bold>INTERSPEECH</bold>, p. 2128-2132, 2017. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.21437/Interspeech.2017-855">http://dx.doi.org/10.21437/Interspeech.2017-855</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-lin-2019">
        <mixed-citation publication-type="journal">
          LIN, C.-H.; YOU, C.-L.; CHIANG, C.-Y.; WANG, Y.-R.; CHEN, S.-H. Hierarchical prosody modeling for Mandarin spontaneous speech. <bold>The Journal of the Acoustical Society of America</bold>, v. 145, n. 4, p. 2576-2596, 2019. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1121/1.5099263">https://doi.org/10.1121/1.5099263</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-liu-2022">
        <mixed-citation publication-type="journal">
          LIU, S.; NAKAJIMA, Y.; CHEN, L.; ARNDT, S.; KAKIZOE, M.; ELLIOTT, M. A.; REMIJN, G. B. How pause duration influences impressions of English speech: Comparison between native and non-native speakers. <bold>Frontiers in Psychology</bold>, v. 13, 2022. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.3389/fpsyg.2022.778018">https://doi.org/10.3389/fpsyg.2022.778018</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-radford-2023">
        <mixed-citation publication-type="confproc">
          RADFORD, A.; KIM, J. W.; XU, T.; BROCKMAN, G.; MCLEAVEY, C.; SUTSKEVER, I. Robust speech recognition via large-scale weak supervision. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML), 40., 2023, Honolulu. <bold>Proceedings of the 40th International Conference on Machine Learning (ICML 2023)</bold>. Honolulu, Hawaii, USA: JMLR.org, 2023. Artigo n. 1182, p. 28492-28518. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://proceedings.mlr.press/v202/radford23a.html">https://proceedings.mlr.press/v202/radford23a.html</ext-link>. Acesso em: 8 fev. 2026.
        </mixed-citation>
      </ref>
      <ref id="ref-raso-2020">
        <mixed-citation publication-type="journal">
          RASO, T.; TEIXEIRA, B.; BARBOSA, P. Modelling automatic detection of prosodic boundaries for Brazilian Portuguese spontaneous speech. <bold>Journal of Speech Sciences</bold>, v. 9, p. 105-128, 2020. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.20396/joss.v9i00.14957">http://dx.doi.org/10.20396/joss.v9i00.14957</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-roll-2023">
        <mixed-citation publication-type="confproc">
          ROLL, N.; GRAHAM, C.; TODD, S. Psst! prosodic speech segmentation with transformers. In: CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING (CoNLL), Singapore. <bold>Proceedings of the 27th Conference on Computational Natural Language Learning (CoNLL)</bold>. Singapore: Association for Computational Linguistics, p. 476-487, 2023. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18653/v1/2023.conll-1.31">https://doi.org/10.18653/v1/2023.conll-1.31</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-santos-2022">
        <mixed-citation publication-type="confproc">
          SANTOS, V. G.; ALVES, C. A.; CARLOTTO, B. B.; DIAS, B. A. P.; GRIS, L. R. S.; IZAIAS, R. L.; MORAIS, M. L. A.; OLIVEIRA, P. M.; SICOLI, R.; SVARTMAN, F. R. F.; LEITE, M. Q.; ALUÍSIO, S. M. CORAA NURC-SP Minimal Corpus: a manually annotated corpus of Brazilian Portuguese spontaneous speech. In: IBER SPEECH, 2022. <bold>Proceedings of IberSPEECH 2022</bold>. p. 161-165, 2022. DOI: <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.21437/IberSPEECH.2022-33">https://doi.org/10.21437/IberSPEECH.2022-33</ext-link>. Acesso em: 29 out. 2025.
        </mixed-citation>
      </ref>
      <ref id="ref-serra-2009">
        <mixed-citation publication-type="thesis">
          SERRA, C. R. <bold>Realização e percepção de fronteiras prosódicas no português do Brasil</bold>: fala espontânea e leitura. 2009. Tese (Doutorado em Linguística) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2009.
        </mixed-citation>
      </ref>
      <ref id="ref-teixeira-2022">
        <mixed-citation publication-type="thesis">
          TEIXEIRA, B. H. F. Detecção automática de fronteiras prosódicas na fala espontânea. 2022. Tese (Doutorado em Estudos Linguísticos) - Universidade Federal de Minas Gerais, Minas Gerais, 2022. Disponível em: <ext-link ext-link-type="uri" xlink:href="https://hdl.handle.net/1843/47273">https://hdl.handle.net/1843/47273</ext-link>. Acesso em 5 fev. 2026.
        </mixed-citation>
      </ref>
      <ref id="ref-viola-2008">
        <mixed-citation publication-type="confproc">
          VIOLA, I. C.; MADUREIRA, S. The roles of pause in speech expression. In: SPEECH PROSODY, Campinas. <bold>Speech Prosody</bold>, p. 721-724, 2008. DOI: <ext-link ext-link-type="uri" xlink:href="http://dx.doi.org/10.21437/SpeechProsody.2008-160">http://dx.doi.org/10.21437/SpeechProsody.2008-160</ext-link>. Acesso em: 27 out. 2025.
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>