Share

Pilot Study

Modeling of Imperfect Past Tense Constructions

Natália Duarte Marção

Universidade Federal de Juiz de Fora image/svg+xml

https://orcid.org/0000-0002-2747-4922

Tiago Timponi Torrent

Universidade Federal de Juiz de Fora image/svg+xml

https://orcid.org/0000-0001-5373-2297


Keywords

Imperfect Past Tense Constructions in Brazilian Portuguese and Spanish
Machine Translation
Construction Grammar
FrameNet Brasil

Abstract

This paper aims to present the description and modeling of Imperfect Past Tense constructions in Brazilian Portuguese (PT-Br) and Spanish (ES) to contribute to the development of a machine translation system that uses the enriched FrameNet Brasil (FN-Br) database to improve machine translation system outputs. First, a bibliographic analysis of Imperfect Past Tense constructions in PT-Br and ES was conducted. Subsequently, to verify occurrences of this construction, a corpus was created with occurrences of the Imperfect Past Tense in both PT-Br and ES, consisting of data taken from short stories (in the target language and translated version) by Machado de Assis and Gabriel García Márquez. According to the data, discrepancies were observed in the use of the Imperfect Tense. The contexts of these discrepancies were then analyzed between PT-Br to ES translations and ES to PT-Br translations. The analysis indicated that the FN-Br Constructicon, in its current format, does not accommodate morphological constructions. Therefore, the inclusion of a resource in the Constructicon to store computational linguistic models, in the form of morphological constructions, was proposed. To achieve this, it is intended to incorporate restrictions related to modality, aspect, and verbal tense applied to constructions like the Imperfect Past Tense.

Introdução

Com o avanço tecnológico, vários recursos para tradução automática vêm sendo desenvolvidos de modo a auxiliar tanto na comunicação entre pessoas falantes de línguas diversas quanto na pedagogia linguística. Nos dias atuais, é quase inconcebível pensar em tradução sem o auxílio de alguma ferramenta de tradução automática, seja um software ou um website. Desse modo, quando pensamos em tradutor automático logo pensamos no Google Tradutor. Esse tradutor, além de traduzir palavras, expressões e frases isoladas, também traduz textos longos. O Google Tradutor é um tradutor automático que, atualmente, possui tradução para o maior número de línguas dentre os tradutores disponíveis online, contando com 103 idiomas de tradução.

Até o momento, o Google Tradutor é considerado um dos melhores tradutores automáticos disponíveis para o público. Seu processo de tradução é feito com base em redes neurais artificiais1, isto é, “uma técnica de aprendizado de máquina que recebe várias entradas e prevê saídas”2 (KOEHN, 2017, p.11), assim, o sistema recebe as entradas e prevê as saídas, as quais retroalimentam o sistema de modo que este forneça traduções melhores de acordo com esse aprendizado. Para esse tipo de tradução automática, Caseli (2017) aponta que:

redes neurais artificiais são construídas com base nas características importantes nos dados de treinamento (como a morfologia das palavras, suas frequências e contextos de ocorrência, entre outros) e essas características são o que norteiam o mapeamento para gerar a saída apropriada na língua alvo (CASELI, 2017, p. 1785).

Algumas dessas ferramentas de tradução, principalmente as que se propõem a traduzir textos inteiros, apresentam limitações. O Google tradutor é um exemplo de tradutor que, apesar de ser um dos melhores disponíveis atualmente, apresenta limitações sintáticas e semânticas.

De maneira mais específica, a pesquisa aqui apresentada centra-se em construções de Pretérito Imperfeito como apresentado na Figura 1.

Figure 1. Figura 1. Tradução de sentença realizada no Google Tradutor do português para o espanhol

Na Figura 1 é possível observar que, na sentença em português apresentada à esquerda da figura, o verbo “explicar” está conjugado no pretérito imperfeito, isto é, demonstra que o fato ocorreu em algum momento no passado e que este fato não foi concluído. Contudo, na tradução automática fornecida pelo tradutor à direita, observamos que o verbo “explicava” foi traduzido erroneamente para o pretérito perfeito simples na língua espanhola, assim, o verbo “explicó” dá a ideia de que o fato de a professora explicar a lição foi concluído, entretanto, ao analisarmos o restante da sentença fica claro que a ação da professora de explicar a lição foi interrompida pelo toque do sinal, assim, não sendo concluída. Desse modo, o tradutor deveria ter mantido as propriedades aspectuais do verbo de origem e traduzido para sua forma correspondente em espanhol que seria “explicaba”.

É nesse contexto que a FrameNet Brasil (FN-Br) se mostra como um recurso adequado para a implementação um sistema de tradução automática, por ser uma aplicação tecnológica baseada na Semântica de Frames (FILLMORE, 1982) que atua tanto no nível lexical, quanto no nível construcional3. Isso significa que o sistema de dados enriquecido em língua natural da FN-Br compõe uma rede semântica baseada em frames. Logo, um sistema de tradução por máquina que utiliza um recurso computacional léxico-construcional (TORRENT et al., 2018) como a FN-Br, se diferencia dos demais disponíveis no momento, pois propõe

traduções com base na Semântica de Frames (FILLMORE,1982), que elege os padrões de valência das Unidades Lexicais no ranqueamento das escolhas, além da implementação de novas relações ancoradas nas estruturas qualia (PUSTEJOVSKY, 1995).

Nesse sentido, a descrição e modelagem das construções nucleares, como as de Pretérito Imperfeito, tanto em Português Brasileiro quanto em Espanhol no âmbito do Constructicon da FrameNet Brasil, se faz necessária de modo a garantir o acesso a traduções melhores e mais precisas pelo usuário através de um tradutor automático baseado na Semântica de Frames.

1. FrameNet Brasil

A FrameNet Brasil (FN-Br) é um projeto de linguística computacional, ao qual esta pesquisa se vincula. Esse projeto é baseado na Semântica de Frames (FILLMORE, 1982), isto é, uma abordagem para a semântica lexical que toma como pressuposto a máxima de que os significados são relativizados a cenas (FILLMORE, 1977), isto é, a frames.

Essa teoria semântica baseada em frames se pauta na ideia de que

o significado de uma palavra pode ser entendido apenas em relação a um contexto estruturado de experiências, crenças ou práticas, constituindo uma espécie de pré-requisito conceitual para a compreensão do significado (FILLMORE & ATKINS, 1992, p. 76-77).

Nesse contexto, a Semântica de Frames abre espaço para um projeto em lexicografia que busca alinhar a Linguística Cognitiva à descrição da língua sob uma perspectiva computacional, como vem sendo feito na FN-Br. Atualmente, a FN-Br, de modo geral, vem dedicando seus esforços ao desenvolvimento de recursos linguísticos computacionais, como o Lexicon e o Constructicon.

O Lexicon é um recurso online que tem por objetivo a criação de uma representação computacional de frames, definidos por seus participantes e propriedades, conectados entre si via relações entre frames; definir ULs (Unidades Lexicais) - pareamentos entre um lema e um significado definido em termos de um frame -; e, por fim, anotar sentenças que exemplifiquem os padrões de valência sintáticos e semânticos em que as ULs ocorrem.

O Constructicon, por sua vez, objetiva criar um recurso online para a descrição das características semânticas e gramaticais de construções do PB, incorporando descrições interpretáveis computacionalmente para cada construção, oferecendo informações semânticas e especificando as relações entre as construções. Ambos os recursos encontram-se interligados, na medida em que tanto o Lexicon quanto o Constructicon foram desenhados para lidar com todos os traços linguísticos relevantes para a identificação de um frame e de uma construção.

É nesse último recurso que estará nosso foco, portanto, o Constructicon será apresentado mais detalhadamente na próxima seção.

2. Constructicon

Um Constructicon é um recurso computacional sintático-semântico que contém o repertório das construções de uma língua (FILLMORE, 2008) e tem por objetivo suprir a necessidade de análise de determinadas estruturas linguísticas não processáveis lexicograficamente. De maneira mais específica, o Constructicon descreve construções em termos de suas propriedades gramaticais e de seu potencial semântico.

O Constructicon da FN-Br foi desenhado com base em contribuições da Gramática das Construções de Berkeley (Berkeley Construction Grammar - BCG) (KAY; FILLMORE, 1999) e da Gramática das Construções Baseada em Signos (Sign-Based Contruction Grammar - SBCG) (SAG, 2012) pelo seu caráter formal, visto que essa base construcional tem por objetivo descrever e modelar construções em termos de suas propriedades gramaticais e seu potencial semântico. De uma forma mais geral, o Constructicon pode ser definido como o repertório de construções do PB, desenvolvido em concomitância com o Lexicon da FN-Br.

A BCG emerge dos esforços de Kay e Fillmore em analisar fenômenos de linguagem considerados como periféricos, idiomáticos, incluindo-os no escopo da teoria da gramática. Com base nesse pensamento, os autores defendem que:

a função de um gramático das construções seria desenvolver um sistema de representações capaz de uma codificação econômica e sem perda em generalização de todas as construções (ou padrões) da língua, do mais idiomático ao mais geral (KAY; FILLMORE, 1999, p. 2).

Do ponto de vista construcionista, uma construção é entendida como um par forma-significado (GOLDBERG, 1995). Assume-se, então, que as construções são unidades básicas da língua que se constituem como uma associação convencional de forma e conteúdo linguístico (significado) (GOLDBERG, 1995; KAY; FILLMORE, 1999), assim o significado de uma construção é visto como independente, em parte, das palavras que a constituem. Ademais, esse argumento acompanha a proposição de que existe um continuum entre léxico e sintaxe (FILLMORE, 2008), isso significa que o tratamento construcional estende-se a todas as unidades da língua, sejam elas sintáticas, lexicais, mórficas ou mesmo discursivas. Nas palavras de Fillmore (2013, p.112)

complementarmente, a Gramática das Construções postula que a gramática de uma língua é o conjunto de suas construções gramaticais, as regras que unificam informações formais e semânticas em vários tipos de objetos linguísticos, juntamente com os princípios que os restringem e conectam.

De maneira similar, a Gramática das Construções Baseada em Signos (Sign-Based Contruction Grammar– SBCG) busca formalizar descrições que sejam interpretáveis computacionalmente, integrando-as aos pressupostos fundamentais das abordagens construcionistas. Na SBCG, o pareamento de forma e significado é mediado por signos. Apesar da noção de signo utilizada pela SBCG se assemelhar à de Saussure (2006 [1916]), uma combinação de forma (significante) e sentido (significado), Sag (2012) destaca que essa noção é ampliada, pois, a descrição de um signo incorpora traços ancorados em níveis de análise linguística não abordados devidamente na tradição estruturalista: fonologia, forma, estrutura argumental, sintaxe, semântica e contexto. Esses traços são descritos também em termos de Matrizes de Atributo e Valor (AVM), assim como proposto pela Gramática das Construções de Berkeley.

A BCG e a SBCG apresentam modelos baseados em unificação pelo fato de as construções e especificações que formam as construções encaixarem-se uma a outra em uma forma não-derivacional, o que proporciona um maior grau de formalidade ao modelo. É através da unificação que as Matrizes de Atributo e Valor (AVMs) – construções e seus signos filhos – combinam-se, projetando uma nova AVM, a qual contém exatamente os valores e atributos das AVMs que se uniram (GOLDBERG, 2006). Essas AVMs correspondem a conjuntos de traços que especificam as características de cada elemento, bem como as restrições de combinações de dois ou mais elementos em uma construção. Desse modo, a tarefa principal da unificação é assegurar que os atributos com valores contraditórios falhem ao se combinar, não chegando a licenciar um construto.

A fim de demonstrar como uma construção é descrita em uma AVM, apresentamos na Figura 2 uma AVM para a construção Condicional, a qual é apresentada na Figura 3. Para tanto, utilizamos a sentença (1), visto que essa sentença é um construto da construção Condicional, isto é, uma estrutura que instancia propriedades particulares com respeito a construção que a licencia.

(1) Se chover, o rio transbordará.

Figure 2. Figura 2. AVM do Construto "Se chover, o rio transbordará", licenciado pela Construção Condicional

Na AVM apresentada, cada constituinte é representado por uma caixa, que, segundo Diniz da Costa et al. (2018), contém as seguintes estruturas básicas:

– Nome do constituinte: aparece no canto superior direito;

– Estrutura sintático-semântica (ss): conjunto de atributos e seus valores que indicam

as propriedades sintáticas (syn) e semânticas (sem) de cada constituinte e/ou da

construção como um todo. É composta pelos seguintes atributos:

• head: indica o traço de núcleo do constituinte, o qual se define quanto ao

pertencimento categorial (cat), ou seja, se se trata de um nome (n), verbo (v),

adjetivo (a), determinante (det) etc., e ao nível (level), isto é, se se trata de um

constituinte que é uma projeção máxima de seu núcleo (max +/-) e se este tem

manifestação lexical direta (lex +/-);

• frame: indica o frame evocado pelo constituinte, o qual é definido por seu nome

e pelos elementos de frame (FEs) que o compõem;

• num: indica se o constituinte é singular ou plural;

• gen: indica se o constituinte é masculino ou feminino.

– Valência (val): representa a valência do constituinte e/ou da construção como um

todo. Cada valente é definido quanto à sua estrutura ss e também quanto à relação

(rel) que estabelece com o constituinte, tanto em termos das funções teta (θ) e

gramatical (gf) a ele atribuídas, quanto ao fato de ser ou não um argumento

semanticamente proeminente (DA +/-). (DINIZ DA COSTA et al., 2018, p. 155-156).

A Figura 3 mostra como a construção Condicional é apresentada no Constructicon da FN-Br. Primeiramente, podemos observar a definição da construção, em seguida observamos os Elementos da Construção, os quais compõem a construção. Por fim, é apresentada a relação que essa construção estabelece com um frame, no caso, esta construção estabelece uma relação de evocação com o frame Ocorrência_condicional.

Figure 3. Figura 3. Construção Condicional

A construção Condicional representa a relação condicional entre uma oração cuja ocorrência está condicionada à ocorrência de uma oração subordinada precedida por uma conjunção condicional, “se” ou “caso”. Do ponto de vista semântico, essa construção codifica o frame de Ocorrência_condicional, no qual uma Consequência é apresentada como situação que se segue a partir da Possibilidade_perfilada, a qual se apresenta como uma possibilidade de ocorrência.

No registro de uma construção no Constructicon, como a construção Condicional, para contemplar a constituência construcional, é necessário implementar restrições, assim, a Figura 4 mostra as restrições aplicadas à construção Condicional.

Figure 4. Figura 4. Restrições aplicadas à construção Condicional.

Na Figura 4 podemos observar que a restrição Construction (cxn) é aplicada aos Elementos de Construção (CEs) Apódose e Prótase, indicando que ambos são licenciados pela construção Sujeito_predicado4, enquanto o CE Conjunção é licenciado pela construção Conjunção_subordinativa. Aos CEs Apódose e Prótase também é aplicada a restrição Inheritance (inh), indicando que ambos CEs herdam da Construção Coordenação. Ao CE Conjunção é aplicada a restrição Before (bef), a qual determina que este CE deve obrigatoriamente ocorrer em posição anterior ao CE Prótase. Por fim, a restrição Frame (frm) é aplicada ao CE Conjunção, bem como à construção como um todo, o que indica que este CE evoca o frame Ocorrência_condicional, assim como a Construção Condicional.

Um avanço que este trabalho propõe é que se possa adicionar restrições de cunho morfológico no Constructicon, comtemplando sufixos modo-temporais e aspectuais baseados no Universal Features. Dentre os traços morfológicos verbais com os quais o Universal Features trabalha, podemos destacar o traço Tempo e o traço Aspecto, por exemplo. O traço Tempo pode ser associado aos valores Futuro, Imperfeito, Passado Simples, Passado Perfeito e Presente. Enquanto ao traço Aspecto podemos associar os valores Habitual, Imperfeito, Iterativo, Perfeito, Progressivo e Prospectivo.

Diante do que foi exposto, para o nosso trabalho, modelos construcionistas baseados em unificação mostram-se mais adequados, devido ao fato de que estruturas baseadas em Matrizes de Atributo e Valor dialogam mais diretamente com a representação computacional da língua. Ademais, como o nosso objetivo é descrever e modelar construções nucleares do PB e do Espanhol no âmbito do Constructicon do PB, as abordagens construcionistas apresentadas aqui se mostram adequadas para embasar o trabalho proposto, por conta do seu formalismo teórico. Desse modo, é importante utilizar dessas teorias linguísticas que foram implementadas pela FN-Br, através do Constructicon, uma vez que a compreensão dos fenômenos linguísticos é necessária para o desenvolvimento de um sistema computacional mais eficaz.

Outro ponto relevante para nossa pesquisa são as questões de cunho morfológico, pois nosso objeto de estudo são construções de Pretérito Imperfeito, então, se faz necessário abordar questões subjacentes à flexão verbal. Dessa maneira, na próxima seção abordaremos como a língua portuguesa e a língua espanhola tratam a flexão verbal de tempo, modo e aspecto.

3. Flexão verbal de tempo, modo e aspecto em português brasileiro e em espanhol

A flexão verbal é um fenômeno que vem sendo analisado por diversos vieses e por diversas abordagens nas línguas em que ocorre. Dessa forma, como este trabalho se propõe a analisar as construções de Pretérito Imperfeito, se faz necessário apresentar como a flexão verbal se apresenta nas línguas portuguesa e espanhola. Para os fins de nossa pesquisa, optamos por trabalhos que abordam a flexão verbal sob o viés descritivo a partir da “Nova Gramática do Português Brasileiro”, escrita por Ataliba de Castilho e da “Gramática Descriptiva de la Lengua Española”, organizada por Ignacio Bosque e Violeta Demonte, a qual é composta por capítulos escritos por diversos autores.

Sobre o aspecto verbal, Ataliba o define como “uma propriedade da predicação que consiste em representar os graus do desenvolvimento do estado de coisas aí codificado” (CASTILHO, 2010, p. 417), ou seja, tem relação com a duração da ação verbal, indicando se a ação verbal é concluída ou não.

O linguista divide o aspecto em três tipos: (i) o que dura (imperfectivo); (ii) o que começa e acaba (perfectivo) e; (iii) o que se repete (iterativo).

O aspecto imperfectivo, também chamado de durativo, é “expresso habitualmente por verbos de classe acional atélica, que representam uma predicação que tem existência tão logo iniciada, dispensando seu desfecho” (CASTILHO, 2010, p. 419). Os verbos atélicos são aqueles que indicam uma situação que não tende a um fim necessário, por exemplo, “jogar”, “correr”, “pensar”, etc. O imperfectivo ocorre principalmente em estruturas de fundo em narrativas e costumam se manifestar por perífrases verbais.

O aspecto perfectivo, segundo Castilho (2010) “apresenta a predicação em sua completude, sem qualquer menção a fases” (p. 424), isto é, indica que a ação está totalmente concluída, ou seja, o início, o meio e o fim da ação são vistos sem um destaque individual. Assim como o imperfectivo, o aspecto perfectivo “apresenta uma predicação dinâmica de sujeito/específico/5, na maior parte dos casos” (CASTILHO, 2010, p. 424). Por fim, destaca que esse aspecto “ocorre na figura narrativa, isto é, nos segmentos em que se narra o evento central” (CASTILHO, 2010, p. 424).

O perfectivo pode ser subdivido entre perfectivo pontual e perfectivo resultativo. O perfectivo pontual indica que a ação é momentânea e pontual. Ele é expresso por verbos da classe télica, visto que os verbos télicos são aqueles que indicam uma situação que necessariamente chega a um fim, como, por exemplo, “morrer”, “nascer”, etc. Já o perfectivo resultativo associa uma ação a um estado e essa ação é concebida como anterior ao momento de fala, ou seja, no passado. O perfectivo resultativo ocorre, principalmente, em predicações estático-dinâmicas.

O aspecto iterativo é utilizado quando se quer destacar que uma ação ou processo ocorre frequentemente, isto é, que se repete. É expresso principalmente pelos verbos auxiliares, pois estes reforçam a ideia de repetição apresentada pelos verbos nominais.

De modo geral, para Ataliba de Castilho, o aspecto verbal em PT-Br pode ser analisado autonomamente, pois este conserva seus valores independentemente do tempo verbal. Entretanto, o autor pontua que o inverso não é possível, pois “é praticamente impossível descrever o tempo verbal sem considerar o aspecto ao mesmo tempo” (CASTILHO, 2010, p. 431).

O tempo verbal, de acordo com Castilho (2010), é caracterizado como o meio pelo qual descrevemos o tempo de duração de uma determinada ação e este é dividido entre tempo real, tempo metafórico ou atemporal. O autor descreve que o tempo cronológico real pode ser aquele simultâneo ao ato de fala (presente), também pode ser anterior ao tempo de fala (passado) e, pode ser posterior ao ato de fala (futuro). O tempo metafórico é aquele em que “o falante se desloca para um espaço-tempo imaginário, que não coincide com seu tempo real” (CASTILHO, 2010, p. 432) e que não é medido cronologicamente. Nesse tempo, então, o falante fará usos metafóricos das formas verbais, “arrastando consigo sua simultaneidade/anterioridade/posteridade” (CASTILHO, 2010, p. 432), como o uso do “presente universal” e do “presente histórico”. Já o tempo genérico, impreciso, e não coincidente ao tempo real é chamado de atemporal.

O autor enfatiza que, diferentemente do aspecto, o tempo verbal, bem como o modo, é marcado morfologicamente em Português Brasileiro.

O modo verbal pode ser caracterizado como “a avaliação que o falante faz sobre o que é dito, considerando-o real, irreal, possível ou necessário” (CASTILHO, 2010, p. 437). Castilho (2010) aponta que em PT-Br existem três modos: o indicativo, o subjuntivo e o imperativo. Uma característica relevante desses modos é que eles também representam atos de fala.

O modo indicativo é usado para expressarmos uma avaliação do que é dito como algo real, verdadeiro, por isso, esse modo ocorre usualmente em sentenças simples, sentenças assertivas e sentenças interrogativas. O indicativo é marcado morfologicamente por sufixos modo-temporais, isso porque um mesmo sufixo pode representar modo e tempo verbal juntos.

O modo subjuntivo expressa um estado de coisas duvidoso ou incerto, por isso o subjuntivo predomina em sentenças subordinadas. Esse modo é representado morfologicamente por sufixos, assim como o indicativo.

Por meio do imperativo, expressamos uma ordem ou um pedido e, se o combinarmos a verbos auxiliares, expressamos possibilidade ou necessidade, sendo assim, é comum que esse modo apareça em sentenças simples. O imperativo possui morfemas próprios em sua forma afirmativa, mas toma emprestados os morfemas do subjuntivo em sua forma negativa.

Em relação à descrição do aspecto, tempo e modo verbais em espanhol, no capítulo 46 da “Gramática Descriptiva de la Lengua Española” Miguel (1999) afirma que o aspecto informa a maneira pela qual um evento se desenvolve ou ocorre. Ainda segundo a autora, o aspecto também informa sobre a extensão temporal, a intensidade e a dinamicidade ou a estaticidade de um evento de diferentes formas. Dessa maneira, os diferentes significados aspectuais podem ser fornecidos pelo próprio verbo ou, simplesmente, pela raiz verbal, uma vez que existem verbos que denotam eventos que não mudam, como “odiar”, e verbos que implicam mudança, como “trabalhar”. Há verbos que denotam eventos que terminam, por exemplo, “nascer”, verbos que denotam eventos momentâneos, como “chegar” e verbos que implicam uma duração do evento descrito, por exemplo, “correr”.

Miguel (1999) destaca que os verbos delimitados com duração têm a possibilidade de indicar se atingiram ou não o seu limite. Esse tipo de conteúdo se expressa em espanhol por meio do aspecto flexional. As formas perfeitas da conjugação apresentam uma interpretação do evento como pontual ou única e as formas imperfeitas apresentam uma interpretação durativa do evento.

No que diz respeito ao tempo verbal, a abordagem em Espanhol se assemelha à abordagem de Castilho (2010) para o PT-Br. No capítulo 44 da “Gramática Descriptiva de la Lengua Española”, Rojo e Veiga (1999) apontam que o tempo verbal é dividido entre tempo físico, tempo cronológico e tempo linguístico. Para esses autores, o tempo físico se refere ao tempo enquanto fenômeno físico, isto é, como sucessão irreversível de instantes em que o ser humano e tudo que existe estão imersos.

O tempo cronológico “tem a ver com o tempo enquanto categoria gramatical, logo, tempo e modo são distintos ainda que se encontrem vinculados” (ROJO; VEIGA, 1999, p. 2872), ou seja, o tempo cronológico é o tempo dos acontecimentos.

Rojo e Veiga (1999) descrevem que o tempo linguístico se baseia no estabelecimento de um ponto zero, mas que esse ponto não é estático, mas móvel. Dessa forma, cada ato linguístico torna-se assim seu próprio centro de referência temporal, em relação ao qual os eventos podem ser anteriores, simultâneos ou posteriores.

Os linguistas pontuam que o tempo linguístico pode ser entendido como uma linha, orientada e aberta em ambos os seus extremos, na qual existe um ponto central (O) ou ponto zero e os acontecimentos podem ser situados na zona anterior (A) a este ponto, na zona simultânea (S), coincidindo ao ponto central e na zona posterior (P), o que é representado na Figura 5. Dessa maneira, o que estiver situado anteriormente ao ponto central será entendido como pretérito (passado), o que coincidir ao ponto central será entendido como presente e o que for posterior será interpretado como futuro.

Figure 5. Figura 5. Representação do tempo linguístico (ROJO; VEIGA, 1999, p. 2874).

Em relação à modalidade linguística, Ridruejo (1999) aponta, no capítulo 49 da “Gramática Descriptiva de la Lengua Española”, que o modo pode ser caracterizado como a maneira pela qual enunciamos uma ação, um estado de coisas ou um sentimento. Logo, o modo inclui em si todos os elementos que indicam algum tipo de expressividade do falante, independentemente do procedimento utilizado em sua formulação.

Ridruejo (1999) aponta que o modo em espanhol é dividido em três: imperativo, indicativo e subjuntivo. Ademais, o autor considera que o modo é composto por várias classes flexionais, as quais são representadas por diferentes morfemas de forma que cada uma dessas classes responda, pelo menos em parte, a diferentes conteúdos da modalidade.

Segundo o autor, o imperativo apresenta uma distinção em relação ao resto das classes modais, isso porque existe um significado invariável chamado de “imperativo” associado a um significante invariável, representado pelas desinências {-0},{-a},{-e},{-ed},{-id}.

Em espanhol, os modos indicativo e subjuntivo são concebidos como opositivos, assim, o indicativo é definido como o modo de realidade, da objetividade, seguro ou atual, já em oposição, o subjuntivo é descrito como o modo da não-realidade, da incerteza, da subjetividade. A explicação mais geral sobre a oposição entre indicativo e subjuntivo é a que pontua que o indicativo é usado quando há uma assertiva, enquanto o subjuntivo é usado quando não há asserção.

A partir do que foi exposto, podemos dizer que, em geral, existem semelhanças entre as abordagens descritivas do Português Brasileiro e do Espanhol no tratamento do tempo, modo e aspecto verbal, o que não significa, entretanto, que uma relação de equivalência direta entre construções de Imperfeito entre as duas línguas possa ser proposta. No restante deste trabalho, apresentaremos um estudo piloto que indica haver contextos linguísticos em que tal equivalência não se observa, conforme se verá a seguir.

4. Metodologia

Com base nos pressupostos da Semântica de Frames (FILLMORE, 1982), o presente trabalho propõe ao uso um papel relevante para a análise do fenômeno linguístico aqui investigado, uma vez que procura investigar as continuidades que existem entre a linguagem e a experiência.

Para este estudo piloto, foi necessário constituir um banco de dados específico para o tipo de construção que estamos estudando, o qual apresentasse dados escritos provenientes do uso linguístico. Sendo assim, inicialmente, realizou-se um o levantamento bibliográfico acerca das construções de Pretérito Imperfeito em PB com base em Castilho (2010) e em Espanhol com base na Gramática Descriptiva de la Lengua Española, organizada por Ignacio Bosque e Violeta Demonte, que apresentam estudos sobre essas construções.

Para atestar essas ocorrências, precisamos criar um corpus específico para as construções de Pretérito Imperfeito composto por dados em língua natural. Nesse contexto, a presente pesquisa se enquadra no âmbito da Linguística de Corpus e, sendo assim, realiza coleta e análise de corpora com auxílio de ferramentas eletrônicas. Como uma das tarefas às quais a FN-Br tem se dedicado é a coleta de outros corpora de modo a ampliar sua base de dados, se fez necessário constituir um corpus próprio para tratar as construções de Pretérito Imperfeito.

Berber-Sardinha (2004, p. 18) define um corpus como:

um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizado segundo determinados critérios, suficientemente extenso em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.

Segundo Berber-Sardinha (2004), a coleta dos dados linguísticos que compõem o corpus deve seguir alguns pré-requisitos. O autor destaca que os dados devem ser autênticos e em linguagem natural, isto é, produzidos por falantes nativos e não criados. Ademais, os dados coletados precisam servir ao objeto de estudo e ser representativos para o fim ao qual se destinam.

Para a composição do corpus Pretérito Imperfeito os critérios apontados em Berber-Sardinha (2004) foram seguidos, assim, os textos selecionados são autênticos, em linguagem natural e não foram criados para servir a uma pesquisa linguística.

Como as construções de Pretérito Imperfeito costumam aparecer em grande parte em textos narrativos, priorizou-se a busca por fontes de dados que tratassem dessa realidade. Os textos foram extraídos de contos de Machado de Assis e suas traduções para o Espanhol e de contos de García Márquez e suas traduções para o Português Brasileiro. Tal gênero foi escolhido devido ao movimento entre Figura e Fundo narrativos do conto, propiciando a ocorrência do Pretérito Imperfeito.

A compilação do corpus Pretérito Imperfeito se deu manualmente. Foram baixados os contos originais e suas versões traduzidas e, em seguida, foram selecionadas todas as sentenças que apresentavam Pretérito Imperfeito em ambas as línguas, em seus originais e traduções, e, logo, foram coletadas e organizadas em planilhas separadas. O corpus Pretérito Imperfeito conta com 22.945 palavras em Português Brasileiro e 24.720 palavras em Espanhol.

A partir da coleta dos corpora, em nossa análise, encontramos discrepâncias entre as traduções de 15 sentenças traduzidas do Português para o Espanhol e 12 sentenças apresentaram diferenças na tradução do Espanhol para o Português.

5. As limitações na tradução de sentenças em Pretérito Imperfeito em Português Brasileiro e em Espanhol

Em nossa análise, inicialmente, observamos que, em 532 sentenças, havia ocorrências do tempo verbal Pretérito Imperfeito em Português Brasileiro (doravante PT-Br) e em Espanhol (doravante ES) e dentre essas ocorrências, 27 sentenças apresentavam discrepância entre as traduções. Logo, para nosso estudo, consideramos apenas as sentenças com ocorrência de Pretérito Imperfeito que apresentavam discrepância para tempo e/ou modo verbal entre as traduções do PT-Br para o ES e do ES para o PT-Br.

Das 27 sentenças selecionadas, observamos que havia 15 sentenças com ocorrências de discrepância entre a tradução do PT-Br para o Es e na tradução do Es para o PT-Br encontramos 12 ocorrências do fenômeno. Apesar de a grande maioria dos dados coletados não apresentar discrepância, pudemos observar que os contextos em que ocorriam discrepância poderiam contribuir para isso, logo, se fez necessário analisá-los.

Nas 15 sentenças discrepantes entre a tradução do PT-Br para o Es, encontramos 8 contextos diferentes de ocorrência: Temporal, Subordinada substantiva subjetiva, Subordinada substantiva objetiva, Final, Condicional, Construção com já, Coordenada aditiva e Coordenada adversativa. Esses contextos são apresentados mais amplamente nos exemplos de (2) a (9).

(2) Temporal

PT-Br: Andando, ouvia o bacharel algumas vozes desconhecidas, palavras soltas, frases truncadas.

ES: Mientras caminaba, el bachiller escuchó algunas voces desconocidas, palabras, frases truncadas.

(3) Subordinada substantiva subjetiva

PT-Br: Era conveniente ao romance que o leitor ficasse muito tempo sem saber quem era Miss Dollar.

ES: Es conveniente para la novela que el lector permanezca mucho tiempo sin saber quién es Miss Dollar.

(4) Subordinada substantiva objetiva

PT-Br: Era conveniente ao romance que o leitor ficasse muito tempo sem saber quem era Miss Dollar.

ES: Es conveniente para la novela que el lector permanezca mucho tiempo sin saber quién es Miss Dollar.

(5) Final

PT-Br: Veio um moleque saber quem estava; Mendonça disse que vinha restituir a galga fugitiva.

ES: Apareció un muleque para ver quién había llegado; Mendoza dijo que venía a entregar a la perrita fugitiva.

(6) Condicional

PT-Br: — A alegria, disse ele, que restituí a esta casa é a maior recompensa que eu podia ambicionar.

ES: —La alegría —dijo él— que devolví a esta casa es la mayor recompensa que yo puedo ambicionar.

(7) Construção com já

PT-Br: Voava o tempo, e o ouvinte já não sabia a conta dos quadros.

ES: Volaba el tiempo y el oyente ya había perdido la cuenta de los cuadros y las escenas.

(8) Coordenada aditiva

PT-Br: Escorria-lhe o suor em bica, alteava-se-lhe o peito, as forças iam a perder-se pouco a pouco; tinha uma das mãos ferida, a camisa salpicada do orvalho das folhas, duas vezes esteve a ponto de ser apanhado, o chambre pegara-se-lhe em uma cerca de espinhos.

ES: Le escurría el sudor, se le alteraba el pecho, sus fuerzas iban perdiéndose poco a poco; tenía una de las manos heridas, la camisa salpicada del rocío de las hojas, dos veces estuvo a punto de ser atrapado, la capa se le atoraba en una cerca de espinos.

(9) Coordenada adversativa

PT-Br: Podia vir, entretanto; Duarte ergueu-se a custo, subiu os quatro degraus que lhe faltavam, e entrou na casa, cuja porta, aberta, dava para uma sala pequena e baixa.

ES: Podría venir, sin embargo; Duarte se levantó dificultosamente, subió los cuatro escalones que le faltaban, entró en la casa, cuya puerta, abierta, daba hacia una sala pequeña y baja.

Para as 12 sentenças com discrepância nas traduções entre ES e PT-Br, encontramos 7 contextos sensíveis a discrepância: Oração relativa, Subordinada substantiva objetiva, Coordenada explicativa, Condicional, Construção com já, Coordenada aditiva e Coordenada adversativa. Como alguns contextos de ocorrência do PT-Br para ES são iguais aos do ES para PT-Br, destacaremos somente os contextos distintos, os quais são dispostos nos exemplos (10) e (11).

(10) Oração relativa

ES: La casa donde estuvo la pensión seguía siendo la misma, pero nadie dio razón de María Bella.

PT-Br: A casa onde ficava a pensão continuava a mesma, mas ninguém sabia nada de Maria Bela.

(11) Coordenada explicativa

ES: El tenor trató de identificarse con su do de pecho matinal, pero el león no le prestó atención. Parecía rugir hacia todos nosotros sin distinción, pero el vigilante se dio cuenta al instante de que sólo rugía por Margarito. Así fue: para donde él se moviera se movía el león, y tan pronto como se escondía dejaba de rugir.

PT-Br: O tenor tentou se identificar com seu dó-de-peito matinal, mas o leão não prestou atenção. Parecia rugir a todos nós sem diferença, mas o vigilante percebeu no ato que ele rugia só para Margarito. E era: para onde ele se movia, movia-se o leão, e no momento em que se escondia, o leão parava de rugir.

A porcentagem relativa a cada contexto de ocorrência de discrepância é apresentada no Gráfico 1 para as traduções do PT-Br para o Es e para as traduções do Es para o PT-Br no Gráfico 2.

Figure 6. Gráfico 1. Contextos de discrepância modo-temporal PT-Br-ES.

Dentre os contextos de discrepância nos dados entre a tradução do PT-Br para o ES, podemos observar no Gráfico 1 que a Coordenada aditiva e a Subordinada substantiva subjetiva, são mais favoráveis à ocorrência do fenômeno, representando 33,3% e 20% dos dados, respectivamente. Em seguida, vemos que o terceiro contexto mais favorável à discrepância é o Condicional, representando 13,3% dos dados. Os demais contextos aparecem em menor número em relação aos três mais relevantes contextos, totalizando 6,7% dos dados cada.

No Gráfico 2 é possível observar os contextos de discrepância nos dados entre a tradução do ES para o PT-Br. Nesse gráfico, vemos que o contexto Coordenada adversativa e Coordenada aditiva, representam 33,3% e 25% dos dados, logo, são os contextos mais representativos do fenômeno, seguidos pelos contextos Subordinada substantiva objetiva, Condicional, Construção com já, Oração relativa e Coordenada explicativa, os quais representam 8,3% dos dados cada.

Figure 7. Gráfico 2. Contextos de discrepância modo-temporal ES-PT-Br.

A partir da análise realizada, concluímos que contexto da conexão de cláusulas parece servir de gatilho para a discrepância modo-temporal nas ocorrências do Pretérito Imperfeito. Os dados revelam que a descrição e modelagem das construções que licenciam esse fenômeno nas duas línguas - tais como a Construção Condicional - devem incluir, em sua modelagem, as restrições de consecutio temporis (modo, tempo e aspecto). Contudo, o Constructicon da FN-Br opera com o lexema como unidade mínima de análise, ou seja, não comporta construções morfológicas. Logo, propomos um avanço nas funcionalidades do Constructicon da FN-Br, agregando novas restrições com base no Universal Features, como apresentado na Figura 6, de modo que este novo recurso possibilite o armazenamento e o adensamento da base de dados a partir das construções morfológicas do Português Brasileiro, bem como do Espanhol.

Figure 8. Figura 6. Proposta de novas restrições aplicadas no Constructicon.

A Figura 6 mostra a proposta de novas restrições aplicadas no Constructicon com base na Universal Features para os Elementos de Construção (CEs) Apódose e Prótase. Para esses CEs, é proposto a adição das restrições de Tempo (Tense) e Aspecto (Apect) e à essas restrições podemos associar valores, por exemplo, ao traço Tempo pode se associar os valores Futuro (Future - Fut), Imperfeito (Imperfect - Imp), Passado Simples (Past - Past), Passado Perfeito (Pluperfect - Pqp) e Presente (Present - Pres). Já ao traço Aspecto podemos associar os valores Habitual (Habitual – Hab), Imperfeito (Imperfect – Imp), Iterativo (Iterative – Iter), Perfeito (Perfect – Perf), Progressivo (Progressive – Prog) e Prospectivo (Prospective – Prosp). A adição dessas novas restrições permitirá que o Constructicon opere com construções morfológicas. Essa funcionalidade será implementada no Constructicon da FrameNet Brasil.

6. Considerações finais

Neste trabalho buscamos apresentar a descrição e modelagem da construção de Pretérito Imperfeito em PT-Br e em ES com o objetivo de garantir melhores traduções por máquina entre essas línguas.

A partir das análises dos dados realizadas, concluímos que, para a formalização da construção de Pretérito Imperfeito no Constructicon, é necessária a implementação de uma nova funcionalidade que se pauta na Universal Features para agregar restrições de modo, aspecto e tempo verbal a construções morfológicas, como a do tipo abordada neste trabalho.

O presente trabalho abre margem para trabalhos futuros que pretendem apresentar como as novas restrições foram implementadas ao Constructicon e que apresentem efetivamente como o tradutor automático que vem sendo desenvolvido pela FrameNet Brasil apresenta traduções mais adequadas em relação a outros tradutores automáticos disponíveis atualmente.

7. Agradecimentos

A pesquisa de doutoramento de Natália Duarte Marção é financiada pelo Programa de Bolsas de Pós-Graduação da Universidade Federal de Juiz de Fora – PBPG/UFJF. O Laboratório FrameNet Brasil é financiado pelo Programa CAPES/DAAD PROBRAL (processo número 88887.144043/2017-00).

Referências

BARBER-SARDINHA, T. Linguística de Corpus. São Paulo: Manole. 2004.

CASELI, H. M. Tradução Automática: estratégias e limitações. In: Domínios de Lingu@gem. v. 11, n. 5, p. 1782-1796, 2017.

CASTILHO, Ataliba T. de. Nova Gramática do Português Brasileiro. São Paulo: Editora Contexto, 2010.

DINIZ DA COSTA, A.; ALMEIDA, V. G.; LAGE, L. M.; BARBOSA, G.; MARÇÃO, N. D.; PAIVA, V. R. L.; MATOS, E. E. da S.; TORRENT, T. T. Representação computacional das construções de sujeito-predicado do português do Brasil. In: Linguística, v. 14, nº 1, p. 149-178. 2018. DOI: http://dx.doi.org/10.31513/linguistica.2018.v14n1a15285

FILLMORE, C. J. Scenes and frames semantics. In: ZAMPOLLI, A. (Ed.). Linguistic Structures Processing: Fundamental Studies in Computer Science. nº 59. Amsterdam: North Holland Publishing. 1977.

_____. Frame semantics. In: Linguistics in the Morning Calm. Seul: Hanshin Publishing Co., p.111-137, 1982.

_____.; ATKINS, Beryl T. Toward a frame-based lexicon: The semantics of RISK and its neighbors. In: Frames, fields, and contrasts: New essays in semantic and lexical organization, v. 103, p. 75-102, 1992.

_____. Border Conflicts: FrameNet Meets Construction Grammar. In: Proceedings of the XIII Euralex international congress. Barcelona: Universitat Barcelona Fabra, p. 49-69, 2008.

_____. Berkeley Construction Grammar. In: HOFFMANN, T.; TROUSDALE, G.Oxford Handbook of Construction Grammar (Eds.). Oxford University Press, 2013.

GOLDBERG, A. Constructions: A Construction Grammar Approach to Argument Structure. Chicago: The University of Chicago Press, 1995.

_____. Constructions at Work: The nature of generalization in language. Oxford: Oxford University Press, 2006.

KAY, Paul; FILLMORE, Charles J. Grammatical constructions and linguistic generalizations: The What's X doing Y? construction. In: Language, p. 1-33, 1999.

KOEHN, Philipp. Neural machine translation. In: arXiv preprint arXiv:1709.07809, 2017. Disponível em: <https://arxiv.org/abs/1709.07809>. Acesso em julho de 2021.

LANGACKER, R. W. Cognitive Grammar: a basic introduction. New York: Oxford University Press. 2008. DOI:10.1093/acprof:oso/9780195331967.001.0001

MIGUEL, Elena de. El aspecto léxico. In: BOSQUE, I.; DEMONTE, V. Gramática Descriptiva de la lengua española. Madrid: Espasa Calpe, S.A., t. 2, 1999, p. 2977-3060.

PERON-CORRÊA, S. R. A semântica de frames na constituição de dicionários temáticos multilíngues para usuários não-especialistas: interface, interação e avaliação. Tese de Doutorado apresentada ao programa de Pós- Graduação em Linguística da Faculdade de Letras da Universidade Federal de Juiz de Fora, 2019.

PUSTEJOVSKY, J. The generative lexicon. Cambridge, USA: MIT Press, 1995.

RIDRUEJO, E. Modo y modalidade. In: BOSQUE, I.; DEMONTE, V. Gramática Descriptiva de la lengua española. Madrid: Espasa Calpe, S.A., t. 2, 1999. p. 3209-3252.

ROJO, Guillermo; VEIGA, Alexandre. El tiempo verbal. In: BOSQUE, I.; DEMONTE, V. Gramática Descriptiva de la lengua española. Madrid: Espasa Calpe, S.A., t. 2, 1999. p. 2867-2934.

SAG, I. A. Sign-Based Construction Grammar: an informal synopsis. In: BOAS, H. C.; SAG, I. A. Sign-Based Construction Grammar. Chicago: CSLI, 2012.

SAUSSURE, F. Curso de Lingüística Geral. 27ª ed. São Paulo. Cultrix: 2006 [1916].

TORRENT, T. T.; MATOS, E.; LAGE, L.; LAVIOLA, A.; TAVARES, T.; ALMEIDA, V. G.; SIGILIANO, N. Towards continuity between the lexicon and the constructicon in FrameNet Brasil. In: LYNGFELT, B.; BORIN, L.; OHARA, K. H.; TORRENT, T. T. (Orgs.). Constructional Approaches to Language. Amsterdam: John Benjamins Publishing Company, 2018.

How to Cite

MARÇÃO, N. D.; TORRENT, T. T. Modeling of Imperfect Past Tense Constructions. Cadernos de Linguística, [S. l.], v. 2, n. 3, p. e420, 2021. DOI: 10.25189/2675-4916.2021.v2.n3.id420. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/420. Acesso em: 3 dec. 2024.

Statistics

Copyright

© All Rights Reserved to the Authors

Cadernos de Linguística supports the Opens Science movement

Collaborate with the journal.

Submit your paper