Constituição de corpus de gêneros textuais jornalísticos para investigação de variedade(s) culta(s)

Monique Débora Alves de Oliveira Lima

doi:10.25189/2675-4916.2021.v2.n4.id564

Constitution of a corpus of journalistic textual genres for the investigation of cultured variety(s)

Monique Débora Alves de Oliveira Lima Federal University of Rio de Janeiro https://orcid.org/0000-0001-6980-6836 mnqdbr@gmail.com

Keywords

Corpus of journalistic textual genres

Speech-writing continuum

Sociolinguistics

Abstract

In this experience report – part of a PhD research in progress –, the stage related to the composition of a sample of cultured writing is described, formed by textual genres published in the newspaper O Globo (Rio de Janeiro), whose constitution serves to one of the objectives of the investigation. The study is based on the assumptions of the Theory of Variation and Change (WEINREICH; LABOV; HERZOG, 1968; LABOV, 1972) to compose samples that make it possible to investigate the behavior of variable rules and their conditioning. According to Vieira (2019), whose proposal assumes the concept of a cultured norm and a standard norm (FARACO, 2008), we sought to compose a sample of journalistic genres to study linguistic phenomena from the perspective of the speech-writing continuum. (BORTONI-RICARDO, 2004; 2005; MARCUSCHI, 2001; 2010). The organized corpus was composed of seven textual genres (opinion article, reader's letter, chronicle, editorial, interview, news and comic strip) – each with about 20,000 words – and edited so that it could be manipulated by computer, according to recommended by Corpus Linguistics (SANCHES, 1995).

Introdução

A constituição de corpora linguísticos – de modalidade falada ou escrita – há muito tempo é objeto de estudo e aprimoramento por parte dos linguistas. As amostras de dados linguísticos são fontes privilegiadas para a descrição da língua, seja em análises sincrônicas ou diacrônicas. Uma vez que o locus de observação da variação linguística é a própria língua, nas modalidades oral e escrita, justifica-se a importância da constituição de corpora linguísticos.

O trabalho de coleta/organização de amostras nem sempre é descrito por completo nos relatos das investigações realizadas. Freitag, Martins e Tavares (2012, p. 918) destacam que o texto reservado à descrição das amostras constituídas nos trabalhos (teses e dissertações), em geral ocupa um espaço exíguo, que não reflete “o real esforço e tempo dispendidos no processo de constituição de um banco de dados, desde a prospecção e seleção de informantes até a transcrição, armazenamento e disponibilização”.

Seguindo essa linha de pensamento dos autores, este texto tem por objetivo principal fazer um relato da experiência de constituição de uma amostra de escrita culta do Rio de Janeiro – formada por gêneros textuais publicados no Jornal O Globo –, a qual serve de base para uma pesquisa de Doutorado em andamento.

Para fins de organização da leitura, cumpre anunciar como se estrutura este texto. A esta introdução, seguem os pressupostos teóricos (Seção 2) para constituição de amostras; a justificativa para composição de bancos de dados representativos da escrita culta (Seção 3); a descrição do corpus de gêneros textuais do Jornal O Globo (Seção 4); a descrição dos gêneros escolhidos para composição do corpus; e, por fim, algumas considerações finais (Seção 5).

1. Pressupostos para constituição de amostras

No que tange aos estudos de variação e mudança, a Sociolinguística Laboviana (WEINREICH; LABOV; HERZOG, 1968; LABOV, 1972) contribuiu significativamente para a criação de um modelo teórico-metodológico, a partir do qual foram realizadas investigações sobre variedades linguísticas. Esse modelo, também conhecido como Sociolinguística Quantitativa, prevê análises estatísticas de dados linguísticos, nas quais se observa a atuação de condicionadores linguísticos ou extralinguísticos, que podem (des)favorecer o uso de uma ou outra forma. Nesse sentido, a pesquisa sociolinguística, nos moldes labovianos, depende necessariamente de uma amostra representativa da fala ou da escrita, na qual são coletadas as ocorrências dos fenômenos variáveis.

Collischonn e Monaretto (2012), ao traçar características gerais do VARSUL – um corpus de variedades do Sul brasileiro –, afirmam que os dados quantitativos, obtidos na análise de amostras específicas:

lançam luz sobre muitas questões que não podem ser respondidas simplesmente pela intuição e permitem comparar estruturas hipotéticas com estruturas atestadas. Ou seja, estudos de corpora sociolinguísticos podem contribuir para uma sustentação mais sólida na realidade de análises de caráter mais teórico. (COLLISCHONN; MONARETTO, 2012, p. 838)

No que tange à modalidade falada do Português Brasileiro, os corpora constituídos desde a década 70 do século passado buscavam atender a um padrão, na medida do possível, que é o de preenchimento do envelope da variação, a partir de metodologia própria da Sociolinguística, para o estudo de fenômenos linguísticos diversos. A fim de constituir uma amostra que seja representativa da sociedade ou do grupo estudado e não seja demasiadamente grande, estratifica-se a amostra, dividindo-a em células, compostas por informantes com características sociais semelhantes.

Aplicando essa metodologia, uma pesquisa clássica – de primeira onda, segundo a classificação proposta por Eckert (2012) – busca preencher tais células a partir de fatores sociais como classe social, idade (faixa etária), grau de escolaridade e sexo/gênero (cf. SILVA, p. 121). Desse modo, determina-se um número específico de informantes com as mesmas características, como por exemplo, 5 homens de classe alta/média/baixa e 5 mulheres de classe alta/média/baixa. Nesse exemplo, foram combinadas as variáveis sociais sexo/gênero e classe social. Na amostra estratificada, a inserção de outras variáveis (como grau de escolaridade, por exemplo) significa também aumento no número de informantes, a fim de que todas as células sejam preenchidas.

A variável dependente, no modelo laboviano, é a regra variável linguística que está sendo analisada – por exemplo, a representação do acusativo anafórico de terceira pessoa. Essa variável de análise é cruzada com outras variáveis – de ordem linguística ou extralinguística –, a fim de verificar a correlação desses fatores com o emprego de determinada variante. Dentre os fatores extralinguísticos, há as chamadas variáveis clássicas – mencionadas anteriormente –, usadas desde os primeiros estudos, como sexo/gênero, faixa etária e grau de escolaridade.

Uma vez determinado o fenômeno linguístico a ser estudado, o corpus constituído para análise da atuação de sexo/gênero, faixa etária e grau de escolaridade na escolha por uma ou outra forma desse fenômeno precisa necessariamente ser composto considerando-se essas variáveis. O conceito de “envelope da variação” é aplicado desta forma na constituição da amostra: seleciona-se o mesmo número de informantes para preencher cada uma das células das variáveis pré-estabelecidas como hipóteses de pesquisa. Essa metodologia proveniente da Sociolinguística Variacionista orientou muitas das amostras já constituídas.

Consoante Silva (2015), os bancos de dados linguísticos são fonte privilegiada para a descrição da língua. A fim de contribuir com a divulgação dessas fontes de estudo, a pesquisadora fez um levantamento dos corpora linguísticos de variedades do Português e reuniu informações sobre importantes amostras representativas do Português Brasileiro. Nesse levantamento, Silva (2015) cita as seguintes amostras nacionais, de fala ou de escrita: Projeto NURC, Corpus Censo, Projeto APERJ, Projeto Discurso e Gramática, PHPB-Rio, Projeto ALiB, Projeto VARPORT, Projeto AVAL-RJ, Projeto do Corpus do Português clássico e moderno, Projeto Corpus Brasileiro, Corpus histórico do Português TYCHO BRAHE. Dessas amostras, a pioneira foi a do Projeto NURC, cuja composição se iniciou na década de 70 e abrangeu cinco capitais brasileiras.

Há ainda outros trabalhos de constituição de banco de dados não elencados pela autora, como o VALPB, o VARSUL e o Falares Sergipanos. Outra iniciativa, de cooperação internacional, é o “Projeto 21: Estudo comparativo de variedades africanas, brasileiras e europeias do Português (COMPARAPORT)”, coordenado por Silvia Rodrigues Vieira e Silvia Figueiredo Brandão, no âmbito da ALFAL, que contempla quaisquer fenômenos morfossintáticos ou fonético-fonológicos em variedades do Português.

Salomão (2011), ao fazer um panorama dos grupos de pesquisa brasileiros que estudam a língua por meio dos pressupostos da Teoria da Variação e Mudança, elenca 48 projetos, muitos dos quais são responsáveis por composição de amostras. Diante desses dados levantados, tem-se um retrato do esforço da pesquisa brasileira, no sentido de prover tanto banco de dados quanto investigações acerca do Português e suas variedades.

Diante do exposto, percebe-se que já há uma tradição consolidada no que diz respeito à constituição de amostras por parte de pesquisadores brasileiros. A composição do corpus ora descrito fundamenta-se no que já foi estabelecido. Além disso, toma-se ainda como pressuposto a definição de corpus advinda da Linguística de Corpus, área que também provê aparato metodológico para composição de amostras. Os estudiosos dessa área entendem um corpus linguístico como:

um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade de uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise. (SANCHES, 1995, p. 8-9, apud SARDINHA, 2000, p. 338)

Como se pode observar, é necessário estabelecer/seguir critérios específicos ao se organizar uma amostra para estudo de dados linguísticos. Pode-se dizer que um dos grandes desafios desta pesquisa de Doutorado é o de composição de um corpus que atendesse ao princípio da Linguística de Corpus, quanto à incumbência de torná-lo processável por computador. De modo geral, entende-se que a constituição de corpora é uma tarefa árdua, mas necessária para o mapeamento dos fenômenos linguísticos.

2. Justificativa para composição de bancos de dados de escrita culta

Nesta investigação, acredita-se na urgência, a partir de Freitag, Martins e Tavares (2012) e outros pesquisadores, de constituição de corpora nacionais homogêneos em termos de parâmetros de constituição. Os autores defendem a padronização dos procedimentos metodológicos para que sejam realizados estudos contrastivos entre as variedades, possibilitando uma descrição mais acurada do Português Brasileiro.

Como evidenciado na última seção, é inegável o trabalho árduo e produtivo de pesquisadores brasileiros na constituição de corpora do Português em suas variedades, haja vista a vastidão de amostras compostas, brevemente citadas. No que tange à modalidade escrita, entretanto, segundo Lima, Vieira (2019, p. 10), “a sistematização do comportamento das variedades em função do continuum fala-escrita ainda está por ser feita”.

Consoante Faraco (2008, p. 73), norma culta representa um “conjunto de fenômenos linguísticos que ocorrem habitualmente no uso dos falantes letrados em situações mais monitoradas de fala e escrita”. Essa conceituação é confundida, em diversos âmbitos, com norma-padrão, “uma codificação relativamente abstrata, uma baliza extraída do uso real para servir de referência, em sociedades marcadas por acentuada dialetação, a projetos políticos de uniformização linguística” (FARACO, 2008, p. 75).

Partindo da conceituação de Faraco (2008), Vieira (2019) assume que a delimitação da norma-padrão – para fins de atualização, uma vez que sua construção se deu no século XIX (cf. PAGOTTO, 1998; FARACO, 2008) – deve ocorrer a partir do conhecimento detalhado das variedades cultas. A pesquisadora propõe que a descrição das variedades cultas de escrita se dê a partir da observação do comportamento de regras variáveis em textos de diferentes gêneros textuais, produzidos por falantes com alto grau de escolarização. Nos textos jornalísticos e acadêmicos, portanto, seriam encontradas essas expressões máximas de norma(s) culta(s).

A proposta de Vieira toma como base os continua de variação linguística de Bortoni-Ricardo (2004; 2005), que percebe a variação linguística em três linhas imaginárias, nas quais as variantes se distribuem de um polo a outro (rural-urbano, oralidade-letramento e monitoração estilística). Vieira ainda se fundamenta no continuum fala-escrita proposto por Marcuschi (2001; 2008), em que os usos linguísticos são colocados numa organização escalar, em função da caracterização dos gêneros textuais, com base nos princípios de meio e concepção.

Vieira (2019, p. 104) postula uma hipótese central de que “consoante o maior grau de letramento e/ou formalidade atribuído(s) ao gênero em questão, maior seria o uso da variante considerada de prestígio, identificada muitas das vezes como variante padrão”.

O corpus de gêneros textuais para análise desta pesquisa de Doutorado em andamento inspira-se em uma experiência de constituição de outra amostra, realizada em 2018, no âmbito de uma disciplina de Pós-Graduação de Letras Vernáculas (UFRJ), ministrada pela professora Silvia Rodrigues Vieira. Em Vieira, Lima (2019, p. 6), livro organizado com as investigações realizadas no curso em questão, defende-se a ideia de que “embora haja vasta literatura sobre os usos relativos a fenômenos diversos na fala brasileira, percebe-se que o mapeamento de dados em meios escritos segundo estilos variados e contemplando diversos tópicos gramaticais ainda está por ser construído”. O trabalho desenvolvido na disciplina buscou contribuir com esse mapeamento.

De maneira geral, foram tomadas as seguintes providências no âmbito da disciplina:

(i) construção de um corpus com diversidade de gêneros textuais principalmente dos domínios jornalístico e acadêmico, tomados como expressões de usos cultos; (ii) levantamento de dados de oito fenômenos variáveis; e (iii) sistematização dos resultados buscando uma distribuição dos dados em função do referido continuum. (LIMA; VIEIRA, 2019, p. 8-9)

A amostra em questão foi constituída a partir da contribuição coletiva dos discentes do curso e composta por dez gêneros textuais: entrevistas sociolinguísticas (provenientes do corpus Concordância); tirinhas; anúncios; entrevistas impressas (em jornais ou revistas); cartas de leitor; crônicas jornalísticas; notícias; editoriais; teses/dissertações; artigos em revistas científicas. Os gêneros acadêmicos foram retirados de periódicos e páginas de programas de Pós-graduação da área de Comunicação Social

Uma vez organizado o corpus, os discentes, divididos em grupos, procederam à coleta de dados de regras variáveis de oito fenômenos específicos, quatro dos quais foram publicados na obra de 2019. Os resultados foram discutidos com o objetivo de se elaborar um continuum de fala-escrita que hipoteticamente se aliaria ao de monitoração estilística.

Cumpre esclarecer que, embora o corpus não tenha seguido rigorosas condições de constituição – em função do trabalho coletivo, em curto tempo –, as análises desenvolvidas com os dados coletados revelaram “notável sistematicidade” (cf. LIMA; VIEIRA, 2019, p. 16) na distribuição das formas analisadas. A partir dessa experiência, julgou-se relevante constituir uma nova amostra – a que se descreve na próxima seção –, em que se adotassem critérios mais rígidos de organização.

A constituição da amostra de gêneros textuais proposta nesta pesquisa de Doutorado integra o projeto “Do continuum fala-escrita para a norma-padrão: limites e possibilidades”, coordenado pela professora Silvia Rodrigues Vieira (UFRJ), com a participação, na condição de colaboradores, desta pesquisadora, dos professores Flávio Brandão Silva (Universidade Estadual de Londrina – UEL), Juliana Bertucci Barbosa (Universidade Federal do Triângulo Mineiro – UFTM) e do professor Carlos Alberto Faraco (Universidade Federal do Paraná – UFPR), no papel de consultor.

O projeto foi recentemente contemplado em um edital da FAPERJ (PROGRAMA Cientista do Nosso Estado – 2020) e tem por objetivo constituir amostras de textos jornalísticos e acadêmicos, de quatro capitais distintas, a saber: Recife/PE, Rio de Janeiro/RJ, Salvador/BA e São Paulo/SP. No âmbito deste projeto nacional, o corpus descrito adiante representa a amostra de textos jornalísticos do Rio de Janeiro. Seus parâmetros de constituição servirão de modelo para a composição das demais amostras estabelecidas para figurar a experiência-piloto do projeto: sete gêneros, com cerca de 20.000 palavras cada.

Quanto à constituição da amostra de gêneros acadêmicos, parte-se da amostra organizada por Ana Carolina Alves Caetano. No trabalho de Mestrado – ainda em andamento –, a pesquisadora coletou 42 artigos científicos, publicados em revistas de qualis A1 e A2, e 42 teses de doutorado – textos representativos do Rio de Janeiro. Seguindo o critério estabelecido para o tamanho da amostra de gêneros jornalísticos, a fim de compor a amostra acadêmica, selecionaram-se 500 palavras de cada artigo e de cada tese, para que se chegasse ao número de 20.000 palavras por gênero, considerando as três áreas escolhidas: Linguística, Comunicação Social e Economia. Para o corpus do projeto nacional, os textos serão apenas da área de Comunicação Social, para ficar na mesma área de estudo dos jornalistas.

Na próxima seção, descreve-se o corpus de gêneros textuais jornalísticos do Rio de Janeiro.

3. O corpus de escrita culta do jornal O Globo: metodologia de constituição

A constituição desse corpus atende a um dos objetivos da pesquisa de Doutorado em andamento, que é o de propiciar um material no qual se possa observar a heterogeneidade da chamada norma culta. Acredita-se, a partir de Vieira (2019), que, com base em um continuum de gêneros textuais, é possível aferir o comportamento altamente variável das variedades cultas e elaborar orientações normativas para o contexto escolar. Com base na amostra constituída em 2018, o corpus organizado para análise desta pesquisa privilegiou o domínio jornalístico e foi composto por sete gêneros textuais, quais sejam: (1) artigo de opinião, (2) carta de leitor, (3) crônica, (4) editorial, (5) entrevista, (6) notícia e (7) tirinha.

Os gêneros selecionados para constituição da amostra pertencem à modalidade escrita do Português Brasileiro e foram publicados em versão impressa do jornal. A escolha dos textos foi baseada na proposta de Marcuschi (2001; 2008) acerca da concepção envolta em cada gênero. O autor propõe que a caracterização dos gêneros textuais seja determinada pelos princípios de meio (sonoro versus gráfico) e de concepção (oral versus escrita). Na proposta de Marcuschi (2001; 2008), há gêneros que são mais prototípicos da fala (meio sonoro e concepção oral), aqueles mais representativos da escrita (meio escrito e concepção escrita) e os híbridos (meio escrito e concepção oral e vice-versa).

No corpus organizado, as entrevistas e as tirinhas, por exemplo, poderiam ser alocadas supostamente entre os gêneros mais próximos da concepção de oralidade, uma vez que, apesar de pertencerem ao meio escrito, representariam diálogos. Já as crônicas, as cartas de leitor e as notícias seriam gêneros mais intermediários quanto à concepção de oralidade/letramento em função de diversos fatores, como grau de autoria (alguns são textos assinados), uso de discurso direto (por vezes presente), temáticas diversas, dentre outros fatores. Por fim, o corpus conta, ainda, com textos pertencentes a gêneros que, no domínio jornalístico, poderiam ser considerados mais prototípicos da modalidade escrita, tanto em meio quanto em concepção: os artigos e os editoriais.

Na presente investigação, decidiu-se por trabalhar com os textos publicados no Jornal O Globo. Tal escolha se deve ao fato de que esse é o jornal voltado para os leitores mais escolarizados, e por consequência, mais elitizados. Esse jornal, produzido pelo Grupo Globo, da Fundação Roberto Marinho, foi criado em 1925 e possui um acervo digital que abrange textos publicados desde então. A Figura 1, a seguir, mostra parte da capa da primeira edição (29 de julho de 1925). Essa foi uma edição vespertina1.

De acordo com os dados do Instituto Verificador de Comunicação (IVC), referentes a maio/2018 e divulgados no site Infoglobo, o jornal conta com 1.194.000 leitores. Em relação à classe social, mais de 60% dos leitores pertencem às classes A (15%) e B (50%), dos indivíduos que recebem acima de 10 salários-mínimos. No que tange ao fator escolaridade, 39% dos leitores completaram o nível superior e 22%, o nível médio.

Em termos comparativos com os demais jornais veiculados pelo Grupo Globo, o jornal Extra, intermediário, possui 1.300.000 leitores (mais do que os do O Globo), dos quais 17% possuem nível superior. Já o jornal Expresso – tabloide voltado para “os leitores das classes C/D”, segundo a descrição do site Infoglobo – possui 133.000 leitores, dos quais apenas 6% possuem nível superior completo. Note-se que o Grupo Globo não possui um jornal destinado àqueles que pertencem à classe E (recebem até dois salários-mínimos).

Para a constituição do corpus de gêneros textuais jornalísticos desta pesquisa em andamento, estabeleceu-se que seriam extraídos textos do jornal O Globo. Na medida do possível, os textos são referentes ao Rio de Janeiro: as cartas de leitor, metade das entrevistas e as notícias pertencem à editoria “Rio”. Com relação às crônicas, apesar de serem publicadas fora dessa editoria – no segundo caderno –, todas são assinadas por autores do Rio. Não foi possível seguir esse padrão em relação aos editoriais – uma vez que representam “a voz” do jornal, são publicados na editoria “País” e não são, portanto, vinculados necessariamente ao Rio – aos artigos – pois ficaria um número reduzido de colunistas – e às tirinhas – pois algumas são traduzidas.

Todos os textos selecionados foram publicados na versão impressa do jornal e se encontram disponíveis no acervo online, cujo acesso é permitido apenas para assinantes. Para a constituição do corpus, foi estabelecido o período de agosto de 2018 a julho de 2020, exceto para as tirinhas, como se verificará adiante.

O critério adotado para delimitação do presente corpus foi o de número de palavras por texto selecionado, de modo a viabilizar uma amostra equilibrada quanto ao tamanho. A adoção desse critério se deu a partir do trabalho de Biazolli (2016), que constituiu uma amostra de quatro gêneros textuais (dois de modalidade oral e dois e escrita), cada um com 35.000 palavras. No que diz respeito ao corpus dessa pesquisa, determinou-se um número menor de palavras, visto que há mais gêneros textuais na amostra.

Na primeira etapa da pesquisa, a de qualificação, o corpus foi constituído por gêneros que variavam entre 8 e 10 mil palavras. No entanto, análises prévias sobre o acusativo anafórico de terceira pessoa, mostraram que esse número poderia restringir a ocorrência dos dados em determinados contextos. Uma vez que o corpus deve servir para outras análises além do fenômeno do acusativo, decidiu-se, então, aumentar esse número estabelecido previamente, a fim de evitar enviesamento. Optou-se, assim, por coletar cerca de 20.000 palavras/gênero. Cabe esclarecer que não são exatamente 20.000 palavras, pois nenhum texto foi cortado ao se atingir esse número; no processo de seleção, foi preservada a unidade textual.

Uma vez determinados os gêneros, a próxima etapa de organização do corpus foi a de seleção dos textos que o comporiam, no acervo online. Objetiva-se deixá-los editados de tal modo que viabilizasse sua leitura por programas computacionais. Se os textos estão em formato .txt, por exemplo, podem ser submetidos a programas de processamento de dados. Ocorre que os textos são disponibilizados no acervo do jornal O Globo em extensão PDF – cada página do jornal corresponde a um arquivo de PDF –, mas sendo uma imagem sem caracteres reconhecidos pelo Word.

Com o propósito de contornar esse obstáculo, foi necessário submeter cada texto a um programa de reconhecimento óptico de caracteres (OCR), a fim de que o texto fosse transformado de imagem para caracteres. O programa utilizado foi o aplicativo “Office”, da Microsoft©2, disponível na loja de aplicativos do sistema Android. O caminho para uso é: Office > Ações > Imagem em texto. A seguir, a Figura 2 mostra o aplicativo na loja virtual e a Figura 3 ilustra a interface desse aplicativo.

A primeira etapa de edição consistiu em recortar os textos baixados do site do acervo O Globo nas dimensões do texto gênero em questão – para que o programa não lesse os demais textos publicados na mesma página – e submetê-los ao leitor de OCR. Em diversas ocasiões, foi necessário recortar o texto que se pretendia recolher em várias partes, já que as configurações de editoração do jornal – com textos em colunas – não seguem o padrão de texto contínuo do Word – programa no qual foram organizados, editados e revisados os textos. Na Figura 4, pode-se observar uma entrevista, da editoria de cultura, recortada.

Uma vez recortados, na segunda etapa, os textos (ou suas partes) eram submetidos ao processo de extração de imagem em texto, no aplicativo Office, e o resultado dessa ação, copiado para um arquivo de Word, no qual era possível, além de editar, contar o número de palavras. Dessa maneira, organizaram-se sete arquivos principais, nos quais foram colados os textos pertencentes a cada gênero textual, até que se atingisse cerca de 20.000 palavras/gênero.

Na terceira etapa, os textos foram revisados, comparando-se com os originais, para que fossem corrigidos possíveis erros. Os mais comuns eram de ortografia e de falta de trechos. A tecnologia de OCR contribui bastante para esse processo de extração de textos, mas não é perfeita. Dois dos erros mais comuns ocorridos foram o de acentuação de algumas palavras com acento agudo em vez de grave e de troca de “s” por “c” em algumas palavras. Após a revisão, na quarta e última etapa, criou-se um arquivo de Word para cada texto e seu correspondente em .txt, a fim de tornar o corpus legível/manipulável por computador.

Após as ações de coleta/edição/formatação, elaborou-se uma planilha do Excel, na qual foram inseridos dados específicos de cada um dos textos selecionados: número do arquivo original, data, título, manchete, autor(es), temática, a depender dos gêneros.

Dessa maneira, chegou-se à seguinte distribuição do quantitativo de textos coletados por gêneros textuais, sistematizado no Quadro 1. Observe-se que esse valor varia em função dos gêneros. A título de exemplo, em termos de volume textual, no jornal O Globo, 36 artigos correspondem a 261 cartas de leitor ou a 45 editorais.

4. Os gêneros textuais do corpus constituído

Nesta seção, descrevem-se os gêneros do corpus de gêneros textuais do jornal O Globo.

Artigos

No jornal O Globo, os artigos são publicados diariamente, por autores diferentes, escalados semanalmente. Esses textos figuram nas primeiras seções do Primeiro Caderno, logo após os editorais e versam sobre assuntos relacionados ao governo, a políticas públicas, à economia, a reformas, dentre outros assuntos atuais interessantes à sociedade. Como se espera nos gêneros opinativos, em todos, um ponto de vista é defendido a partir de argumentos diversos: de autoridade, de causa e consequência, de analogia, entre outros.

Os textos selecionados têm autoria de treze colunistas: Ana Maria Machado, Ascânio Seleme, Cacá Diegues, Carlos Alberto Sardenberg, Carlos Andreazza, Elio Gaspari, Fabio Giambiagi, Fernando Gabeira, José Casado, Luis Fernando Verissimo, Merval Pereira, Roberto Damatta e Zuenir Ventura. No Quadro 2, reproduz-se um dos artigos do corpus.

Cartas de leitor

No jornal O Globo, as cartas dos leitores são publicadas na editoria “Rio” e versam sobre as diversas temáticas que apareceram nos gêneros publicados nas editorias do dia anterior ou da semana (notícias, artigos, editorais, crônicas etc.). Apesar de se tratar de publicação na editoria específica da cidade (“Rio”), cabe esclarecer que há alguns textos de leitores de outras cidades e estados. Considerando isso, a fim de coletar apenas textos de leitores do Rio de Janeiro, não foram selecionadas as cartas cujos leitores fossem de outro estado.

Crônicas

As crônicas, por sua vez, são publicadas todos os dias, no Segundo Caderno do jornal O Globo, em uma das últimas páginas. De acordo com informações dispostas na coluna em que as crônicas são exibidas, essas publicações obedecem a um rodízio de escritores, de acordo com o dia da semana.

Para a constituição do corpus, foram selecionados textos de todos os dias da semana, a fim de ter mais de uma crônica de cada autor. Os autores cujas crônicas compõem o corpus publicam nos seguintes dias: segunda – Joaquim Ferreira dos Santos; terça – Arnaldo Bloch; quarta – Ana Paula Lisboa e Maria Ribeiro (quinzenal); quinta – Cora Rónai; sexta – Leo Aversa e Ruth de Aquino (quinzenal); sábado – Geovani Martins (quinzenal); domingo – Artur Xexéo. Um dos cronistas não selecionados foi José Eduardo Agualusa, que é angolano, de ascendência portuguesa e brasileira, o que o exclui do rol de cronistas cariocas.

No Quadro 4, a seguir, expõe-se a Crônica 30.

Editorais

Os editoriais do jornal O Globo também são publicados em todos os dias. Uma breve consulta aos jornais de 2018 revelou uma mudança na maneira como esses gêneros são organizados no jornal. Até julho de 2018, os editorais apareciam ao final da editoria “País”, antes da editoria “Rio”. Além disso, eram publicados dois textos: um representando a opinião do jornal, sem assinatura e outro, com a opinião de algum convidado. A partir de agosto de 2018, os editorais passaram a figurar na seção intitulada “Opinião O GLOBO”, na qual são publicados dois textos sem assinatura, ambos representando a opinião do corpo editorial.

Esses textos são publicados em pares diariamente e versam sobre temáticas atuais distintas, relacionadas aos cadernos/seções do jornal: País, Economia, Política, Cidade, entre outros. No Quadro 5, há o Editorial 32 do corpus:

Entrevistas

Nas edições do Jornal O Globo, em todos os meses do ano estabelecido, houve publicações de entrevistas no Primeiro ou no Segundo Cadernos. As do primeiro grupo faziam parte das diversas editorias que figuram nesse espaço do jornal: “País”, “Mundo”, “Sociedade”, “Economia” e “Rio”. Para composição do corpus, selecionaram-se entrevistas desta última editoria, por representarem, de forma majoritária, falantes do Rio de Janeiro.

Já para as entrevistas do Segundo Caderno, de cultura e arte, não foi possível fazer esse refinamento seguindo o critério de região, visto que há uma heterogeneidade maior da origem do entrevistado. O Quadro 6, a seguir, reproduz a Entrevista 01, retirada do caderno de cultura:

Notícias

As notícias recolhidas para a constituição do corpus foram retiradas da editoria “Rio”, como já mencionado, e versam sobre temáticas diversificadas relacionadas à cidade, tais quais: infraestrutura, políticas públicas, violência, chuvas, turismo, entre outras.

No jornal O Globo, os textos desse gênero são assinados pelos jornalistas envolvidos no processo de pesquisa e escrita da matéria. Sendo assim, há notícias assinadas por um ou mais jornalistas. No Quadro 7, em que se reproduz a Notícia 24 do corpus, três jornalistas participaram da elaboração do texto. Quando não há envolvimento total na produção da notícia, o nome aparece citado como colaboração (por exemplo: “LUANA SANTIAGO, Colaborou Priscilla Aguiar Litwak” – Notícia 22).

Tirinhas

No jornal O Globo, os mesmos títulos de tirinhas são publicados de segunda a sábado; já no domingo, são novos títulos, alguns compostos por seis quadrinhos, diferentemente das tirinhas tradicionais, de três quadrinhos. Inicialmente, no processo de seleção, seriam coletadas apenas as produções nacionais; entretanto, para diversificar os títulos/autores, optou-se por reunir todos os títulos publicados, isto é, textos criados originalmente em português ou traduzidos.

Sendo assim, foram coletados textos de oito títulos distintos: “A arte de zoar”, de Reinaldo; “Bichinhos de jardim”, de Clara Gomes; “O corpo é o porto”, de André Dahmer; “Urbano, o aposentado”, de Antônio Silvério; “Valente”, de Vitor Cafaggi; “Dustin”, de Steve Kelley e Jeff Parker; “Zits”, de Scott e Borgman; e “Zoé e Zezé”, Jerry Scoott e Rick Kirkman. Os últimos três títulos são tirinhas traduzidas para o português. O Quadro 8, a seguir, exibe a Tirinha 224.

5. Considerações finais

Neste texto, buscou-se descrever as etapas de constituição de um corpus de escrita culta representativo do Rio de Janeiro. A etapa da pesquisa ora relatada procurou atingir um dos objetivos da investigação em andamento, que é o de organizar uma amostra heterogênea no que tange aos gêneros textuais e autores selecionados, mas homogênea quanto aos critérios de composição. Além do estabelecimento de critérios para composição do corpus, no trabalho realizado, empenhou-se para tornar a amostra manipulável por computador, a fim de viabilizar buscas automáticas por dados linguísticos – como as realizadas com aplicação de expressões regulares.

Acredita-se que, como toda etapa de uma pesquisa científica, o corpus organizado é passível de críticas e de reestruturação, se assim for julgado necessário. Considera-se, contudo, que o produto gerado pode contribuir para a descrição de variedades cultas, ao propiciar a observação de formas variantes, no âmbito do continuum de fala-escrita (concepção). Nas próximas etapas da pesquisa de Doutorado, pretende-se realizar análises sobre variáveis linguísticas com base no corpus ora composto.

Referências

BIAZOLLI, Caroline Carnielli. Posição de clíticos pronominais em duas variedades do português: inter-relações de estilo, gênero, modalidade e norma. Araraquara: Faculdade de Ciências e Letras, Universidade Estadual Paulista, 2016. (Tese de Doutorado)

BORTONI-RICARDO, Stella Maris. “Um modelo para análise sociolinguística do português brasileiro”. In: Nós cheguemu na escola, e agora? Sociolinguística e educação. São Paulo: Parábola editorial, 2005. p. 45-52.

BORTONI-RICARDO, Stella Maris. O Português brasileiro. In: BORTONI-RICARDO, Stella Maris. Educação em língua materna: a sociolinguística na sala de aula. São Paulo: Parábola Editorial, 2004. p. 51-70.

COLLISCHONN, Gisela; MONARETTO, Valéria de Oliveira. Banco de dados VARSUL: a relevância de suas características e a abrangência de seus resultados. Alfa: Revista de Linguística, São Paulo, v. 56, n. 3, p. 835-853. 2012.

ECKERT, Penelope. Variation, convention, and social meaning. Plenary talking. Annual meeting of the Linguistic variation. San Francisco, 2005.

FARACO, Carlos Alberto. Norma culta brasileira – desatando alguns nós. São Paulo: Parábola Editorial, 2008.

FREITAG, Raquel Meister Ko; MARTINS, Marco; TAVARES, Maria Alice. Bancos de dados sociolinguísticos do Português Brasileiro e os estudos de terceira onda: potencialidades e limitações. Alfa: Revista de Linguística, São Paulo, v. 56, n.3, p. 917-944, 2012.

LABOV, William. Padrões sociolinguísticos. Trad.: Marcos Bagno; Marta Scherre e Caroline Cardoso. São Paulo: Parábola, 2008 [1972].

LIMA, Monique Débora Alves de Oliveira; VIEIRA, Silvia Rodrigues. Para uma abordagem da norma no continuum fala-escrita. In: VIEIRA, S. R.; LIMA, M. D. A. de. (Orgs.). Variação, gêneros textuais e ensino de Português: da norma culta à norma-padrão. 1ed. Rio de Janeiro: Letras UFRJ, 2019. p. 8-16.

MARCUSCHI, Luiz Antônio. Oralidade e letramento. Da fala para a escrita: atividades de retextualização. São Paulo: Cortez, 2001. p. 15-44.

MARCUSCHI, Luiz Antônio. Produção textual, análise de gêneros e compreensão. São Paulo: Parábola Editorial, 2008.

PAGOTTO, Emílio. Norma e condescendência; ciência e pureza. Línguas e instrumentos linguísticos. Campinas: Pontes, n. 2, 1998. p. 49-68.

SALOMÃO, Ana Cristina Biondo. Variação e mudança linguística: panorama e perspectivas da sociolinguística variacionista no Brasil. Fórum Linguístico, Florianópolis, v. 8, n. 2, p. 187-207, jul./dez. 2011. http://dx.doi.org/10.5007/1984-8412.2011v8n2p187

SARDINHA, Tony Berber. Linguística de corpus: histórico e problemática. Revista D.E.L.T.A., v. 16, n. 2, p. 323-367, 2000.

SILVA, Edila Vianna da. Bancos de dados sociolinguísticos em português. IDIOMA, Rio de Janeiro, n. 29, v.2, p. 168-180. 2015.

SILVA, Giselle Machline de Oliveira e Silva. Coleta de dados. IN: MOLLICA, Maria Cecilia; BRAGA, Maria Luiza. (Orgs.). Introdução à Sociolinguística: o tratamento da variação. 4. ed. São Paulo: Contexto, 2015. p. 117-134.

VIEIRA, Silvia Rodrigues; LIMA, Monique Débora Alves de Oliveira Lima. (Orgs.). Variação, gêneros textuais e ensino de Português: da norma culta à norma-padrão. 1. ed. Rio de Janeiro: Letras UFRJ, 2019. Disponível em: < https://figshare.com/articles/book/Varia_o_g_neros_textuais_e_ensino_de_Portugu_s_da_norma_culta_norma-padr_o/11857965>

VIEIRA, Silvia Rodrigues; BRANDÃO, Silvia Figueiredo. CORPORAPORT: Variedades do Português em análise. Rio de Janeiro: Faculdade de Letras-UFRJ. Disponível em: <www.corporaport.letras.ufrj.br.>

WEINREICH, Uriel; LABOV, William; HERZOG, Marvin. Fundamentos empíricos para uma teoria da mudança linguística. Tradução: Marcos Bagno. Revisão técnica: Carlos Alberto Faraco. São Paulo: Parábola Editorial, 2006 [1968].

Site Infoglobo: https://www.infoglobo.com.br/Anuncie/ProdutosDetalhe.aspx?IdProduto=91

PDF

XML

Issue: Vol. 2 No. 4 (2021)
Submitted: 20/08/2021
Published: 16/11/2021
DOI: 10.25189/2675-4916.2021.v2.n4.id564

How to Cite

LIMA, M. D. A. de O. Constitution of a corpus of journalistic textual genres for the investigation of cultured variety(s). Cadernos de Linguística, Campinas, SP, Brasil, v. 2, n. 4, p. e564, 2021. DOI: 10.25189/2675-4916.2021.v2.n4.id564. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/564. Acesso em: 3 jun. 2026.

ACM
ACS
APA
ABNT
Chicago
Harvard
IEEE
MLA
Turabian
Vancouver

Statistics

Article viewed: 316 time(s)
PDF downloaded: 103 time(s)
XML downloaded: 12 time(s)

Experience Report