Política de Disponibilização de Dados em Casos Especiais

Alguns estudos utilizam dados que não podem ser disponibilizados em sua integridade (por restrição ética, legal, contratual ou de direitos autorais) e/ou utilizam conteúdo acessível publicamente na internet que pode mudar ou deixar de existir (links quebrados, edições, remoções). Esta política orienta como redigir a Declaração de Disponibilidade de Dados para manter a verificabilidade do estudo e permitir reaplicação das análises, sem violar restrições.

Regra prática

Quando o dado bruto não puder ser redistribuído, a Declaração deve, ainda assim, apontar um pacote mínimo (com DOI/identificador permanente) que permita a terceiros reconstruir exatamente o que foi analisado e refazer o processamento, dentro das regras aplicáveis.

Quando se aplica

  1. Dados restritos: quando parte (ou todo) o dado não pode ser compartilhado publicamente por motivos éticos/legais/contratuais/direitos autorais.
  2. Dados de terceiros: quando o estudo usa material controlado por terceiros (licenciado, com termos de uso, ou não redistribuível).
  3. Fontes web instáveis: quando o material está em páginas/plataformas que podem mudar, ser removidas ou ficar indisponíveis.

1) Quando parte (ou todo) o dado não pode ser compartilhado publicamente

Se houver impedimento de disponibilização pública, siga os passos abaixo:

  1. Diga qual é a restrição e o que ela afeta: informe a natureza da restrição (ética/legal/contratual/direitos autorais/segredo comercial) e quais componentes do conjunto são afetados (por exemplo: áudios brutos; transcrições integrais; metadados identificáveis; corpus licenciado; arquivos de terceiros).
  2. Disponibilize publicamente o máximo necessário para replicar as análises (com DOI): deposite em repositório (recomendado: Zenodo) um pacote com DOI contendo, quando aplicável:
    • códigos/scripts e parâmetros (incluindo versões de bibliotecas quando houver);
    • materiais e instrumentos (roteiros, critérios de seleção/exclusão, protocolo de anotação);
    • dicionário de variáveis, esquema de codificação, regras de decisão;
    • dados derivados/agregados que não violem a restrição e permitam recomputar resultados.
  3. Explique como obter acesso aos dados restritos: se o acesso puder ser concedido sob condições, descreva objetivamente:
    • quem concede acesso (autor responsável, instituição, comitê, repositório com acesso controlado);
    • qual o procedimento (e-mail institucional, formulário, termo de uso, acordo de confidencialidade, finalidade acadêmica);
    • quais documentos são exigidos;
    • prazo típico de resposta.
  4. Disponibilidade para revisão por pares: quando aplicável, os dados restritos devem estar disponíveis para avaliação por pareceristas, sob acordo de uso e dentro dos limites ético-legais.
  5. Quando os dados são de terceiros (licenciados ou sob termos de uso): deixe claro quem é o detentor, quais são as regras/termos e como o leitor pode obter legalmente a mesma fonte (licença/compra/cadastro). Se o material não puder ser redistribuído, aplique também o pacote mínimo descrito na Seção 3.

O que não atende ao padrão

  • Declarações do tipo “dados disponíveis mediante solicitação” sem justificativa e sem procedimento claro de acesso não atendem ao padrão.

2) Quando os dados são acessíveis publicamente na internet, mas instáveis

Links quebram; páginas mudam; conteúdos são removidos. Isso pode impedir que outras pessoas recuperem exatamente o material analisado. Nesses casos, recomenda-se preservar uma versão datada do corpus no momento da coleta/análise e depositar um pacote com DOI.

  1. Capture uma versão datada do material analisado: quando possível, preserve em formato de arquivamento web (por exemplo: WARC/WACZ). Quando não for viável, use alternativas como HTML completo, PDF/prints e registros de metadados.
  2. Deposite a cópia preservada (ou um “manifesto” completo) em repositório com DOI: o pacote deve incluir, no mínimo:
    • lista completa de URLs;
    • datas (e, se necessário, horários) de acesso;
    • identificação de versões/IDs disponíveis na própria plataforma (quando houver);
    • checksums (por exemplo: SHA-256) para arquivos baixados (quando aplicável);
    • instruções para reconstruir a coleta (scripts e parâmetros, se usados).
  3. No manuscrito, cite a fonte original e a versão preservada: na Declaração, informe (a) as URLs originais e (b) o DOI do pacote preservado.
  4. Se houver impedimento de redistribuição do conteúdo integral: deposite publicamente metadados, manifesto, scripts, critérios e dados derivados, e inclua instruções objetivas de como acessar o conteúdo original legalmente.

3) Conteúdo audiovisual de terceiros (YouTube, podcasts, TV, redes sociais): pacote mínimo obrigatório

Quando o trabalho utiliza materiais audiovisuais de terceiros, mesmo que sejam acessíveis publicamente na internet, nem sempre é possível redistribuir os arquivos integrais (por direitos autorais/termos de uso). Nesses casos, Cad_Lin exige, no mínimo, o depósito em repositório (por exemplo, Zenodo) de um pacote com DOI contendo:

3.1 Metadados do corpus (arquivo obrigatório)

Um arquivo (CSV/TSV/XLSX/JSON) com, para cada item do corpus:

  • título do conteúdo;
  • data de publicação (quando disponível);
  • fonte/veículo/canal/perfil;
  • URL;
  • data de acesso;
  • identificador do item na plataforma (quando houver);
  • observações de versão/edição (quando detectável).

Sugestão de nome: corpus_metadados.csv

3.2 Planilha das unidades/trechos efetivamente analisados (arquivo obrigatório)

Uma planilha (CSV/TSV/XLSX) listando somente os trechos analisados, com localização exata:

  • ID do item (ligando ao arquivo de metadados);
  • identificador do trecho/unidade (se houver);
  • timecodes (início e fim) ou marcador equivalente;
  • transcrição do trecho, se produzida pelos autores e se puder ser compartilhada;
  • variável(is) anotada(s) e codificação(ões) produzidas;
  • notas de decisão (quando houver divergência/ambiguidade).

Sugestão de nome: trechos_analisados.csv

3.3 Anotações/codificações e materiais produzidos (quando existirem)

  • arquivos de anotação (por exemplo, tabelas de codificação, arquivos de ferramenta, scripts);
  • guia de codificação e critérios;
  • logs/versões do procedimento, quando aplicável.

3.4 README do repositório (obrigatório)

Inclua um README.txt ou README.md com:

  • descrição curta do corpus e do recorte usado;
  • como os trechos foram selecionados;
  • como a localização dos trechos deve ser interpretada (timecodes, IDs, etc.);
  • estrutura dos arquivos e definição das colunas;
  • instruções para reproduzir o processamento/extrações (se houver scripts).

Resultado esperado

Mesmo que o vídeo/áudio não seja redistribuído, qualquer pessoa consegue identificar exatamente o que foi analisado e refazer a análise a partir da fonte original, dentro das regras do detentor do conteúdo.

4) O que a Declaração deve conter nesses casos

A seção “Declaração de Disponibilidade de Dados” deve informar objetivamente:

  • o que está disponível (metadados, trechos analisados, códigos, materiais, protocolo);
  • onde e como (repositório + DOI; versão; e, quando aplicável, condições de acesso);
  • o que não está disponível, por quê (tipo de restrição/termos) e como acessar a fonte original legalmente;
  • para fontes web: data(s) de acesso e o DOI do pacote depositado;
  • Licença: quando o pacote estiver aberto, indique a licença de uso do repositório (quando aplicável);
  • Citação de conjunto de dados: quando houver depósito com DOI, cite o conjunto de dados também nas Referências, conforme estilo do periódico.

5) Modelos de texto para a Declaração (para copiar e adaptar)

A) Audiovisual de terceiros (não redistribuível integralmente)

Os metadados do corpus e a planilha com os trechos efetivamente analisados (com timecodes), bem como as codificações e materiais produzidos neste estudo, estão disponíveis em [repositório] via DOI http://doi.org/[doi]. O conteúdo audiovisual integral foi obtido de recursos acessíveis publicamente na internet e permanece hospedado nas plataformas de origem (URLs listadas no pacote). Por restrições de direitos/termos de uso, os arquivos audiovisuais integrais não são redistribuídos no repositório.

B) Fonte web instável (com preservação)

O corpus foi coletado de recursos acessíveis publicamente na internet em [datas]. Para mitigar mudanças e indisponibilidades, foi depositada uma versão preservada do material efetivamente analisado (incluindo lista de URLs e datas de acesso) em [repositório] via DOI http://doi.org/[doi]. As URLs originais são: [listar recursos e URLs].

C) Parte do dado é restrita (com acesso descrito)

Os códigos, materiais e dados derivados necessários para replicar as análises estão disponíveis em [repositório] via DOI http://doi.org/[doi]. Os dados brutos [descrever] não são disponibilizados publicamente devido a [restrição]. O acesso pode ser solicitado a [responsável/instituição], por meio de [procedimento], mediante [condições], com prazo típico de resposta de [prazo]. Quando aplicável, os dados restritos estarão disponíveis para avaliação por pareceristas, sob acordo de uso e dentro dos limites ético-legais.

Cadernos de Linguística apoia o movimento Ciência Aberta

Colabore com a revista.

Envie seu trabalho