O Vocabulário Controlado para Linguagem (VCR-LN) é usado para indicar a linguagem de uma distribuição de dados em catálogos de dados públicos no Brasil. Este vocabulário controlado baseia-se no padrão ISO 639-1 mantido pela Library of Congress e utiliza códigos de duas letras para representar nomes de linguagens, garantindo interoperabilidade internacional na descrição de dados.
Este documento descreve o vocabulário controlado para Linguagem (VCR-LN) mantido pelo Grupo de Trabalho DCAT-BR. Comentários e propostas de alteração devem ser enviados por meio do repositório público indicado na seção de governança.
O campo Linguagem é uma propriedade essencial no perfil DCAT-BR para descrever a linguagem
de uma distribuição de dados. Este campo utiliza a propriedade dct:language do
vocabulário Dublin Core Terms e deve referenciar um código de linguagem conforme o padrão
ISO 639-1.
O padrão ISO 639-1 fornece códigos de duas letras (minúsculas) para representar nomes de linguagens. Este vocabulário contém aproximadamente 180 códigos de linguagens e é amplamente utilizado em sistemas de catalogação e metadados em todo o mundo.
O vocabulário VCR-LN utiliza diretamente o vocabulário SKOS do ISO 639-1 mantido pela Library of Congress, garantindo compatibilidade total com padrões internacionais e facilitando a interoperabilidade entre sistemas de catálogos de dados.
Selo de Conformidade: Ouro
Base: ISO 639-1 - Library of Congress
URI Base: http://id.loc.gov/vocabulary/iso639-1
O vocabulário está disponível nos formatos Turtle, RDF/XML e JSON-LD (consulte a seção Formatos Disponíveis).
O campo Linguagem deve referenciar códigos de linguagem do padrão ISO 639-1. Os valores devem ser expressos como URIs que identificam a linguagem específica. Alguns exemplos comuns de linguagens utilizadas em dados brasileiros incluem:
| Código ISO 639-1 | Nome da Linguagem | URI |
|---|---|---|
pt |
Português | http://id.loc.gov/vocabulary/iso639-1/pt |
en |
Inglês | http://id.loc.gov/vocabulary/iso639-1/en |
es |
Espanhol | http://id.loc.gov/vocabulary/iso639-1/es |
fr |
Francês | http://id.loc.gov/vocabulary/iso639-1/fr |
de |
Alemão | http://id.loc.gov/vocabulary/iso639-1/de |
it |
Italiano | http://id.loc.gov/vocabulary/iso639-1/it |
ja |
Japonês | http://id.loc.gov/vocabulary/iso639-1/ja |
zh |
Chinês | http://id.loc.gov/vocabulary/iso639-1/zh |
Para uma lista completa de todas as linguagens ISO 639-1, consulte o
vocabulário oficial da Library of Congress.
Cada linguagem possui um código único de duas letras e uma URI correspondente que deve ser
utilizada no campo dct:language.
O vocabulário está disponível nos seguintes formatos RDF:
| Formato | Descrição | Links |
|---|---|---|
| Turtle (TTL) | Formato RDF em sintaxe Turtle, ideal para leitura humana e edição. | Baixar | Visualizar |
| RDF/XML | Formato RDF em XML, amplamente suportado por ferramentas RDF. | Library of Congress |
| JSON-LD | Formato JSON-LD para integração com aplicações web modernas. | Library of Congress |
Abaixo está um exemplo de como usar o campo Linguagem em uma distribuição DCAT-BR:
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .
<https://exemplo.gov.br/dataset/1/distribution/1>
a dcat:Distribution ;
dct:title "Dados em CSV"@pt-BR ;
dct:language <http://id.loc.gov/vocabulary/iso639-1/pt> ;
dcat:downloadURL <https://exemplo.gov.br/dados.csv> .
Alternativamente, pode-se usar o código ISO 639-1 diretamente como literal:
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .
<https://exemplo.gov.br/dataset/1/distribution/2>
a dcat:Distribution ;
dct:title "Data in CSV"@en ;
dct:language "en" ;
dcat:downloadURL <https://exemplo.gov.br/data.csv> .