Resumo

O campo Formato é usado para indicar o tipo de mídia ou formato de arquivo em que os dados são disponibilizados em catálogos de dados públicos no Brasil. Este vocabulário controlado baseia-se nas especificações RFC6838 e RFC4855 da IETF, utilizando os Media Types registrados pela IANA (Internet Assigned Numbers Authority).

Status deste documento

Este documento descreve o vocabulário controlado para o campo Formato mantido pelo Grupo de Trabalho DCAT-BR. Comentários e propostas de alteração devem ser enviados por meio do repositório público indicado na seção de governança.

Introdução

O campo Formato é uma propriedade essencial no perfil DCAT-BR para descrever o tipo de mídia ou formato de arquivo em que uma distribuição de dados está disponível. Este campo utiliza a propriedade dct:format do vocabulário Dublin Core Terms e deve referenciar um conceito do registro de Media Types da IANA.

A IANA mantém o registro oficial de Media Types (também conhecidos como MIME types), que são identificadores padronizados para formatos de conteúdo na Internet. O uso deste vocabulário garante interoperabilidade e facilita a descoberta de dados por formato.

Além do vocabulário principal, este documento também fornece classificações de qualidade dos formatos, identificando quais são legíveis por máquina e quais são não proprietários, conforme as diretrizes do DCAT-BR. Essas classificações auxiliam na seleção de formatos que promovem maior acessibilidade e interoperabilidade dos dados públicos.

Selo de Conformidade: Bronze
Base: RFC6838 e RFC4855
URI Base: https://www.iana.org/assignments/media-types/media-types.xhtml

Termos do Vocabulário

O vocabulário SKOS inclui os seguintes formatos baseados em IANA Media Types, selecionados para uso em catálogos de dados públicos no Brasil:

Media Type Notação Descrição Documentação
application/x-7z-compressed 7z Formato de compressão 7z. Arquivo compactado usando o algoritmo de compressão 7z. IANA
application/json json, api, odata JavaScript Object Notation. Formato de dados estruturados baseado em texto, amplamente utilizado em APIs web e serviços REST/OData. IANA | RFC 8259
text/csv csv Valores separados por vírgula (Comma-Separated Values). Formato tabular amplamente utilizado para dados estruturados. IANA | RFC 4180
application/msword doc Microsoft Word (formato binário legado). Documentos do Word na versão .doc. IANA
application/vnd.openxmlformats-officedocument.wordprocessingml.document docx Microsoft Word (OpenXML). Documentos do Word na versão .docx (formato XML aberto). IANA
application/gzip gz GNU Zip. Formato de compressão gzip amplamente utilizado em sistemas Unix/Linux. IANA | RFC 1952
text/html html HyperText Markup Language. Formato padrão para páginas web e documentos HTML. IANA | HTML Spec
image/jpeg jpeg Joint Photographic Experts Group. Formato de imagem raster com compressão com perdas. IANA | ISO/IEC 10918
application/pdf pdf Portable Document Format. Formato de documento portátil amplamente utilizado para documentos oficiais. IANA | ISO 32000
image/png png Portable Network Graphics. Formato de imagem raster com suporte a transparência. IANA | W3C PNG
application/x-rar-compressed rar RAR Archive. Formato de compressão RAR desenvolvido por Eugene Roshal. IANA
application/rdf+xml rdf Resource Description Framework em XML. Formato RDF serializado em XML. IANA | RDF/XML Syntax
text/plain txt Texto plano. Formato de texto sem formatação ou marcação. IANA | RFC 2046
application/wsdl+xml wsdl Web Services Description Language. Formato XML para descrever serviços web. IANA | W3C WSDL 2.0
application/vnd.ms-excel xls Microsoft Excel (formato binário legado). Planilhas do Excel na versão .xls. IANA
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet xlsx Microsoft Excel (OpenXML). Planilhas do Excel na versão .xlsx (formato XML aberto). IANA
application/xml xml Extensible Markup Language. Formato de marcação para documentos e dados estruturados. IANA | W3C XML
application/zip zip Arquivo ZIP comprimido. Formato de compressão de arquivos amplamente utilizado. IANA | ZIP Format

Este vocabulário SKOS está disponível nos formatos Turtle, RDF/XML e JSON-LD (consulte a seção Formatos Disponíveis). Para uma lista completa de Media Types registrados pela IANA, consulte o registro oficial da IANA.

Formatos Legíveis por Máquina

Formatos legíveis por máquina são aqueles que podem ser processados automaticamente por sistemas computacionais sem necessidade de interpretação humana. Segundo as diretrizes do DCAT-BR, os seguintes formatos são considerados legíveis por máquina:

A classificação de formatos como legíveis por máquina está disponível no arquivo RDF/XML machine_readable_formats.rdf, que utiliza a propriedade fmtq:isMachineReadable do vocabulário de formatos do DCAT-BR.

Formatos Não Proprietários

Formatos não proprietários são aqueles baseados em especificações abertas e padronizadas, que não dependem de tecnologias proprietárias ou controladas por uma única organização. Segundo as diretrizes do DCAT-BR, os seguintes formatos são considerados não proprietários:

A classificação de formatos como não proprietários está disponível no arquivo RDF/XML non_proprietary_formats.rdf, que utiliza a propriedade fmtq:isNonProprietary do vocabulário de formatos do DCAT-BR.

Nota: A preferência por formatos não proprietários e legíveis por máquina é uma recomendação do DCAT-BR para facilitar o acesso, reutilização e interoperabilidade dos dados públicos.

Formatos Disponíveis

O vocabulário está disponível nos seguintes formatos RDF:

Formato Descrição Links
Turtle (TTL) Formato RDF em sintaxe Turtle, ideal para leitura humana e edição. Baixar | Visualizar
RDF/XML Formato RDF em XML, amplamente suportado por ferramentas RDF. Baixar | Visualizar
JSON-LD Formato JSON-LD para integração com aplicações web modernas. Baixar | Visualizar

Arquivos de Classificação de Qualidade

Além do vocabulário principal, estão disponíveis arquivos RDF/XML com classificações de qualidade dos formatos:

Arquivo Descrição Links
machine_readable_formats.rdf Lista de formatos classificados como legíveis por máquina segundo as diretrizes do DCAT-BR. Baixar | Visualizar
non_proprietary_formats.rdf Lista de formatos classificados como não proprietários segundo as diretrizes do DCAT-BR. Baixar | Visualizar

Exemplo de Uso

Abaixo está um exemplo de como usar o campo Formato em uma distribuição DCAT-BR:

@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .

<https://exemplo.gov.br/dataset/1/distribution/1>
    a dcat:Distribution ;
    dct:title "Dados em CSV"@pt-BR ;
    dct:format <https://www.iana.org/assignments/media-types/text/csv> ;
    dcat:downloadURL <https://exemplo.gov.br/dados.csv> .
    

Referências

RFC6838
Media Type Specifications and Registration Procedures
RFC4855
Media Type Registration of RDF
IANA Media Types
Registro oficial de Media Types mantido pela IANA
DCAT 3.0
Data Catalog Vocabulary (DCAT) - Version 3.0
Vocabulário de Qualidade de Formatos
Vocabulário RDF que define as propriedades fmtq:isMachineReadable e fmtq:isNonProprietary para classificação de formatos segundo as diretrizes do DCAT-BR.