O campo Formato é usado para indicar o tipo de mídia ou formato de arquivo em que os dados são disponibilizados em catálogos de dados públicos no Brasil. Este vocabulário controlado baseia-se nas especificações RFC6838 e RFC4855 da IETF, utilizando os Media Types registrados pela IANA (Internet Assigned Numbers Authority).
Este documento descreve o vocabulário controlado para o campo Formato mantido pelo Grupo de Trabalho DCAT-BR. Comentários e propostas de alteração devem ser enviados por meio do repositório público indicado na seção de governança.
O campo Formato é uma propriedade essencial no perfil DCAT-BR para descrever o tipo de mídia
ou formato de arquivo em que uma distribuição de dados está disponível. Este campo utiliza a
propriedade dct:format do vocabulário Dublin Core Terms e deve referenciar um
conceito do registro de Media Types da IANA.
A IANA mantém o registro oficial de Media Types (também conhecidos como MIME types), que são identificadores padronizados para formatos de conteúdo na Internet. O uso deste vocabulário garante interoperabilidade e facilita a descoberta de dados por formato.
Além do vocabulário principal, este documento também fornece classificações de qualidade dos formatos, identificando quais são legíveis por máquina e quais são não proprietários, conforme as diretrizes do DCAT-BR. Essas classificações auxiliam na seleção de formatos que promovem maior acessibilidade e interoperabilidade dos dados públicos.
Selo de Conformidade: Bronze
Base: RFC6838 e
RFC4855
URI Base: https://www.iana.org/assignments/media-types/media-types.xhtml
O vocabulário SKOS inclui os seguintes formatos baseados em IANA Media Types, selecionados para uso em catálogos de dados públicos no Brasil:
| Media Type | Notação | Descrição | Documentação |
|---|---|---|---|
application/x-7z-compressed |
7z | Formato de compressão 7z. Arquivo compactado usando o algoritmo de compressão 7z. | IANA |
application/json |
json, api, odata | JavaScript Object Notation. Formato de dados estruturados baseado em texto, amplamente utilizado em APIs web e serviços REST/OData. | IANA | RFC 8259 |
text/csv |
csv | Valores separados por vírgula (Comma-Separated Values). Formato tabular amplamente utilizado para dados estruturados. | IANA | RFC 4180 |
application/msword |
doc | Microsoft Word (formato binário legado). Documentos do Word na versão .doc. | IANA |
application/vnd.openxmlformats-officedocument.wordprocessingml.document |
docx | Microsoft Word (OpenXML). Documentos do Word na versão .docx (formato XML aberto). | IANA |
application/gzip |
gz | GNU Zip. Formato de compressão gzip amplamente utilizado em sistemas Unix/Linux. | IANA | RFC 1952 |
text/html |
html | HyperText Markup Language. Formato padrão para páginas web e documentos HTML. | IANA | HTML Spec |
image/jpeg |
jpeg | Joint Photographic Experts Group. Formato de imagem raster com compressão com perdas. | IANA | ISO/IEC 10918 |
application/pdf |
Portable Document Format. Formato de documento portátil amplamente utilizado para documentos oficiais. | IANA | ISO 32000 | |
image/png |
png | Portable Network Graphics. Formato de imagem raster com suporte a transparência. | IANA | W3C PNG |
application/x-rar-compressed |
rar | RAR Archive. Formato de compressão RAR desenvolvido por Eugene Roshal. | IANA |
application/rdf+xml |
rdf | Resource Description Framework em XML. Formato RDF serializado em XML. | IANA | RDF/XML Syntax |
text/plain |
txt | Texto plano. Formato de texto sem formatação ou marcação. | IANA | RFC 2046 |
application/wsdl+xml |
wsdl | Web Services Description Language. Formato XML para descrever serviços web. | IANA | W3C WSDL 2.0 |
application/vnd.ms-excel |
xls | Microsoft Excel (formato binário legado). Planilhas do Excel na versão .xls. | IANA |
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
xlsx | Microsoft Excel (OpenXML). Planilhas do Excel na versão .xlsx (formato XML aberto). | IANA |
application/xml |
xml | Extensible Markup Language. Formato de marcação para documentos e dados estruturados. | IANA | W3C XML |
application/zip |
zip | Arquivo ZIP comprimido. Formato de compressão de arquivos amplamente utilizado. | IANA | ZIP Format |
Este vocabulário SKOS está disponível nos formatos Turtle, RDF/XML e JSON-LD (consulte a seção Formatos Disponíveis). Para uma lista completa de Media Types registrados pela IANA, consulte o registro oficial da IANA.
Formatos legíveis por máquina são aqueles que podem ser processados automaticamente por sistemas computacionais sem necessidade de interpretação humana. Segundo as diretrizes do DCAT-BR, os seguintes formatos são considerados legíveis por máquina:
text/csv - Valores separados por vírgulaapplication/json - JavaScript Object Notationapplication/rdf+xml - Resource Description Framework em XMLapplication/vnd.ms-excel - Microsoft Excel (formato binário legado .xls)application/vnd.openxmlformats-officedocument.spreadsheetml.sheet - Microsoft Excel (OpenXML .xlsx)application/xml - Extensible Markup Language
A classificação de formatos como legíveis por máquina está disponível no arquivo RDF/XML
machine_readable_formats.rdf, que utiliza a
propriedade fmtq:isMachineReadable do vocabulário de formatos do DCAT-BR.
Formatos não proprietários são aqueles baseados em especificações abertas e padronizadas, que não dependem de tecnologias proprietárias ou controladas por uma única organização. Segundo as diretrizes do DCAT-BR, os seguintes formatos são considerados não proprietários:
text/csv - Valores separados por vírgulatext/html - HyperText Markup Languageapplication/json - JavaScript Object Notationimage/png - Portable Network Graphicstext/plain - Texto planoapplication/rdf+xml - Resource Description Framework em XMLapplication/xml - Extensible Markup Languageapplication/pdf - Portable Document Formatapplication/zip - Arquivo ZIP comprimido
A classificação de formatos como não proprietários está disponível no arquivo RDF/XML
non_proprietary_formats.rdf, que utiliza a
propriedade fmtq:isNonProprietary do vocabulário de formatos do DCAT-BR.
Nota: A preferência por formatos não proprietários e legíveis por máquina é uma recomendação do DCAT-BR para facilitar o acesso, reutilização e interoperabilidade dos dados públicos.
O vocabulário está disponível nos seguintes formatos RDF:
| Formato | Descrição | Links |
|---|---|---|
| Turtle (TTL) | Formato RDF em sintaxe Turtle, ideal para leitura humana e edição. | Baixar | Visualizar |
| RDF/XML | Formato RDF em XML, amplamente suportado por ferramentas RDF. | Baixar | Visualizar |
| JSON-LD | Formato JSON-LD para integração com aplicações web modernas. | Baixar | Visualizar |
Além do vocabulário principal, estão disponíveis arquivos RDF/XML com classificações de qualidade dos formatos:
| Arquivo | Descrição | Links |
|---|---|---|
| machine_readable_formats.rdf | Lista de formatos classificados como legíveis por máquina segundo as diretrizes do DCAT-BR. | Baixar | Visualizar |
| non_proprietary_formats.rdf | Lista de formatos classificados como não proprietários segundo as diretrizes do DCAT-BR. | Baixar | Visualizar |
Abaixo está um exemplo de como usar o campo Formato em uma distribuição DCAT-BR:
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .
<https://exemplo.gov.br/dataset/1/distribution/1>
a dcat:Distribution ;
dct:title "Dados em CSV"@pt-BR ;
dct:format <https://www.iana.org/assignments/media-types/text/csv> ;
dcat:downloadURL <https://exemplo.gov.br/dados.csv> .
fmtq:isMachineReadable e fmtq:isNonProprietary para classificação de formatos segundo as diretrizes do DCAT-BR.