Q. 機械判読性の高い表形式データを作成するには、どのようなことに気をつければよいでしょうか?
データを作成する段階から機械判読性に留意しておくと、そのデータをオープンデータとして公開するときの作業を軽減できます。ここでは、一般社団法人デジタル地方創生推進機構が公開している「オープンデータガイド第2.1版」に掲載されている指針に基づいて、留意点を解説します。
「オープンデータガイド第2.1版」では、データの機械判読性を高める指針として、以下の2つのグレードを定めています。
- グレード1
グレード1は、オープンデータが満たすことを強く推奨する指針であり、以下を満たすことを目的としています。- データ形式に関する標準的な規格がある場合は、それに矛盾しないこと。
- データを取得した人が、データ本体の中身を修正したり手を加えたりすることなく、そのデータの本質的内容を正しく解釈するためのプログラムを書けること。
- グレード2
グレード2は、オープンデータが満たすことを推奨する指針であり、以下を満たすことを目的としています。- データを取得したプログラムが、そのデータの項目や構造を正しく解釈できること。
表形式データについては、以下の10種類の指針が掲載されています。
- グレード1
- グレード2
- 指針3: データでない情報を、フィールドに含めないことが望ましい。
- 指針4: 全てのフィールドは、他のフィールドと結合されないことが望ましい。
- 指針5: 値がない場合を除き、フィールドを空白にしない(省略しない)ことが望ましい。
- 指針6: 年の値には、西暦表記を備えることが望ましい。
- 指針7: フィールドの単位が明記されていることが望ましい。
- 指針8: 利用している文字コードを明記することが望ましい。また、国際的に広く利用されている文字コードを利用することが望ましい。
- 指針9: ファイルの属性や説明を表すメタデータが、フォーマルに記述されていることが望ましい。また、そのメタデータからデータセット本体へリンクし、たどれるようにすることが望ましい。
- 指針10: データ本体を、XMLやRDFの形式を使ってフォーマルに記述することが望ましい。
それぞれの指針の詳細については、リンク先にて解説します。