ダーウィンコアアーカイブ - 百科事典

### ダーウィン・コア・アーカイブ (DwC-A)

ダーウィン・コア・アーカイブ(DwC-A)は、種の発生、リスト、採取イベント、試料データなどのための単一、自己完結したデータセットを作成するために、ダーウィン・コアのテームを使用する生物多様性情報学データ標準です。基本的には、テキスト(CSV)ファイルのセットで、シンプルな記述子(meta.xml)を使用して、他の人がファイルの構成方法を理解できるようにします。このフォーマットは、ダーウィン・コアテキストガイドラインで定義されています。GBIFネットワークにデータを公開するための推奨フォーマットです。

ダーウィン・コア

ダーウィン・コア標準は、GBIFネットワーク内のほとんどの標本発生および観察記録を活用するために使用されています。ダーウィン・コア標準は、もともと現代の生物標本、その空間時間的な発生、および収蔵(物理的またはデジタル)に保存されているサポート証拠に関する情報の発見、取得、統合を促進するために考えられました。今日のダーウィン・コアは範囲が広がっています。生物多様性に関する情報を共有するための安定した標準的な参照を提供することを目指しています。用語集として、ダーウィン・コアは多様な文脈で最大限に再利用可能な安定した意味論的定義を提供することを目的としています。これは、ダーウィン・コアが歴史的に使用されてきたと同じ方法で使用されることもありますが、より複雑な交換フォーマットを構築する基盤としても使用されることがあります。これにより、一般的な用語セットを通じて互換性を確保できます。

アーカイブフォーマット

アーカイブの中心となるアイデアは、データファイルが星のようになることであり、1つの主要データファイルが多くの「拡張子」に囲まれています。各拡張子レコード(または「拡張子ファイル行」)は、主要ファイルのレコードを指し示します。このようにして、1つの主要レコードに対して0から多くの拡張子レコードが存在し、空のセルが多く含まれる単一のテーブル内にすべてのデータを含めるオプションよりもスペース効率の高いデータ転送方法です。

推奨拡張子に関する詳細は、それぞれのサブセクションで見つかり、GBIFレジストリで広範に文書化されます。これは、すべての利用可能な拡張子をカタログ化します。

DiGIRやTAPIRなどのページ化可能なウェブサービスを使用せずに全体のデータセットを共有することで、非常にシンプルで効率的なデータ転送が可能です。例えば、TAPIRを通じて260,000件のレコードを取得するには約9時間かかり、500 MBのXML形式のデータを転送するために1,300のHTTPリクエストが発行されます。同じデータセットをDwC-Aとしてエンコードし、圧縮すると3 MBのファイルになります。したがって、GBIFはDwC-Aを生成する際にアーカイブをZIPやGZIPで圧縮することを強く推奨します。

アーカイブは主要レコードに対して安定した識別子が必要ですが、拡張子に対しては必要ありません。したがって、どんな種類の共有データに対しても、ある種のローカルレコード識別子が必要です。元のデータとともに、記録が削除された後に再利用されないように、時間が経っても安定した識別子を維持することが良い慣習です。可能であれば、ローカル識別子ではなく、グローバルユニークな識別子を提供してください。

= アーカイブ記述子 =
未完成。

= データセットメタデータ =
ダーウィン・コア・アーカイブには、全体のデータセットを説明するメタデータを含むファイルが含まれています。最も一般的なフォーマットは生態学的メタデータ言語(EML)ですが、シンプルなDublin Coreファイルも使用されています。

参考文献
未記載。

外部リンク
ダーウィン・コア・クイック・リファレンス・ガイド
生物多様性情報規格(TDWG)
全球生物多様性情報施設(GBIF)
生物多様性情報学