Darwin Core Archivo - Enciclopedia
Darwin Core Archive (DwC-A) es un estándar de datos en informática de biodiversidad que utiliza los términos de Darwin Core para producir un único conjunto de datos autosuficiente para los datos de ocurrencia de especies, listas de verificación, eventos de muestreo o muestras materiales. Esencialmente, es un conjunto de archivos de texto (CSV) con un descriptor simple (meta.xml) para informar a otros sobre cómo están organizados sus archivos. El formato está definido en las Directrices de Texto de Darwin Core. Es el formato preferido para publicar datos en la red GBIF.
Darwin Core
El estándar Darwin Core se ha utilizado para movilizar la gran mayoría de los registros de ocurrencia de especímenes y observaciones dentro de la red GBIF. El estándar Darwin Core se concibió originalmente para facilitar la discovery, retrieval, and integration of information about modern biological specimens, their spatio-temporal occurrence, and their supporting evidence housed in collections (physical or digital).
El Darwin Core hoy en día es de ámbito más amplio. Su objetivo es proporcionar una referencia estándar y estable para compartir información sobre la biodiversidad. Como glosario de términos, el Darwin Core ofrece definiciones semánticas estables con el objetivo de ser altamente reutilizable en una variedad de contextos. Esto significa que el Darwin Core puede seguir siendo utilizado de la misma manera que históricamente se ha utilizado, pero también puede servir como base para construir formatos de intercambio más complejos, asegurando la interoperabilidad a través de un conjunto común de términos.
Formato de archivo
La idea central de un archivo es que sus archivos de datos están organizados lógicamente de manera estrellada, con un archivo de datos central rodeado por cualquier número de 'extensiones'. Cada registro de extensión (o 'fila de archivo de extensión') apunta a un registro en el archivo central; de esta manera, puede existir cero a muchos registros de extensión para cada registro central, un método más eficiente en términos de espacio para la transferencia de datos en comparación con la alternativa de incluir todos los datos dentro de una única tabla que podría contener muchos celdas vacías.
Detalles sobre las extensiones recomendadas se pueden encontrar en sus subsecciones respectivas y se documentarán ampliamente en el registro GBIF, que catalogará todas las extensiones disponibles.
Compartir conjuntos de datos enteros en lugar de utilizar servicios web paginables como DiGIR y TAPIR permite una transferencia de datos mucho más simple y eficiente. Por ejemplo, recuperar 260,000 registros a través de TAPIR toma aproximadamente nueve horas, realizando 1,300 solicitudes HTTP para transferir 500 MB de datos en formato XML. El mismo conjunto de datos, codificado como DwC-A y comprimido, se convierte en un archivo de 3 MB. Por lo tanto, GBIF highly recomienda comprimir un archivo utilizando ZIP o GZIP al generar un DwC-A.
Un archivo requiere identificadores estables para los registros centrales, pero no para las extensiones. Por lo tanto, para cualquier tipo de datos compartidos, es necesario tener algún tipo de identificador local de registro. Es una buena práctica mantener, con los datos originales, identificadores que sean estables en el tiempo y no se vuelvan a utilizar después de que el registro se elimine. Si es posible, por favor proporcione identificadores globales únicos en lugar de identificadores locales.
= Descriptor de archivo =
Por completar.
= Metadatos del conjunto de datos =
Un archivo Darwin Core debe contener un archivo que contenga metadatos que describan todo el conjunto de datos. El Lenguaje de Metadatos Ecológico (EML) es el formato más común para esto, pero también se utilizan archivos Dublin Core simples.
Referencias
Enlaces externos
Guía Rápida de Darwin Core
Estándares de Información sobre Biodiversidad (TDWG)
Facilidad Global de Información sobre Biodiversidad (GBIF)
Informática de biodiversidad