Как опубликовать свои данные на портале GBIF.org

Все данные в GBIF публикуются только от лица организаций, поэтому прежде всего необходимо получить согласие вашего руководителя на публикацию данных. 

Для регистрации новой организации нужно заполнить регистрационную формув которой указывается информация об организации, административные и технические контакты. Все поля заполняются на английском языке. Заявка рассматривается Секретариатом, после чего организация одобряется участниками GBIF. Как правило, это занимает 1–2 недели. Для каждой организации на портале автоматически создается отдельная веб-страница, где размещается информация о ней и об опубликованных наборах данных. Все данные об организации вносятся на основе информации регистрационной формы, изменить их можно, связавшись с Секретариатом через helpdesk@gbif.org. 

В настоящее время GBIF поддерживает публикацию данных, содержащих описания коллекций или тематических электронных ресурсов, таксономические сводки, данные о находках видов (коллекционных образцах), а также результаты площадных и маршрутных учетов и данные мониторинга. Одна электронная публикация в GBIF это публикация одного набора данных (data set), т.е. тематически связанного блока информации. Никаких ограничений на объем публикуемых данных нет, один data set может включать как 10, так и 10 000 записей, или же содержать только описание данных, если они еще не оцифрованы.

Метаданные (Meta Data Only), или «данные о данных», предполагают только описание набора данных без предоставления исходных сведений. Публикация метаданных позволяет объявить о существовании того или иного массива данных и сделать его потенциально доступным для научного сообщества. Например, таким способом можно опубликовать описание коллекции, не имеющей электронного каталога, описать узкоспециализированный тематический ресурс, к которому сложно применить стандарты GBIF, или ресурс, данные которого раскрывать неправомерно, но информация о нем является ценной для специалистов. В первую очередь, это касается сводок о распространении редких и охраняемых видов, а также видов, представители которых имеют коммерческую ценность и могут легко стать объектом браконьерства.

Список видов (Checklist Data) предполагает публикацию таксономического списка. Поскольку не все образцы могут быть определены с точностью до вида, то помимо названия таксона указывается его ранг. Можно включать другую дополнительную информацию, например, синонимы, названия видов на национальных языках и др.

Данные об отдельных находках (Occurrence Data)  содержат информацию о нахождении того или иного вида в определенном месте в определенное время, т.е. предполагают наличие сведений о дате находки и географической привязке места нахождения вида (или сбора образца). Occurrence Data могут быть как непосредственно данными о полевых находках (включая отдельные наблюдения, полученные с помощью автоматических фото- и видеорегистраторов), так данными, описывающими коллекционные образцы, материалы летописей природы, литературными данными о находках видов, данными тематических ресурсов и т.д.

Данные обследований на пробных площадях и мониторинга (Sampling Event Data) позволяют мобилизовать данные, собранные в результате площадных и маршрутных учетов или мониторинговых исследований в виде методологически связанных блоков информации. Кроме информации об отдельных находках, в таких наборах данных приводятся сведения, относящиеся сразу ко многим находкам, например, это могут быть данные о характеристиках сообщества или методы проведения исследований. Также можно описать обилие какого-либо вида на различных участках или его динамику в течение определенного периода времени. Такие данные собираются с применением тех или иных стандартных методов учетов, сборов или наблюдений. Методы сбора данных кратко описываются в соответствующих полях таблицы с исходными данными. Объем проделанных работ можно оценить, указав способ сбора данных (samplingProtocol), площади учета или протяженность маршрутов (sampleSizeValue и sampleSizeUnit), а также, при необходимости, объем или длительность наблюдений (sampling Effort). В метаданных следует приводить подробное описание методов сбора.

Стандартизация набора данных. Система обмена информацией в GBIF построена на открытых стандартах, центральный из которых - Darwin Core (DwC), стандарт, разработанный специально для хранения данных по биоразнообразию. В данном случае стандарт - это набор терминов (названия столбцов в таблице с вашими данными) и правила их заполнения. 

Для публикации в GBIF данные необходимо представить в виде электронной таблицы MS Excel или файла CSV, в которых содержание и заголовки полей (столбцов) соответствуют терминам DwC. При подготовке Checklist Data одной записи (строке) в таблице должен соответствовать один таксон, для Occurrence Data – одна находка (одновидовой коллекционный образец). В случае Sampling Event Data необходимо подготовить две таблицы: первая (Sampling Events) содержит описание проб или пробных площадей (одна запись соответствует одной пробной площади, маршруту и т.д.), методов и объемов сборов, а вторая (Associated Occurrences) – список таксонов, обнаруженных на каждой пробной площади и их характеристики (одна запись соответствует одной находке). Метаданные набора данных приводятся в отдельном текстовом файле.

При этом исходные данные могут храниться в неизменном виде, экспорт / форматирование в соответствии с DwC нужны лишь для публикации на портале GBIF.org. Если же речь идёт о разработке новой тематической или региональной информационной системы, то мы рекомендуем использовать стандарты DwC, что серьёзно сэкономит время разработки и в дальнейшем существенно повысит совместимость данных.

Через веб-сервис github.com для каждого типа наборов данных доступны шаблоны, которые представляют собой электронные таблицы, содержащие DwC-заголовки полей и примеры их заполнения. Выделены обязательные и рекомендуемые к заполнению поля; приводятся примеры для разных объектов. Также в шаблонах содержатся краткие инструкции по подготовке данных. 

Непосредственно процедура публикации данных через GBIF.org осуществляется с помощью специального программного обеспечения IPT, написанного на языке Java и функционирующего как серверное приложение с визуальным интерфейсом, доступным через браузер. IPT работает под управлением веб-сервера Apache и службы веб-приложений TomCat 7. Изначально IPT имеет англоязычный интерфейс, начиная с версии 2.3.3, вышедшей в начале 2017 г., доступна русскоязычная версия. Все опубликованные данные хранятся непосредственно на сервере с установленным IPT, на глобальном портале размещаются только метаданные.

Вы можете установить IPT на собственном сервере, или получить учетную запись в одном из существующих IPT, связавшись с ее администратором. В любом случает публикующая организация будет отображаться. Опубликованные данные в любое время можно будет обновить или отозвать.

Российские IPT-инсталляции для публикации данных на портале GBIF.org. 

Институт математических проблем биологии - филиал ИПМ им. М.В. Келдыша РАН, Пущино. 

Администратор IPT ИМПБ РАН Максим Шашков (Max.carabus@gmail.com).

Институт растениеводства им. Н.И. Вавилова, г. Санкт-Петербург

Администратор Игорь Лоскутов (i.loskutov@vir.nw.ru)

Зоологический институт, г. Санкт-Петербург

Администратор Роман Халиков (Roman.Khalikov@zin.ru)

Институт биологии Коми научного центра, г. Сыктывкар

Администратор Иван Чадин (chadin@ib.komisc.ru)

Московский государственный университет, г. Москва

Администратор В. Скулачев (kskul@mitotech.ru)

Для публикации необходимо загрузить в IPT электронную таблицу с данными, проверить их на соответствие DwC и разместить метаданные. После окончания технической части публикации (нажатия кнопки Publish) набор данных индексируется в глобальной системе и в течение нескольких часов становится доступным через портал GBIF.org.