Статьи о данных. Причины появления. Принципы подготовки рукописи и набора данных к публикации в журнале

Иван Чадин

Институт биологии Коми НЦ УрО РАН, Сыктывкар

 

Введение


Оцифровка и открытая публикация значительного объема стандартизированных данных о находках биологических видов и численности их популяций в сети Интернет может дать серьезный толчок в развитии классических направлений исследований в области биологического разнообразия и экологии (White et al., 2015; Seidl 2017; LaDeau  et al., 2017; Bled, Nichols, и Altwegg 2013; Tang  et al., 2016; Soranno and Schimel 2014; Peters  et al., 2014; Hampton  et al., 2013).
Несмотря на то, что принципиальная возможность предоставления доступа к большим данным появилась только как результат развития технических систем, ключевой фигурой, оказывающей решающее воздействие на объем и качество опубликованных данных в области биологического разнообразия и экологии, остается исследователь.
Как указано в работе «The Tragedy of the Biodiversity Data Commons: A Data Impediment Creeping Nigher?» (Escribano et al., 2018): «Публикация наборов данных – это трудоемкий процесс, который часто рассматривается как факультативный, а не обязательный этап исследовательского проекта. Обеспечение доступа к данным приносит значительную пользу научному сообществу и обществу в целом: позволяет выполнять новые исследования, обеспечивает требования верифицируемости и воспроизводимости в науке, может служить основой для принятия управленческих и проектных решений. Тем не менее, легкость доступа к большим данным создает у пользователей отношение к ним как к «бесплатному обеду для всех». Работа людей и организаций, обеспечивающих публикацию первичных данных в значительной степени остается незамеченной. Признание значительных усилий, связанных с созданием, управлением и публикацией наборов данных, по-прежнему остается непрочной, не вполне устоявшейся практикой в научном сообществе. Отсутствие норм, позволяющих авторам наборов данных получить признание, соответствующее их вкладу в науку может привести к сокращению числа качественных наборов данных, свободно доступных в сети Интернет».
С другой стороны, процесс публикации наборов данных принципиально создан таким образом, чтобы максимально упростить этот процесс для авторов оцифровываемых биологических коллекций, полевых сборов и наблюдений. Наборы данных не подлежат рецензированию квалифицированными коллегами авторов публикуемого набора данных перед публикацией их в GBIF. Даже самое ответственное отношение авторов к подготовке данных к публикации в сочетании с программными алгоритмами GBIF, выполняющим проверку наборов данных в автоматическом режиме, не гарантирует избегания случайных или систематических ошибок, которые могли бы быть устранены в процессе рецензирования (Beck et al., 2014; Maldonado et al., 2015).
Одним из признанных в настоящее время решений двух описанных выше проблем (обеспечения признания результатов труда автора опубликованных данных и обеспечение независимой проверки набора данных квалифицированными специалистами) является концепция «Статьи о данных» (Data paper), которая впервые была описана в редакционной статье в журнале «The International Journal of Robotics Research» (Newman and Corke, 2009).
Через короткий промежуток времени концепция статьи о данных была предложена для исследований в области биологического разнообразия. Согласно работе «The data paper: a mechanism to incentivize data publishing in biodiversity science» (Chavan and Penev, 2011), статья о данных – это особый вид публикации в рецензируемых научных журналах, основной целью которой является описание набора (наборов) данных, но не описание результатов исследований. В отличие от классической научной статьи она содержит факты о данных, но не о гипотезах и результатах их проверки, которые были получены с использованием этих данных. Процесс подготовки и публикации статьи о данных также включает в себя важнейшую процедуру – проверку качества опубликованного набора данных и его описания. Эта проверка состоит из двух этапов: технической – когда набор данных проверяется специалистами в области информационных технологий и рецензирование текста статьи и набора данных квалифицированными специалистами по соответствующей группе живых организмов.
Такие публикации дают возможность научному сообществу ссылаться в привычной форме на работу коллег, обеспечивают структурированное, пригодное для чтения описание данных и свидетельствуют об определенном уровне качества опубликованного набора данных. В настоящее время такие статьи публикуются в нескольких десятках научных журналов, в т.ч. индексированных в реферативных базах данных публикаций (116 журналов 15 издательств упомянуто в обзоре Candela et al., 2015). Для публикации статей о данных в области биологического разнообразия издательство Pensoft учредило специальный журнал Biodiversity Data Journal (BDJ, https://bdj.pensoft.net), который по состоянию на 2019 год входит базы данных Scopus (второй квартиль по данным Scimago Journal & Country Rank: https://www.scimagojr.com/journalsearch.php?q=21100808899&tip=sid&clean=0) и Web of Knowledge (Web of Science Core Collection, третий квартиль).

Подготовка и публикация статьи о данных

Правила для авторов журнала BDJ детально описывают требования к форме публикации данных и тексту статьи (https://bdj.pensoft.net/about#Forauthors). Важным достоинством журнала является публикация внятных требований к обеспечению уровня новизны набора данных, который редколлегия будет считать значимым для принятия к публикации статьи о данных (цитата):
«Статьи и связанные с ними данные должны иметь достаточный уровень новизны и служить основой для лучшего понимания темы статьи. Ниже приведены примеры, которые могут помочь вам определить подходит ли ваша рукопись для публикации в BDJ:

Пример 1. Записи о находках одного вида (например, новые находки для страны или региона) НЕ РАССМАТРИВАЮТСЯ для публикации в BDJ, за исключением случаев, когда они содержат данные о детальные исследованиях и новую информацию о морфологии, геномике, биологии, экологии, распространении данного вида (см также Примеры 2 и 3 ниже).

Пример 2. Наблюдения за единственным видом должны быть ЗНАЧИМЫМИ либо по причине важности данного вида (лекарственный / ядовитый вид, инвазионный вид, вид под угрозой исчезновения, карантинный вид и т. п.), либо, если эти данные значительно расширяют известный ареал обитания вида, представляют собой неожиданные результаты в области биогеографии или представляются значимыми по другой причине. Дополнительным аргументом для принятия статьи к рассмотрению является наличие изображений и мультимедийных файлов, привязанных к любым новым экологическим/этологическим данным, если до этого по данному виду не были опубликованы схожие материалы и если эти материалы были получены авторами самостоятельно, а не являются простым повтором или компиляцией ранее опубликованных материалов.

Пример 3. Сведения о находках множества видов могут быть рассмотрены для публикации в журнале, если они значительно увеличивают пространственный и (или) временной охват, или демонстрируют сведения о новых местообитаниях, или являются записями о новых находках нескольких видов на уровне отдельной страны или региона страны, или относятся к видам, имеющим большое значение для экосистем или человека, или относятся к малоизученным видам. Данные о находках не будут считаться новыми и подходящими для публикации, если они перечисляют новые находки известных (банальных) для хорошо изученных регионов таксонов.

Пример 4. Локальный список видов считается новым, если он включает новые данные для региона. Локальный список видов НЕ СЧИТАЕТСЯ новым, если он содержит записи, которые подтверждают и повторяют ранее выполненные работы и приводят виды для хорошо изученных регионов» (https://bdj.pensoft.net/about#Criteriaforpublication).

Перед началом работы над статьей необходимо обратить особое внимание на лицензию, которую автор может присвоить своему набору данных. Если политика GBIF позволяет публиковать данные с лицензиями, которые, например, ограничивают право на коммерческое использование данных (CC-BY-NC), то PensoftPublishers в отличии от GBIF не позволяет использовать лицензии, ограничивающие право на коммерческое использование накладывающие подобные ограничения данных. Кроме того, GBIF не накладывает никаких ограничений на объем, географический и временной охват публикуемых данных, в то время как издатель статей о данных оставляет за собой право принимать к публикации рукописи, только содержащие «значимый для науки» набор данных (смотри приведенную выше цитату с сайта BDJ).
Подготовку рукописи статьи целесообразно начинать с заполнения всех полей метаданных, которые доступны в IPT. Текст метаданных должен соответствовать общепринятому стилю изложения научной информации на английском языке.
После публикации первой версии набора данных через GBIF.org, на странице набора данных в используемой IPT-инсталляции будет доступен для скачивания текстовый файл в формате RTF, представляющий собой черновик рукописи статьи, оформленной в соответствии с правилами для авторов PensoftPublishers. Этот текст необходимо дополнить иллюстрациями и ссылками на литературные источники. Вероятнее всего, в процессе подготовки рукописи потребуется несколько раз вносить уточнения, как в метаданные, так и в сами публикуемые данные. Интерфейс IPT предоставляет удобную возможность публиковать новые версии набора данных и метаданных с сохранением истории изменений.
Важнейший этап подготовки рукописи статьи о данных – это проверка качества опубликованного вами набора данных. На сайте журнал BDJ есть превосходное руководство по процедуре проверки качества набора данных, перевод которого мы приведем ниже (https://bdj.pensoft.net/about#DataQualityChecklistandRecommendations).
«Под «ошибками» здесь мы не подразумеваем ошибки в описании фактов, хотя их, безусловно, тоже следует избегать. Вы можете подготовить набор данных, в котором не будет содержаться фактических ошибок, но данные при этом будут окажутся низкого качества, так как они были плохо структурированы и (или) отформатированы, и, следовательно, их будет трудно или невозможно использовать в дальнейшем. Наиболее вероятно, что следующим, кто прочитает ваш набор данных, будет компьютерная программа, а не человек. Важно, чтобы ваши данные были структурированы и отформатированы так, чтобы они легко обрабатывались компьютерными программами, образующими конвейер (pipline) между вами и другим человеком – пользователем ваших данных.
Приведенные ниже рекомендации помогут вам максимально увеличить возможность повторного использование ваших цифровых данных. Каждый из них представляет собой тест, выполняемый компанией Pensoft при аудите наборов данных по запросу авторов. Авторам рекомендуется самостоятельно выполнять эти проверки до публикации данных. Хороший текстовый редактор (https://en.wikipedia.org/wiki/List_of_text_editors) может быть использован для поиска и исправления большинства ошибок в форматировании данных (Здесь и далее примечания переводчика приведены в скобках курсивом. Для операционных систем семейства Windows можно рекомендовать редактор Notepad++ https://notepad-plus-plus.org, для операционных систем GNU/Linux редактор Geany (https://www.geany.org).
Электронные таблицы обычно имеют некоторые функции для функций проверки текста, например, функцию «TRIM» («СЖПРОБЕЛЫ»), которая удаляет ненужные пробелы из элемента данных. Самые мощные инструменты для проверки и очистки данных доступны пользователям, которые могут работать в командной строке программной оболочки BASH. Для таких пользователей, которые имеют навыки работы в BASH рекомендуется использовать веб-сайт «A Data Cleaner's Cookbook» (https://www.polydesmida.info/cookbook/).
На этапе технического аудита наборов данных Pensoft не проверяет таксономические или библиографические данные на правильность. Будут выполнены проверки соответствия географических координат текстовым описаниям местности, к которой относятся данные. Рекомендуется проверить на поля на отсутствие «доменной шизофрении» – ошибки хранения в одном поле данных более чем одного типа.
Корректура данных занимает не меньше времени и навыков, чем корректура текста. Так же, как и с при работе с обычным текстом, если не прилагать специальных усилий по тщательной проверке, то в наборах данных быстро накапливаются ошибки. Мы настоятельно рекомендуем вам потратить время на выполнение описанных ниже базовых тестов качества, чтобы избежать затруднений при публикации данных.

Символы
– Набор данных должен храниться в кодировке UTF-8.
– Единственными символами, которые не являются цифрами, буквами или стандартной пунктуацией, являются табуляции и пробелы (Кодировка UTF-8 поддерживает 20 различных символов пробела http://jkorpela.fi/chars/spaces.html. Наиболее частой ошибкой является включение в данные символов неразрывного пробела).
– Каждый символ имеет только одну кодировку в наборе данных (Для русскоязычных авторов проблемой может является смешение символов букв, одинаковых в латинском алфавите и в кириллице: a, c, o, p, e. Символ градуса, одиночной кавычки и другие символы могут выглядеть на экране одинаково, но кодироваться разными последовательностями UTF-8).
– Отсутствие разрывов строк в элементах данных (внутри одной ячейки таблицы).
– Отсутствие символа разделения полей внутри элементов данных (предпочтительно использовать в качестве разделителя полей данных символ табуляции).
– Отсутствие символа "?" или символов-заменителей вместо действительных символов
– В наборе данных не должен использоваться символ «возврата каретки» (Текстовые файлы, подготовленные в среде Windows по умолчанию в конце строк используют пару спецсимволов «новая строка» и «возврат каретки». Текстовой редактор Notepad++ позволяет преобразовать фал с концами строк в стиле Windows на стиль операционных систем типа Unix с помощью меню «Правка» → «Формат конца строк» → «Преобразовать в UNIX (LF)»).
– Отсутствие начальных, конечных, дублированных или ненужных пробелов в отдельных элементах данных.

Записи (строки данных)
– Отсутствие записей с числом полей большим или меньшим, чем задано числом заголовков полей.
– Отсутствие пустых записей (строк).
– Отсутствие повторяющихся записей (строк).

Поля
– Отсутствие пустых полей.
– Отсутствие явного усечения (обрезания) элементов данных.
– Отсутствие непарных скобок в элементах данных.
– Во всех ячейках одного поля содержатся данные только одного типа.
– Одинаковые данные имеют одинаковое оформление (например, описание географического местоположения находок, собранных в одном месте должны быть записаны в соответствующем поле однообразно: «Бассейн р. Кожим». Нельзя чтобы эта информация была записана в разных вариантах «Бас. р. Кожим», «Бассейн реки Кожим», «Khozhim river basin»).
– Стандартные элементы данных, такие как даты и географические координаты хранятся в рекомендованном формате.
– Данные в разных полях не противоречат друг другу (например, географические координаты места находки и название страны, на территории которой эта находка была сделана).
– Нет пропущенных данных, если такая возможность не предусмотрена в методике сбора данных.

При отправке рукописи в журнал издательства PensoftPublishers следует иметь в виду, что понятие статьи о данных пока не успело широко проникнуть в практику работы редакторов и научных рецензентов. Поэтому настоятельно рекомендуем во введении к статье явно указывать, что настоящая работа представляет собой статью о данных, подготовленную в соответствии с концепцией, описанной в работе (Chavan and Penev. 2011). Статья должна попасть к рецензенту (рецензентам), имеющему опыт публикации данных о биологическом разнообразии, критические замечания которых позволят повысить научное качество публикуемых данных.

Список цитируемой литературы

  • Beck, Jan, Marianne Boeller, Andreas Erhardt, and Wolfgang Schwanghart. 2014. «Spatial Bias in the GBIF Database and Its Effect on Modeling Species’ Geographic Distributions». Ecological Informatics 19 : 10–15. https://doi.org/10.1016/j.ecoinf.2013.11.002.
  • Bled, Florent, James D. Nichols, and Res Altwegg. 2013. «Dynamic occupancy models for analyzing species’ range dynamics across large geographic scales». ECOLOGY AND EVOLUTION 3 (15): 4896–4909. https://doi.org/10.1002/ece3.858.
  • Candela Leonardo, Donatella Castelli, Paolo Manghi, and Alice Tani. 2015. «Data Journals: A Survey». Journal of the Association for Information Science and Technology 66 (9): 1747–62. https://doi.org/10.1002/asi.23358.
  • Chavan, Vishwas, and Lyubomir Penev. 2011. «The data paper: a mechanism to incentivize data publishing in biodiversity science». BMC Bioinformatics 12 (15): S2. https://doi.org/10.1186/1471-2105-12-S15-S2.
  • Escribano, Nora, David Galicia, and Arturo H. Ariño. 2018. «The Tragedy of the Biodiversity Data Commons: A Data Impediment Creeping Nigher?» Database 2018 (январь). https://doi.org/10.1093/database/bay033.
  • Hampton, Stephanie E., Carly A. Strasser, Joshua J. Tewksbury, Wendy K. Gram, Amber E. Budden, Archer L. Batcheller, Clifford S. Duke, and John H. Porter. 2013. «Big data and the future of ecology». FRONTIERS IN ECOLOGY AND THE ENVIRONMENT 11 (3): 156–62. https://doi.org/10.1890/120103.
  • LaDeau, S. L., B. A. Han, E. J. Rosi-Marshall, and K. C. Weathers. 2017. «The Next Decade of Big Data in Ecosystem Science». ECOSYSTEMS 20 (2): 274–83. https://doi.org/10.1007/s10021-016-0075-y.
  • Maldonado, Carla, Carlos I. Molina, Alexander Zizka, Claes Persson, Charlotte M. Taylor, Joaquina Alban, Eder Chilquillo, Nina Ronsted, and Alexandre Antonelli. 2015. «Estimating Species Diversity and Distribution in the Era of Big Data: To What Extent Can We Trust Public Databases?» Global Ecology and Biogeography 24 (8): 973–84. https://doi.org/10.1111/geb.12326.
  • Newman, Paul and Peter Corke. 2009. «Editorial: Data Papers — Peer Reviewed Publication of High Quality Data Sets». The International Journal of Robotics Research 28 (5): 587–587. https://doi.org/10.1177/0278364909104283.
  • Penev, Lyubomir, Daniel Mietchen, Vishwas Chavan, Gregor Hagedorn, Vincent Smith, David Shotton, Éamonn Ó Tuama, and др. 2017. «Strategies and Guidelines for Scholarly Publishing of Biodiversity Data». Research Ideas and Outcomes 3 : e12431. https://doi.org/10.3897/rio.3.e12431.
  • Peters, Debra P. C., Kris M. Havstad, Judy Cushing, Craig Tweedie, Olac Fuentes, and Natalia Villanueva-Rosales. 2014. «Harnessing the power of big data: infusing the scientific method with machine learning to transform ecology». ECOSPHERE 5 (6). https://doi.org/10.1890/ES13-00359.1.
  • Seidl, Rupert. 2017. «To Model or not to Model, That is no Longer the Question for Ecologists». ECOSYSTEMS 20 (2): 222–28. https://doi.org/10.1007/s10021-016-0068-x.
  • Soranno, Patricia A., and David S. Schimel. 2014. «Macrosystems ecology: big data, big ecology». FRONTIERS IN ECOLOGY AND THE ENVIRONMENT 12 (1): 3. https://doi.org/10.1890/1540-9295-12.1.3.
  • Tang, Jianwu, Christian Korner, Hiroyuki Muraoka, Shilong Piao, Miaogen Shen, Stephen J. Thackeray, and Xi Yang. 2016. «Emerging opportunities and challenges in phenology: a review». ECOSPHERE 7 (8). https://doi.org/10.1002/ecs2.1436.
  • White, Rachel L., Alexandra E. Sutton, Roberto Salguero-Gomez, Timothy C. Bray, Heather Campbell, Ellen Cieraad, Nalaka Geekiyanage, and др. 2015. «The next generation of action ecology: novel approaches towards global ecological research». ECOSPHERE 6 (8). https://doi.org/10.1890/ES14-00485.1.
     

В сотрудничестве с GBIF

gbiflogo

Biodiversity Information Standards

tdwglogo

iNaturalist

inatlogo

Atlas Of Living Australia

alalogo

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer