Otwarte Dane | Uniwersytet Śląski w Katowicach

Otwarte Dane

Otwarte Dane Badawcze

Otwarte dane badawcze (Open Research Data) to wszelkie dane uzyskane w procesie badawczym i wykorzystane w pracy naukowej. Aby dane były uznane za otwarte, muszą być udostępnione w sposób, który zapewnia nieograniczony dostęp i pozwala na dowolne wykorzystywanie, modyfikowanie i redystrybucję z poszanowaniem prawa.

Do danych badawczych zaliczamy różnorodne typy informacji, takie jak:

dokumenty tekstowe
notatki
dane niecyfrowe (np. opisy procedur, dzienniki laboratoryjne, dane przestrzenne, notatki z eksperymentów, próbki, nagrania dźwiękowe),
kwestionariusze,
ankiety,
wyniki badań naukowych,
oprogramowanie (skrypty, pliki wejściowe),
wyniki symulacji komputerowych oraz zbiory wielkich danych (ang. „big data”).

Dodatkowo, dostęp do treści naukowych, np. poprzez licencje Creative Commons, pozwala na lepsze zrozumienie dołączonych danych poprzez ich kontekst i metodologię pozyskania.

Otwieranie danych badawczych ma wiele korzyści, takich jak ułatwienie komunikacji między specjalistami z różnych dziedzin nauki, wzrost liczby cytowań danych i opartych na nich publikacji, możliwość analizy na podstawie unikalnych danych, które nie da się powtórzyć, ocena rzetelności prowadzonych badań oraz wykorzystanie istniejących zasobów, co obniża koszty badań.

Nie wszystkie dane mogą mieć charakter otwarty, szczególnie jeśli chodzi o dane osobowe, komercjalizację wyników badań i bezpieczeństwo narodowe. Informacje o istnieniu danych powinny jednak zawsze być publicznie dostępne, aby uniknąć duplikacji badań, a w przypadku danych, które nie są otwarte, inni mogą negocjować dostęp do nich.

Ograniczenia związane z otwartymi danymi badawczymi mogą wynikać z aspektów finansowych (np. opłaty za dostęp), technicznych (trudny format danych) oraz prawnych (np. prawa autorskie, prawa osób trzecich, prawo przysługujące pracodawcy).

Otwarte Dane Badawcze są częścią szerszej koncepcji Otwartej Nauki, która obejmuje również otwarty dostęp do publikacji (Open Access) i otwartą komunikację naukową (Open Scholarly Communication). Organizacje, takie jak Narodowe Centrum Nauki, wprowadzają politykę otwartego dostępu do danych naukowych i publikacji, zachęcając badaczy do dołączania planów zarządzania danymi badawczymi do wniosków o finansowanie projektów.

Metadane

Metadane to kluczowe informacje o danych badawczych, umożliwiające dostęp, zrozumienie i ponowne wykorzystanie tych danych. Są to podstawowe opisy całych zbiorów danych, które muszą być udostępniane wraz z danymi. Inicjatywy, takie jak Research Data Alliance (RDA), OpenAire, ANSI, ISO i Metadata 2020, działają na całym świecie, aby formalizować specyfikacje metadanych i ułatwić ponowne wykorzystanie danych.

Metadane można podzielić na trzy główne typy:

Metadane opisowe – zawierają informacje pozwalające na identyfikację i odszukanie zbioru danych, takie jak tytuł, streszczenie, autorzy i słowa kluczowe.
Metadane strukturalne – opisują relacje i zależności pomiędzy różnymi zbiorami danych oraz ich elementami
Metadane administracyjne – zawierają informacje dotyczące zarządzania zasobami, takie jak data utworzenia, sposób dostępu, prawa własności intelektualnej i informacje potrzebne do archiwizacji.

Metadane powinny precyzyjnie opisywać strukturę danych, ograniczenia dotyczące ich wykorzystania oraz sposób, w jaki należy je cytować. Mogą także zawierać informacje takie jak:

tytuł zbioru danych
źródło danych
informacja o twórcach danych [numery identyfikacyjne, (np. Orcid)].
opis danych
data utworzenia
zakres przestrzenny (krajowy, regionalny, globalny)
zakres czasowy
format
język
lokalizacja danych
cyfrowy identyfikator obiektów (doi)
status dostępu i embargo
licencja
oświadczenie o finansowaniu
powiązane publikacje
cytowanie

Przykładowe metadane ważne przy opisie zbiorów danych:

tytuł zbioru
źródło danych
autor/zy
opis danych (metodologia, kontekst, obszar badań)
data powstania
identyfikacja publikacji powiązanej (np. DOI)
licencja i sposób udostępnienia
powiązane publikacje

Celem standardów metadanych jest usystematyzowanie sposobu opisywania danych. Metadane przygotowane zgodnie z tymi standardami charakteryzują się stałą strukturą opisu o jednoznacznie zdefiniowanych polach, co sprawia, że są zrozumiałe zarówno dla ludzi, jak i programów komputerowych. Istnieje wiele standardów metadanych, wśród których możemy wyróżnić standardy ogólne, dziedzinowe i instytucjonalne. Przykładami ogólnych standardów metadanych są Dublin Core, Data Cite oraz Data Documentation Initiative (DDI). Każdy z tych standardów dostarcza określonych wytycznych, które pomagają w tworzeniu precyzyjnych i jednolitych opisów danych, umożliwiając efektywne zarządzanie i udostępnianie informacji badawczych na szerszą skalę.

Udostępnianie Danych Badawczych

Po zakończeniu etapu pozyskiwania danych zgodnie z zaplanowanym procesem badawczym i przyjętą metodologią, konieczne jest podjęcie decyzji, czy dane zostaną udostępnione czy nie. W celu weryfikacji wyników przedstawionych w określonej publikacji naukowej, dane powinny być otwarte co najmniej w zakresie wymaganym.

W sytuacjach wyjątkowych, gdy dane nie mogą być otwarte z różnych powodów, powinny być udostępniane bezpośrednio osobom zainteresowanym przez autora, przy czym sposób dostępu do tych danych powinien być jasno określony.

Najczęściej dane badawcze udostępniane są w formie tzw. datasetów, które stanowią odrębną całość i zawierają dane powiązane z jedną publikacją, projektem naukowym lub eksperymentem. Zgodnie z zasadami FAIR, zbiory danych badawczych powinny być opisane za pomocą metadanych, co gwarantuje prawidłowe ich zindeksowanie, wyszukiwanie i ponowne wykorzystanie.

Przygotowując dane do udostępnienia, warto przed tym procesem dokonać:

Selekcji danych: Unikamy udostępniania zbiorów danych, które są podobne do już istniejących. Wybieramy dane o wysokiej wartości naukowej i uwzględniamy wymagania agencji finansujących badania, w tym kwestie ekonomiczne związane z przechowywaniem danych.
Usunięcia danych wrażliwych: Wykorzystujemy techniki anonimizacji lub pseudonimizacji, aby usunąć powiązania między danymi osobowymi a konkretnymi osobami.
Wyboru formatów plików: Publikujemy dane w formatach ogólnodostępnych i zgodnych z formatami przyjętymi w danej dyscyplinie naukowej, unikając konieczności zakupu oprogramowania komercyjnego.
Nazewnictwa plików: Przydzielamy opisowe nazwy plików, które odzwierciedlają ich zawartość.
Wersjonowania: Kontrolujemy zmiany w plikach, rejestrując każdą zmianę wraz z datą, użytkownikiem i użytkownikiem zatwierdzającym te zmiany. Każda wersja dokumentu powinna być przechowywana w bazie danych.
Opisania datasetów za pomocą metadanych: Zastosowane odpowiednio metadane umożliwiają zindeksowanie, wyszukiwanie i ponowne wykorzystanie danych badawczych.

Dokładając wszelkich starań przygotowując dane w powyższy sposób, zapewnimy jak najbardziej skuteczne i odpowiedzialne udostępnienie danych badawczych.

Repozytoria Danych Badawczych

Otwarte udostępnianie danych badawczych przynosi liczne korzyści zarówno dla rozwoju nauki, jak i kariery badacza:

Możliwość ponownej analizy i nowych interpretacji: Udostępnienie danych umożliwia innym badaczom przeprowadzenie ponownej analizy danych oraz podejmowanie nowych interpretacji, co może prowadzić do odkrycia nowych perspektyw i wniosków.
Wykorzystanie do nowych badań i łączenie z innymi danymi: Otwarte dane są dostępne dla wszystkich i mogą być wykorzystywane do prowadzenia nowych badań. Ponadto, badacze mogą łączyć te dane z innymi zestawami, co pozwala tworzyć kompleksowe analizy i zestawienia.
Dostępność dla wszystkich: Otwarte dane są dostępne nie tylko dla innych naukowców, ale także dla osób spoza środowiska akademickiego, co zwiększa potencjalną różnorodność odbiorców i potencjalnie poszerza wpływ badań.
Weryfikacja powtarzalności wyników: Udostępnienie danych ułatwia sprawdzenie, czy opublikowane już prace naukowe opierają się na wynikach, które można powtórzyć, co wspiera rzetelność i wiarygodność badań.
Bezpieczne i długoterminowe przechowywanie: Dane zdeponowane w repozytorium są odpowiednio zabezpieczone i mogą być przechowywane długoterminowo, co chroni je przed utratą lub zniszczeniem.
Odpowiednie opracowanie i opisanie danych: Przygotowanie danych do udostępnienia wymaga ich odpowiedniego opracowania i opisania, dzięki czemu są one bardziej zrozumiałe i łatwiej z nich korzystać w przyszłości.
Łatwe cytowanie i wyróżnienie w CV: Dane zdeponowane w repozytorium otrzymują stały URL i numer DOI (digital object identifier), co ułatwia ich prawidłowe cytowanie oraz umożliwia dodanie listy opublikowanych zbiorów danych do CV, co może być korzystne dla kariery badacza.
Zestandaryzowane metadane: Dane w repozytorium są opatrzone zestandaryzowanym zestawem metadanych, dzięki czemu są łatwe do wyszukania i identyfikacji.
Informacje o popularności danych: Repozytorium dostarcza badaczom informacje o tym, jak często ich dane były oglądane i pobierane, co pozwala na śledzenie ich wpływu i zainteresowania wśród społeczności naukowej.

Ogólnie rzecz biorąc, otwarte udostępnianie danych stanowi kluczowy element wspierający postęp naukowy, tworzący bardziej transparentne i efektywne środowisko badawcze.

Przy wyborze repozytorium danych badawczych warto zwrócić uwagę na następujące kwestie:

Trwały identyfikator zasobów: Upewnijmy się, czy repozytorium nadaje trwały identyfikator, tak jak DOI (Digital Object Identifier) lub URL, co pozwala na długotrwałe i jednoznaczne odniesienie do danych.
Powiązanie z autorem za pomocą identyfikatorów: Sprawdźmy, czy zdeponowane zasoby mogą być powiązane z autorem dzięki identyfikatorom, takim jak ORCID, co zwiększa wiarygodność i transparentność danych.
Zgodność ze standardem metadanych danej dyscypliny: Upewnijmy się, że repozytorium używa odpowiedniego standardu metadanych, zgodnego z wymogami danej dyscypliny naukowej.
Przestrzeganie zasad FAIR: Wybierajmy repozytoria, które przestrzegają zasad FAIR (Findable, Accessible, Interoperable, Reusable), co zapewnia łatwiejszy dostęp i ponowne wykorzystanie danych.
Szanowanie popularnych licencji: Upewnijmy się, czy repozytorium respektuje popularne licencje, co pozwala na przechowywanie danych, które nie są otwarte, jeśli jest to wymagane.
Koszty zdeponowania danych: Sprawdźmy, czy są jakieś koszty związane z deponowaniem danych, np. Data Processing Charge, aby uniknąć nieoczekiwanych opłat.
Zasady przechowywania danych: Zapoznajmy się z zasadami przechowywania danych w repozytorium, w tym z limitem wielkości danych i określonymi zabezpieczeniami.
Typy danych gromadzone w repozytorium: Upewnijmy się, że repozytorium obsługuje typy danych, które chcemy zdeponować, aby mieć pewność, że dane zostaną odpowiednio zaakceptowane.

Dobrą praktyką jest skorzystanie z Register of Research Data Repositories, czyli rejestru repozytoriów danych badawczych z różnych dyscyplin naukowych, co ułatwia wybór odpowiedniego repozytorium.

Poniżej znajdują się przykładowe repozytoria danych badawczych:

Repozytorium interdyscyplinarne
Trwały identyfikator zasobów DOI: Repozytorium nadaje trwały identyfikator DOI dla zasobów, co umożliwia stabilne i jednoznaczne odniesienie do danych.
Dodatkowe informacje w metadanych: W metadanych można umieścić dodatkowe informacje, takie jak ORCID lub DOI publikacji, co ułatwia powiązanie danych z odpowiednimi autorami lub publikacjami.
Standard metadanych zgodny ze standardami Dataverse: Repozytorium stosuje standardy metadanych zgodne ze standardami Dataverse, co zapewnia jednolity i zrozumiały opis danych.
Metadane mają domyślną licencję CC0: Wprowadzone metadane mają domyślnie nadaną licencję CC0, co oznacza, że są dostępne w domenie publicznej.
Spełnianie zasad FAIR: Repozytorium spełnia zasady FAIR (Findable, Accessible, Interoperable, Reusable), co ułatwia łatwe i skuteczne odnajdywanie i wykorzystywanie danych.
Dostęp do różnych licencji: Repozytorium umożliwia nadawanie licencji zgodnych z większością popularnych licencji, takich jak Creative Commons (CC), domena publiczna, a także pozwala na przechowywanie danych zamkniętych (embargo wynosi maksymalnie 36 miesięcy).
Bezpłatne gromadzenie i udostępnianie danych: Gromadzenie i udostępnianie danych w tym repozytorium jest całkowicie bezpłatne.
Brak ograniczeń co do wielkości danych: Nie ma ograniczeń co do maksymalnej wielkości deponowanych zbiorów danych (dataset), a maksymalny rozmiar pojedynczego pliku wynosi 5GB.
Oprogramowanie Dataverse: Repozytorium działa w oparciu o oprogramowanie Dataverse, które jest znane z funkcjonalności i wydajności.
Różnorodne typy danych: Można zdeponować różnorodne typy danych, w tym dane tabelaryczne, zdjęcia, materiały audiowizualne i wszelkie inne rodzaje danych wytworzonych, zebranych lub opisanych na potrzeby prowadzenia badań naukowych. Ponadto, dane można powiązać z publikacją zdeponowaną w innych bazach danych.

Repozytorium interdyscyplinarne
Trwały identyfikator DOI: Repozytorium nadaje trwałe identyfikatory DOI dla zasobów, zapewniając stabilne i jednoznaczne odniesienie do danych.
Powiązanie profilu autora z ORCID: Repozytorium umożliwia powiązanie profilu autora z ORCID, co ułatwia identyfikację i powiązanie danych z odpowiednimi badaczami.
Standard metadanych zgodny z DataCite’s Metadata Schema: Repozytorium stosuje standard metadanych zgodny z DataCite’s Metadata Schema, z opcją rozszerzenia metadanych, co pozwala na jednolity i rozbudowany opis danych.
Spełnienie zasad FAIR: Repozytorium spełnia zasady FAIR (Findable, Accessible, Interoperable, Reusable), co zapewnia łatwe odnajdywanie i wykorzystywanie danych.
Wybór licencji zgodny z popularnymi standardami: Repozytorium umożliwia nadawanie licencji zgodnych z większością popularnych standardów, takich jak Creative Commons (CC), domena publiczna, a także pozwala na przechowywanie danych zamkniętych.
Bezpłatne gromadzenie danych dla użytkowników bez dostępu do repozytorium instytucjonalnego: Dostęp do gromadzenia danych w repozytorium Zenodo jest bezpłatny dla osób, które nie mają możliwości przechowywania danych w repozytorium instytucjonalnym (Terms of use).
Pojemność do 50 GB na dataset: Repozytorium umożliwia zamieszczanie plików do 50 GB na dataset, dając możliwość posiadania wielu datasetów.
Bezpieczne przechowywanie danych w chmurze CERN Data Center: Zasoby repozytorium są przechowywane w chmurze CERN Data Center, na oprogramowaniu Invenio, i umieszczone w kilku lokalizacjach zgodnie z zasadami bezpieczeństwa przechowywania danych.
Wielorodzajowe typy danych: Repozytorium pozwala gromadzić wszelkie typy danych, takie jak publikacje, prezentacje, datasety, preprinty, notatki techniczne, itp.

Data Journals

Data journals to specjalistyczne wydawnictwa, które koncentrują się na udostępnianiu zestawów danych naukowych w celu ich dalszego wykorzystania, analizy i weryfikacji przez społeczność naukową. W przeciwieństwie do tradycyjnych czasopism naukowych, które skupiają się głównie na publikacji wyników badań w formie artykułów, data journals oferują platformę do publikacji samych danych badawczych, często wraz z opisem metodologii ich zbierania, przetwarzania i potencjalnych zastosowań. Dzięki temu, naukowcy mają łatwy dostęp do surowych danych, co umożliwia dokładniejsze badania replikacyjne, promuje transparentność w nauce oraz wspiera otwartą naukę. Publikacje w data journals są recenzowane pod kątem jakości i użyteczności danych, co zapewnia ich wiarygodność i wartość dla dalszych badań. Ten model publikacji odgrywa kluczową rolę w promowaniu współpracy między naukowcami oraz przyspiesza postęp w różnych dziedzinach nauki.

Przykłady wydawnictw specjalizujących się w publikacji typu data journals obejmują:

Scientific Data – wydawane przez Nature Publishing Group, to międzynarodowe czasopismo skupiające się na udostępnianiu wysokiej jakości badań i danych z różnych dziedzin nauki.

https://www.nature.com/sdata/

Data in Brief – wydawane przez Elsevier, oferuje naukowcom platformę do publikacji opisów zestawów danych, które są ważne dla dalszych badań.

https://www.data-in-brief.com

Earth System Science Data (ESSD) – międzynarodowe czasopismo dedykowane publikacji danych z zakresu nauk o Ziemi i środowiskowych.

https://www.earth-system-science-data.net

F1000Research – platforma open access, która poza tradycyjnymi artykułami naukowymi oferuje również sekcję dedykowaną datasetom, promując otwartość i współpracę w nauce.

https://f1000research.com

Regulacje Prawne

Zasady udostępniania danych

Nowe przepisy dotyczące udostępniania danych, wprowadzone zgodnie z ustawą z 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego (Dz.U. z 2021 r. poz. 1641), przynoszą szereg nowych zmian. Kluczowe aspekty obejmują zasady otwartości danych, procedury udostępniania i przekazywania informacji sektora publicznego w celu ponownego wykorzystania oraz identyfikację podmiotów odpowiedzialnych za udostępnianie lub przekazywanie tych informacji.

Nowe kategorie informacji sektora publicznego:

Dane o wysokiej wartości: Obejmują informacje, których wykorzystanie przynosi istotne korzyści społeczeństwu, środowisku i gospodarce.
Dane dynamiczne: To dane podlegające częstym aktualizacjom lub aktualizacjom w czasie rzeczywistym, np. dane środowiskowe, generowane przez czujniki, czy dane o ruchu.

Portal danych

W ramach ustawy utworzono portal danych, którym będzie prowadzony przez ministra odpowiedzialnego za informatyzację. Portal ten będzie powszechnie dostępnym systemem teleinformatycznym, służącym do udostępniania informacji sektora publicznego w celu ponownego wykorzystywania, a także danych prywatnych w określonych celach. Portal danych, pełniący funkcję centralnego punktu dostępu, zastąpi obecne centralne repozytorium informacji publicznej. Regulacje dotyczące tego repozytorium zostaną wyodrębnione z istniejącej ustawy z 6 września 2001 r. o dostępie do informacji publicznej i przeniesione do nowej ustawy. Portal ten będzie funkcjonować pod nazwą dane.gov.pl.