Przejdź do treści

Uniwersytet Śląski w Katowicach

  • Polski
  • English
search
Logo Europejskie Miasto Nauki Katowice 2024

Zarządzanie danymi badawczymi

Zarządzanie danymi badawczymi obejmuje dobre praktyki związane ze zbieraniem, organizacją, nazewnictwem, przechowywaniem oraz dokumentacją danych badawczych zarówno w trakcie realizacji projektu, jak i po jego zakończeniu.

Dobre zarządzanie danymi pozwala zapewnić, że badacze udostępniają swoje dane zgodnie z zasadami FAIR (czyli tak, aby były możliwe do znalezienia (Findable), dostępne (Accessible), interoperacyjne (Interoperable) i nadające się do ponownego wykorzystania (Reusable)). Coraz więcej organizacji badawczych wymaga od swoich naukowców opracowania planu zarządzania danymi, aby zadbać o uwzględnienie wszystkich kluczowych aspektów już na etapie rozpoczęcia projektu.

Wczesne i skrupulatne zarządzanie danymi badawczymi na każdym etapie ich cyklu życia zapewnia ich łatwą dostępność oraz trwałość wyników badań.

Odpowiednie zarzadzanie danymi badawczymi pozwala na:

  • Szybszą analizę (uporządkowanych i odpowiednio udokumentowanych) danych
  • Szybsze i łatwiejsze odnajdywanie danych
  • Skuteczne zapobieganie utracie danych
  • Większą widzialność i cytowalność
  • Uniknięcie oskarżeń o manipulowanie danymi czy prowadzenie nieprzejrzystego procesu badawczego

Nazewnictwo plików

Właściwe nazewnictwo plików jest kluczowym elementem zarządzania danymi badawczymi. Wcześniej ustalony schemat nazw plików pomaga w ich uporządkowaniu, udostępnianiu oraz łatwiejszym odnajdywaniu. Przykładowo, można stosować schemat nazw Data_NazwaPliku_Wersja, gdzie każdy element ma swoje określone znaczenie.

Dlaczego warto stosować schemat nazewnictwa plików?

Spójny system nazw plików przynosi wiele korzyści, takich jak:

  1. Unikanie błędów obliczeniowych podczas analizy danych.
  2. Szybki podgląd zawartości folderów bez konieczności otwierania plików.
  3. Lepsza wiedza o zawartości plików, szczególnie po długim czasie od zakończenia projektu.

Jak stworzyć schemat nazewnictwa plików?

Najważniejsze elementy to:

  1. Wybór formatu, którego można konsekwentnie przestrzegać.
  2. Dokumentacja schematu, np. w pliku README.txt zapisanym w folderze zawierającym dane.

Najlepsze praktyki nazewnictwa plików:

  • Nie stosuj spacji w nazwach plików. Zamiast tego użyj podkreślenia (_) lub myślnika (–)
  • Unikaj specjalnych znaków (np. #, $, %).
  • Utrzymuj nazwę pliku krótszą niż 30 znaków.
  • Dodaj numer wersji pliku.
  • Uwzględniaj daty w formacie ISO 8601 (YYYYMMDD).

Elementy do uwzględnienia w schemacie nazewnictwa:

  • Data utworzenia (umieszczona na początku dla ułatwienia sortowania komputerowego).
  • Krótki opis zawartości pliku.
  • Nazwa projektu lub numer.
  • Lokalizacja (jeśli istotna).
  • Typ pliku lub analiza.

Numer wersji.

  1. Przykłady schematów nazw plików
    YYYYMMDD_NazwaProjektu_Wyniki_V01 – np. 20250101_Eksp_Analiza_V01
  2. YYYYMMDD_Lokalizacja_Opis – np. 20250115_Krakow_Sondaz
  3. NazwaProjektu_Analiza_Data_Versja – np. Solaris_Wykres_20250120_V2

Przechowywanie danych

Aby skutecznie przechowywać dane badawcze, należy zadbać o ich bezpieczeństwo, przechowywanie i długoterminową ochronę. Kluczowym krokiem jest regularne tworzenie kopii zapasowych zgodnie z zasadą 3-2-1: przechowuj trzy kopie danych, na dwóch różnych nośnikach, w co najmniej jednej innej lokalizacji. To minimalizuje ryzyko utraty danych w przypadku awarii sprzętu, błędów ludzkich czy zdarzeń losowych.

Przechowywanie danych powinno być dobrze przemyślane. Kluczowe dane należy przechowywać w bezpiecznych miejscach, takich jak serwery instytucji lub zaufane usługi chmurowe (np. OneDrive, Google Drive). Nośniki przenośne, takie jak pendrive’y, można stosować jedynie do tymczasowego przechowywania lub przenoszenia plików, ale nie jako główną formę przechowywania danych.

Wybierając dane do zachowania, warto kierować się ich wartością długoterminową i wymaganiami instytucji czy fundatora. Nadmiar danych zwiększa koszty i utrudnia zarządzanie, dlatego kluczowe jest zachowanie tylko tych informacji, które są istotne dla przyszłych badań. Ważne jest też dokumentowanie danych, aby były one zrozumiałe i możliwe do wykorzystania w przyszłości.

Długoterminowa ochrona danych wymaga migracji plików na nowe nośniki oraz korzystania z formatów kompatybilnych z różnym oprogramowaniem. Udostępnienie danych w zaufanych repozytoriach cyfrowych wspiera ich przechowywanie i umożliwia ich dalsze wykorzystanie przez innych badaczy, zwiększając wartość naukową projektu.

Organizacja danych

Organizacja danych odnosi się do praktyk, które pozwalają na odpowiednie uporządkowanie zbiorów danych powstających podczas realizacji projektów naukowych. Celem tych działań jest ułatwienie przechowywania plików oraz ich szybkiego odnajdywania. Zaliczamy do nich:

  • Strukturyzowanie folderów, aby wspierały logiczne przechowywanie oraz łatwe i szybie wyszukiwanie,
  • Odpowiednie nazewnictwo plików, które pomaga w grupowaniu oraz chronologicznym sortowaniu plików o obrębie folderów,
  • Organizowanie zawartości plików, aby ułatwić spójność i analizę danych.

Przed rozpoczęciem zbierania danych lub pracy z nimi należy zaplanować, jak będą strukturyzowane i nazywane pliki oraz foldery, aby umożliwić standaryzację procesów zbierania i analizy danych w zespole badawczym.

Przykłady organizacji danych
Ten sam zestaw plików można zorganizować na różne sposoby.

  • Pierwszy przykład: organizacja według typu plików (kody, dane, wyniki).
  •  Drugi przykład: organizacja według analizy (figura 1, figura 2, tabela)

Wskazówki dotyczące organizacji danych:

  1. Organizuj dane hierarchicznie, dzieląc je na kategorie
  • Projekt,
  • Czas,
  • Lokalizacja,
  • Typ pliku.
  1. Wewnątrz folderów pliki można porządkować:
  • Chronologicznie,
  • Według klasyfikacji lub kodu,
  • Alfabetycznie (w zależności od typu danych).
  1. Nazwy folderów i podfolderów powinny odzwierciedlać zawartość, a nie nazwiska badaczy lub członków zespołu.
  2. Dokumentuj strukturę katalogów oraz opisuj rodzaje danych, jakie powinny być przechowywane w poszczególnych folderach, aby zapewnić zgodność z zasadami zarządzania danymi.
  3. Uwzględniaj podstawowe informacje, takie jak:
  • Tytuły projektów
  • Daty
  • Unikalne identyfikatory (np. numer grantu).

Wersjonowanie danych

Wersjonowanie danych jest sposobem zarządzania zmianami w dokumentach cyfrowych oraz innych zbiorach danych. Pozwala na śledzenie zmian w danych badawczych w czasie, przestrzeni, przy udziale różnych użytkowników oraz na różnych systemach.

Podczas pracy nad danymi badawczymi warto przechowywać różne wersje, aby zminimalizować ryzyko uszkodzenia plików, błędów ludzkich lub utraty danych. Ważne jest, aby wiedzieć, która wersja jest która, a najprostszym rozwiązaniem jest używanie sufiksów w nazwach plików. Można dołączyć numer wersji, datę lub inicjały recenzenta, aby łatwo zidentyfikować wersję:

• filename_v02.pdf (druga wersja pliku)
• filename_v02-01.pdf (pierwsza drobna poprawka wersji 2)
• filename_20181128.pdf (wersja z dnia 28 listopada 2018 r.)
• filename_tk.pdf (wersja skomentowana przez Tomasza Kowalskiego)
• filename_TKed.pdf (wersja edytowana przez Tomasza Kowalskiego)

Można również łączyć różne opcje: filename_v02-01_mb.pdf zawiera komentarze Tomasza Kowlaskiego do wersji 2.01 pliku. Wersje mniejszych poprawek można archiwizować lub usuwać, aby uniknąć bałaganu w folderach. Natomiast oryginalna wersja danych powinna być zachowana jako punkt odniesienia.

W projektach badawczych, szczególnie w pracy zespołowej, często przydaje się rejestrowanie zmian wprowadzonych w każdej wersji pliku. Tabela wersji zapisuje, kto dokonał jakich zmian i kiedy. Może to być wbudowane w sam plik (np. w nagłówkach, notatkach lub metadanych) lub przyjąć formę załączonego arkusza kalkulacyjnego lub pliku README.txt. W przypadku projektów badawczych warto ustalić system wersjonowania i proces, aby zapewnić dostęp do najnowszej wersji pliku.

Wersja Autor Zmiana Data
1.1 KT Zmodyfikowano tabelę wyników 2025.03.02
1.2 KJ Sformatowano sekcję 3 2025.03.20
1.3 SB Zmieniono odniesienia 3 i 4 2025.04.11
2.0 JT Usunięto sekcję 5 na podstawie spotkania grupy 2025.04.28

Plik README.txt

Plik README.txt to dokumentacja zdeponowanego w repozytorium datasetu, która umożliwia jego zrozumienie, właściwą interpretację oraz ponowne wykorzystanie danych. Według najlepszych praktyk zarzadzania danymi plik powinien zawierać odpowiednie informacje:

Informacje ogólne:

  • Tytuł zbioru danych
  • Dane kontaktowe: imię i nazwisko, ORCID, instytucja, adres, e-mail
    • kierownik projektu
    • badacze biorący udział w badaniach
    • osoba do kontaktu
  • Data wytworzenia danych (pojedyncza data lub zakres)
  • Słowa kluczowe opisujące tematykę danych
  • Informacje na temat źródła finansowania badań

Informacje na temat danych i plików:

  • Krótki opis zawartości każdego pliku,
  • Informacje na temat formatów plików (jeżeli nie wynika z nazwy),
  • Jeżeli dataset zawiera wiele plików, należy określić relacje między plikami w datasecie,
  • Data i charakter aktualizacji plików (jeśli dotyczy),
  • Informacje o powiązanych danych, które nie są zawarte w opisywanym data secie.

Informacje na temat sposobu udostępnienia danych:

  • Licencje oraz ewentualne ograniczenia dotyczące korzystania z danych,
  • Linki do publikacji cytujących dane,
  • Sugerowany sposób cytowania zbioru danych.

Informacje na temat metodologii przeprowadzanych badań:

  • Opis metod wykorzystanych podczas wytwarzania/zbierania danych (z odniesieniami do protokołów i publikacji),
  • Opis metod wykorzystanych podczas analizy wytworzonych danych (informacje na temat tego jak przekształcono dane surowe),
  • Oprogramowanie lub sprzęt wymagany do interpretacji danych (wersje),
  • Wyjaśnienie symboli lub kodów oznaczających dane o niskiej jakości, lub brakujące.

Szczegółowe informacje o danych

  • Liczba zmiennych z pełnymi nazwami i opisem kolumn w danych tabelarycznych
  • Jednostki miar
  • Definicje symboli oraz brakujących danych
  • Specjalne formaty lub skróty w używane w danych

Aby uzyskać więcej informacji na temat tworzenia pliku README.txt dla własnego zestawu danych, proszę zapoznać się z materiałami dostępnymi na stronach:

logotyp Cornell University

logotyp Harvard University

return to top