Trwa Love Data Week w Bibliotece Politechniki Gdańskiej.
Z tej okazji zapraszamy do wspólnej gry poświęconej danym badawczym. Nie przegap wspaniałej okazji do zapoznania się z takimi tematami jak: zarządzanie danymi, udostępnianie, ponowne wykorzystanie, rozpowszechnianie i usługi w zakresie danych badawczych.
Czy chcesz dowiedzieć się jak zarządzać danymi badawczymi?
(text-colour:#fe4394)[[[➪ Rozpocznij przygodę|Zadanie 1]]]Wyobraź sobie, że pracujesz w dużym ośrodku naukowym i właśnie zakończyłeś pisanie artykułu na temat badań prowadzonych przez twój zespół badawczy. Wspólnie z zespołem pracowaliście wiele miesięcy nad badaniem stopnia zanieczyszczenia wód Bałtyku. Artykuł wysłałeś do redakcji cenionego czasopisma. Kierownik projektu pochwalił waszą ciężką pracę i poprosił, abyś zajął się selekcją i archiwizacją danych badawczych. Postanowiłeś zacząć od uporządkowania przestrzeni na dysku służbowego komputera.
Co zrobisz z danymi pomiarowymi i zapisanymi plikami dotyczącymi projektu:
(text-colour:#fe4394)[[[➪ Usuwam wszystkie pliki z komputera, zostawiam tylko pdf z artykułem.|Odp 1.1.]]
[[➪ Zgrywam wszystko na pendrive, który chowam do szuflady i usuwam pliki z komputera.|Odp 1.2.]]
[[➪ Drukuję zawartość plików i umieszczam w opisanym segregatorze.|Odp 1.3.]]
[[➪ Porządkuję dane, organizuję pliki według poszczególnych etapów projektu, sprawdzam ich kompletność.|Zadanie 2]]]Zwariowałeś?! Twój szef kazał ci zabezpieczyć dane, a ty chcesz je usunąć? Szkoda byłoby wykasować tyle miesięcy ciężkiej pracy całego zespołu. Dane badawcze to właśnie wszelkie dane, które zostały zebrane, zaobserwowane bądź stworzone podczas procesu badawczego mającego na celu otrzymanie oryginalnych wyników naukowych.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 1]]]Czy jesteś pewien, że za rok będziesz pamiętał gdzie schowałeś dane dotyczące waszego projektu? Zgranie danych na przenośną pamięć, to nie wszystko co można zrobić w celu dobrej archiwizacji.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 1]]]Obawiam się, że za parę lat twój gabinet będzie po brzegi wypełniony walającymi się segregatorami i nic tam nie znajdziesz. Wersja analogowa to oczywiście znakomity pomysł, ale nie może być jedyną kopią!
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 1]]]Okazuje się, że brakuje ci jeszcze kilku plików z ostatniego etapu pracy. Prosisz kolegę z zespołu o pomoc, ten udostępnia ci przenośny dysk i mówi, że są tu wasze ostatnie pomiary.
Otwierasz dysk i widzisz pliki o nazwie:
(text-colour:#fe4394)[[[➪ Wersja ostateczna.csv|Odp 2.1.]]
[[➪ Wersja ostateczna 2.csv |Odp 2.2.]]
[[➪ Ksjdyddnskaslsihwa.txt|Odp 2.3.]]
[[➪ Baltic pollution 20220214.csv|Zadanie 3]]]O nie, nie! To nie jest plik, którego szukasz.
Taka ogólna nazwa sprawia, że trudno jest zorientować się, co zawiera plik. Przy nadawaniu nazw folderom oraz plikom warto zadać sobie pytanie: Co powinny zawierać nazwy, aby bezproblemowo można było odnaleźć konkretny zestaw danych?
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 2]]]O nie, nie! To nie jest plik, którego szukasz.
Niekonsekwentne numerowanie plików może zdezorientować twoich współpracowników. Przy nadawaniu nazw folderom oraz plikom warto zadać sobie pytanie: Co powinny zawierać nazwy, aby bezproblemowo można było odnaleźć konkretny zestaw danych?
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 2]]]O nie, nie! To nie jest plik, którego szukasz.
Wpisanie przypadkowego ciągu znaków w nazwie pliku sprawia, że trudno jest zorientować się, co zawiera plik. Przy nadawaniu nazw folderom oraz plikom warto zadać sobie pytanie: Co powinny zawierać nazwy, aby bezproblemowo można było odnaleźć konkretny zestaw danych?
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 2]]]Tak! To jest to!
To dobrze, że ty i twój współpracownik uzgodniliście na początku pracy w projekcie schemat nazewnictwa plików. Dobrą praktyką jest, aby ich nazwy miały charakter opisowy (odzwierciedlający zawartość pliku). Ustaliliście, że w nazwie pliku użyjecie nazwy projektu (Baltic), krótkiego opisu co zawiera (pollution) i daty (20220214).
Niestety, ale szybko okazuje się, że plik kolegi jest uszkodzony i niemożliwy do odczytania. To były wasze najważniejsze pomiary, bez których zebrane dane nie będą kompletne.
Co robisz:
(text-colour:#fe4394)[[[➪ Postanawiam zignorować brak. Artykuł został napisany więc nie potrzebuję brakujących plików z danymi.|Odp 3.1.]]
[[➪ Przeglądam backupy wykonane przez resztę członków zespołu.|Zadanie 4]]
[[➪ Wracam do laboratorium i jeszcze raz wykonuję ostatnie pomiary.|Odp 3.2.]]
[[➪ Próbuję odtworzyć brakujące dane na podstawie wysłanego artykułu.|Odp 3.3.]]]Nie poddawaj się, brakujący plik może okazać się kluczowy w przypadku, w którym musiałbyś bronić swoich tez zawartych w artykule.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 3]]]Udało się odzyskać dostęp do danych! Dobrze, że zespół podczas pracy pamiętał o zrobieniu kilku kopii zapasowych na odrębnych nośnikach, w tym przynajmniej jednej w innej lokalizacji fizycznej (np. w innym budynku lub w "chmurze"). Dzięki temu masz już wszystkie pliki i dane wytworzone podczas trwania waszego projektu.
Jednak zebranych materiałów jest bardzo dużo, nie mieszczą się na jednym dysku, dlatego decydujesz się na:
(text-colour:#fe4394)[[[➪ Selekcję oraz ujednolicenie wersji plików i metadanych.|Zadanie 5]]
[[➪ Zakup większej przestrzeni na dysku żeby zmieściło się absolutnie wszystko.|Odp 4.1.]]
[[➪ Pozostawienie tylko swoich plików, które są dla mnie najważniejsze.|Odp 4.2.]]
[[➪ Publikację w Internecie, tam wszystko się zmieści!|Odp 4.3.]]]Oj obawiam się, że nie masz tyle czasu… Ani kierownik projektu, ani wasz grantodawca nie będą zadowoleni z przedłużenia badań.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 3]]]Jak mawia znana pisarka Isabel Allende: „Pamięć to fikcja”. Nie możesz jej zaufać w tak ważnych kwestiach, na szali wisi wasza naukowa reputacja.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 3]]]Świetnie, zdajesz sobie sprawę, że chociaż należy udostępnić tyle danych, ile się da, należy to robić z rozwagą i zweryfikować wszystkie ewentualne bariery na drodze do otwartości. Warto sprawdzić czy dane nie duplikują się z innymi istniejącymi już zbiorami danych oraz zastanowić się jaka jest ich wartość naukowa.
Wyselekcjonowane dane nazywamy datasetem, czyli zbiorem stanowiącym pewną odrębną całość i zawierającym dane powiązane z jedną publikacją, projektem naukowym, bądź eksperymentem.
Co robisz ze skompletowanym zestawem danych badawczych?
(text-colour:#fe4394)[[[➪ Chowam go do szuflady biurka.|Odp 5.1.]]
[[➪ Decyduję się na udostępnienie go tylko członkom zespołu.|Odp 5.2.]]
[[➪ Decyduję się na udostępnienie go publicznie.|Zadanie 6]]
[[➪ Wysyłam w wiadomości e-mail tylko do kierownika projektu.|Odp 5.3.]]]Niestety, ale budżet projektu został już wyczerpany. Powinieneś wcześniej wziąć pod uwagę jakie koszty wiążą się z zarządzaniem i przechowywaniem danych i czy są one uzasadnione.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 4]]]Niestety, ale w świecie nauki kompletność danych ma kluczowe znaczenie. Weryfikacja wyników badań nie będzie możliwa w przypadku brakujących plików. Tylko dane zawierające wszystkie parametry umożliwiają powtórzenie eksperymentu – czyli zapewniają możliwość replikacji wyników badań.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 4]]]Z pewnością się zmieści, ale czy jesteś przekonany, że powinieneś udostępnić absolutnie wszystko? Zebrany materiał zawsze warto przejrzeć pod kątem użyteczności dla innych naukowców, zasad grantodawcy czy też wymogów wydawcy.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 4]]]Z ukrytych danych nikt już przecież nie skorzysta. Nie wiadomo także czy nie łamiesz w ten sposób zobowiązań wobec grantodawcy, który mógł zastrzec, że dane badawcze należy udostępnić.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 5]]]To bardzo miłe z twojej strony, ale twój zespół doskonale zdaje sobie sprawę z wagi waszego projektu. Może warto by inni też z niego skorzystali? Nie wiadomo także czy nie łamiesz w ten sposób zobowiązań wobec grantodawcy, który mógł zastrzec, że dane badawcze należy udostępnić.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 5]]]To jest bardzo dobry pomysł.
Warto opublikować zestaw danych badawczych z kilku powodów: może to być wymagane przez agencję finansującą badania naukowe; zapewni możliwość replikacji wyników badań – powtórzenia eksperymentu, bądź ich wykorzystania w innym badaniu, oraz kwestii ekonomicznych – analizy kosztów związanych z zarządzaniem i przechowywaniem danych. Są to istotne aspekty, które przyczyniają się do wspierania nauki i naukowców na całym świecie. Dlatego warto upewnić się, że wybierzemy właściwe miejsce na zdeponowanie danych.
Gdzie zamieścisz swój dataset:
(text-colour:#fe4394)[[[➪ Na mojej domowej stronie www lub blogu.|Odp 6.1.]]
[[➪ W social mediach, mam już całkiem sporo obserwujących!|Odp 6.2.]]
[[➪ W repozytorium danych badawczych.|Zadanie 7]]
[[➪ W chmurze.|Odp 6.3.]]]Świetnie, ale kierownik zlecił ci zarchiwizowanie danych, a jego poczta elektroniczna nie jest miejscem do tego przeznaczonym. Nie wiadomo także czy nie łamiesz w ten sposób zobowiązań wobec grantodawcy, który mógł zastrzec, że dane badawcze należy udostępnić.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 5]]]Prywatne strony internetowe i blogi nie należą do najlepiej indeksowanych i wyszukiwalnych treści, a przecież zależy ci, aby dotrzeć do jak największego grona naukowców.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 6]]]Media społecznościowe są dobrym narzędziem do promocji swojego dorobku naukowego, ale obawiam się, że nie jest to bezpieczne miejsce do archiwizacji plików z danymi.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 6]]]To jest strzał w dziesiątkę!
Deponując dane badawcze warto zrobić to w miejscach zapewniających długotrwałą archiwizację. W Internecie można znaleźć wiele dziedzinowych i instytucjonalnych repozytoriów danych. Czasami organizacja finansująca badania wymaga zdeponowania danych badawczych w konkretnym repozytorium, czasem pozwala deponującemu na samodzielne dokonanie wyboru.
Wybrałeś najlepsze dla waszej dziedziny naukowej repozytorium, wgrałeś dataset i opatrzyłeś go stosownym opisem metadanych, już miałeś przesłać wszystko do repozytorium, kiedy naszła cię wątpliwość, czy aby o czymś nie zapomniałeś?
(text-colour:#fe4394)[[[➪ Nie, nie wydaje mi się.|Odp 7.1.]]
[[➪ Może powinienem jeszcze zająć się prawami autorskimi.|Zadanie 8]]
[[➪ Po co się zastanawiać, dane w repozytoriach zawsze są bezpieczne.|Odp 7.2.]]
[[➪ Może powinienem jeszcze zamieścić w każdym pliku znak wodny.|Odp 7.3.]]]Obawiam się, że równie dobrze, możesz go schować do szuflady. Osoby zainteresowane tymi badaniami nawet nie będą o tym wiedzieć.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 6]]]Niestety, ale jesteś w błędzie. Zapomniałeś o najważniejszym – o wyborze licencji, czyli określenia zasad i praw na jakich chcesz udostępnić swoją ciężką pracę innym osobom. To licencja określa jednoznacznie warunki ponownego wykorzystania i przetwarzania danych.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 7]]]Doskonale, że pomyślałeś o ochronie swojej pracy przy jednoczesnym umożliwieniu skorzystania z niej przez innych. Dane powinny być opatrzone licencją określającą warunki korzystania z danego zbioru danych. Przed wyborem licencji należy upewnić się jaka jest polityka naszej instytucji odnośnie udostępniania danych. Dodatkowo, agencje finansujące badania mogą wymagać używania określonych licencji. Dobrą praktyką jest stosowanie gotowych (standardowych) licencji, które pozwalają zaoszczędzić czas potrzebny na stworzenie własnego, nowego typu licencji. Najpopularniejsze to oczywiście licencje Creative Commons (CC), ale istnieje szereg innych, np. GNU General Public License version 2 (GPLv2) czy licencja Massachusetts Institute of Technology (MIT license).
Udało ci się prawidłowo zdeponować dane badawcze w repozytorium, kierownik projektu jest z ciebie bardzo zadowolony, artykuł zbiera świetne recenzje, a dzięki zastosowaniu otwartej licencji wasz dataset cieszy się dużą liczbą cytowań. I tak oto nasza przygoda dobiegła końca.
(text-colour:#fe4394)[[[➪ Dziękujemy za wspólną przygodę! Odkryj hasło i wygraj nagrody|e-mail]]
[[➪ A czy wiesz, że Politechnika Gdańska ma już swoje repozytorium danych?|MOST Danych]]]Dane będą bezpieczne, ale nadanie niewłaściwej licencji na ich wykorzystanie może sprawić, że staną się dla innych badaczy bezużyteczne. Należy dokładnie zapoznać się z warunkami korzystania z repozytorium i sprawdzić, czy spełnia ono wymagania stawiane w projekcie.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 7]]]Znak wodny w takiej sytuacji nie chroni twoich praw do tych danych, ani nie określenia zasad na jakich chcesz udostępnić swoją ciężką pracę innym osobom.
(text-colour:#fe4394)[[[➪ Spróbuj jeszcze raz|Zadanie 7]]]Wpisz poniższe hasło na profilu Facebook Biblioteki PG w komentarzu pod dzisiejszym postem o Love Data Week 2022:
(align:"=><=")+(box:"X=")[(text-colour:#fe4394)[''Repozytorium MOST DANYCH'']]MOST DANYCH to:
* repozytorium spełniające wszelkie wymogi stawiane przez NCN,
* miejsce, gdzie udostępnia się dane badawcze zgodnie z zasadami FAIR,
* identyfikator DOI dla każdego datasetu umożliwiający jego łatwe odnalezienie,
* możliwość integracji datasetu z profilem naukowym, modułem publikacji czy też projektów,
* możliwość wybrania dla swojego datasetu jednej z licencji Creative Commons bądź nadania dowolnej innej licencji,
* możliwość zdeponowania danych i stworzenia prywatnego linku dla wydawców, którzy do publikacji artykułu wymagają wglądu w dane badawcze,
* merytoryczne wsparcie ze strony pracowników Centrum Kompetencji.