TRWAŁE IDENTYFIKATORY:
ZASTOSOWANIE W KULTURZE I PRZEDSIĘWZIĘCIACH KOMERCYJNYCH
5/9 – STUDIUM PRZYPADKU 3: DataCite w katalogu TIB/UB1
W skrócie
Usługa DataCite identyfikuje dane badawcze po to, by mogły być użyte ponownie przy nowych projektach badawczych. Usługa ma więc ten sam cel, co sektor cyfrowego dziedzictwa kulturowego i dowodzi, jak system DOI może być użyteczny dla muzeów i archiwów.
Niemiecka Biblioteka Narodowa z dziedziny techniki i nauk ścisłych (Technische InformationsBibliothek, TIB) – partner projektu Linked Heritage – finansowana przez rząd federalny i landy, oferuje głównie globalną usługę dokumentowania osiągnięć w dziedzinie nauk przyrodniczych, matematycznych i technicznych, tj.:
- chemii,
- matematyki,
- fizyki,
- informatyki,
- architektury,
- i technologii.
TIB jest również centrum eksperckim w dziedzinie metadanych obiektów multimedialnych, którego jedną z inicjatyw jest PROBADO odpowiedzialne za rozwijanie modeli danych muzycznych oraz danych rysunków architektoniczno-budowlanych w 3D.
Jak była o tym mowa we wstępie do obiektu lekcyjnego, identyfikatory łączą obiekty z informacją na ich temat. Stąd TIB, ponieważ ma doświadczenie odnośnie danych badawczych i matadanych je opisujących, jest naturalną siedzibą konsorcjum DataCite, które obsługuje numery DOI dla kompletnych zbiorów danych badawczych.
Dane badawcze były tradycyjnie przykładem “szarej literatury”, czyli literatury niepublikowanej, ale o dużej wartości, powstającej w toku prowadzenia badań naukowych.
Mimo, że nie istnieje komercyjny łańcuch dostaw w przypadku danych badawczych (przynajmniej jeszcze nie), możliwe jest odtworzenie tzw. „zapisu przebiegu przetwarzania danych” dla wyników procesu badawczego:
Identyfikator DataCite i towarzyszące mu metadane mają za zadanie umożliwić cytowanie (czyli ponowne wykorzystanie) danych źródłowych w nowym kontekście.
Wykorzystanie sieci komputerów o dużej mocy do masowej agregacji danych może dać nową jakość dzięki:
- symulacjom, czyli odtwarzaniu zjawisk ze świata realnego za pomocą komputerowych modeli eksperymentalnych,
- i metaanalizie, czyli przeglądowi systematycznemu i analizie statystycznej danych badawczych z wielu projektów badawczych w ramach danego obszaru.
Dzięki dzieleniu się danymi źródłowymi pochodzącymi jeszcze z wczesnych etapów badań, a nie tylko tymi końcowymi, czyli skondensowanymi i sumarycznymi, naukowcy mogą:
- pozwolić sobie na więcej eksperymentów, bardziej rozbudowanych,
- pracować szybciej,
- i uzyskiwać rezultaty ze swoich badań warte więcej niż zainwestowane wcześniej pieniądze.
DataCite używa systemu DOI, aby danym badawczym przypisywać identyfikatory:
- trwałe – lokalizacja pliku z danymi może się zmienić w momencie, gdy pracownik naukowy zmienia instytucję, dla której pracuje lub kiedy zmieniają się systemy archiwizacji danych,
- elastyczne – system DOI może połączyć wiele wersji danego pliku z pojedynczym identyfikatorem, dzięki czemu naukowcy mogą wybrać kopię, która najlepiej im odpowiada, np. mogą wybrać format pliku, język tekstu, czy tylko część treści, którą akurat potrzebują.
Usługa DataCite podaje, iż do tej pory zarejestrowała 1.498.811 numerów DOI 3 a liczba wyszukiwań (zakończonych sukcesem) stale rośnie licząc od końca 2011 roku:
Wymagania odnośnie trwałości i elastyczności identyfikatorów są identyczne jak w przypadku sektora cyfrowego dziedzictwa kulturowego:
- zbiór danych badawczych może funkcjonować w sieci w ten sam sposób, w jaki funkcjonuje cyfrowa wersja obiektu dziedzictwa kulturowego lub dokumentacja na jego temat,
- naukowcy i inne osoby zainteresowane mogą chcieć różnych wyników wyszukiwania w postaci różnych zdjęć lub opisów w różnych językach.
Zbiory danych dziedzictwa kulturowego w DataCite?
Są pewne podobieństwa pomiędzy danymi dostępnymi poprzez DataCite a tymi agregowanymi i obsługiwanymi przez projekty ochrony dziedzictwa kulturowego takie, jak Linked Heritage:
- oba rodzaje danych powstają w wyniku pewnej konkretnej sytuacji, którą jest obiekt zainteresowania raczej niż zbiór informacji, lub obiekt fizyczny, który jest świadkiem jednego wydarzenia historycznego bądź serii wydarzeń,
- oba rodzaje danych wynikają z “badań” – w zasadzie zbiór rekordów obiektów dziedzictwa kulturowego z projektu Linked Heritage mógłby zostać uznany za zbiór danych DataCite,
- oba rodzaje danych przeznaczone są do wykorzystania podczas dalszych “badań”,
- oba rodzaje danych mogą zyskać dodatkową jakość:
- dzięki łączeniu wielorakich cyfrowych substytutów,
- jak i dzięki łączeniu obiektu z metadanymi przy użyciu technologii RDF.
Kilka instytucji sektora ochrony dziedzictwa kulturowego już skorzystało z DataCite do przypisania numerów DOI do niektórych swoich kolekcji cyfrowych. Prawie 19.000 dokumentów zostało zgłoszonych do katalogu metadanych DataCite. Większość z nich pochodzi z Museum of Vertebrate Zoology at Berkeley (Muzeum Zwierząt Kręgowych) i – jak można się spodziewać – są to rekordy z próbkami, wycinkami i okazami z kolekcji nauk przyrodniczych.
DataCite zawiera również pewną ilość stron internetowych poświęconych obrazom Karla Hagemeistera z Bröhan Museum w Berlinie (przykład Birken am Bach im Spätherbst). Możliwe, że tego typu kolekcje są niedoreprezentowane w DataCite z powodu:
- istniejących metod cytowania obrazów oraz
- faktu, że ten typ „badań”, który wykorzystuje dane z muzeów ma trochę inne priorytety.
REKORDY DATACITE | REKORDY PROJEKTU LINKED HERITAGE | |
---|---|---|
Rodzaj opisywanego obiektu | Konkretna „sytuacja” (doświadczenie, badanie, publikacja lub recenzja) | Konkretny obiekt lub kolekcja z zasobu dziedzictwa kulturowego |
Kontekst powstania danych | Dane powstają w toku badania naukowego nad konkretnym problemem bądź o sprecyzowanym temacie | Dane powstają w toku przygotowania od strony merytorycznej programu kulturalnego galerii, muzeum, biblioteki czy archiwum, lub konkretnego tematu |
Dostęp do obiektu źródłowego | Pełne dane źródłowe są często wolnodostępne | Obiekt źródłowy zwykle dostępny dla publiczności (lub przynajmniej dla badaczy publikujących później swoje wyniki bez rozbudowanych restrykcji) |
Stopień rozbudowania metadanych | Podstawowe metadane umożliwiające jednoznaczną identyfikację; powiązania z innymi identyfikowanymi obiektami; interoperacyjność z bardziej rozbudowanymi modelami danych | Bardzo rozbudowane metadane, które z zasady pozwalają na szczegółowy opis obiektu ORAZ wszystkich innych z nim powiązanych |
Dostęp do metadanych opisujących obiekt | Metadane wolnodostępne (bądź z informacją dlaczego nie) | NIE wszystkie metadane w formacie LIDO są wolnodostępne |
Dostępne cyfrowe substytuty | Wielorakie reprezentacje danych i/lub metadanych dzięki tzw. „Language negotiation” | „Multiple Digital Objects” (np. zdjęcia cyfrowe budynku zrobione pod różnym kątem, skany różnych stron – bądź fragmentów stron – dokumentu) zwykle zebrane i połączone za pomocą rekordu modelu LIDO |
Wartość obiektu źródłowego i jego metadanych dla użytkownika końcowego | Cytowanie i ponowne wykorzystanie (cytat, dalsza analiza, włączenie do meta-analizy) zbiorów danych w badaniu naukowym, materiałach edukacyjnych | Cytowanie rekordów obiektów w badaniach naukowych, pracy zawodowej, materiałach edukacyjnych, ofercie kulturalnej dla publiczności |
Podstawowy model danych | Model danych zgodny z Indecs (DOI Kernel) | Model danych zgodny z CIDOC-CRM |
Potencjał dla Linked Data | Reprezentacja Linked Data metadanych DataCite opublikowana | W budowie LIDO jako technologia RDF |
Wnioski
- System DOI jest już wykorzystywany do danych podobnych do tych dotyczących obiektów dziedzictwa kulturowego.
- Są pewne różnice pomiędzy danymi badawczymi a dokumentacją archiwalną czy muzealną, co oznacza, że dane te mogą potrzebować innych rozwiązań technicznych.
- Obie branże dbają o elektroniczną archiwizację (digitalizację) zasobów i jest to jeden z powodów, by używać systemu DOI.
General information on UK DataCite (Informacja z British Library dla potencjalnych klientów z WB)
Instrukcje wideo pokazujące, jak system DataCite działa z perspektywy użytkownika.
Warsztaty DataCite organizowane przez British Library
Prezentacje przedstawiające kontekst systemu, w tym studia przypadku na temat implementacji DataCite w Wielkiej Brytanii takich, jak Archaeology Data Service, Data Archive i Data.bris; również dyskusja nad kwestiami technicznymi i możliwymi kierunkami rozwoju.
PRZYPISY
1 Na podstawie pracy J. Brase pt. DataCite and Linked Data z 2012 r., przedstawionej podczas seminarium pt. "Global Interoperability and Linked Data in Libraries" ("Globalna interoperacyjność oraz Linked Data w bibliotekach"), Florencja, Włochy, 18-19 czerwca 2012 r. ↑
2 Data, information and knowledge in the academic research "trajectory" (na podstawie wspomnianej pracy J. Brase). ↑
3 Pełne statystyki znajdują się na stronie http://stats.datacite.org/ ↑