TRWAŁE IDENTYFIKATORY:
ZASTOSOWANIE W KULTURZE I PRZEDSIĘWZIĘCIACH KOMERCYJNYCH

5/9 – STUDIUM PRZYPADKU 3: DataCite w katalogu TIB/UB1

W skrócie

Usługa DataCite identyfikuje dane badawcze po to, by mogły być użyte ponownie przy nowych projektach badawczych. Usługa ma więc ten sam cel, co sektor cyfrowego dziedzictwa kulturowego i dowodzi, jak system DOI może być użyteczny dla muzeów i archiwów.

Niemiecka Biblioteka Narodowa z dziedziny techniki i nauk ścisłych (Technische InformationsBibliothek, TIB) – partner projektu Linked Heritage – finansowana przez rząd federalny i landy, oferuje głównie globalną usługę dokumentowania osiągnięć w dziedzinie nauk przyrodniczych, matematycznych i technicznych, tj.:

  • chemii,
  • matematyki,
  • fizyki,
  • informatyki,
  • architektury,
  • i technologii.

TIB jest również centrum eksperckim w dziedzinie metadanych obiektów multimedialnych, którego jedną z inicjatyw jest PROBADO odpowiedzialne za rozwijanie modeli danych muzycznych oraz danych rysunków architektoniczno-budowlanych w 3D.

Jak była o tym mowa we wstępie do obiektu lekcyjnego, identyfikatory łączą obiekty z informacją na ich temat. Stąd TIB, ponieważ ma doświadczenie odnośnie danych badawczych i matadanych je opisujących, jest naturalną siedzibą konsorcjum DataCite, które obsługuje numery DOI dla kompletnych zbiorów danych badawczych.

Dane badawcze były tradycyjnie przykładem “szarej literatury”, czyli literatury niepublikowanej, ale o dużej wartości, powstającej w toku prowadzenia badań naukowych.

Mimo, że nie istnieje komercyjny łańcuch dostaw w przypadku danych badawczych (przynajmniej jeszcze nie), możliwe jest odtworzenie tzw. „zapisu przebiegu przetwarzania danych” dla wyników procesu badawczego:

Data, information and knowledge in the academic research 'trajectory' (after Brase, J. 2012)
2

Identyfikator DataCite i towarzyszące mu metadane mają za zadanie umożliwić cytowanie (czyli ponowne wykorzystanie) danych źródłowych w nowym kontekście.

Wykorzystanie sieci komputerów o dużej mocy do masowej agregacji danych może dać nową jakość dzięki:

  • symulacjom, czyli odtwarzaniu zjawisk ze świata realnego za pomocą komputerowych modeli eksperymentalnych,
  • i metaanalizie, czyli przeglądowi systematycznemu i analizie statystycznej danych badawczych z wielu projektów badawczych w ramach danego obszaru.

Dzięki dzieleniu się danymi źródłowymi pochodzącymi jeszcze z wczesnych etapów badań, a nie tylko tymi końcowymi, czyli skondensowanymi i sumarycznymi, naukowcy mogą:

  • pozwolić sobie na więcej eksperymentów, bardziej rozbudowanych,
  • pracować szybciej,
  • i uzyskiwać rezultaty ze swoich badań warte więcej niż zainwestowane wcześniej pieniądze.

DataCite używa systemu DOI, aby danym badawczym przypisywać identyfikatory:

  • trwałelokalizacja pliku z danymi może się zmienić w momencie, gdy pracownik naukowy zmienia instytucję, dla której pracuje lub kiedy zmieniają się systemy archiwizacji danych,
  • elastyczne – system DOI może połączyć wiele wersji danego pliku z pojedynczym identyfikatorem, dzięki czemu naukowcy mogą wybrać kopię, która najlepiej im odpowiada, np. mogą wybrać format pliku, język tekstu, czy tylko część treści, którą akurat potrzebują.

Usługa DataCite podaje, iż do tej pory zarejestrowała 1.498.811 numerów DOI 3 a liczba wyszukiwań (zakończonych sukcesem) stale rośnie licząc od końca 2011 roku:

Wymagania odnośnie trwałości i elastyczności identyfikatorów są identyczne jak w przypadku sektora cyfrowego dziedzictwa kulturowego:

  • zbiór danych badawczych może funkcjonować w sieci w ten sam sposób, w jaki funkcjonuje cyfrowa wersja obiektu dziedzictwa kulturowego lub dokumentacja na jego temat,
  • naukowcy i inne osoby zainteresowane mogą chcieć różnych wyników wyszukiwania w postaci różnych zdjęć lub opisów w różnych językach.

Zbiory danych dziedzictwa kulturowego w DataCite?

Są pewne podobieństwa pomiędzy danymi dostępnymi poprzez DataCite a tymi agregowanymi i obsługiwanymi przez projekty ochrony dziedzictwa kulturowego takie, jak Linked Heritage:

  • oba rodzaje danych powstają w wyniku pewnej konkretnej sytuacji, którą jest obiekt zainteresowania raczej niż zbiór informacji, lub obiekt fizyczny, który jest świadkiem jednego wydarzenia historycznego bądź serii wydarzeń,
  • oba rodzaje danych wynikają z “badań” – w zasadzie zbiór rekordów obiektów dziedzictwa kulturowego z projektu Linked Heritage mógłby zostać uznany za zbiór danych DataCite,
  • oba rodzaje danych przeznaczone są do wykorzystania podczas dalszych “badań”,
  • oba rodzaje danych mogą zyskać dodatkową jakość:
    • dzięki łączeniu wielorakich cyfrowych substytutów,
    • jak i dzięki łączeniu obiektu z metadanymi przy użyciu technologii RDF.

Kilka instytucji sektora ochrony dziedzictwa kulturowego już skorzystało z DataCite do przypisania numerów DOI do niektórych swoich kolekcji cyfrowych. Prawie 19.000 dokumentów zostało zgłoszonych do katalogu metadanych DataCite. Większość z nich pochodzi z Museum of Vertebrate Zoology at Berkeley (Muzeum Zwierząt Kręgowych) i – jak można się spodziewać – są to rekordy z próbkami, wycinkami i okazami z kolekcji nauk przyrodniczych.

DataCite zawiera również pewną ilość stron internetowych poświęconych obrazom Karla Hagemeistera z Bröhan Museum w Berlinie (przykład Birken am Bach im Spätherbst). Możliwe, że tego typu kolekcje są niedoreprezentowane w DataCite z powodu:

  • istniejących metod cytowania obrazów oraz
  • faktu, że ten typ „badań”, który wykorzystuje dane z muzeów ma trochę inne priorytety.
REKORDY DATACITEREKORDY PROJEKTU LINKED HERITAGE
Rodzaj opisywanego obiektuKonkretna „sytuacja” (doświadczenie, badanie, publikacja lub recenzja)Konkretny obiekt lub kolekcja z zasobu dziedzictwa kulturowego
Kontekst powstania danychDane powstają w toku badania naukowego nad konkretnym problemem bądź o sprecyzowanym temacieDane powstają w toku przygotowania od strony merytorycznej programu kulturalnego galerii, muzeum, biblioteki czy archiwum, lub konkretnego tematu
Dostęp do obiektu źródłowegoPełne dane źródłowe są często wolnodostępneObiekt źródłowy zwykle dostępny dla publiczności (lub przynajmniej dla badaczy publikujących później swoje wyniki bez rozbudowanych restrykcji)
Stopień rozbudowania metadanychPodstawowe metadane umożliwiające jednoznaczną identyfikację; powiązania z innymi identyfikowanymi obiektami; interoperacyjność z bardziej rozbudowanymi modelami danychBardzo rozbudowane metadane, które z zasady pozwalają na szczegółowy opis obiektu ORAZ wszystkich innych z nim powiązanych
Dostęp do metadanych opisujących obiektMetadane wolnodostępne (bądź z informacją dlaczego nie)NIE wszystkie metadane w formacie LIDO są wolnodostępne
Dostępne cyfrowe substytutyWielorakie reprezentacje danych i/lub metadanych dzięki tzw. „Language negotiation”„Multiple Digital Objects” (np. zdjęcia cyfrowe budynku zrobione pod różnym kątem, skany różnych stron – bądź fragmentów stron – dokumentu) zwykle zebrane i połączone za pomocą rekordu modelu LIDO
Wartość obiektu źródłowego i jego metadanych dla użytkownika końcowegoCytowanie i ponowne wykorzystanie (cytat, dalsza analiza, włączenie do meta-analizy) zbiorów danych w badaniu naukowym, materiałach edukacyjnychCytowanie rekordów obiektów w badaniach naukowych, pracy zawodowej, materiałach edukacyjnych, ofercie kulturalnej dla publiczności
Podstawowy model danychModel danych zgodny z Indecs (DOI Kernel)Model danych zgodny z CIDOC-CRM
Potencjał dla Linked DataReprezentacja Linked Data metadanych DataCite opublikowanaW budowie LIDO jako technologia RDF

Wnioski

  • System DOI jest już wykorzystywany do danych podobnych do tych dotyczących obiektów dziedzictwa kulturowego.
  • Są pewne różnice pomiędzy danymi badawczymi a dokumentacją archiwalną czy muzealną, co oznacza, że dane te mogą potrzebować innych rozwiązań technicznych.
  • Obie branże dbają o elektroniczną archiwizację (digitalizację) zasobów i jest to jeden z powodów, by używać systemu DOI.
Dowiedz się więcej

General information on UK DataCite (Informacja z British Library dla potencjalnych klientów z WB)
Instrukcje wideo pokazujące, jak system DataCite działa z perspektywy użytkownika.

Warsztaty DataCite organizowane przez British Library
Prezentacje przedstawiające kontekst systemu, w tym studia przypadku na temat implementacji DataCite w Wielkiej Brytanii takich, jak Archaeology Data Service, Data Archive i Data.bris; również dyskusja nad kwestiami technicznymi i możliwymi kierunkami rozwoju.

PRZYPISY



1 Na podstawie pracy J. Brase pt. DataCite and Linked Data z 2012 r., przedstawionej podczas seminarium pt. "Global Interoperability and Linked Data in Libraries" ("Globalna interoperacyjność oraz Linked Data w bibliotekach"), Florencja, Włochy, 18-19 czerwca 2012 r.
2 Data, information and knowledge in the academic research "trajectory" (na podstawie wspomnianej pracy J. Brase).
3 Pełne statystyki znajdują się na stronie http://stats.datacite.org/