ŁĄCZENIEDANYCH DZIEDZICTWA KULTUROWEGO
2/5 – Analiza struktury Linked Data Cloud
Spis treści
- Czym jest chmura (ang. cloud)?
- Jaka część chmury jest otwarta?
- Jakich licencji IPR używa się w chmurze?
- Jak wielka jest chmura?
- Jakich tematów dotyczą dane w chmurze?
- Jakich formatów używa się do kodowania danych?
- Jak połączone są pakiety w chmurze?
- Dane dziedzictwa kulturowego w chmurze
- Formaty
- Połączenia (linki)
- Serializacja
Łączenie danych dziedzictwa kulturowego to tytuł drugiego pakietu zadaniowego (WP2) projektu europejskiego Linked Heritage, który trwał 30 miesięcy począwszy od 1 kwietnia 2011 r. i koordynowany był przez Istituto Centrale per il Catalogo Unico delle biblioteche italiane (ICCU) z siedzibą w Rzymie (tj. przez Centralny Katalog Bibliotek Włoskich).
Do celów pakietu WP2 należało:
- sprawdzenie stanu badań na temat Linked Data oraz ich zastosowań i możliwości rozwoju;
- wyznaczenie modeli, procesów i technologii, które byłyby najbardziej odpowiednie dla rozwoju zasobów dziedzictwa kulturowego w formie Linked Data.
W szczególności WP2 badał strukturę Linked Data Cloud oraz informacje przez nią przenoszone.
Czym jest chmura (ang. cloud)?
Chmura jest najbardziej znaną reprezentacją Linked Data. Zawiera “pakiety” połączonych danych oraz połączenia (linki) pomiędzy pakietami. Rozrasta się w bardzo szybkim tempie a ostatni jej schemat z września 2011 liczył 331 pakietów.
Chmura obsługiwana jest ze strony Data Hub, czyli ze strony projektu autorstwa W3C (World Wide Web Consortium) stanowiącego archiwum wiedzy otwartej i nie otwartej. Można tam znaleźć informacje na temat pakietów i projektów.
Strona Data Hub zarządzana jest przez projekt społecznościowy Linking Open Data, który jest częścią grupy interesu pod nazwą SWEOIG (Semantic Web Education and Outreach Interest Group) działającej z inicjatywy W3C a zajmującej się edukacją w zakresie Semantic Web. Z tego względu można uznać, iż strona ta reprezentuje znaczną część udostępnionych danych typu Linked Data.
Strona Data Hub dla każdego pakietu podaje następujące informacje:
- nazwę i opis;
- linki do udostępnionych zasobów;
- status praw własności intelektualnej (IPR);
- pakiety przyłączone (w tym ich ilość);
- ilość „trójek” w pakiecie (trójka to plik + lokalizacja + protokół dostępu; jest miarą wielkości pakietu);
- temat i użyte formaty.
Analiza WP2 ukazała niespodziewany obraz chmury, tj. przekraczający ustalone zasady i plany.
Jaka część chmury jest otwarta?
Pamiętając, że słowo „otwarta” w przypadku chmury oznacza udostępniona do celów korzystania z danych, rozbudowywania ich i dzielenia się nimi (również z pobudek komercyjnych), na podstawie wspomnianej analizy można stwierdzić, że znaczna część chmury nie jest otwarta.
Status IPR | % pakietów |
---|---|
Otwarta | 42.6 |
Nie otwarta | 57.4 |
Jednym z powodów tej anomalii może być fakt, iż w przypadku pierwszego pakietu opublikowanego w chmurze w ogóle nie widziano potrzeby zaopatrzenia go w licencję.
Jakich licencji IPR używa się w chmurze?
Licencje otwarte
Poniżej zestawienie 132 pakietów na licencjach otwartych:
Typ licencji | % pakietów |
---|---|
Creative Commons Attribution (CC BY) | 28.8 |
Creative Commons Attribution Share Alike (CC BY-SA) | 18.2 |
Open Data Commons Public Domain Dedication and Licence (ODC PDDL) | 10.6 |
Creative Commons CC Zero (CC0) | 9.1 |
UK Crown Copyright oraz inne licencje projektu data.gov.uk | 7.6 |
Inna (domena publiczna) | 6.8 |
Inna (otwarta) | 5.3 |
Inne | 12.9 |
CC0 jest licencją, z której korzystać można od niedawna, ale to właśnie ta licencja została wybrana przez Europeanę – i przez dostawców danych z nią współpracujących – do publikowania danych typu Linked Open Data. Jest to najbardziej liberalna ze wszystkich licencji otwartych, z tym komentarzem, że jest ona jedynie zalecana a nie obowiązkowa.
Licencje nie otwarte
Poniżej zestawienie 178 pakietów na licencjach nie otwartych bądź bez informacji o licencji:
Typ licencji | % pakietów |
---|---|
Nie podano | 69.1 |
Bez licencji | 14.6 |
Creative Commons Attribution Non-commercial (CC BY-NC) | 7.3 |
Inna (nie otwarta) | 6.7 |
Creative Commons Attribution (CC BY) | 1.1 |
Inna (niekomercyjna) | 0.6 |
Creative Commons Attribution Share Alike (CC BY-SA) | 0.6 |
W przypadku aż 80% pakietów tej części chmury nie ma informacji na temat praw własności intelektualnej, w tym znaczna część opublikowanych danych typu Linked Data w ogóle wydaje się nie mieć licencji. W rezultacie nie jest jasne co można zrobić z tymi danymi.
Jak wielka jest chmura?
W chmurze znajduje się około 38 miliardów trójek, ale ich rozmieszczenie jest nierównomierne. Tzn. 9 pakietów (2,89% wszystkich) posiada ponad miliard trójek, podczas gdy blisko 25% wszystkich pakietów jest stosunkowo niewielka.
Dziesięć największych pakietów na licencjach otwartych to:
Pakiet | Liczba trójek |
---|---|
LinkedGeoData | 3 miliardy |
UK Legislation | 1,9 miliarda |
Linked Sensor Data (Kno.e.sis) | 1,73 miliarda |
data.gov.uk Time Intervals | 1 miliard |
DBpedia | 1 miliard |
Open Library data mirror na Platformie Talis | 0,54 miliarda |
The Open Library | 0,4 miliarda |
Freebase | 0,34 miliarda |
transport.data.gov.uk | 0,33 miliarda |
Data Incubator: MusicBrainz | 0,18 miliarda |
Dziesięć największych pakietów na licencjach nie otwartych to:
Pakiet | Liczba trójek |
---|---|
TWC: Linking Open Government Data | 9,8 miliarda |
Data.gov | 6,4 miliarda |
Source Code Ecosystem Linked Data | 1,5 miliarda |
2000 U.S. Census w RDF (rdfabout.com) | 1 miliard |
PubMed | 0,8 miliarda |
DBTune.org MySpace RDF Service | 0,66 miliarda |
UniParc | 0,63 miliarda |
DBTune.org AudioScrobbler RDF Service | 0,6 miliarda |
Linking Italian University Statistics Project | 0,59 miliarda |
UniProt UniRef | 0,49 miliarda |
TWC: Linking Open Government Data – największy pakiet w chmurze – to projekt agregacji danych rządu USA.
Jakich tematów dotyczą dane w chmurze?
W ramach chmury nie funkcjonuje tzw. słownictwo kontrolowane, a zatem jeden temat jest reprezentowany w niej przez różne znaczniki (tagi) w zależności od pakietu.
W analizie przeprowadzonej przez WP2 połączono znaczniki, które wydawały się odpowiadać temu samemu tematowi. W ten sposób dziesięć najbardziej popularnych tematów w chmurze to:
Znacznik (tag) | Liczba pakietów z danym znacznikiem (tagiem) |
---|---|
publikacje | 94 |
rząd | 54 |
nauki przyrodnicze | 46 |
geografia | 40 |
media | 32 |
biblioteki | 22 |
Zjednoczone Królestwo | 22 |
edukacja | 20 |
treść generowana przez użytkownika (ang. user-generated content, UGC) | 19 |
bibliografie | 15 |
Dane dotyczące dziedzictwa kulturowego są bardzo nieliczne. Spowodowane jest to najprawdopodobniej tym, że przed pojawieniem się portalu Europeany sektor ten nie był zainteresowany danymi typu Linked Data. Obecność znacznika Zjednoczone Królestwo jest wynikiem polityki rządu JKM w sprawie publikowania danych tego typu. Natomiast aktywność rządu USA nie jest widoczna, ponieważ odpowiednie pakiety nie są oznaczane jako Stany Zjednoczone.
Jakich formatów używa się do kodowania danych?
Najpowszechniej używane formaty to:
Format | Liczba pakietów używających danego formatu |
---|---|
Resource Description Framework (RDF) | 261 |
Dublin Core (DC) | 97 |
Friend of a Friend (FOAF) | 84 |
Simple Knowledge Organization System (SKOS) | 57 |
RDF Schema (RDFS) | 42 |
Web Ontology Language (OWL) | 34 |
Basic Geo (GEO) | 25 |
Advanced Knowledge Technologies Reference Ontology (AKT) | 22 |
eXtensible HyperText Markup Language (XHTML) | 19 |
Bibliographic Ontology (BIBO) | 14 |
Nie podano | 13 |
Music Ontology (MO) | 13 |
DBpedia Ontology (DBpedia) | 12 |
Inne | 52 |
Formaty AKT Ontology, DBpedia Ontology i GeoNames Ontology były rozwijane już na etapie publikacji pojedynczego pakietu jako Linked Data. Z czasem coraz więcej pakietów przyjęło te formaty, co spowodowało, że stały się one de facto formatami standardowymi odgrywającymi w chmurze znaczącą rolę.
Zaskakujący jest jednak fakt, iż mimo zaleceń Tima Bernersa-Lee odnośnie korzystania w chmurze z jednego znormalizowanego formatu np. niecałe dwa pakiety używają aż 75 formatów – dla dobra interoperacyjności należałoby sobie życzyć, aby po pewnym czasie przetrwał tylko najlepszy z nich!
Jak połączone są pakiety w chmurze?
Najistotniejszą rzeczą o chmurze jest to, w jaki sposób połączone są jej pakiety. Dziesięć najczęściej przyłączanych – tj. „najpopularniejszych” – pakietów według ilości pakietów przyłączających to:
Pakiet przyłączany | Liczba pakietów przyłączających |
---|---|
DBpedia | 158 |
GeoNames Semantic Web | 42 |
Żaden | 34 |
DBLP Computer Science Bibliography (RKBExplorer) | 27 |
Association for Computing Machinery (ACM) (RKBExplorer) | 26 |
ePrints3 Institutional Archive Collection (RKBExplorer) | 26 |
Freebase | 25 |
Inne | 72 |
Sukces dwóch pierwszych wynika najprawdopodobniej z tego, że są one powszechnie znane. Ale najciekawsze jest to, że ponad 10% pakietów w chmurze nie łączy się w ogóle z innymi pakietami; w tej grupie znajdują się również największe pakiety takie, jak Data.gov czy 2000 U.S. Census. Oznacza to, że łączenie się pakietów nie jest czymś, co rozwija się w sposób naturalny.
Istnieją specjalne inicjatywy, których zadaniem jest znaczna rozbudowa chmury. Taka inicjatywa byłaby mile widziana również w sektorze ochrony dziedzictwa kulturowego, gdzie Europeana przejmuje właściwie kluczową rolę.
Dane dziedzictwa kulturowego w chmurze
Internetowi dostawcy informacji są bardzo zainteresowani danymi dziedzictwa kulturowego wytworzonymi przez liczne biblioteki, archiwa czy muzea, ponieważ dane te tradycyjnie uważa się za kluczowe w produkcji informacji wartościowych.
Niestety tylko o około 18 pakietach w chmurze można powiedzieć, że dotyczą dziedzictwa kulturowego bądź są luźno związane z tym tematem:
Pakiet | Liczba trójek |
---|---|
VIAF: The Virtual International Authority File | 200,000,000 |
Europeana Linked Open Data | 185,000,000 |
Brytyjska Bibliografia Narodowa (BNB) | 80,249,538 |
Katalog Węgierskiej Biblioteki Narodowej (NSZL) | 19,300,000 |
Muzeum Amsterdamu jako Linked Open Data w modelu EDM (Europeana Data Model) | 5,000,000 |
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH) | 4,151,586 |
Swedish Open Cultural Heritage (SOCH) | 3,400,000 |
Calames | 2,000,000 |
RAMEAU subject headings (STITCH) | 1,619,918 |
data.bnf.fr - Bibliothèque nationale de France | 1,400,000 |
Hasła przedmiotowe Biblioteki Parlamentu Japonii (National Diet Library of Japan subject headings) | 1,294,669 |
Gemeenschappelijke Thesaurus Audiovisuele Archieven – Common Thesaurus for Audiovisual Archives | 992,797 |
Gemeinsame Normdatei (GND) | 629,582 |
Archives Hub Linked Data | 431,088 |
Tezaurus materiałów graficznych (Thesaurus for Graphic Materials, t4gm.info) | 103,000 |
Muzea Włoskie (LinkedOpenData.it) | 49,897 |
Thesaurus W for Local Archives | 11,000 |
MARC Codes List Open Data | 8,816 |
Część chmury pochodząca z zasobów dziedzictwa kulturowego jest wciąż raczej skromna (około 500 milionów trójek, czyli mniej niż 1.5% wszystkich), ale należy mieć nadzieję, że planowany wkład ze strony Europeany znacznie powiększy tę część. Projekt Linked Heritage jest ważnym elementem tego planu.
Formaty
Pakiety dotyczące dziedzictwa kulturowego zazwyczaj używają następujących formatów:
Format | Liczba pakietów używających danego formatu |
---|---|
Resource Description Framework (RDF) | 13 |
Simple Knowledge Organization System (SKOS) | 11 |
Dublin Core (DC) | 7 |
eXtensible HyperText Markup Language (XHTML) | 4 |
Friend of a Friend (FOAF) | 3 |
Basic Geo (GEO) | 1 |
Bibliographic Ontology (BIBO) | 1 |
DBpedia Ontology (DBpedia) | 1 |
Music Ontology (MO) | 1 |
Object Reuse and Exchange | 1 |
RDF Schema (RDFS) | 1 |
vCard | 1 |
Web Ontology Language (OWL) | 1 |
XML Schema | 1 |
Obraz tej części chmury podobny jest do obrazu całości chmury, z tą różnicą, że wykorzystanie formatu SKOS jest tutaj znacznie większe, co świadczy o wyjątkowym znaczeniu zasobów terminologicznych oraz kartotek haseł wzorcowych w danym sektorze. Do odnotowania jest również nieobecność osobnego formatu dla dokumentacji muzealnej. Strona Data Hub nie wspomina też modelu EDM (Europeana Data Model), podczas gdy inne źródła podają, iż niektóre pakiety zdecydowanie korzystały z tego modelu.
Połączenia (linki)
Pakiety dotyczące dziedzictwa kulturowego łączą z:
Pakiet przyłączany | Liczba pakietów przyłączających |
---|---|
DBpedia | 5 |
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH) | 4 |
VIAF: The Virtual International Authority File | 2 |
GeoNames Semantic Web | 2 |
Klasyfikacja Dziesiętna Deweya (KDD) | 2 |
RAMEAU subject headings (STITCH) | 2 |
Swedish Open Cultural Heritage (SOCH) | 1 |
Gemeinsame Normdatei (GND) | 1 |
IdRef: Sudoc authority data | 1 |
(DCMI Type Vocabulary – poza chmurą) | 1 |
UK Postcodes | 1 |
AGROVOC | 1 |
Katalog Węgierskiej Biblioteki Narodowej (NSZL) | 1 |
Żaden | 1 |
DBpedia to interdyscyplinarne źródło wiedzy, GeoNames to źródło wiedzy o geografii – oba są szeroko znane. Pozostałe pakiety głównie same dotyczą dziedzictwa kulturowego, w tym znajdują się standardowe terminologie oraz kartoteki haseł wzorcowych.
Serializacja
Format RDF/XML używany jest przez niemal wszystkie pakiety, ale Europeana Linked Open Data używa tylko N-Triples.
Serializacja | Liczba pakietów używających danego formatu (%) |
---|---|
RDF/XML | 16 (88.9%) |
N-Triples | 5 (27.8%) |
Turtle | 1 (5.5%) |
Nie podano | 1 (5.5%) |
Powyższa tabela wskazuje na to, iż dane dziedzictwa kulturowego typu Linked Data powinny być publikowane przynajmniej w formacie RDF/XML, możliwie w formacie N-Triples, by były kompatybilne z istniejącymi już danymi.