ŁĄCZENIEDANYCH DZIEDZICTWA KULTUROWEGO

2/5 – Analiza struktury Linked Data Cloud

Łączenie danych dziedzictwa kulturowego to tytuł drugiego pakietu zadaniowego (WP2) projektu europejskiego Linked Heritage, który trwał 30 miesięcy począwszy od 1 kwietnia 2011 r. i koordynowany był przez Istituto Centrale per il Catalogo Unico delle biblioteche italiane (ICCU) z siedzibą w Rzymie (tj. przez Centralny Katalog Bibliotek Włoskich).

Do celów pakietu WP2 należało:

  • sprawdzenie stanu badań na temat Linked Data oraz ich zastosowań i możliwości rozwoju;
  • wyznaczenie modeli, procesów i technologii, które byłyby najbardziej odpowiednie dla rozwoju zasobów dziedzictwa kulturowego w formie Linked Data.

W szczególności WP2 badał strukturę Linked Data Cloud oraz informacje przez nią przenoszone.

Czym jest chmura (ang. cloud)?

Chmura jest najbardziej znaną reprezentacją Linked Data. Zawiera “pakiety” połączonych danych oraz połączenia (linki) pomiędzy pakietami. Rozrasta się w bardzo szybkim tempie a ostatni jej schemat z września 2011 liczył 331 pakietów.

Stan chmury z września 2011
Stan chmury z września 2011. [Kliknij, aby powiększyć].
Schemat chmury LOD opracowują Richard Cyganiak (DERI, NUI Galway) i Anja Jentzsch (HPI).

Chmura obsługiwana jest ze strony Data Hub, czyli ze strony projektu autorstwa W3C (World Wide Web Consortium) stanowiącego archiwum wiedzy otwartej i nie otwartej. Można tam znaleźć informacje na temat pakietów i projektów.

DATA HUB

Strona Data Hub zarządzana jest przez projekt społecznościowy Linking Open Data, który jest częścią grupy interesu pod nazwą SWEOIG (Semantic Web Education and Outreach Interest Group) działającej z inicjatywy W3C a zajmującej się edukacją w zakresie Semantic Web. Z tego względu można uznać, iż strona ta reprezentuje znaczną część udostępnionych danych typu Linked Data.

Strona Data Hub dla każdego pakietu podaje następujące informacje:

  • nazwę i opis;
  • linki do udostępnionych zasobów;
  • status praw własności intelektualnej (IPR);
  • pakiety przyłączone (w tym ich ilość);
  • ilość „trójek” w pakiecie (trójka to plik + lokalizacja + protokół dostępu; jest miarą wielkości pakietu);
  • temat i użyte formaty.

Analiza WP2 ukazała niespodziewany obraz chmury, tj. przekraczający ustalone zasady i plany.

Jaka część chmury jest otwarta?

Pamiętając, że słowo „otwarta” w przypadku chmury oznacza udostępniona do celów korzystania z danych, rozbudowywania ich i dzielenia się nimi (również z pobudek komercyjnych), na podstawie wspomnianej analizy można stwierdzić, że znaczna część chmury nie jest otwarta.

Status IPR% pakietów
Otwarta
42.6
Nie otwarta
57.4

Jednym z powodów tej anomalii może być fakt, iż w przypadku pierwszego pakietu opublikowanego w chmurze w ogóle nie widziano potrzeby zaopatrzenia go w licencję.

Jakich licencji IPR używa się w chmurze?

Licencje otwarte

Poniżej zestawienie 132 pakietów na licencjach otwartych:

Typ licencji% pakietów
Creative Commons Attribution (CC BY)
28.8
Creative Commons Attribution Share Alike (CC BY-SA)
18.2
Open Data Commons Public Domain Dedication and Licence (ODC PDDL)
10.6
Creative Commons CC Zero (CC0)
9.1
UK Crown Copyright oraz inne licencje projektu data.gov.uk
7.6
Inna (domena publiczna)
6.8
Inna (otwarta)
5.3
Inne
12.9

CC0 jest licencją, z której korzystać można od niedawna, ale to właśnie ta licencja została wybrana przez Europeanę – i przez dostawców danych z nią współpracujących – do publikowania danych typu Linked Open Data. Jest to najbardziej liberalna ze wszystkich licencji otwartych, z tym komentarzem, że jest ona jedynie zalecana a nie obowiązkowa.

Licencje nie otwarte

Poniżej zestawienie 178 pakietów na licencjach nie otwartych bądź bez informacji o licencji:

Typ licencji% pakietów
Nie podano
69.1
Bez licencji
14.6
Creative Commons Attribution Non-commercial (CC BY-NC)
7.3
Inna (nie otwarta)
6.7
Creative Commons Attribution (CC BY)
1.1
Inna (niekomercyjna)
0.6
Creative Commons Attribution Share Alike (CC BY-SA)
0.6

W przypadku aż 80% pakietów tej części chmury nie ma informacji na temat praw własności intelektualnej, w tym znaczna część opublikowanych danych typu Linked Data w ogóle wydaje się nie mieć licencji. W rezultacie nie jest jasne co można zrobić z tymi danymi.

Jak wielka jest chmura?

W chmurze znajduje się około 38 miliardów trójek, ale ich rozmieszczenie jest nierównomierne. Tzn. 9 pakietów (2,89% wszystkich) posiada ponad miliard trójek, podczas gdy blisko 25% wszystkich pakietów jest stosunkowo niewielka.

Dziesięć największych pakietów na licencjach otwartych to:

PakietLiczba trójek
LinkedGeoData
3 miliardy
UK Legislation
1,9 miliarda
Linked Sensor Data (Kno.e.sis)
1,73 miliarda
data.gov.uk Time Intervals
1 miliard
DBpedia
1 miliard
Open Library data mirror na Platformie Talis
0,54 miliarda
The Open Library
0,4 miliarda
Freebase
0,34 miliarda
transport.data.gov.uk
0,33 miliarda
Data Incubator: MusicBrainz
0,18 miliarda


Dziesięć największych pakietów na licencjach nie otwartych to:

PakietLiczba trójek
TWC: Linking Open Government Data
9,8 miliarda
Data.gov
6,4 miliarda
Source Code Ecosystem Linked Data
1,5 miliarda
2000 U.S. Census w RDF (rdfabout.com)
1 miliard
PubMed
0,8 miliarda
DBTune.org MySpace RDF Service
0,66 miliarda
UniParc
0,63 miliarda
DBTune.org AudioScrobbler RDF Service
0,6 miliarda
Linking Italian University Statistics Project
0,59 miliarda
UniProt UniRef
0,49 miliarda

TWC: Linking Open Government Data – największy pakiet w chmurze – to projekt agregacji danych rządu USA.

Jakich tematów dotyczą dane w chmurze?

W ramach chmury nie funkcjonuje tzw. słownictwo kontrolowane, a zatem jeden temat jest reprezentowany w niej przez różne znaczniki (tagi) w zależności od pakietu.

W analizie przeprowadzonej przez WP2 połączono znaczniki, które wydawały się odpowiadać temu samemu tematowi. W ten sposób dziesięć najbardziej popularnych tematów w chmurze to:

Znacznik (tag)Liczba pakietów z danym znacznikiem (tagiem)
publikacje
94
rząd
54
nauki przyrodnicze
46
geografia
40
media
32
biblioteki
22
Zjednoczone Królestwo
22
edukacja
20
treść generowana przez użytkownika (ang. user-generated content, UGC)
19
bibliografie
15

Dane dotyczące dziedzictwa kulturowego są bardzo nieliczne. Spowodowane jest to najprawdopodobniej tym, że przed pojawieniem się portalu Europeany sektor ten nie był zainteresowany danymi typu Linked Data. Obecność znacznika Zjednoczone Królestwo jest wynikiem polityki rządu JKM w sprawie publikowania danych tego typu. Natomiast aktywność rządu USA nie jest widoczna, ponieważ odpowiednie pakiety nie są oznaczane jako Stany Zjednoczone.

Jakich formatów używa się do kodowania danych?

Najpowszechniej używane formaty to:

FormatLiczba pakietów używających danego formatu
Resource Description Framework (RDF)
261
Dublin Core (DC)
97
Friend of a Friend (FOAF)
84
Simple Knowledge Organization System (SKOS)
57
RDF Schema (RDFS)
42
Web Ontology Language (OWL)
34
Basic Geo (GEO)
25
Advanced Knowledge Technologies Reference Ontology (AKT)
22
eXtensible HyperText Markup Language (XHTML)
19
Bibliographic Ontology (BIBO)
14
Nie podano
13
Music Ontology (MO)
13
DBpedia Ontology (DBpedia)
12
Inne
52

Formaty AKT Ontology, DBpedia Ontology i GeoNames Ontology były rozwijane już na etapie publikacji pojedynczego pakietu jako Linked Data. Z czasem coraz więcej pakietów przyjęło te formaty, co spowodowało, że stały się one de facto formatami standardowymi odgrywającymi w chmurze znaczącą rolę.

Zaskakujący jest jednak fakt, iż mimo zaleceń Tima Bernersa-Lee odnośnie korzystania w chmurze z jednego znormalizowanego formatu np. niecałe dwa pakiety używają aż 75 formatów – dla dobra interoperacyjności należałoby sobie życzyć, aby po pewnym czasie przetrwał tylko najlepszy z nich!

Jak połączone są pakiety w chmurze?

Najistotniejszą rzeczą o chmurze jest to, w jaki sposób połączone są jej pakiety. Dziesięć najczęściej przyłączanych – tj. „najpopularniejszych” – pakietów według ilości pakietów przyłączających to:

Pakiet przyłączanyLiczba pakietów przyłączających
DBpedia
158
GeoNames Semantic Web
42
Żaden
34
DBLP Computer Science Bibliography (RKBExplorer)
27
Association for Computing Machinery (ACM) (RKBExplorer)
26
ePrints3 Institutional Archive Collection (RKBExplorer)
26
Freebase
25
Inne
72

Sukces dwóch pierwszych wynika najprawdopodobniej z tego, że są one powszechnie znane. Ale najciekawsze jest to, że ponad 10% pakietów w chmurze nie łączy się w ogóle z innymi pakietami; w tej grupie znajdują się również największe pakiety takie, jak Data.gov czy 2000 U.S. Census. Oznacza to, że łączenie się pakietów nie jest czymś, co rozwija się w sposób naturalny.

Istnieją specjalne inicjatywy, których zadaniem jest znaczna rozbudowa chmury. Taka inicjatywa byłaby mile widziana również w sektorze ochrony dziedzictwa kulturowego, gdzie Europeana przejmuje właściwie kluczową rolę.

Dane dziedzictwa kulturowego w chmurze

Internetowi dostawcy informacji są bardzo zainteresowani danymi dziedzictwa kulturowego wytworzonymi przez liczne biblioteki, archiwa czy muzea, ponieważ dane te tradycyjnie uważa się za kluczowe w produkcji informacji wartościowych.

Niestety tylko o około 18 pakietach w chmurze można powiedzieć, że dotyczą dziedzictwa kulturowego bądź są luźno związane z tym tematem:

PakietLiczba trójek
VIAF: The Virtual International Authority File 200,000,000
Europeana Linked Open Data 185,000,000
Brytyjska Bibliografia Narodowa (BNB) 80,249,538
Katalog Węgierskiej Biblioteki Narodowej (NSZL) 19,300,000
Muzeum Amsterdamu jako Linked Open Data w modelu EDM (Europeana Data Model) 5,000,000
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH) 4,151,586
Swedish Open Cultural Heritage (SOCH) 3,400,000
Calames 2,000,000
RAMEAU subject headings (STITCH) 1,619,918
data.bnf.fr - Bibliothèque nationale de France 1,400,000
Hasła przedmiotowe Biblioteki Parlamentu Japonii (National Diet Library of Japan subject headings) 1,294,669
Gemeenschappelijke Thesaurus Audiovisuele Archieven – Common Thesaurus for Audiovisual Archives 992,797
Gemeinsame Normdatei (GND) 629,582
Archives Hub Linked Data 431,088
Tezaurus materiałów graficznych (Thesaurus for Graphic Materials, t4gm.info) 103,000
Muzea Włoskie (LinkedOpenData.it) 49,897
Thesaurus W for Local Archives 11,000
MARC Codes List Open Data 8,816

Część chmury pochodząca z zasobów dziedzictwa kulturowego jest wciąż raczej skromna (około 500 milionów trójek, czyli mniej niż 1.5% wszystkich), ale należy mieć nadzieję, że planowany wkład ze strony Europeany znacznie powiększy tę część. Projekt Linked Heritage jest ważnym elementem tego planu.

Formaty

Pakiety dotyczące dziedzictwa kulturowego zazwyczaj używają następujących formatów:

FormatLiczba pakietów używających danego formatu
Resource Description Framework (RDF)
13
Simple Knowledge Organization System (SKOS)
11
Dublin Core (DC)
7
eXtensible HyperText Markup Language (XHTML)
4
Friend of a Friend (FOAF)
3
Basic Geo (GEO)
1
Bibliographic Ontology (BIBO)
1
DBpedia Ontology (DBpedia)
1
Music Ontology (MO)
1
Object Reuse and Exchange
1
RDF Schema (RDFS)
1
vCard
1
Web Ontology Language (OWL)
1
XML Schema
1

Obraz tej części chmury podobny jest do obrazu całości chmury, z tą różnicą, że wykorzystanie formatu SKOS jest tutaj znacznie większe, co świadczy o wyjątkowym znaczeniu zasobów terminologicznych oraz kartotek haseł wzorcowych w danym sektorze. Do odnotowania jest również nieobecność osobnego formatu dla dokumentacji muzealnej. Strona Data Hub nie wspomina też modelu EDM (Europeana Data Model), podczas gdy inne źródła podają, iż niektóre pakiety zdecydowanie korzystały z tego modelu.

Pakiety dotyczące dziedzictwa kulturowego łączą z:

Pakiet przyłączanyLiczba pakietów przyłączających
DBpedia
5
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH)
4
VIAF: The Virtual International Authority File
2
GeoNames Semantic Web
2
Klasyfikacja Dziesiętna Deweya (KDD)
2
RAMEAU subject headings (STITCH)
2
Swedish Open Cultural Heritage (SOCH)
1
Gemeinsame Normdatei (GND)
1
IdRef: Sudoc authority data
1
(DCMI Type Vocabulary – poza chmurą)
1
UK Postcodes
1
AGROVOC
1
Katalog Węgierskiej Biblioteki Narodowej (NSZL)
1
Żaden
1

DBpedia to interdyscyplinarne źródło wiedzy, GeoNames to źródło wiedzy o geografii – oba są szeroko znane. Pozostałe pakiety głównie same dotyczą dziedzictwa kulturowego, w tym znajdują się standardowe terminologie oraz kartoteki haseł wzorcowych.

Serializacja

Format RDF/XML używany jest przez niemal wszystkie pakiety, ale Europeana Linked Open Data używa tylko N-Triples.

SerializacjaLiczba pakietów używających danego formatu (%)
RDF/XML
16 (88.9%)
N-Triples
5 (27.8%)
Turtle
1 (5.5%)
Nie podano
1 (5.5%)

Powyższa tabela wskazuje na to, iż dane dziedzictwa kulturowego typu Linked Data powinny być publikowane przynajmniej w formacie RDF/XML, możliwie w formacie N-Triples, by były kompatybilne z istniejącymi już danymi.