ŁĄCZENIEDANYCH DZIEDZICTWA KULTUROWEGO

2/5 – Analiza struktury Linked Data Cloud

Teksty i materiały szkoleniowe

Podgląd materiałów

Spis treści

Czym jest chmura (ang. cloud)?
Jaka część chmury jest otwarta?
Jakich licencji IPR używa się w chmurze?
Jak wielka jest chmura?
Jakich tematów dotyczą dane w chmurze?
Jakich formatów używa się do kodowania danych?
Jak połączone są pakiety w chmurze?
Dane dziedzictwa kulturowego w chmurze
Formaty
Połączenia (linki)
Serializacja

Łączenie danych dziedzictwa kulturowego to tytuł drugiego pakietu zadaniowego (WP2) projektu europejskiego Linked Heritage, który trwał 30 miesięcy począwszy od 1 kwietnia 2011 r. i koordynowany był przez Istituto Centrale per il Catalogo Unico delle biblioteche italiane (ICCU) z siedzibą w Rzymie (tj. przez Centralny Katalog Bibliotek Włoskich).

Do celów pakietu WP2 należało:

sprawdzenie stanu badań na temat Linked Data oraz ich zastosowań i możliwości rozwoju;
wyznaczenie modeli, procesów i technologii, które byłyby najbardziej odpowiednie dla rozwoju zasobów dziedzictwa kulturowego w formie Linked Data.

W szczególności WP2 badał strukturę Linked Data Cloud oraz informacje przez nią przenoszone.

Powrót

Czym jest chmura (ang. cloud)?

Chmura jest najbardziej znaną reprezentacją Linked Data. Zawiera “pakiety” połączonych danych oraz połączenia (linki) pomiędzy pakietami. Rozrasta się w bardzo szybkim tempie a ostatni jej schemat z września 2011 liczył 331 pakietów.

Stan chmury z września 2011. [Kliknij, aby powiększyć].
Schemat chmury LOD opracowują Richard Cyganiak (DERI, NUI Galway) i Anja Jentzsch (HPI).

Chmura obsługiwana jest ze strony Data Hub, czyli ze strony projektu autorstwa W3C (World Wide Web Consortium) stanowiącego archiwum wiedzy otwartej i nie otwartej. Można tam znaleźć informacje na temat pakietów i projektów.

DATA HUB

Strona Data Hub zarządzana jest przez projekt społecznościowy Linking Open Data, który jest częścią grupy interesu pod nazwą SWEOIG (Semantic Web Education and Outreach Interest Group) działającej z inicjatywy W3C a zajmującej się edukacją w zakresie Semantic Web. Z tego względu można uznać, iż strona ta reprezentuje znaczną część udostępnionych danych typu Linked Data.

Strona Data Hub dla każdego pakietu podaje następujące informacje:

nazwę i opis;
linki do udostępnionych zasobów;
status praw własności intelektualnej (IPR);
pakiety przyłączone (w tym ich ilość);
ilość „trójek” w pakiecie (trójka to plik + lokalizacja + protokół dostępu; jest miarą wielkości pakietu);
temat i użyte formaty.

Analiza WP2 ukazała niespodziewany obraz chmury, tj. przekraczający ustalone zasady i plany.

Powrót

Jaka część chmury jest otwarta?

Pamiętając, że słowo „otwarta” w przypadku chmury oznacza udostępniona do celów korzystania z danych, rozbudowywania ich i dzielenia się nimi (również z pobudek komercyjnych), na podstawie wspomnianej analizy można stwierdzić, że znaczna część chmury nie jest otwarta.

Status IPR	% pakietów
Otwarta	42.6
Nie otwarta	57.4

Jednym z powodów tej anomalii może być fakt, iż w przypadku pierwszego pakietu opublikowanego w chmurze w ogóle nie widziano potrzeby zaopatrzenia go w licencję.

Powrót

Jakich licencji IPR używa się w chmurze?

Licencje otwarte

Poniżej zestawienie 132 pakietów na licencjach otwartych:

Typ licencji	% pakietów
Creative Commons Attribution (CC BY)	28.8
Creative Commons Attribution Share Alike (CC BY-SA)	18.2
Open Data Commons Public Domain Dedication and Licence (ODC PDDL)	10.6
Creative Commons CC Zero (CC0)	9.1
UK Crown Copyright oraz inne licencje projektu data.gov.uk	7.6
Inna (domena publiczna)	6.8
Inna (otwarta)	5.3
Inne	12.9

CC0 jest licencją, z której korzystać można od niedawna, ale to właśnie ta licencja została wybrana przez Europeanę – i przez dostawców danych z nią współpracujących – do publikowania danych typu Linked Open Data. Jest to najbardziej liberalna ze wszystkich licencji otwartych, z tym komentarzem, że jest ona jedynie zalecana a nie obowiązkowa.

Licencje nie otwarte

Poniżej zestawienie 178 pakietów na licencjach nie otwartych bądź bez informacji o licencji:

Typ licencji	% pakietów
Nie podano	69.1
Bez licencji	14.6
Creative Commons Attribution Non-commercial (CC BY-NC)	7.3
Inna (nie otwarta)	6.7
Creative Commons Attribution (CC BY)	1.1
Inna (niekomercyjna)	0.6
Creative Commons Attribution Share Alike (CC BY-SA)	0.6

W przypadku aż 80% pakietów tej części chmury nie ma informacji na temat praw własności intelektualnej, w tym znaczna część opublikowanych danych typu Linked Data w ogóle wydaje się nie mieć licencji. W rezultacie nie jest jasne co można zrobić z tymi danymi.

Powrót

Jak wielka jest chmura?

W chmurze znajduje się około 38 miliardów trójek, ale ich rozmieszczenie jest nierównomierne. Tzn. 9 pakietów (2,89% wszystkich) posiada ponad miliard trójek, podczas gdy blisko 25% wszystkich pakietów jest stosunkowo niewielka.

Dziesięć największych pakietów na licencjach otwartych to:

Pakiet	Liczba trójek
LinkedGeoData	3 miliardy
UK Legislation	1,9 miliarda
Linked Sensor Data (Kno.e.sis)	1,73 miliarda
data.gov.uk Time Intervals	1 miliard
DBpedia	1 miliard
Open Library data mirror na Platformie Talis	0,54 miliarda
The Open Library	0,4 miliarda
Freebase	0,34 miliarda
transport.data.gov.uk	0,33 miliarda
Data Incubator: MusicBrainz	0,18 miliarda

Dziesięć największych pakietów na licencjach nie otwartych to:

Pakiet	Liczba trójek
TWC: Linking Open Government Data	9,8 miliarda
Data.gov	6,4 miliarda
Source Code Ecosystem Linked Data	1,5 miliarda
2000 U.S. Census w RDF (rdfabout.com)	1 miliard
PubMed	0,8 miliarda
DBTune.org MySpace RDF Service	0,66 miliarda
UniParc	0,63 miliarda
DBTune.org AudioScrobbler RDF Service	0,6 miliarda
Linking Italian University Statistics Project	0,59 miliarda
UniProt UniRef	0,49 miliarda

TWC: Linking Open Government Data – największy pakiet w chmurze – to projekt agregacji danych rządu USA.

Powrót

Jakich tematów dotyczą dane w chmurze?

W ramach chmury nie funkcjonuje tzw. słownictwo kontrolowane, a zatem jeden temat jest reprezentowany w niej przez różne znaczniki (tagi) w zależności od pakietu.

W analizie przeprowadzonej przez WP2 połączono znaczniki, które wydawały się odpowiadać temu samemu tematowi. W ten sposób dziesięć najbardziej popularnych tematów w chmurze to:

Znacznik (tag)	Liczba pakietów z danym znacznikiem (tagiem)
publikacje	94
rząd	54
nauki przyrodnicze	46
geografia	40
media	32
biblioteki	22
Zjednoczone Królestwo	22
edukacja	20
treść generowana przez użytkownika (ang. user-generated content, UGC)	19
bibliografie	15

Dane dotyczące dziedzictwa kulturowego są bardzo nieliczne. Spowodowane jest to najprawdopodobniej tym, że przed pojawieniem się portalu Europeany sektor ten nie był zainteresowany danymi typu Linked Data. Obecność znacznika Zjednoczone Królestwo jest wynikiem polityki rządu JKM w sprawie publikowania danych tego typu. Natomiast aktywność rządu USA nie jest widoczna, ponieważ odpowiednie pakiety nie są oznaczane jako Stany Zjednoczone.

Powrót

Jakich formatów używa się do kodowania danych?

Najpowszechniej używane formaty to:

Format	Liczba pakietów używających danego formatu
Resource Description Framework (RDF)	261
Dublin Core (DC)	97
Friend of a Friend (FOAF)	84
Simple Knowledge Organization System (SKOS)	57
RDF Schema (RDFS)	42
Web Ontology Language (OWL)	34
Basic Geo (GEO)	25
Advanced Knowledge Technologies Reference Ontology (AKT)	22
eXtensible HyperText Markup Language (XHTML)	19
Bibliographic Ontology (BIBO)	14
Nie podano	13
Music Ontology (MO)	13
DBpedia Ontology (DBpedia)	12
Inne	52

Formaty AKT Ontology, DBpedia Ontology i GeoNames Ontology były rozwijane już na etapie publikacji pojedynczego pakietu jako Linked Data. Z czasem coraz więcej pakietów przyjęło te formaty, co spowodowało, że stały się one de facto formatami standardowymi odgrywającymi w chmurze znaczącą rolę.

Zaskakujący jest jednak fakt, iż mimo zaleceń Tima Bernersa-Lee odnośnie korzystania w chmurze z jednego znormalizowanego formatu np. niecałe dwa pakiety używają aż 75 formatów – dla dobra interoperacyjności należałoby sobie życzyć, aby po pewnym czasie przetrwał tylko najlepszy z nich!

Powrót

Jak połączone są pakiety w chmurze?

Najistotniejszą rzeczą o chmurze jest to, w jaki sposób połączone są jej pakiety. Dziesięć najczęściej przyłączanych – tj. „najpopularniejszych” – pakietów według ilości pakietów przyłączających to:

Pakiet przyłączany	Liczba pakietów przyłączających
DBpedia	158
GeoNames Semantic Web	42
Żaden	34
DBLP Computer Science Bibliography (RKBExplorer)	27
Association for Computing Machinery (ACM) (RKBExplorer)	26
ePrints3 Institutional Archive Collection (RKBExplorer)	26
Freebase	25
Inne	72

Sukces dwóch pierwszych wynika najprawdopodobniej z tego, że są one powszechnie znane. Ale najciekawsze jest to, że ponad 10% pakietów w chmurze nie łączy się w ogóle z innymi pakietami; w tej grupie znajdują się również największe pakiety takie, jak Data.gov czy 2000 U.S. Census. Oznacza to, że łączenie się pakietów nie jest czymś, co rozwija się w sposób naturalny.

Istnieją specjalne inicjatywy, których zadaniem jest znaczna rozbudowa chmury. Taka inicjatywa byłaby mile widziana również w sektorze ochrony dziedzictwa kulturowego, gdzie Europeana przejmuje właściwie kluczową rolę.

Powrót

Dane dziedzictwa kulturowego w chmurze

Internetowi dostawcy informacji są bardzo zainteresowani danymi dziedzictwa kulturowego wytworzonymi przez liczne biblioteki, archiwa czy muzea, ponieważ dane te tradycyjnie uważa się za kluczowe w produkcji informacji wartościowych.

Niestety tylko o około 18 pakietach w chmurze można powiedzieć, że dotyczą dziedzictwa kulturowego bądź są luźno związane z tym tematem:

Pakiet	Liczba trójek
VIAF: The Virtual International Authority File	200,000,000
Europeana Linked Open Data	185,000,000
Brytyjska Bibliografia Narodowa (BNB)	80,249,538
Katalog Węgierskiej Biblioteki Narodowej (NSZL)	19,300,000
Muzeum Amsterdamu jako Linked Open Data w modelu EDM (Europeana Data Model)	5,000,000
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH)	4,151,586
Swedish Open Cultural Heritage (SOCH)	3,400,000
Calames	2,000,000
RAMEAU subject headings (STITCH)	1,619,918
data.bnf.fr - Bibliothèque nationale de France	1,400,000
Hasła przedmiotowe Biblioteki Parlamentu Japonii (National Diet Library of Japan subject headings)	1,294,669
Gemeenschappelijke Thesaurus Audiovisuele Archieven – Common Thesaurus for Audiovisual Archives	992,797
Gemeinsame Normdatei (GND)	629,582
Archives Hub Linked Data	431,088
Tezaurus materiałów graficznych (Thesaurus for Graphic Materials, t4gm.info)	103,000
Muzea Włoskie (LinkedOpenData.it)	49,897
Thesaurus W for Local Archives	11,000
MARC Codes List Open Data	8,816

Część chmury pochodząca z zasobów dziedzictwa kulturowego jest wciąż raczej skromna (około 500 milionów trójek, czyli mniej niż 1.5% wszystkich), ale należy mieć nadzieję, że planowany wkład ze strony Europeany znacznie powiększy tę część. Projekt Linked Heritage jest ważnym elementem tego planu.

Powrót

Formaty

Pakiety dotyczące dziedzictwa kulturowego zazwyczaj używają następujących formatów:

Format	Liczba pakietów używających danego formatu
Resource Description Framework (RDF)	13
Simple Knowledge Organization System (SKOS)	11
Dublin Core (DC)	7
eXtensible HyperText Markup Language (XHTML)	4
Friend of a Friend (FOAF)	3
Basic Geo (GEO)	1
Bibliographic Ontology (BIBO)	1
DBpedia Ontology (DBpedia)	1
Music Ontology (MO)	1
Object Reuse and Exchange	1
RDF Schema (RDFS)	1
vCard	1
Web Ontology Language (OWL)	1
XML Schema	1

Obraz tej części chmury podobny jest do obrazu całości chmury, z tą różnicą, że wykorzystanie formatu SKOS jest tutaj znacznie większe, co świadczy o wyjątkowym znaczeniu zasobów terminologicznych oraz kartotek haseł wzorcowych w danym sektorze. Do odnotowania jest również nieobecność osobnego formatu dla dokumentacji muzealnej. Strona Data Hub nie wspomina też modelu EDM (Europeana Data Model), podczas gdy inne źródła podają, iż niektóre pakiety zdecydowanie korzystały z tego modelu.

Powrót

Połączenia (linki)

Pakiety dotyczące dziedzictwa kulturowego łączą z:

Pakiet przyłączany	Liczba pakietów przyłączających
DBpedia	5
Hasła przedmiotowe Biblioteki Kongresu (Library of Congress Subject Headings, LCSH)	4
VIAF: The Virtual International Authority File	2
GeoNames Semantic Web	2
Klasyfikacja Dziesiętna Deweya (KDD)	2
RAMEAU subject headings (STITCH)	2
Swedish Open Cultural Heritage (SOCH)	1
Gemeinsame Normdatei (GND)	1
IdRef: Sudoc authority data	1
(DCMI Type Vocabulary – poza chmurą)	1
UK Postcodes	1
AGROVOC	1
Katalog Węgierskiej Biblioteki Narodowej (NSZL)	1
Żaden	1

DBpedia to interdyscyplinarne źródło wiedzy, GeoNames to źródło wiedzy o geografii – oba są szeroko znane. Pozostałe pakiety głównie same dotyczą dziedzictwa kulturowego, w tym znajdują się standardowe terminologie oraz kartoteki haseł wzorcowych.

Powrót

Serializacja

Format RDF/XML używany jest przez niemal wszystkie pakiety, ale Europeana Linked Open Data używa tylko N-Triples.

Serializacja	Liczba pakietów używających danego formatu (%)
RDF/XML	16 (88.9%)
N-Triples	5 (27.8%)
Turtle	1 (5.5%)
Nie podano	1 (5.5%)

Powyższa tabela wskazuje na to, iż dane dziedzictwa kulturowego typu Linked Data powinny być publikowane przynajmniej w formacie RDF/XML, możliwie w formacie N-Triples, by były kompatybilne z istniejącymi już danymi.

Powrót

« Wstecz Dalej »