TERMINOLOGIA
2/6 – Wprowadzenie do formatu SKOS (Simplified Knowledge Organisation System)
SKOS jest formatem zgodnym z siecią semantyczną i jest przeznaczony do obsługi pojęć. Oznacza to, że elementem podstawowym terminologii konstruowanej w SKOS jest pojęcie, a nie termin, który wyraża to pojęcie. Model danych SKOS składa się ze struktury podstawowej, którą można rozbudowywać o kolejne klasy przeznaczone do opisu części mowy i relacji semantycznych pomiędzy pojęciami terminologii. W literaturze na temat SKOS wymienia się następujące główne cechy tego modelu:
“Model SKOS może być identyfikowany przy użyciu identyfikatorów URI. Składa się z ciągu liter w jednym lub kilku językach naturalnych, przypisanych (kody literowe), uzupełnionych o różnego rodzaju notatki, zorganizowanych w nieformalne hierarchie i sieci skojarzeń, zagregowanych, pogrupowanych, oznaczonych etykietami i/lub uporządkowanych do postaci pojęć dla innych modeli.”
Dane SKOS wyrażone są jako trójki RDF. Oznacza to, że pojęcia mogą być podmiotem lub obiektem/dopełnieniem i mogą być powiązane za pomocą właściwości SKOS pełniącej funkcję predykatu/orzeczenia. Jako trójki RDF pojęcia SKOS mogą być identyfikowane/rozpoznawane za pomocą identyfikatorów URI. URI mogą być definiowane w zgodzie ze standardowymi systemami PI (systemami trwałych identyfikatorów). Model danych SKOS nie wymaga stosowania trwałych identyfikatorów, ale biorąc pod uwagę rozwój Linked Open Data ich użycie jest zdecydowanie zalecane. Trwałe identyfikatory zostaną szerzej omówione w kolejnych częściach obiektu.
Model danych SKOS składa się z trzech podstawowych rodzajów elementów: klasy (ang. class), właściwości (ang. property) i relacji (ang. relation). Wszystkie trzy elementy zaczynają się od przedrostka/prefiksu “skos:”. Klasa i właściwość odróżnione są za pomocą dużej i małej litery, tj. jeśli po prefiksie występuje duża litera, wówczas jest to klasa, jak w przypadku „skos:Concept” i „skos:ConceptScheme”, natomiast jeśli po prefiksie występuje mała litera, dany element jest właściwością, jak w przykładzie „ skos:prefLabel”.
Spis treści:
Główne cechy SKOS
SKOS: concept
SKOS to model do obsługi pojęć (ang. concept), dlatego to pojęcie jest głównym elementem terminologii w jego przypadku. Z punku widzenia terminologii pojęcie można zdefiniować jako pomysł, wyobrażenie/pogląd lub myśl. Pojęcie w SKOS wprowadzone jest jako klasa „skos:Concept”.
Pojęcia SKOS można zgrupować w dwie klasy:
- SKOS concept scheme,
- SKOS collections.
SKOS: concept scheme
Model pojęciowy (ang. concept scheme) to sposób grupowania kilku pojęć. Model pojęciowy oznaczony jest w SKOS jako klasa „skos:ConceptScheme”. Z grubsza pojedynczy model pojęciowy odpowiada pojedynczemu tezaurusowi, schematowi klasyfikacyjnemu lub jakiemukolwiek innemu systemowi organizacji wiedzy. Należy pamiętać, że jedno i to samo pojęcie może być częścią wielu modeli pojęciowych.
SKOS: collections
Kolekcja (ang. collection) to grupa pojęć SKOS. Kolekcja reprezentowana jest w SKOS głównie w klasie „skos:Collection”. Niemniej jednak jeśli porządek pojęć w ramach danej kolekcji ma znaczenie można użyć również klasy „skos:OrderedCollection”. Kolekcja nie jest tym samym co model pojęciowy. Na przykład przy migracji tezaurusa, jego całość można uznać za model pojęciowy, gdzie kilka tematycznie wyodrębnionych grup pojęć może być skonstruowanych jako kolekcje.
Etykiety
Ponieważ model SKOS skupia się na pojęciach, istnieje wyraźne rozróżnienie pomiędzy samym pojęciem a terminami służącymi do jego wyrażenia. Terminy odnoszące się do pojęć mogą być przedstawione za pomocą etykiet leksykalnych. Etykieta taka to ciąg znaków Unicode, dzięki czemu dany termin może występować w każdym języku, bez względu na alfabet. Model danych SKOS stosuje trzy rodzaje etykiet:
- etykieta preferowana (ang. preferred label) – oznaczona w modelu danych SKOS jako właściwość „skos:prefLabel”, odpowiada deskryptorowi ze standardów opracowywania tezaurusów; model danych SKOS nie pozwala na istnienie więcej niż jednej etykiety preferowanej w jednym języku;
- etykieta alternatywna (ang. alternative label) – oznaczona jako właściwość „skos:altLabel”, służy głównie do podawania synonimów etykiety preferowanej lub w inny sposób odnosi się do tej etykiety, np. podaje inną pisownię lub akronimy; model SKOS dopuszcza korzystanie wyłącznie z etykiet alternatywnych zamiast z jednej etykiety preferowanej i wielu etykiet alternatywnych;
- etykieta ukryta (ang. hidden label) – oznaczona jako właściwość „skos:hiddenLabel”, może służyć do ujawniania błędów ortograficznych w etykietach preferowanych i alternatywnych, ale również do prezentowania archaizmów danego terminu; etykiety alternatywne i ukryte odpowiadają mniej więcej indykatorom STOSUJ (ang. USE) i ZASTOSUJ DLA (ang. UF) zdefiniowanym w standardach ISO dla tezaurusów; z definicji etykiety ukryte są niewidoczne, ale bardzo przydatne do wyszukiwania informacji; oczywiście model SKOS nie pozwala na użycie tego samego ciągu znaków jako etykiety preferowanej, alternatywnej i ukrytej w tym samym języku; SKOS-XL, czyli rozwinięcie modelu SKOS, proponowane jest do bardziej precyzyjnego modelowania etykiet i uzupełniania ich o informacje dotyczące morfologii i składni;
- notacja (ang. notation) – symbole lub kody nierozpoznawalne i niezrozumiałe w żadnym języku naturalnym; tym notacje różnią się od etykiet, ponieważ te ostanie to zazwyczaj słowa lub wyrażenia zrozumiałe w języku naturalnym; zatem właściwość „skos:notation” może być użyta np. przy okazji klasyfikacji, gdzie kod odnosi się do terminu oznaczającego pojęcie; notacja może być wygodniejsza niż etykieta alternatywna ponieważ jest jednoznaczna i niezależna od języka.
Użycie powyższych rodzajów etykiet umożliwia zrozumienie pojęcia i jest przydatne w przypadku odczytywalnej przez człowieka reprezentacji wiedzy. Ich stosowanie w modelu SKOS nie jest obowiązkowe, ale bardzo zalecane szczególnie ze względu na obsługę modelu.
Właściwości dokumentowania
Model SKOS oferuje wiele możliwości dostarczania informacji o pojęciach. Aby informacje te były jak najbardziej dokładne, można skorzystać z różnego rodzaju notatek (ang. notes). Notatki te mogą mieć różną postać (tekst, obraz, cytat …) i można z nich korzystać bez żadnych ograniczeń.
Rodzaje notatek, jakie można użyć do dokumentowania pojęć są następujące:
- informacja (skos:note),
- adnotacja o zmianie (skos:changeNote),
- definicja (skos:definition),
- nota redakcyjna (skos:editorialNote),
- przykład (skos:example),
- informacja etymologiczna (skos:historyNote),
- definicja objaśniająca zakres użycia danego terminu (skos:scopeNote).
Właściwość „skos:note” służy do dostarczania ogólnej informacji/dokumentacji na temat danego pojęcia. Pozostałe rodzaje notatek są specjalizacjami tej ogólnej właściwości. „skos:changeNote” i „skos:editorialNote” są użyteczne przy administrowaniu terminologią. „skos:definition”, „skos:example” i „skos:historyNote” przydają się do przekazywania takich informacji o pojęciu, które mogą pomóc w jego lepszym zrozumieniu. Jak w przypadku etykiet, właściwości mogą być dostarczane w różnych językach przy użyciu znaczników/tagów z atrybutem „xml:lang”.
Relacje semantyczne
Prawdziwą wartością modelu SKOS są relacje semantyczne, za pomocą których można połączyć ze sobą różne pojęcia. Relacje te odgrywają zdecydowanie główną rolę w definiowaniu pojęć. Istnieją dwie kategorie relacji semantycznych:
- relacje hierarchiczne:
oznaczane za pomocą dwóch właściwości „skos:broader” i „skos:narrower”; „skos:broader” służy do zaznaczenia/stwierdzenia, że dane pojęcie ma znaczenie bardziej ogólne, podczas gdy „skos:narrower” jest właściwością odwrotną służącą do zaznaczenia, że dane pojęcie ma znaczenie bardziej specyficzne; jedno pojęcie może mieć wiele pojęć szerszych, jak i wiele pojęć węższych;
należy pamiętać, że te dwie właściwości świadczą o bezpośrednim połączeniu hierarchicznym pomiędzy dwoma pojęciami; aby umożliwić połączenie pośrednie, model SKOS udostępnia dwie inne właściwości, które są przechodnie;
tak, jak w przypadku „skos:broader” i „skos:narrower”, właściwości „skos:broaderTransitive” i „skos:narrowerTransitive” są swoimi odwrotnościami; - relacje skojarzeniowe:
„skos:related” służy do zaznaczenia połączenia pomiędzy dwoma pojęciami o charakterze skojarzeniowym, tj. właściwość ta przydaje się do stworzenia połączenia pomiędzy pojęciami, które nie wyraża ani ekwiwalencji/równoważności, ani relacji mereologicznej (pojęcie szersze/węższe); ważne, by pamiętać, że „skos:related” jest właściwością symetryczną;
„skos:related” nie jest właściwością przechodnią;
nie można zapomnieć, że według wskazówek norm ISO 2788 i BS8723 mieszanie ze sobą relacji hierarchicznych i skojarzeniowych nie jest zgodne z modelem danych SKOS, dlatego trzeba być uważnym przy tworzeniu relacji semantycznych pomiędzy pojęciami.
Mapowanie
Wartość modelu SKOS wynika również z tego, jakie możliwości mapowania oferuje. I tak SKOS dostarcza kilka właściwości mapowania w celu dopasowania względem siebie pojęć z różnych modeli pojęciowych. Tymi właściwościami są:
- skos:closeMatch,
- skos:exactMatch,
- skos:broadMatch,
- skos:narrowMatch,
- skos:relatedMatch.
Jak w przypadku relacji semantycznych, właściwości mapowania mogą być hierarchiczne bądź skojarzeniowe. „skos:broadMatch i „skos:narrowMatch” służą do tworzenia hierarchicznego połączenia mapowego pomiędzy pojęciami, podczas gdy „skos:relatedMatch” służy do tworzenia połączenia mapowego skojarzeniowego. Również jak w przypadku relacji semantycznych, „skos:broadMatch” jest odwrotnością „skos:narrowMatch”.
„skos:closeMatch” i „skos:exactMatch” służą do tworzenia połączenia mapowego pomiędzy pojęciami bardzo podobnymi lub równoważnymi, a więc takimi, które mogą być użyte zamiennie. Właściwość „skos:exactMatch” jest przechodnia i symetryczna. Właściwości mapowania używa się zamiast relacji semantycznych do tworzenia połączeń pomiędzy pojęciami pochodzącymi z różnych modeli pojęciowych. Natomiast gdy pojęcia należą do tego samego modelu pojęciowego, relacje semantyczne występują zamiast właściwości mapowania.
Jak w przypadku relacji semantycznych, pomieszanie razem właściwości mapowania hierarchicznych i skojarzeniowych może doprowadzić do wystąpienia konfliktów.
Wskazówki do SKOSyfikacji (konwersji do formatu SKOS)
SKOSyfikacja to proces konwersji/transformacji terminologii do formatu SKOS. Poniżej znajdują się pewne wskazówki na temat tego, jak przeprowadzić konwersję jeśli chodzi o aspekty techniczne i organizacyjne. Z technicznego punktu widzenia wiele podanych wskazówek jest charakterystyczna dla modelu SKOS, ale w każdym wypadku należy zwrócić na nie szczególną uwagę, ponieważ w grę wchodzi ogólna spójność z siecią połączonych terminologii.
Oceń główne cechy terminologii przeznaczonej do migracji
Przed rozpoczęciem procedury konwersji terminologii do SKOS dana instytucja musi zdefiniować cel, jakiemu ma służyć jej terminologia (np. indeksowanie i wyszukiwanie, tylko indeksowanie, tylko wyszukiwanie). Drugim krokiem (i konsekwencją zdefiniowania celu terminologii) jest ocena, czy SKOS jest właściwym formatem dla treści tej terminologii. I tak w przypadku kartotek haseł wzorcowych SKOS może nie być najlepszym formatem. Poniżej wypisano cechy, które mogą pomóc w ocenie:
- pojęcia: czy terminologia dotyczy obiektów i rzeczy abstrakcyjnych, które można przyrównać do pojęć? czy terminologia obejmuje osoby? => jeśli terminologia dotyczy osób a nie dotyczy obiektów i rzeczy abstrakcyjnych, to bardziej odpowiednim standardem wydaje się być FOAF (Friend of a Friend): http://www.foaf-project.org;
- relacje semantyczne: czy deskryptory (a więc pojęcia) terminologii można ze sobą łączyć za pomocą relacji semantycznych? => jeśli terminologia obejmuje tylko deskryptory niezależne, tzn. bez jakichkolwiek relacji semantycznych, modelowanie SKOS nie jest wcale konieczne a bardziej praktyczna może być reprezentacja RDF;
- interoperacyjność: czy daną terminologię można połączyć z innym zasobem dotyczącym tego samego tematu/dziedziny lub zakresu? => jeśli terminologię można łączyć z innymi zasobami, wszystkie potencjalne połączenia/linki powinny być wzięte pod uwagę przed procesem transformacji po to, by mogły zostać skutecznie zaimplementowane.
Zidentyfikuj swoje pojęcia
- Użyj systemu PI do zdefiniowania identyfikatorów URI
Jak wspomniano wcześniej, zaleca się stosowanie standardów do celów identyfikacji pojęć. I tak skoro identyfikacji pojęć dokonuje się za pomocą definiowania identyfikatorów HTTP URI, identyfikatory URI muszą być zadeklarowane/jawne w systemach PI takich, jak PURL, który jest znormalizowany. Takie rozwiązanie jest korzystne ponieważ nie reaguje na zmianę lokalizacji, tzn. jeśli terminologia zostanie przeniesiona z jednej lokalizacji (serwera) do drugiej, identyfikatory URI identyfikujące poszczególne pojęcia terminologii nie będą musiały być zmienione. - Użyj niejawnych identyfikatorów URI
Zaleca się stosowanie niejawnych identyfikatorów URI, jeśli chce się uniknąć sytuacji użycia tego samego URI do identyfikacji dwóch różnych pojęć. I tak ponieważ języki naturalne z definicji są dwu- a nawet wieloznaczne, możliwe jest, że dwa pojęcia mogą mieć dwie podobne etykiety. Stosowanie jawnych URI zakłada, że dokonano wyboru jednego konkretnego języka naturalnego podczas definiowania lub migracji terminologii, co jest niepraktyczne w kontekście wielojęzycznym.
Sprawdź broszurę zawierającą rekomendacje dotyczące trwałych identyfikatorów (PDF).
Zdefiniuj precyzyjnie etykiety wyrażające pojęcia
- Etykiety preferowane muszą być niepowtarzalne w ramach jednego modelu pojęciowego
Model danych SKOS wymaga, aby w jednym modelu pojęciowym nie było dwóch pojęć z taką samą etykietą preferowaną w danym języku. Ale ponieważ języki naturalne są często wieloznaczne i mają mnóstwo homografów, SKOS nie zabrania, aby jedno pojęcie miało dwie takie same etykiety preferowane w dwóch językach.
W ramach jednego języka każde pojęcie może być wyrażone za pomocą tylko jednej etykiety preferowanej (obowiązkowe).
Jak wspomniano wcześniej SKOS nie zabrania pominięcia zupełnie etykiety preferowanej, ale etykiety mają pomagać w dopracowaniu znaczenia pojęcia. Jest to szczególnie ważne w kontekście wielojęzycznym oraz pomocne w administrowaniu terminologią. Z tego względu zaleca się używanie jednej etykiety preferowanej dla każdego języka. To oznacza również, że nie jest możliwe posiadanie kilku etykiet preferowanych w tym samym języku.
Należy unikać łączenia/konkatenowania kilku słów w jednej etykiecie.
Aby opis był jak najbardziej dokładny, zaleca się unikanie stosowania kilku wartości jako jednego terminu preferowanego. Na przykład, pojęcia dwuczłonowe takie, jak “dwelling house” muszą być traktowane jako dwa różne pojęcia połączone relacją semantyczną. Skorzystanie z notatki zw. definicją objaśniającą zakres użycia danego terminu (ang. scope note) może pomóc w podkreśleniu bliskości tych dwóch pojęć. Połączenie/link pomiędzy dwoma odpowiadającymi terminami musi zostać zdefiniowane dla dostarczenia jak najlepszego opisu. Można stwierdzić, że “dwelling” i “house” to synonimy, wówczas pojęcia dwuczłonowe mogą być modelowane następująco: dwelling: etykieta preferowana i house: etykieta alternatywna.
Inną możliwością w przypadku pojęć dwuczłonowych jest modelowanie ich dwóch pojęć jako pojęć powiązanych/pokrewnych.
-
Uprzywilejowanie lemmów w etykietach preferowanych i możliwie w innych etykietach
Na etykietę preferowaną powinien składać się termin stworzony z pojedynczego słowa lub ze złożenia i wzięty z języka naturalnego. Oznacza to, że nie można użyć słowa czy kodu sztucznego do oznaczenia/zaetykietowania danego pojęcia. Sztuczny kod musi być definiowany za pomocą właściwości „skos:notation”. Lemma to kanoniczna forma leksemu/wyrazu/terminu. Zdecydowanie zaleca się używanie tej formy terminu jako etykiety preferowanej. Na przykład w j. angielskim i francuskim lemmą rzeczownika jest mianownik w liczbie pojedynczej.
Należy brać pod uwagę typografię stosowaną przez dany język.
Etykiety powinny szanować zasady typograficzne stosowane w języku etykietowanym. Na przykład w j. angielskim wszystkie słowa odnoszące się do języka czy narodowości pisze się dużą literą, podczas gdy w j. francuskim pisze się je małą literą. Zatem zaleca się uszanowanie zwyczajów danego języka. Jakiekolwiek odstępstwo od tego powinno zostać udokumentowane za pomocą właściwości modelu SKOS.
Uprzywilejowaną formą czasownika jest bezokolicznik. W sumie forma terminu powinna zależeć od konwencji języka. Tj. jeśli dane pojęcie wyrażone jest za pomocą etykiet wyłącznie w innych formach niż lemmy, musi być to udokumentowane za pomocą właściwości (skos:note, skos:changeNote, skos:editorialNote lub skos:historyNote). W przypadku terminów składających się ze złożeń, jeśli to możliwe, dodawanie przymiotników i czasowników do grupy rzeczownikowej powinno być ograniczone. Tak samo należy zrezygnować z dodawania rodzajników i przyimków, by nie rozbudowywać za bardzo etykiety. Z perspektywy systemów komputerowych, przestrzeganie powyższych wskazówek zapewnia skuteczniejsze wyszukiwanie. - Unikaj duplikacji danych
Jak wspomniano wyżej model danych SKOS składa się z klas i właściwości. Znaczenia pojęć mają wynikać z dokładnego/kompetentnego stosowania tych właściwości. Ponieważ niektóre właściwości dostępne w SKOS stanowią pary (odwrotne lub symetryczne), zakłada się, że zastosowanie jednej właściwości pociąga za sobą drugą. Lepiej więc unikać duplikacji, czyli nie powtarzać tej samej informacji w inny sposób. Terminologie SKOS są przetwarzane przez komputery, zatem im mniej jest niepotrzebnej informacji, tym szybsze są wyniki wyszukiwania. Aby uniknąć duplikacji danych należy zwrócić uwagę przede wszystkim na poniższe właściwości:- właściwości odwrotne:
zastosowanie „skos:broader” lub „skos:narrower” pociąga za sobą znaczenie odwrotne, tj. twierdzenie, że pojęciu A odpowiada szersze pojęcie B oznacza jednocześnie, że pojęciu B odpowiada pojęcie węższe A; tak samo jest w przypadku właściwości „skos:broaderTransitive” i „skos:narrowerTransitive”; - właściwości symetryczne:
„skos:related” jest właściwością symetryczną, zatem jeśli twierdzimy, że A jest związane z B, to nie trzeba tworzyć kolejnego twierdzenia, że B jest związane z A.
- właściwości odwrotne:
Sprecyzuj relacje semantyczne pomiędzy pojęciami
- Relacje hierarchiczne pośrednie
W pewnych przypadkach relacje semantyczne pomiędzy pojęciami muszą być opisane precyzyjnie, by nie stracić jakiegoś znaczenia czy informacji oraz, by nie konstruować informacji, która nie będzie miała sensu. Na przykład para właściwości „skos:broaderTransitive” i „skos:narrowerTransitive” pozwala na precyzyjne opisanie relacji pomiędzy pojęciami pochodzącymi z dwóch różnych poziomów hierarchii. Wówczas użycie wspomnianych właściwości przechodnich jest preferowane, by zaznaczyć pośrednią relację hierarchiczną zachodzącą pomiędzy pojęciami. Niemniej jednak możliwe jest również użycie rozwinięcia modelu danych SKOS po to, by usunąć symetrię danej właściwości, jeśli wprowadza ona chaos do znaczenia tych pojęć. - Spójność relacji semantycznych
By zapewnić odpowiednią spójność w relacjach semantycznych, należy unikać mieszania ze sobą relacji hierarchicznych i skojarzeniowych. Na przykład pojęcie A nie może być powiązane z pojęciem B, jeśli A jest pojęciem węższym dla pojęcia C. Należy zatem bardzo uważnie konstruować relacje semantyczne pomiędzy pojęciami.
Udokumentuj pojęcia i terminologię
- Udokumentuj każdą zmianę dotyczącą pojęcia i jego etykiet
SKOS dostarcza sporo właściwości do dokumentowania pojęć po to, by móc dopracować ich znaczenia oraz śledzić zmiany w etykietach. Do celów administrowania terminologią każda taka zmiana musi być zaznaczona w terminologii przekonwertowanej do SKOS w formie adnotacji o zmianie (skos:changeNote) lub noty redakcyjnej (skos:editorialNote). - Dostarcz jak najwięcej informacji/dokumentacji o pojęciu używając notatki zw. definicją objaśniającą zakres użycia danego terminu (scope note)
Jak wspomniano wcześniej dokumentowanie pojęcia pomaga dopracować jego znaczenie. Definicja objaśniająca zakres użycia danego terminu (skos:scopeNote) dostarcza informacji kontekstowej, przez co jest bardzo pomocna w lepszym zrozumieniu pojęcia. Przykłady można dostarczać za pomocą właściwości „skos:example”. Dokumentacja etykiet wyrażających pojęcie jest szczególnie potrzebna w przypadku istnienia homografów/homonimów w tym samym języku lub w różnych językach. Wówczas definicja objaśniająca zakres użycia danego terminu, jak i przykłady mogą zapewnić użytkownikowi semantyczną jednoznaczność.
Wskazówki do mapowania
Mapowanie jest nieodłączną częścią SKOSyfikacji (konwersji do SKOS) terminologii. Poniższe wskazówki przedstawiają pewne cechy procesu mapowania, które mogą być kluczowe dla zapewnienia ogólnej spójności terminologii i znaczeń poszczególnych pojęć.
Zwróć uwagę na identyfikację swoich pojęć podczas mapowania
- Używaj tylko bezwzględnych identyfikatorów URI
Wskazówka ta jest kontynuacją wcześniejszej dotyczącej identyfikacji pojęć i znajdującej się w części obiektu o SKOSyfikacji. I tak w wyniku procesu SKOSyfikacji terminologia jest udostępniana w formacie umożliwiającym automatyczne przetwarzanie. Aby identyfikacja pojęć i tworzenie połączeń pomiędzy nimi były łatwo przetwarzalne, zaleca się używanie bezwzględnych URI.
Na przykład:
<rdf:Description rdf:about="http://www.athenaeurope.org/athenawiki/AthenaThesaurus/RMCA _Keywords#architecture"> to bezwzględny (ang. absolute) identyfikator HTTP URI,
<rdf:Description rdf:about="RMCA_Keywords#architecture"> to względny (ang. relative) identyfikator HTTP URI. - Zachowaj identyfikatory URI nadawcy pierwotnego
Ponieważ URI są definiowane po to, by identyfikować pojęcia w sposób niepowtarzalny, podczas mapowania z jednego schematu pojęciowego do drugiego URI z każdego schematu musi zostać zachowany po to, by umożliwić interoperacyjność pomiędzy różnymi zasobami.
Unikaj duplikacji danych
Jak wspomniano wcześniej właściwości strukturalne definiujące relacje semantyczne pomiędzy pojęciami są odwrotne lub symetryczne. Odnosi się to również do właściwości mapowania.
- Właściwości odwrotne
Właściwości mapowania „skos:broadMatch” i „skos:narrowMatch” są swoimi odwrotnościami, zatem nie ma potrzeby dwukrotnego powtarzania tego samego połączenia mapowego używając obu właściwości dla tego samego podmiotu i obiektu. - Właściwości symetryczne
Właściwości „skos:exactMatch” i „skos:closeMatch” są symetryczne. Nie trzeba zatem powtarzać połączenia mapowego. Poza tym „skos:exactMatch” jest właściwością przechodnią, więc nie trzeba powtarzać połączenia mapowego na kilku poziomach.
Na przykład: A skos:exactMatch B i B skos: exactMatch C, więc
twierdzenie A skos:exactMatch C jest wnioskiem z poprzednich twierdzeń.
Sprecyzuj relacje semantyczne pomiędzy pojęciami
- Używaj odpowiednich właściwości do tworzenia połączeń pomiędzy pojęciami
Model danych SKOS oferuje właściwości definiujące relacje semantyczne oraz właściwości mapowania i nie ogranicza możliwości użycia obu tych rodzajów właściwości. Niemniej jednak zaleca się tworzenie relacji jednorodnych pomiędzy pojęciami tak, aby zapewnić semantyczną spójność terminologii. Zaleca się zatem:
- użycie właściwości definiujących relacje semantyczne do tworzenia połączeń pomiędzy pojęciami tego samego schematu pojęciowego,
- użycie właściwości mapowania do tworzenia połączeń pomiędzy pojęciami pochodzącymi z różnych schematów pojęciowych.
Aktywuj wielojęzyczność
- Zarządzaj wielojęzycznością terminologii mapując pojęcia i terminy
Mapowanie może być przydatne w kontekście jednojęzycznym, ale jest szczególnie istotne w kontekście wielojęzycznym. I tak z połączeń mapowych pomiędzy kilkoma terminologiami w różnych językach można wyprowadzić ekwiwalencje. Ekwiwalencje w kontekście wielojęzycznym mogą być trojakiego rodzaju: semantyczne, kulturowe lub strukturalne. Rodzaj semantyczny odnosi się do znaczenia pojęcia, kulturowy – do użycia terminu w danym języku lub kulturze, strukturalny – do relacji semantycznych pomiędzy pojęciami. Ten ostatni rodzaj ma do czynienia z mapowaniem i pozwala na zdefiniowanie ekwiwalencji jako całkowitej (synonim), częściowej (quasi synonim) lub zerowej. Jak udowodnił przypadek pierwszej wersji tezaurusa dla projektu ATHENA, ekwiwalencje pomiędzy pojęciami pochodzącymi z języków początkowo nie ujętych w terminologii źródłowej mogą być wyprowadzone z poprawnych połączeń mapowych bez konieczności tłumaczenia samych pojęć.
Udokumentuj pojęcia i terminologię
- Przedstaw za pomocą notatek cel relacji
Do celów administrowania terminologią ważne jest, aby uzasadnić wybory, jakich dokonano podczas modelowania połączeń pomiędzy pojęciami. Użycie definicji objaśniającej zakres użycia danego terminu może pomóc w wyjaśnieniu tych wyborów. Właściwości używane podczas dokumentowania pojęć mogą również śledzić historię połączeń mapowych. Walidacja jest ważną częścią procesów SKOSyfikacji i mapowania. Dlatego należy zwrócić szczególną uwagę na ten finalny etap. Z technicznego punktu widzenia, aby sprawdzić spójność przekonwertowanej do SKOS terminologii zaleca się skorzystanie z usługi online zw. PoolParty, która oferuje darmowe narzędzie do walidacji plików SKOS dostępnych w sieci bądź dopiero znajdujących się w lokalnych repozytoriach. Narzędzie to sprawdza spójność terminologii według poniższych punktów odnoszących się również do wyżej wymienionych wskazówek:
- poprawne identyfikatory URI: narzędzie sprawdza, czy nie ma jakiegoś nie autoryzowanego znaku w URI; niemniej jednak jeśli jeden URI został użyty dwukrotnie do identyfikacji dwóch różnych pojęć, w tej sprawie alertu nie będzie;
- brakujące znaczniki/tagi języka: narzędzie sprawdza, czy wszystkie etykiety i notatki mają znaczniki języka;
- brakujące etykiety: narzędzie sprawdza, czy każde pojęcie ma przynajmniej jedną etykietę preferowaną;
- pojęcia nie związane (ang. loose concepts): wszystkie pojęcia, które nie są połączone z innymi pojęciami są zaznaczone jako nie związane;
- rozłączne klasy OWL: narzędzie sprawdza zgodność z elementami OWL, jeśli takie znajdują się w przekonwertowanej do SKOS terminologii;
- spójne zastosowanie etykiet: zasady stosowania etykiet zostają sprawdzone przez narzędzie po to, by uniknąć sytuacji użycia tej samej etykiety jako etykiety preferowanej i alternatywnej bądź ukrytej oraz, by uniknąć użycia dwóch etykiet preferowanych w jednym języku;
- spójne zastosowanie właściwości mapowania: narzędzie sprawdza spójność relacji mapowych;
- spójne zastosowanie relacji semantycznych: narzędzie upewnia się, że nie pomieszano ze sobą relacji hierarchicznych i skojarzeniowych.