TERMINOLOGIA
1/6 – Terminologia oraz zarządzanie terminologią
Używane w obiekcie słowo “terminologia” odnosi się do zasobów terminologicznych wykorzystywanych przez muzea do opisu ich kolekcji. Słowo to może wydawać się niejednoznaczne, ponieważ w wąskim znaczeniu “terminologia” to nauka o wyrazach i połączeniach wyrazowych oraz o ich użyciu w ramach danej dziedziny wiedzy, tymczasem “terminologia” może oznaczać również zasób będący rezultatem tej nauki. W każdym razie słowo “terminologia” jest najbardziej ogólnym i klarownym słowem do opisu istniejących typów zasobów.
Spis treści:
Wprowadzenie
W danym obiekcie lekcyjnym bardzo często pada słowo “terminologia”. Mówiąc ogólnie terminologia odnosi się do badania terminów (wyrazów i połączeń wyrazowych) oraz ich użycia. Na potrzeby tego obiektu “terminologia” jest pojęciem ogólnym obejmującym różne typy tzw. słownictwa kontrolowanego, czyli tezaurusy, klasyfikacje, proste listy terminów itd. Wspomniane typy słownictwa kontrolowanego używane są przez instytucje do opisu ich kolekcji lub do udostępniania tych kolekcji w lokalnych bazach danych lub katalogach online.
Proszę wyobrazić sobie muzeum, które zamierza przeprowadzić inwentaryzację 5 tys. obrazów ze swojej kolekcji. Na początku pracownicy muzeum opracowują listę pytań odnoszących się do każdego obrazu, tj. kto go namalował, kiedy, przy użyciu jakich materiałów, gdzie, który okres z historii sztuki jest na nim reprezentowany.
Powyższe pytania w bazach danych określane są jako metadane. I tak “kto namalował obraz?” oznacza autora, “kiedy?” oznacza datę, “przy użyciu jakich materiałów?” oznacza materiał, “gdzie?” oznacza miejsce powstania dzieła. Odpowiedziami na te pytania są dane. Zatem autorem jest Leonardo Da Vinci, datą XVI wiek, materiałem olej na płótnie, miejscem powstania dzieła Włochy, okresem z historii sztuki Renesans. Po przeprowadzeniu tej procedury wobec każdego obrazu, muzeum dysponuje imponującym wykazem autorów, materiałów, technik malarskich, miejsc geograficznych itd.
Powiedzmy, że ktoś chce się dowiedzieć czegoś więcej o obrazach epoki Renesansu i ma dostęp do bazy danych online. Wpisuje słowa kluczowe “obraz” i “Renesans”. Jeśli dane z inwentaryzacji obrazów są zorganizowane w formie tezaurusa, wynikiem wyszukiwania będą wszystkie rekordy zawierające informacje na temat malarstwa renesansowego. Jeśli ten ktoś jest zainteresowany tylko obrazami z Włoch, wpisuje Włochy w pole metadanych miejsce powstania dzieła (lub wybiera je z tezaurusa), po czym dane znów zostają przefiltrowane. Jeśli tezaurus zawiera relacje ekwiwalencji, osoba ta zostanie odesłana również do pozycji książkowych i artykułów na temat włoskiego malarstwa renesansowego.
Wynik wyszukiwania byłby jeszcze lepszy, gdyby zasoby terminologiczne różnych instytucji były ze sobą połączone/zlinkowane. W literaturze przedmiotu nazywa się to mapowaniem, kiedy terminy z jednego tezaurusa zostają zlinkowane z terminami (oznaczającymi to samo) z innego tezaurusa. Zatem jeśli terminologia pewnego muzeum z Paryża i pewnego muzeum z Hong Kongu jest zmapowana, można znaleźć potrzebną informację z obu instytucji, bez względu na język czy formularz wyszukiwania.
Terminologie z ostatniej dekady zaczęły odgrywać ważną rolę w projekcie sieci semantycznej. Sieć semantyczna chce być siecią inteligentną. Proszę wyobrazić sobie, że ktoś współcześnie poszukuje informacji o Mona Lisie. Gdy wpisuje do przeglądarki “Mona Lisa”, wynikami wyszukiwania będą witryny WWW zawierające ciąg liter “mona lisa”. Ale jeśli przeglądarka korzysta z tezaurusów, wynikami będą informacje o Mona Lisie, ale również o La Joconde (francuski tytuł obrazu ), jak i o La Gioconda (włoski tytuł dzieła). Wszystkie te informacje znajdują się w zasobach terminologicznych i mogą być udostępniane i wykorzystywane ponownie w sieci semantycznej.
Powyższe przykłady demonstrują wagę zasobów terminologicznych w systemach informacyjnych. Niemniej jednak zanim można udostępnić lokalne zasoby terminologiczne w sieci semantycznej, trzeba spełnić pewne wymagania takie, jak stosowanie słownictwa kontrolowanego, publikacja w SKOS/RDF, mapowanie z zasobami terminologicznymi innych instytucji itd. Ten obiekt lekcyjny przedstawi odpowiednie wskazówki oraz otwarte narzędzie do zarządzania tezaurusem i publikacji terminologii po to, by można było zoptymalizować widoczność oraz dostępność swoich danych w sieci.
Typy zasobów terminologicznych
Typ zasobu terminologicznego jest ściśle związany z jego celem, tzn. narzędzie do wyszukiwania informacji oraz narzędzie do zarządzania wiedzą nie będą korzystały z tego samego typu zasobu. Zasoby terminologiczne w kontekście instytucji kulturalnych głównie służą do indeksowania i wyszukiwania informacji.
Biorąc to pod uwagę wyodrębniono poniżej pięć podstawowych typów zasobów i uporządkowano je według poziomu ich złożoności.
Prosta lista terminów
Prosta lista terminów może być przyrównana do słownictwa kontrolowanego. Słownictwo kontrolowane to lista terminów w klarowny sposób ponumerowanych. Lista ta jest kontrolowana i udostępniana przez podmiot odpowiedzialny za rejestrację słownictwa kontrolowanego. Wszystkie jej terminy powinny mieć jednoznaczną i niepowtarzalną definicję. Zazwyczaj jednak prosta lista terminów zawiera alfabetyczny spis terminów danej dziedziny bez ich definicji bądź omówionych relacji/związków/zależności semantycznych pomiędzy nimi. Może to być również lista nazw własnych, np. autorów, generalnie osób, jak i miejsc itp. Taka lista stanowi minimalistyczny rodzaj zasobu terminologicznego.
Glosariusz
Glosariusz jest alfabetyczną listą terminów z danej dziedziny, gdzie każdy termin zaopatrzony jest w definicję bądź objaśnienie. Mimo pewnych cech wspólnych, glosariusz nie jest słownikiem czy leksykonem. Zazwyczaj dotyczy bardzo wąskiej lub technicznej dziedziny i skierowany jest do osób, które nie są jej ekspertami. Zatem glosariusz podaje definicje terminów bardzo specjalistycznych na poziomie uproszczonym. Glosariusz może być wielojęzyczny.
Klasyfikacja
Klasyfikacja powstała w ramach dyscypliny bibliotekoznawstwa i służy głównie do katalogowania, tzn. jest systemem kodowania i organizowania wiedzy. To nie jedyne narządzie umożliwiające tematyczny dostęp do zbiorów. Tezaurus oraz system haseł przedmiotowych są kolejnymi narzędziami o tej samej funkcji. Podstawowa różnica pomiędzy nimi jest taka, że klasyfikacja nie pozwala na przypisanie jednego obiektu do kilku klas, podczas gdy tezaurus umożliwia przypisanie jednemu obiektowi kilku terminów.
Klasyfikacja Dziesiętna Deweya (KDD) i Uniwersalna Klasyfikacja Dziesiętna (UKD) to dwa najbardziej znane systemy klasyfikacji w informatyce i dokumentacji. KDD służy zazwyczaj do lokalizowania zasobów, podczas gdy UKD – bogatszy od KDD w opis relacji pomiędzy podmiotami – preferowany jest do przeglądania tematycznego. Schemat klasyfikacyjny może być specjalny, tj. ograniczony do konkretnego tematu, bądź ogólny, czyli obejmujący wszystkie tematy na tym samym poziomie szczegółowości ('świat wiedzy').
Taksonomia
Taksonomia jest bardzo podobna do klasyfikacji, ponieważ tak samo jest systemem kodowania i klasyfikowania. Początkowo nazywano tak klasyfikację w kontekście nauk przyrodniczych. Obecnie taksonomia to postać schematu klasyfikacyjnego. Inaczej taksonomię można przyrównać do słownictwa kontrolowanego o strukturze hierarchicznej, gdzie terminy połączone są za pomocą relacji mereologicznych (relacji całość-część). Ponieważ ostatecznie klasyfikacja i taksonomia są bardzo podobne, na potrzeby tego obiektu te dwa typy zasobów terminologicznych traktowane są jako jeden.
Tezaurus
Tezaurus może być określony jako “kolekcja terminów słownictwa kontrolowanego wzajemnie ze sobą powiązanych”. Tezaurus pozwala na łączenie ze sobą terminów za pomocą kilku rodzajów relacji, w tym hierarchicznej, skojarzeniowej, ekwiwalencji/równoważności i definicji. Oznacza to, że tezaurus poza relacjami mereologicznymi korzysta również z relacji skojarzeniowych. Relacja mereologiczna to relacja pomiędzy terminem szerszym (ang. broader term, BT) a węższym (ang. narrower term, NT). Relacja skojarzeniowa taka, jak “termin powiązany/pokrewny/skojarzeniowy” (ang. related term, RT) (gdzie termin A powiązany jest z terminem B) służy do wyrażania relacji, która nie jest ani hierarchią, ani ekwiwalencją. Ekwiwalencja (zwana również zależnością równoległą) jest wyrażana poprzez STOSUJ (ang. USE) (np. termin preferowany) / ZASTOSUJ DLA (ang. Used For, UF) (np. termin nie preferowany). Dodatkowe informacje takie, jak definicja czy uwaga/komentarz mogą być umieszczane w tzw. definicji objaśniającej zakres użycia danego terminu (ang. scope note, SN). Relacja ekwiwalencji jest szczególnie użyteczna w przypadku tezaurusa wielojęzycznego. Tezaurus zawiera dwa rodzaje terminów: deskryptory i askryptory. Deskryptory służą do indeksowania. Askryptory odnoszą się do wszystkich terminów powiązanych z deskryptorami poprzez relacje omówione powyżej. Askryptory nie są do indeksowania.
Tezaurus może być monohierarchiczny lub polihierarchiczny. W pierwszym przypadku deskryptor może być powiązany tylko z jednym szerszym desktryptorem, w drugim przypadku z kilkoma. I właśnie poziom relacji jest podstawową rzeczą, jaka różni tezaurus od taksonomii.
W roku 2012 przyjęto normę ISO 25964-1 o tezaurusach jako narzędziach do wyszukiwania informacji po to, by usystematyzować rozwój tezaurusów w związku z rozwojem technologii semantycznej, jaką jest format SKOS.
Ontologia
Ontologia to formalna reprezentacja zbioru pojęć z danej dziedziny oraz relacji między nimi. Ontologia jest podstawowym typem zasobu terminologicznego używanym jako reprezentacja wiedzy na potrzeby sieci semantycznej. Jej pojęcia są ze sobą połączone zarówno relacjami hierarchicznymi, jak i semantycznymi.
Sieć semantyczna, Linked Data i użytkownicy
Sieć semantyczna (część Internetu wykoncypowanego jako Web 3.0) to „sieć danych zawierających takie znaczenie, że program komputerowy sam może dojść do tego jakie dane chce przetworzyć”. Jest „ogólną strukturą udostępniania i ponownego wykorzystywania danych pomiędzy aplikacjami, projektami i społecznościami. Jest efektem wspólnego wysiłku wielu naukowców i partnerów biznesowych pod kierownictwem W3C (World Wide Web Consortium). Opiera się na technologii RDF, która integruje przeróżne aplikacje używając języka XML do składni i identyfikatorów URI do nazewnictwa. Zaproponowana została przez współtwórcę sieci WWW Tima Bernersa-Lee.”
Jak podaje Wikipedia:
“Sieć semantyczna (ang. Semantic Web) to termin stworzony przez przewodniczącego konsorcjum W3C Tima Bernersa-Lee. Termin opisuje odpowiednie metody i technologie po to, aby komputery mogły zrozumieć znaczenie – „semantykę” – informacji krążącej w sieci WWW.”
Dostępność metadanych nadających się do przetwarzania automatycznego pozwoliłaby zautomatyzowanym agentom (programom komputerowym pracującym w tle) oraz innemu oprogramowaniu na inteligentniejszy dostęp do sieci. Agenci mogliby wykonywać swoje zadania automatycznie i lokalizować powiązane informacje w imieniu użytkownika. Termin „sieć semantyczna” nie jest formalnie sprecyzowany. Zazwyczaj używa się go do opisu modelu i technologii zaproponowanych przez W3C. Technologie te obejmują język RDF, grupę formatów wymiany danych (np. RDF/XML, N3, Turtle, N-Triples), notacje takie, jak RDFS i OWL, a więc wszystko to, co służy formalnemu opisowi pojęć, terminów i relacji pomiędzy nimi w ramach danej dziedziny wiedzy.
Sieć semantyczna jest więc etapem ewolucji sieci WWW, za którą kryje się fakt, iż użytkownicy sieci WWW zmieniają sposób publikowania swoich danych/dokumentów po to , by były one odczytywalne zarówno przez ludzi, jak i przez same komputery.
Linked Data jest praktyczną realizacją sieci semantycznej, odkąd przy publikacji online określonych danych potrzebne są połączenia/linki z innymi danymi, aby miały one sens.
Za pierwszą definicję Linked Data niech posłuży poniższy cytat:
“W terminologii sieci semantycznej Linked Data to metoda publikowania i łączenia danych w sieci pochodzących z różnych źródeł. Obecnie w sieci używa się połączeń hipertekstowych, co pozwala użytkownikom na przemieszczanie się od jednego dokumentu do drugiego. Idea, jaka kryje się za Linked Data jest taka, że połączenia hiperdanych pozwolą użytkownikom i samym komputerom na odnalezienie w sieci danych powiązanych/pokrewnych, które wcześniej nie były połączone. Chodzi o to, że akcent jest w tym wypadku położony na dane oraz na to, jak tworzyć i utrzymywać połączenia pomiędzy nimi, a nie na dokumenty i połączenia pomiędzy dokumentami.”
Poniżej bardziej „oficjalna” definicja autorstwa Tima Bernersa-Lee:
“W sieci semantycznej nie chodzi wyłącznie o umieszczanie danych w sieci. Chodzi o tworzenie połączeń po to, by ludzie i komputery mogli przeszukiwać sieć danych. Dzięki danym typu Linked Data można znajdować kolejne dane pokrewne.
Tak jak sieć oparta o hipertekst, tak sieć oparta o dane zbudowana jest z dokumentów znajdujących się w sieci. Niemniej jednak w przeciwieństwie do tej pierwszej, gdzie połączenia są relacjami w dokumentach hipertekstowych zapisanych w HTML, druga sieć obejmuje połączenia pomiędzy dowolnymi rzeczami opisanymi w RDF. Identyfikatory URI identyfikują każdy obiekt lub pojęcie. Ale czy chodzi o HTML, czy o RDF oczekiwania dotyczące rozwoju sieci są te same:
- należy używać identyfikatorów URI do identyfikacji rzeczy (konkretnych, jak i abstrakcyjnych, a nie tylko dokumentów),
- należy używać HTTP URI, aby użytkownicy mogli sprawdzić te rzeczy,
- należy dostarczać przydatne informacje korzystając ze standardów (RDF*, SPARQL), kiedy ktoś sprawdza dany URI,
- należy dołączać linki do innych URI (generalnie linki RDF), aby umożliwić odnalezienie informacji pokrewnych.”
Digitalizacja jest długoterminowym i kosztownym procesem, którego ostatecznym celem jest udostępnienie online cyfrowego dziedzictwa kulturowego wszystkich instytucji kulturalnych. Zastosowanie technologii sieci semantycznej i Linked Data do umieszczenia danych w Internecie jest gwarancją, że wspomniane cyfrowe treści będą wykorzystane w sposób najlepszy z możliwych a ich widoczność w sieci będzie optymalna.
Tezaurus, jak i inne zasoby terminologiczne służą głównie do indeksowania i organizowania wielu kolekcji danej instytucji. Technologie sieci semantycznej pozwalają na łączenie kilku różnych tezaurusów i instytucji po to, by użytkownicy mogli rozwinąć funkcje wyszukiwania o wyszukiwanie federacyjne licznych słownictw kontrolowanych i źródeł Linked Data.
Wkład ze strony instytucji kulturalnych, polegający na bogatej semantycznie wizualizacji tezaurusów i linków pomiędzy nimi, ma ułatwić dostęp do informacji wielojęzycznej.
Jak dołączyć do sieci semantycznej: wskazówki
Pakiet zadaniowy WP3 projektu Linked Heritage opracował broszurę zawierającą zbiór rekomendacji i wskazówek odnośnie przyłączania zasobów terminologicznych do sieci semantycznej.
Ta część obiektu przedstawia krok po kroku, jak publikować terminologię jako część sieci semantycznej.
KROK 1: Tworzenie terminologii
Zbudowanie terminologii jest sprawą pierwszą i podstawą. Determinuje operacje, które trzeba później wykonać przy wprowadzaniu interoperacyjności terminologii z innymi zasobami oraz przy łączeniu jej do wspólnej sieci terminologii.
Wzorowym typem terminologii jest tezaurus przeznaczony dla jednej dziedziny, wielojęzyczny i stworzony „pod” użytkownika. Im bliżej tego wzoru będzie dana terminologia, tym bardziej optymalne będzie wykorzystanie w środowisku Europeany jej opisów semantycznych.
Zdefiniuj dziedzinę/y swojej kolekcji http://www.athenaeurope.org/athenawiki/index.php/A1
Ustal potrzeby użytkowników (odnośnie opisów semantycznych) http://www.athenaeurope.org/athenawiki/index.php/A2
Zdefiniuj swoje połączenie z modelem danych http://www.athenaeurope.org/athenawiki/index.php/A3
Wybierz terminy do opisu semantycznego swoich cyfrowych zasobów http://www.athenaeurope.org/athenawiki/index.php/A4
Zorganizuj swoje terminy w strukturę tezaurusa http://www.athenaeurope.org/athenawiki/index.php/A5
Znajdź odpowiedniki swoich terminów w innych językach http://www.athenaeurope.org/athenawiki/index.php/A6
Zaimplementuj swój tezaurus http://www.athenaeurope.org/athenawiki/index.php/A7
KROK 2: Wprowadzanie interoperacyjności
Oceń jak dalece SKOS odpowiada cechom twojej terminologii http://www.athenaeurope.org/athenawiki/index.php/B1
Przekonwertuj w przybliżeniu swoją terminologię do formatu SKOS http://www.athenaeurope.org/athenawiki/index.php/B2
Zdefiniuj precyzyjnie etykiety wyrażające pojęcia http://www.athenaeurope.org/athenawiki/index.php/B3
Zidentyfikuj swoje pojęcia i zwaliduj strukturę http://www.athenaeurope.org/athenawiki/index.php/B4
Udokumentuj pojęcia http://www.athenaeurope.org/athenawiki/index.php/B5
Zmapuj swoje pojęcia http://www.athenaeurope.org/athenawiki/index.php/B6
Zmapuj swoje (wielojęzyczne) terminy http://www.athenaeurope.org/athenawiki/index.php/B7
Zwaliduj konwersję do SKOS http://www.athenaeurope.org/athenawiki/index.php/B8
KROK 3: Łączenie do wspólnej sieci
Zdefiniuj metadane swojej terminologii http://www.athenaeurope.org/athenawiki/index.php/C1
Identyfikacja zasobów do mapowania http://www.athenaeurope.org/athenawiki/index.php/C2
Mapowanie z innymi zasobami http://www.athenaeurope.org/athenawiki/index.php/C3
Walidacja interoperacyjności http://www.athenaeurope.org/athenawiki/index.php/C4