TERMINOLOGIA

4/6 – Literatura i glosariusz

Spis treści

Literatura

Shiri A., Powering Search. The Role of Thesauri in New Information Environments, New Jersey 2012.

Aitchison J., Gilchrist A., Bawden D., Thesaurus Construction and Use: A Practical Manual, 4th. ed., London 2000.

Hodge G., Systems of knowledge organization for digital libraries: beyond traditional authority files, Washington 2012.

ISO 25964-2, Information and documentation - Thesauri and interoperability with other vocabularies - Part 2: Interoperability with other vocabularies, Geneva, March 2013.

BS 8723, Structured Vocabularies for Information Retrieval, London 2005.

ANSI/NISO Z39, Guidelines for the construction, format, and management of monolingual controlled vocabularies, Bethesda, 2005.

SKOS, http://www.w3.org/2004/02/skos/

Glosariusz

Słownictwo kontrolowane
Słownictwo kontrolowane to strukturalna lista deskryptorów. Każdy deskryptor to termin preferowany z jednoznaczną i niepowtarzalną definicją. Deskryptory mogą występować w relacjach hierarchicznych, ekwiwalencji/równoważności i skojarzeniowych. Słownictwo kontrolowane jest odgórnie zarządzane przez np. podmiot zarządzający tezaurusem lub zcentralizowaną instytucję odpowiedzialną za zarządzanie słownictwem. Słownictwo kontrolowane pozwala na znormalizowane indeksowanie wielu kolekcji w lokalnej bazie danych lub katalogu online. To również skuteczne narzędzie do kwerend informacyjnych oraz dzielenia się danymi w sieci. Tezaurusy, systemy klasyfikacji, taksonomie i hasła przedmiotowe to rodzaje słownictwa kontrolowanego. Nazywa się je także listami autorytatywnymi.
Wyszukiwanie informacji
Wyszukiwanie informacji to czynność mająca na celu uzyskanie informacji przy użyciu systemów wyszukiwania informacji. Tymi systemami mogą być bazy danych z kolekcjami, pliki indeksowe biblioteki, przeglądarki sieci WWW itp. Badania nad wyszukiwaniem informacji skupiają się głównie na skuteczności aplikacji (takich jak słownictwa kontrolowane w bazach danych) zbudowanych specjalnie do celów zarządzania informacją i wyszukiwania jej.
Interoperacyjność
Interoperacyjność to zdolność systemów i oprogramowania do wymiany informacji. Interoperacyjność można osiągnąć przestrzegając standardowych procedur, np. standardów przygotowanych przez Międzynarodową Organizację Normalizacyjną ISO na temat budowy tezaurusów. Gdy instytucje używają tego samego zbioru zasad do danej czynności, wówczas mogą współdziałać, a zatem pracować sprawniej i wydajniej, np. przy tworzeniu systemów wzajemnej wymiany informacji takich, jak katalogi online.
Normy ISO
Autorem norm ISO jest Międzynarodowa Organizacja Normalizacyjna (ang. International Organization for Standardization). Do tej pory organizacja ta opublikowała ponad 19 tys. standardów dotyczących wszystkich aspektów świata technologii i biznesu. Standardy tworzone są w ramach danego tematu , np. informacja i dokumentacja. Pisze je komitet ekspertów, który w efekcie proponuje zasady i procedury cieszące się międzynarodowym uznaniem. Na przykład norma ISO 25964-1:2011 (część 1) zawiera cenne informacje na temat tezaurusów i ich interoperacyjności z innymi słownikami.
Linked Data
Linked Data lub Linked Open Data (LOD) to informacje (lub obiekty cyfrowe) wzajemnie ze sobą połączone i funkcjonujące w sieci WWW. Tę strukturę połączonych ze sobą obiektów cyfrowych można uzyskać, gdy dokumenty, obrazy, pojęcia z tezaurusów itp. reprezentowane są przez identyfikatory URI. Dane publikowane w sieci za pomocą URI mogą być udostępniane innym użytkownikom i ponownie wykorzystywane a systemy komputerowe mogą w prosty sposób tworzyć połączenia pomiędzy różnymi zasobami. Celem LOD jest optymalizacja dostępnej w sieci informacji. Identyfikatory URI można łączyć za pomocą technologii RDF, czyli języka komputera opracowanego przez W3C (World Wide Web Consortium). Podstawowe zasady LOD stworzył Tim Berners-Lee (informatyk i współtwórca sieci WWW). Są one następujące:
  1. stosuj identyfikatory URI do oznaczania rzeczy;
  2. stosuj HTTP URI, aby do rzeczy tych użytkownicy mogli się odnieść i sprawdzić je;
  3. dodaj przydatną informację o danej rzeczy po dotarciu do niej za pomocą URI, wykorzystując do tego standardy takie, jak RDF czy SPARQL;
  4. gdy publikujesz dane w sieci WWW, dodaj linki do innych powiązanych rzeczy (korzystając z ich URI).
Mapowanie
Procedura, podczas której elementy jednego zorganizowanego zbioru danych (np. modelu metadanych) zostają połączone z elementami innego zbioru.
Tezaurus
Tezaurus to rodzaj słownictwa kontrolowanego. Uważa się go za najbardziej rozbudowaną formę słownictwa, ponieważ zawiera duże ilości informacji. Terminy w tezaurusie są powiązane ze sobą za pomocą relacji hierarchicznych, ekwiwalencji/równoważności i/lub skojarzeniowych. Relacja hierarchiczna oznacza, że jeden termin uważany jest za szerszy lub węższy od drugiego. Może to być więc relacja typu „rodzaj/przykład czegoś”, np. gitara uważana jest za termin węższy od instrumentu muzycznego ponieważ gitara jest „przykładem” instrumentu muzycznego. Omawiana relacja jest relacją pionową. Inna relacja, tj. relacja ekwiwalencji oznacza, że kilka terminów uważanych jest za równe, ale jeden jest bardziej preferowany niż drugi. Na przykład dom i mieszkanie to synonimy, ale w tezaurusie jeden termin będzie preferowany, a drugi alternatywny. Ta relacja jest pozioma. Kolejna relacja, czyli relacja skojarzeniowa reprezentuje relacje pośrednie, tzn. dany termin nie jest ani szerszy, ani węższy od drugiego, nie jest też jego synonimem, a mimo to relacja występuje. Gitara może być terminem węższym dla instrumentu muzycznego a tabulatura gitarowa może być terminem węższym dla nut, niemniej jednak pomiędzy gitarą a tabulaturą gitarową nie ma relacji mereologicznej (relacji całość-część). Gitara może być powiązana z tabulaturą gitarową za pomocą relacji skojarzeniowej.

Terminy w tezaurusie uważane są za niepowtarzalne i mogą mieć niepowtarzalny numer identyfikacyjny (wielokrotnie używany jako URI). Ich znaczenie i stosowanie opisane są w tzw. definicji objaśniającej zakres użycia danego terminu (ang. scope note).

W modelu SKOS opracowanym przez W3C terminami tezaurusa są pojęcia. Jest tak ponieważ w SKOS ważne są nie terminy, ale ich relacje hierarchiczne, ekwiwalencji/równoważności i skojarzeniowe, jak również wszelka informacja dodatkowa wyrażona za pomocą identyfikatorów URI. Termin odnosi się do ciągu liter, spółgłosek i samogłosek, podczas gdy pojęcie odnosi się do pojedynczej myśli wyrażonej językiem formalnym. Dzięki formalnej charakterystyce pojęć można przezwyciężyć bariery językowe podczas łączenia i wyszukiwania zasobów.
Identyfikatory URI i URL
Identyfikatory URI są odsyłaczami (ang. references) do obiektów cyfrowych. Tymi obiektami mogą być teksty, obrazy, filmy, ale również rekordy metadanych w systemie zarządzania zbiorami. Istnieją dwa rodzaje URI: URL (Uniform Resource Locator) jest identyfikatorem miejsca, gdzie dana rzecz się znajduje a URN (Uniform Resource Name) daje rekordowi stałą nazwę. Identyfikatory URI powinny być trwałymi identyfikatorami (ang. persistent identifiers).
Kwerenda
Kwerenda to wyszukiwanie informacji za pomocą wyszukiwarki lokalnej bazy danych, katalogu online, przeglądarki sieci WWW itp.
RDF
RDF (Resource Description Framework) to format opracowany przez W3C do wymiany danych w sieci. Opiera się na zasadzie istnienia obiektu/dopełnienia i podmiotu oraz relacji pomiędzy nimi. Relacja jest predykatem/orzeczeniem. Dopełnienie, podmiot i orzeczenie to trójka RDF. SKOS – zbudowany do wyrażania systemów organizacji wiedzy (takich, jak słownictwa kontrolowane) oraz wymienny na RDF – całkowicie opiera się na trójkach. Jeśli gitara jest pojęciem węższym dla instrumentu muzycznego, na RDF będzie to przełożone w następujący sposób: gitara (=podmiot) → węższe niż (=orzeczenie) → instrument muzyczny (=dopełnienie). Gitara i instrument muzyczny są pojęciami wyrażonymi za pomocą identyfikatorów URI. Orzeczenie wyrażone jest przez właściwość SKOS, w tym wypadku „skos:narrower”.
SKOS
SKOS (Simple Knowledge Organization System) to formalny model danych opracowany przez W3C do rozbudowy Linked Open Data w sieci semantycznej. Jest to standard, który przekłada systemy organizacji wiedzy takie, jak tezaurusy, systemy klasyfikacji itd. na trójki RDF (SKOS/RDF). Słownictwa kontrolowane organizują informacje za pomocą relacji hierarchicznych, ekwiwalencji/równoważności i skojarzeniowych oraz zawierają definicje objaśniające zakres użycia danego terminu, tłumaczenia, jak i inne informacje dodatkowe na temat poszczególnych terminów. Informacje te można udostępnić w sieci po skonwertowaniu danego słownictwa kontrolowanego do SKOS. W SKOS termin i wszystkie jego informacje wyrażone są za pomocą identyfikatorów URI. To dlatego w SKOS nazywane są one pojęciami. W danym słownictwie kontrolowanym istotny jest termin, podczas gdy w SKOS istotne są URI. URI stanowią podstawę dla danych typu Linked Data.

Konwersja do SKOS wymaga pewnej wiedzy technicznej na temat RDF i samego SKOS, toteż projekty Linked Heritage i AthenaPlus przygotowały platformę zarządzania terminologią (Terminology Management Platform), otwarte narzędzie, za pomocą którego można zaimportować dane słownictwo kontrolowane i połączyć je z innymi zasobami używającymi SKOS.
XML
XML (Extensible Markup Language, czyli Rozszerzalny Język Znaczników) to standard języka formalnego opracowany przez W3C, który określa zbiór zasad kodowania dokumentów w formacie nadającym się do przetwarzania przez człowieka, jak i przez maszyny. RDF/XML to zastosowanie języka XML, stworzone, aby RDF wyrażać jako dokument XML.
Sieć semantyczna
Sieć semantyczna (ang. Semantic Web) to projekt zespołowy kierowany przez W3C (World Wide Web Consortium), czyli międzynarodową organizację zajmującą się ustanawianiem standardów pisania i przesyłania stron WWW. Podstawową zasadą sieci semantycznej jest dzielenie się danymi w sieci po to, by uzyskiwać lepsze wyniki wyszukiwania, bez względu na użyty język naturalny. Realizacja projektu polega na automatycznym łączeniu „osobnych” zbiorów danych w sieci. W momencie gdy każde pojęcie jest powiązane z innym jako jego szersze bądź węższe pojęcie, ekwiwalent, synonim lub w każdy inny sposób, sieć może optymalizować wyniki wyszukiwania. W rezultacie powoduje to lepszą widoczność informacji w sieci i łatwiejszy do niej dostęp.