Benutzer:JakobVoss/Ontologie

aus Wikipedia, der freien Enzyklopädie
< Benutzer:JakobVoss
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 13. Juni 2010 um 14:56 Uhr durch imported>Carolin(261212) (→‎Vergleich: Service: BKL-Auflösung).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Unter einer Ontologie versteht man in der Informatik im Bereich der Wissensrepräsentation ein formal definiertes System von Begriffen und Relationen zwischen ihnen. Mit einer Ontologie sollen die Bedeutung von Begriffen bis hin zu Wissen in einer für den Computer verarbeitbaren Form abgebildt werden. Die bekannteste Kurzdefinition lautet „Spezifikation einer Konzeptualisierung“.[1]

Der Begriff ist seit den 1990er Jahren zu einem Modewort geworden, unter dem je nach Anwendung und Autor unterschiedliche Systeme von einfachen kontrollierten Vokabularen bis zu komplexen Wissensbanken subsumiert werden. Vor allem im Zusammenhang mit der Idee des „Semantic Web“ haben Ontologien einen Aufschwung erfahren. Vorläufer, Spezialfälle oder Erweiterungen von Ontologien sind (je nach Definition) verschiedene Systeme zur Wissensrepräsentation aus der Künstlichen Intelligenz (Frames, Semantische Netze etc.) und zur Wissensorganisation (Klassifikationen, Thesauri etc.) aus der Dokumentationswissenschaft.


Geschichte und Entwicklung

Der Begriff ‚Ontologie‘ stammt ursprünglich aus der Philosophie und bezeichnet die Lehre vom Seienden als Teilgebiet der Metaphysik. Im 20. Jahrhundert nahmen verschiedene Philosophen eine Formalisierung des Ontologiebegriffs vor. Nach Quine (1908-2000) heisst Sein, Wert einer gebundenen Variable zu sein;[2] wesentlich ist also nicht die Frage, was wirklich existiert, sondern welche impliziten Annahmen mit der Verwendung eines Begriffes verbunden sind. Eine Ontologie besteht demnach ausschließlich aus neutralen Knoten (den Wörtern) und der Struktur, über die sie miteinander verbunden sind. Außerdem könnnen verschiedene Ontologien gleichberechtigt nebeneinander existieren (Unterdeterminierung).

Möglicherweise inspiriert von dieser pragmatischen Definition wurde der Begriff der Ontologie ab Anfang der 1990er auch innerhalb des Forschungsgebietes der Künstlichen Intelligenz verwandt.[3] Aus einer der ersten Arbeiten stammt auch die noch immer am häufigsten zitierte Kurzdefinition einer Ontologie von von Thomas Gruber als „specification of a conceptualization“[1]

An dieser Stelle sollten in einem Satz zusammengefasst, was das Ziel damaliger Ontologien war und ggf. das Knowledge Interchange Format (KIF): 1991/92? sowie Prolog ggf. Frames (1974) und F-Logic (1989) genannt werden. Wo waren die Einflüsse auf den aufkommenden Ontologiebegriff?

Relativ unabhängig von der Entwicklung innerhalb der Künstlichen Intelligenz wurde Ende der 1990er Jahre am World Wide Web Consortium (W3C) mit dem Ressource Description Framework (RDF) ein Standard zur Formulierung von Metadaten (Daten über Daten) erstellt.[4] Das RDF-Datenmodell besteht ebenfalls im Kern aus Knoten, die über Relationen miteinander verbunden sind. Grundsätzlich ist RDF unabhängig von einer speziellen Notation, üblich ist jedoch eine Repräsentation in der Extensible Markup Language (XML). Als Ziel von RDF wurde neben der Erschließung von Internetdokumenten von Beginn an auch die Möglichkeit des Austausches von Wissensbeständen mit Hilfe von intelligenten Softwareagenten genannt. Auf RDF aufbauend wurde ab 1999 RDF-Schema entwickelt, das RDF um ein Konzept von hierarchischen Klassen und Eigenschaften erweitert.[5]

Während sich in RDF mit seiner Grundstruktur aus so genannten triples (Subjekt-Prädikat-Objekt) nur einfache Semantische Netze (beschriftete Graphen mit gerichteten, beschrifteten Mehrfachkanten) ausdrücken lassen, beinhaltet RDF-Schema auch eine Semantik in Form von Vererbungsbeziehungen.

...Darum: lassen sich solche Strukturen formulieren, die in der Informatik inzwischen als Ontologien verstanden werden....
...Dies erklärt vielleicht auch, warum auch einfache hierarchische Systeme als Ontologie bezeichnet werde, selbst wenn es sich aus Sicht der Dokumentationswissenschaft eher um Klassifikationen handelt...

Gleichzeitig stelle Tim Berners-Lee 1998 die Idee des Semantic Web vor[6]. Ziel des ehrgeizigen Projektes Semantic Web ist es, Bedeutungen von Dokumente und Datenbestände im Internet in einer einheitlichen Form abzubilden, so dass Softwareprogramme die semantischen Daten als verteilte Wissensdatenbank nutzen können. Sicherlich lässt sich darüber streiten, wie realistisch dieses Ziels ist und ob es sich bei den im Semantic Web abgebildeten Strukturen tatsächlich um Wissen handelt; in jedem Fall hat die Idee die Entwicklung und Durchsetzung von Techniken wie URI, XML, RDF, OWL etc. stark vorangebracht. Auch wenn das Semantic Web nur eine reine verteilte Datenbank werden sollte, ließen sich damit eine vielzahl von Anfragen beantworten, die mit herkömmlichen Suchmaschinen und rein textbasierten Dokumenten nicht möglich sind.

Mit der Web Ontology Language (OWL) (2001 bis 2003) wurden RDF und RDF-Schema um Elemente der Prädikatenlogik erweitert. In OWL können auch Eigenschaften von Relationen wie Transitivität und Symmetrie angegeben werden und Quantoren sind möglich. Allerdings ist die Ausdrucksfähigkeit von OWL auf die Beschreibungslogik beschränkt, damit Aussagen algorithmisch entscheidbar bleiben. Ontologiesprachen wie KIF und CycL sind zwar ausdrücksstärker, so dass sich damit auch Aussagen formulieren lassen, deren Gültigkeit nicht entscheidbar ist.

F-Logic, Frames : inwieweit berücksichtigt?

Parallel und unabhängig zur Entwicklung von RDF: Topic Maps (von aus motiviert/entstanden?): ISO: 1999, erweiterte Form einer Facettenklassifikation??, [7]

Hatten die Conceptual Graphs (nach John F. Sowa) einen Einfluss auf die Entwicklung?: Weniger Formal

Anwendung von Ontologien

Eine Breite Anwendungen haben Ontologien inzwischen in der Bioinformatik und Medizin, beispielsweise im Bereich der Genforschung. Dort werden zur Zeit Ontologiebibliotheken aufgebaut, die verschiedene Ontologien mit Beschreibungen biologischer Objekte und Prozesse sammeln und in Verbindung zueinander setzen. Allerdings sind auch hier die Übergänge zu reinen Terminologien und einfachen Thesauren nicht immer eindeutig. Während beim Unified Medical Language System (UMLS) die Koordination von Terminologien im Schwerpunkt liegt, werden im Projekt GALEN und der Gene Ontology Database auch komplexe molekulare Zellprozesse in einer formalen Sprache abgebildet.

Die umfangreichste allgemeine Ontologie wird mit Cyc seit 1984 aufgebaut. Die Wissensdatenbank enthält Alltagswissen, dass Anwendungen der Künstlichen Intelligenz das logische Schlußfolgern über Sachverhalte des „Gesunden Menschenverstandes“ zu ermöglichen. Die Inhalte von Cyc werden als logische Aussagen in der Ontologiesprache CycL formuliert, die auf der Prädikatenlogik aufbaut. Zusätzlich enthält CyC eine Inferenzmaschine für Plausibilitätskontrollen und das Schlussfolgern über die gespeicherten Zusammenhänge.

Vergleich

Im Gegensatz zu vielen älteren Begriffen der Bibliotheks- und Informationswissenschaft ist Ontologie in der Forschung zu einem Modewort geworden, das bisweilen inflationär ohne klare Definition verwandt wird. Vor allem fehlt meist eine Abgrenzung zu Klassifikationen, Thesauren, Semantischen Netzen und anderen Formen der Informations- und Wissensordnung, die stattdessen ohne Differenzierung als Ontologien subsumiert werden.

...

Die undifferenzierte Verwendung ist teilweise darauf zurückzuführen, dass eine Ontologie auf der untersten Ebene zunächst auf einem kontrollierten Vokabular basiert.

In vielen Fällen sollen so genannte Ontologien nicht primär dazu dienen, Wissen zu repräsentieren, sondern dienen der Wissensorganisation im Allgemeinen, worunter sowohl die Dokumentation als auch die Wissensrepräsentation fällt.

Zugriff auf Informationsquellen = klassische Aufgabe der Dokumentation

Wissensrepräsentation

Inzwischen aber auch: SKOS [8]: SKOS is an area of work developing specifications and standards to support the use of knowledge organisation systems (KOS) such as thesauri, classification schemes, subject heading lists, taxonomies, other types of controlled vocabulary, and perhaps also terminologies and glossaries, within the framework of the Semantic Web.


Wenn diese Möglichkeiten genutzt werden und Wissen in Ontologien so abgelegt ist, dass Inferenzmaschinen daraus Schlüsse ziehen können, handelt es sich um Wissensbanken.

(Die Unterscheidung zu Wissensbanken ist nicht immer eindeutig).
  • Thesaurus: dienen dazu Deskriptoren zu ordnen (Verweise auf Vorzugsbenennungen, verwanten Deskriptoren etc.)
  • Semiotischer Thesaurus: Abbildung von begrifflicher Bedeutung mittels Relation (Hierarchie, Vernetzung etc.) zwischen Benennungen - damit ein Begriffssystem, das pragmatische Aspekte berücksichtigt und vorrangig für Menschen verständlich ist.[9]
  • Linguistische Ontologie: WordNet: kein kausal begründetes Wissen!

Ontologien können auf die Selbe Weise Begrifflichkeiten ordnen (Abbildung einer Terminologie) - wenn sie semantik Enthälten (eigenschaften von Relationen, logische aussagen, die Inferenz ermöglichen) kann es sich um Wissensbanken handeln.

Ob sich allerdings die in Ontologien abgebildeten Zusammenhänge als Wissen bezeichnen lassen, hängt natürlich von der Definition von Wissen ab. Grundsätzlich kann eine Ontologie auch radikal konstruktivistisch betrachtet beliebige Begriffswelten ohne Bezug zur Realität abbilden. Dies ist allerdings ein philosophisches Problem, auf dass hier nicht weiter eingegangen werden soll.

Ebenso wie bei Expertensysteme, die durch Befragung von Experten enstanden sind, mit denen Wissensbanken aufgebaut werden, kann pragmatisch davon ausgegangen werden, dass Ontologien in der praxis mit Unterstützung von Experten erstellt werden, die lediglich begründeten Informationen einfliessen lassen, so dass sie sich auch als Wissensbanken bezeichnen lassen.


Formen

  • die primitivste Form einer Ontologie ist ein Glossar / kontrolliertes Vokabular
  • Klassifikation/Taxonomie
  • Thesaurus
  • semiotischer Thesaurus
  • Semantisches Netz
  • Frames
  • ...

Schwierigkeiten und Grenzen (Kritik)

Wie bei anderen Dokumentationssystemen gestaltet sich der Aufbau und die Pflege von Ontologien in der Praxis sehr aufwendig. Es ist fraglich, ob sich dafür Mittel finden, wenn schon Thesauren und Klassifikationen aufgrund des Aufwands oft nicht genügend gepflegt oder ganz eingespart werden. Andererseits lassen sich durch die Verwendung einheitlicher Industriestandards wie XML und RDF und die Weiterverwendung und Integration bestehender Ontologien Mittel einsparen.

Eine Schwierigkeit besteht auch in der uneinheitlichen und undifferenzierten Verwendung des Begriffes Ontologie, der je nach Anwendung einfache Systeme zur Terminologischen Kontrolle oder komplexe Expertensystem umfassen kann.

Grundsätzlichere Problem beim Aufbau und Einsatz von Ontologien bestehen in der so genannten Semantischen Lücke und bei der Behandlung von implizitem Wissen sowie Unschärfe und Ungewissheit.

Bei der Semantischen Lücke handelt es sich um das grundsätzliche Problem, dass eine Abstraktion zwangsläufig eine unvollständige Vereinfachung ist und vor allem der Kontext einer Information nie vollständig mit abgebildet werden kann. Implizites Wissen sind Kenntnisse oder Fähigkeiten, die nicht oder nur schwer explizit formulieren sondern höchsten zeigen lassen - beispielsweise unausgesprochene Annahmen oder Handlungswissen. Mit Methoden des Wissensmanagements wird versucht, das implizite Wissen von Personen nutzbar zu machen. Außerdem basieren Ontologien auf der klassischen [[Boolesche Logik|booleschen Logik], in der nur die zwei Zustände wahr und falsch möglich sind. Zwar existiert mit der Fuzzy-Logik eine Theorie unscharfer Mengen, mit der sich auch ungenaue und vage Wahrheitswerte modellieren lassen; eine Verbindung mit Ontologien und dem Semantic Web findet bislang jedoch nur in Ansätzen statt.[10][11] Auch die Kombination mit statistischen Methoden des Information Retrieval ist noch wenig ausgebaut.

POV-Kommentare: Aus diesem Grund können Expertensysteme und Datenbanken Menschen auch nie vollständig ersetzen. Social Tagging zeigt, dass sich nicht komplexe logische Systeme sondern einfache Verschlagwortung durchsetzt, weil sie einfacher zu realisieren ist (schon mal mit logischen Formeln katalogisiert?)

Quellen

  1. a b Thomas Gruber: A translation approach to portable ontologies. In: Knowledge Acquisition, Band 5, Nummer 2, Seite 199-220, 1993, http://ksl-web.stanford.edu/KSL_Abstracts/KSL-92-71.html
  2. Quellenangabe fehlt!
  3. Robert Neches, Richard Fikes, Tim Finin, Thomas Gruber, Ramesh Patil, Ted Senator und William R. Swartout: Enabling technology for knowledge sharing. In: AI Magazine, Band 12, Nummer 3, 1991 [1]
  4. http://www.w3.org/TR/WD-rdf-syntax-971002/ (1997), http://www.w3.org/TR/rdf/ (aktuell)
  5. http://www.w3.org/TR/1999/PR-rdf-schema-19990303/ (1999), http://www.w3.org/TR/rdf-schema/ (aktuell)
  6. Tim Berners-Lee: Semantic Web Roadmap. September 1998. http://www.w3.org/DesignIssues/Semantic.html
  7. Lars Marius Garshol: Living with topic maps and RDF. http://www.ontopia.net/topicmaps/materials/tmrdf.html
  8. http://www.w3.org/2004/02/skos/
  9. Iris Schwarz und Walther Umstätter: Die vernachlässigten Aspekte des Thesaurus: dokumentarische, pragmatische, semantische und syntaktische Einblicke. In: Information - Wissenschaft und Praxis 50, 4, S. 197-203, 1999 http://www.ib.hu-berlin.de/~wumsta/thesau.html
  10. Elie Sanchez (Hrsg.): Fuzzy Logic and the Semantic Web. Elsevier, 2006, ISBN 0-444-51948-3
  11. First Workshop Fuzzy Logic and the Semantic Web. Marseille, 11.2.2005. [2]

Weblinks (tmp)