Enterprise Search

aus Wikipedia, der freien Enzyklopädie

Enterprise Search bzw. Unternehmensweite Suche bezeichnet ein Teilgebiet von Information Retrieval und bezeichnet den Vorgang der computergestützten inhaltsorientierten Suche mit Hilfe einer unternehmensinternen Suchmaschine, welche Content mittels so genannter Crawler indexiert.

Die Suche wird jedoch in der Regel nicht live auf den ursprünglichen Datenquellen durchgeführt, sondern auf dem Suchindex. Dieser Index beinhaltet primär interne Datenquellen wie Dokumente von verschiedenen Datenbanken und Einträge von Dateisystemen.

Treffer oder gefundene Dokumente werden im Kontext der Suchanfrage als Textauszug („Snippet“) angezeigt. Durch diese Vorschau lässt sich schnell die Relevanz der Ergebnisse beurteilen. Durch die fortlaufende Indexierung der einzelnen Datenquellen wird die Aktualität der Resultate (Result Set) gewährleistet.

Aus Sicht von Unternehmen ist der Nutzen von Enterprise Search die Unterstützung der Mitarbeiter bei der Suche nach arbeitsrelevanten Informationen.

Funktionsweise

Suchmaschinen bestehen in den meisten Fällen aus drei Hauptkomponenten: einer Crawling/Indexing Engine, einer Query Engine und einer Ranking/Relevancy Engine.

Die Crawling/Indexing Engine sorgt für die Beschaffung der Dokumente und Daten aus den Quellen und legt diese Informationen in einer effizient durchsuchbaren Struktur ab. Außerdem sorgt sie für die Erstellung von Dokumentencaches, die zur Darstellung der Dokumentvorschau in der Resultatansicht verwendet werden. Die Query Engine durchsucht den Index nach Treffern und erstellt eine Liste der Ergebnisse. Die Ranking/Relevancy Engine ist zuständig für die Sortierung resp. Reihenfolge der Treffer.

Als Oberfläche wird in der Regel ein Webbrowser verwendet und die Ergebnisse werden in einer ähnlichen Form wie bei Internet-Suchmaschinen dargestellt.

Schnittstellen

Viele Enterprise-Search-Hersteller bieten verschiedenste Adaptoren oder Konnektoren für weit verbreitete Unternehmensanwendungen an, um die Inhalte in der Suchlösung anzeigen zu können. Neben dem direkten Abfragen der Kundendatenbank sind beispielsweise Plug-ins für Gruppen-E-Mail-Anwendungen, Content- oder Dokumenten-Management-Systeme typisch. Auch ein Einbinden als eigenes Filesystem (Netzlaufwerk) ist oft möglich. Oft wird auch mit “Federated Search” Konnektoren gearbeitet, welche die Suchabfrage an ein Zielsystem weitergeben und danach die erhaltenen Teilergebnisse in die Ergebnisse integriert.

Komponenten

Allgemein wird zwischen Frontend und Backend unterschieden.

Das Backend beinhaltet typischerweise neben den einzelnen Konnektoren den Crawler, Indexer sowie Parser für die von den verschiedenen Frontends gestellten Suchanfragen. Diese Anfragen werden an die eigentliche Suchmaschine weitergeleitet, die die Informationen aus der indizierten Datenbank zur Verfügung stellt.

Im Frontend gibt es generell größere Gestaltungsfreiheit. Es kann einfach ein Eingabefeld sein, oder mehr Komfort bieten, beispielsweise durch Vorschläge bei vermuteten Tippfehlern, das Anzeigen weiterer verwandter Themenfelder oder Navigation durch eine Tagcloud oder Facettenklassifikation. Das immer weitere Einschränken der Treffermenge durch Ergänzung der Suchanfrage um weitere Kriterien oder durch Wahl eines Unterbegriffs (beispielsweise entlang eines Taxonomie-Baumes) wird auch als Drilldown bezeichnet. Die Formatierung des Resultates (beispielsweise Aufteilung in verschiedene Seiten) wird typischerweise ebenfalls im Frontend erledigt. Das Frontend beinhaltet gewöhnlich auch alle reinen Komfortfunktionen wie beispielsweise die Möglichkeit, Suchanfragen zu speichern und später erneut zu stellen.

Vergleich Unternehmens-Suche und Internet Suche

In Enterprise Search wie auch der Internetsuche werden grundsätzlich ähnliche Techniken und Algorithmen eingesetzt. Dies sind zum einen die Crawler. Eine weitere Gemeinsamkeit sind die großen Indexe und die Sortierung der Treffer nach Relevanz.

Folgende Unterschiede bestehen:[1]

Sicherheit
Um Informationen und Daten gegen unberechtigten Zugriff zu schützen, müssen die Verantwortlichen ihre Datenquellen freigeben. Dabei muss der Zugang zu den gesuchten Informationen die geltenden Bestimmungen und Regeln im Unternehmen sowie Datenschutzrichtlinien einhalten. Eine integrierte Rechteverwaltung sorgt dafür, dass die Anwender im Unternehmen nur die Daten finden, auf die sie auch zugreifen dürfen. D. h., die Autorisierung der Benutzer von Dateien und Ordner muss innerhalb des Unternehmens sichergestellt werden, um dem Missbrauch von Daten im Unternehmen sowie außerhalb davon vorzubeugen.
Linkstruktur
Das Ranking wird nicht mit dem Parameter „Anzahl Links auf ein Dokument“ beeinflusst. Manche Anwendungen und Quellen verfügen jedoch über eigene Indexe. Um die Performance der Suchmaschinen zu verbessern, sollten sie auf diese Indexierungen aufsetzen. Das spart wertvolle Prozessressourcen ein. Mangels der Möglichkeit, Relevanz von Informationen aufgrund von Verlinkungen festzustellen, gewinnt in der Unternehmenssuche das Metadatenkonzept massiv an Bedeutung.
Quellen
Die durchsuchbaren Daten stammen nicht nur von Webservern, sondern aus verschiedenen anderen Speicherorten. Dazu zählen Netzlaufwerke, Intranet, Anwendungen, E-Mail-Systeme, lokale Daten sowie Wechseldatenträger wie z. B. USB-Sticks oder CD-ROM-Laufwerke.
Inhalte
Inhalte sind nicht für die Indexierung durch eine Suchmaschine optimiert resp. manipuliert und es gibt keinen Spam. Damit eignen sich sowohl strukturierte als auch unstrukturierte Daten zur Nutzung.

Vergleich Unternehmenssuchmaschine / Datenbank

Im Gegensatz zu Datenbanken mit dem Zweck der Verwaltung der strukturierten Inhalte werden Suchmaschinen vor allem für die Erschließung von unstrukturierten Inhalten eingesetzt. Ein großer Unterschied besteht auch im Hinblick auf die Anzahl zu durchsuchender Quellen: Enterprise Search kann mehrere verschiedene Quellen durchsuchen, während sich die Abfragen bei Datenbanken normalerweise auf eine beschränken. Die Abfragesprache bei Sucharchitekturen ist um einiges einfacher, da schlicht Schlüsselwörter eingegeben werden können und keine Datenbankabfragesprachen wie SQL notwendig sind. Neben diesen Aspekten sind Suchmaschinen um ein Vielfaches schneller; so dauert eine Abfrage in der Regel maximal eine Sekunde im Gegensatz zu aufwändigen Datenbankabfragen, die mehrere Stunden dauern können.

Aktuelle Situation

Die Marktforscher von IDC prognostizieren im jüngsten Update ihrer Studie The Diverse and Exploding Digital Universe[2] eine regelrechte Explosion der digitalen Informationsmenge und der Formvarianten. Derzeit wachse die digitale Informationsflut jährlich um 60 Prozent. Bis 2011 soll sie rund 1.800 Exabyte (10 hoch 18 Bytes) erreichen, was einer Verzehnfachung gegenüber 2006 entspräche.

Laut IDC verantworten Personen 70 Prozent dieses Datenwachstums. Trotzdem seien die IT-Abteilungen von Organisationen und Unternehmen bei rund 85 Prozent der entstehenden Daten in die Speicherung, Bereitstellung, Übermittlung und den Datenschutz involviert. Diese schnell wachsende und facettenreichen Datenflut konfrontiert IT-Manager mit einer nie dagewesenen Komplexität. In ihrer Not versuchen viele Firmen, mit einheitlichen, zentralen Systemen zur Datenverwaltung und -haltung den Wildwuchs im Griff zu behalten. Laut Juergen Lange kommen DMS-Lösungen jedoch sehr schnell an ihre Grenzen. Die Folgen sind, dass es für die Mitarbeiter immer schwieriger wird, sich die benötigten Informationen zu beschaffen.

Dadurch entwickelt sich das Suchen und Finden von Informationen für Unternehmen zum überlebenswichtigen Schlüsselfaktor. Die Einhaltung sicherheitsrelevanter Bestimmungen spielt dabei eine maßgebliche Rolle. Während dies bei Enterprise-Search-Lösungen eine Selbstverständlichkeit sein sollte, weist die Mehrzahl der kostenlos angebotenen Suchmaschinen-Software Lücken auf – nach der Installation erstellen solche Programme ein komplettes Inhaltsverzeichnis in einer Datenbank auf dem Rechner, in die sie Dateninhalte und Anwendungsverhalten speichern. Ganz offiziell übertragen diese Suchmaschinen dann die Berichte nach außen.

Anbieter solcher Lösungen versichern zwar, dass sie keine persönlichen Daten, sondern nur Bewegungs- und Verhaltensdaten übertragen, nach welchen Datenschutzrichtlinien das jedoch erfolgt, bleibt meist ihr Geheimnis. Nach der Installation sind die Sicherheitsmechanismen vieler Unternehmen dadurch oft wirkungslos. Indexierungen, welche die ersten zehntausend Wörter erfassen, geben damit oft komplette Inhalte wieder. Solches Wissen außerhalb des deutschen oder europäischen Rechtsraums birgt ein unkalkulierbares unternehmerisches Gefahrenpotenzial; Diebstahl von und Handel mit Informationen bilden einen lukrativen Markt.

In Deutschland und Europa gibt es – im Vergleich zu den USA – relativ wenig Know-how und Kompetenz für Enterprise-Search-Lösungen. Nur wenige deutsche Unternehmen und europäische Forschungsprojekte beherrschen diese Schlüsseltechnologie. Hier ist die Politik gefordert, den deutschen Mittelstand zu unterstützen. Zudem muss die Rechtsprechung ausländische Anbieter anhalten, nationale und europäische Datenschutzrichtlinien zu respektieren.

Siehe auch

Literatur

  • Martin White: Making Search Work. Implementing Web, Intranet and Enterprise Search. Facet Publishing, London 2007, ISBN 978-1-85604-602-2.
  • Juergen Lange: Datenflut – Fluch oder Segen? Wie Sie mit Enterprise Search einfach und sicher Informationen finden. Ein strategisches Werkzeug für Unternehmen. Frankfurter Allgemeine Buch, Frankfurt am Main 2009, ISBN 978-3-89981-196-4.
  • Julian Bahrs: Enterprise Search – Suchmaschinen für Inhalte im Unternehmen. In: Dirk Lewandowski (Hrsg.): Handbuch Internet-Suchmaschinen. Nutzerorientierung in Wissenschaft und Praxis. Akademische Verlagsgesellschaft AKA, 2009, ISBN 978-3-89838-607-4, S. 329–355, Online-Version.

Weblinks

Einzelnachweise

  1. Udo Kruschwitz, Charlie Hull: Searching the Enterprise. In: Foundations and Trends in Information Retrieval, 11, 2017, S. 1–142, doi:10.1561/1500000053
  2. emc.com: The Diverse and Exploding Digital Universe (Memento vom 4. April 2013 im Internet Archive; PDF; 442 kB)