Wrapper (Informationsextraktion)

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 29. Januar 2020 um 17:10 Uhr durch imported>RonMeier(1000822) (Kleinkram).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Dieser Artikel wurde wegen inhaltlicher Mängel auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen, und beteilige dich an der Diskussion! (+)

Als Wrapper bezeichnet man im Informatik-Teilbereich der Informationsextraktion eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von (semi-)strukturierten Daten aus einer bestimmten Datenquelle (Text). Dabei werden je nach Art der zu extrahierenden Datensätze unterschiedliche Wrapper benötigt. Im Zusammenhang mit Feature Subset Selection existieren zudem unterschiedliche Ansätze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensätzen.

Allgemeines

LR-Wrapper

Ein LR-Wrapper besteht aus abgrenzenden Paaren Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \langle l_i,r_i\rangle}

foreach Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \langle l_i,r_i\rangle \in \{ \langle l_1,r_1\rangle, \dotsc, \langle l_n,r_n\rangle \}}

finde das nächste Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle l_i}
finde das nächste Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_i}
extrahiere den Text dazwischen und speichere ihn als Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle i} -ten Wert des Tupels

Einschränkungen:

  • Jedes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle l_i} muss ein "echtes" Suffix des Textes vor jeder Instanz des Zielobjekts sein. Echt heißt, es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen. Ansonsten werden falsche Tupel extrahiert.
  • Jedes Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle r_i} muss ein Präfix des Textes nach jeder Instanz des Zielobjekts sein. Ansonsten wird die Extraktion vorzeitig abgebrochen.

Quelle:[1]

Weitere Wrapper

HLRT-Wrapper (Head-Left-Right-Tail-Wrappers)
Lerne einen eigenen Begrenzer für den Kopf und das Ende eines Dokumentes. Vor dem Head und nach dem Tail werden alle Vorkommnisse von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \langle l_i,r_i\rangle} ignoriert.
OCLR- und HOCLRT-Wrapper
Lerne für jedes Tupel ein eigenes Begrenzungspaar.
N-LR- und N-HLRT-Wrapper
Erlaube mehrwertige und optionale Attribute

Quelle:[1]

Wrapper und FSS

Folgende einfache Möglichkeiten der Auswahl bestehen:

Forward selection
Starte mit einer leeren Menge von Features und füge immer das Feature hinzu, das die Accuracy am meisten erhöht, bis die Accuracy nicht mehr deutlich zunimmt.
Backward elimination
Starte mit allen Features und versuche ungeeignete zu entfernen.
Simple heuristic search
Füge ein Feature nach dem anderen hinzu, bis die Accuracy nicht mehr deutlich zunimmt.

Einschränkungen

  • Keine Permutationen von Attributen möglich
  • Die Begrenzungspaare sind evtl. nicht ausreichend zur Identifizierung von Texten

Um diese Probleme zu lösen, müssen andere Algorithmen zur Informationsextraktion verwendet werden, etwa ein nicht-deterministischer, adaptiver Mealy-Automat (z. B. SoftMealy[2]), der diese Einschränkungen nicht besitzt.

Einzelnachweise

  1. a b Nicholas Kushmerick: Wrapper Induction: Efficiency and Expressiveness. In: Artificial Intelligence. Band 118, 2000, S. 15–68.
  2. C.-N. Hsu, M.-T. Dung: Wrapping semistructured web pages with finite-state transducers. In: Proc. Conference on Automatic Learning and Discovery (CONALD-98). 1998.

Literatur

  • B. Chidlovskii, U. Borghoff, P. Chevalier: Towards sophisticated wrapping of web-based information repositories. In: Proceedings of the Conference on Computer-Assisted Information Retrieval. 1997, S. 123–155.
  • M. Roth, P. Schwartz: Don’t scrap it, wrap it! In: Proceedings of the 22nd VLDB Conference. 1997, S. 266–275,