Parallele Koordinaten

aus Wikipedia, der freien Enzyklopädie
Paralleler Koordinatenplot von Flohkäfer-Daten mit GGobi.

Parallele Koordinaten (auch ||-Koordinaten; englisch parallel coordinate plot, PCP) sind eine Methode zur Visualisierung von hochdimensionalen Strukturen und multivariater Daten. In der rechten Grafik zeigen die senkrechten Linien die Achsen des Koordinatensystems. Anders als im Streudiagramm, in dem zwei Koordinatenachsen rechtwinklig zueinander angeordnet sind, verlaufen sie hier parallel und in gleichem Abstand. Jede Linie von links nach rechts entspricht dabei einem Datenpunkt und wird durch einen Polygonzug mit Ecken auf den parallelen Achsen dargestellt. Die Position der Ecke auf der i-ten Achse entspricht der i-ten Koordinate des Punktes.

Geschichte

Oft wird die Erfindung der Parallelen Koordinaten Maurice d’Ocagne im Jahre 1885 zugeschrieben,[1] jedoch hat diese Publikation, außer dass die Wörter im Titel vorkommen, mit der gleichnamigen Visualisierungstechnik nichts zu tun, sondern beschreibt lediglich eine Transformationsfunktion für Koordinatensysteme. Außerdem gibt es zweifelsfrei schon vor 1885 Darstellungen von Parallelen Koordinaten, beispielsweise von H. Gannett und F.W. Hewes im Jahre 1883 (siehe Link in der Referenz)[2]. Knapp 80 Jahre später wurde im Jahre 1959 die ursprüngliche Idee von Alfred Inselberg erneut verwendet.[3] Ab 1977 wurden sie systematisch von ihm weiterentwickelt und popularisiert. Am häufigsten angewendet werden sie bei Algorithmen zur Vermeidung von Zusammenstößen im Flugverkehr (1987), beim Data-Mining, bei Bildanalyseverfahren, in der Optimierung, der Prozesskontrolle, sowie der Einbruchserkennung bei Computern. Ausschlaggebend für die erfolgreiche Anwendung paralleler Koordinaten war Wegmans Artikel Hyperdimensional Data Analysis Using Parallel Coordinates aus dem Jahr 1990.[4]

Generalisierte parallele Koordinaten wurden 2002 und 2006 von Moustafa und Wegman vorgeschlagen.[5][6] Hierbei wird das kartesische Koordinatensystem mittels Basisfunktionen in einen Parameterraum, und dieser dann auf parallele Koordinaten abgebildet. Dadurch lässt sich eine Verbindung zwischen generalisierten parallelen Koordinaten, der Grand Tour und den Andrews-Kurven herstellen.

Vor- und Nachteile

Die parallelen Koordinaten haben Vor- und Nachteile:

  • Eine Erhöhung der Dimension bedeutet lediglich das Hinzufügen von weiteren (senkrechten) Achsen.
  • Da parallele Koordinaten einen höherdimensionalen Raum auf einen zweidimensionalen Raum abbilden, tritt ein Informationsverlust ein. Dieser kann mit Hilfe der Parseval-Identität gemessen werden.
  • Mit Übung sind bestimmte zweidimensionale und auch höherdimensionale Strukturen in parallelen Koordinaten leicht zu erkennen. Die Grafik unten zeigt verschiedene zweidimensionale Strukturen (perfekt positiv und negativ korrelierte Datenpunkte, Cluster, Kreis und normalverteilte Daten) einmal im Streudiagramm (oben) und in parallelen Koordinaten. Es sind Muster in parallelen Koordinaten bekannt für (Hyper-)Ebenen, Kurven, mehrere glatte (Hyper-)Flächen, Ähnlichkeiten, Konvexität und auch nicht orientierbare Flächen.[7] Die Punkt-Linie-Dualität ist ein Hinweis darauf, dass die mathematischen Grundlagen aus der projektiven Geometrie stammen.
Verschiedene zweidimensionale Strukturen im Streudiagramm (oben) und in Parallelen Koordinaten (unten).

Zur Visualisierung von hochdimensionalen Daten in der Statistik müssen drei wichtige Aspekte beachtet werden:

die Anordnung der Achsen
Die Anordnung der Achsen ist entscheidend für die Suche nach Strukturen in den Daten. In einer typischen Datenanalyse werden meist viele Anordnungen ausprobiert. Es wurden Anordnungsheuristiken entwickelt, die Einblicke in interessante Strukturen erlauben.[8]
die Rotation der Achsen (Daten)
Da die i-te Koordinate durch die Ecke auf der i-ten Achse bestimmt wird, kann eine Rotation der Achsen (= Rotation der Daten) ein anderes Bild ergeben. Die beiden linken Grafiken können als Rotation der Achsen (oder Daten) um 90 Grad aufgefasst werden. Trotz gleicher Struktur ergeben sich unterschiedliche Strukturen in den parallelen Koordinaten.
die Skalierung der Achsen
Die parallelen Koordinaten sind im Wesentlichen eine Aneinanderreihung von Linien zwischen Paaren von Koordinatenachsen.[6] Daher sollten die Variablen auf einen ähnlichen Maßstab skaliert sein. Verschiedene Skalierungen können ebenfalls interessante Einsichten in die Daten geben.

Literatur

  • Martin Graham, Jessie Kennedy: Using Curves to Enhance Parallel Coordinate Visualisations. Napier University, Edinburgh, UK (Online [PDF; abgerufen am 29. September 2011]).
  • Rida E. Moustafa, Edward J. Wegman: On Some Generalization of Parallel Coordinate Plots. George Mason University 2002 (Technical report).

Weblinks

Einzelnachweise

  1. Maurice d’Ocagne: Coordonnées Parallèles et Axiales: Méthode de transformation géométrique et procédé nouveau de calcul graphique déduits de la considération des coordonnées parallèlles. Gauthier-Villars, Paris 1885.
  2. Henry Gannett: General Summary Showing the Rank of States by Ratios 1880. Abgerufen am 5. Februar 2015.
  3. Alfred Inselberg: The Plane with Parallel Coordinates. In: Visual Computer. 1, Nr. 4, 1985, S. 69–91. Modul:Vorlage:Handle * library URIutil invalid.
  4. Edward J. Wegman: Hyperdimensional Data Analysis Using Parallel Coordinates. In: Journal of the American Statistical Association. Band 85, Nr. 411, September 1990, S. 664–675.
  5. R. Moustafa, E. Wegman: On Some Generalization to Parallel Coordinate Plot. In: Seeing a million, A Data Visualization Workshop, Rain am Lech (nr.), Germany. 2002.
  6. a b R. Moustafa, E. Wegman: Multivariate continuous data—Parallel Coordinates. In: A. Unwin, M. Theus, H. Hofmann (Hrsg.): Graphics of Large Datasets: Visualizing a Million. Springer, 2006, S. 143–156.
  7. A. Inselberg: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer, 2009.
  8. Interactive Hierarchical Dimension Ordering Spacing and Filtering for Exploration of High Dimensional Datasets. (S. 3–4; PDF; 6,0 MB)