Unweighted Pair Group Method with Arithmetic mean

aus Wikipedia, der freien Enzyklopädie

Unweighted Pair Group Method with Arithmetic mean, kurz UPGMA (deutsch etwa: Ungewichtete Paargruppenmethode mit arithmetischem Mittel) bezeichnet eine Variante der Hierarchische Clusteranalyse. Sie wird oft in der Bioinformatik zur Rekonstruktion phylogenetischer Bäume angewendet. Im Gegensatz zu anderen Verfahren wie der Neighbor-Joining-Algorithmus basiert UPGMA auf der Annahme der Molekularen Uhr, d. h., dass alle Taxa mit derselben konstanten Rate evolvieren.

Beschreibung der Methode

Gegeben ist eine Menge von Objekten und eine Distanzmatrix, welche die paarweisen Distanzen der Objekte enthält, wobei das Distanzmaß die Eigenschaften einer Ultrametrik aufweisen muss. Gesucht ist ein binärer Baum, dessen Blätter die Objekte darstellen und dessen Kanten möglichst gut die Distanzen in der Distanzmatrix reflektieren.

Zu Beginn ist jedes Objekt in einem eigenen Cluster. In jedem Schritt werden die beiden Cluster mit der geringsten Distanz zusammengefasst und die Distanzmatrix neu berechnet. Die Distanz zwischen zwei Clustern ist der Mittelwert der paarweisen Distanzen aller Objekte in beiden Clustern. Sei der neue Cluster, der aus den beiden Clustern und gebildet wurde: .

Die Distanz zu einem Cluster berechnet sich dann bei WPGMA wie folgt:

Sind unterschiedlich viele Objekte in einem Cluster, so tragen diese bei WPGMA nicht gleichberechtigt zur Abstandsberechnung des neuen Clusters bei. Die Distanzen werden also in der Berechnung unterschiedlich gewichtet (daher: weighted PGMA).

Verwendet man das verbesserte UPGMA, so berechnen sich die neuen Distanzen mit:

Dies bewirkt, dass alle Abstände gleichberechtigt, also ungewichtet (unweighted), in die Abstandsberechnung einbezogen werden.

Der einfache Mittelwert der WPGMA ergibt ein gewichtetes Ergebnis, während der proportionale Mittelwert der UPGMA ein ungewichtetes Ergebnis liefert.[1]

Literatur

  • R.R. Sokal and C.D. Michener.: A statistical method for evaluating systematic relationships. In: University of Kansas Science Bulletin, 38:1409–1438, 1958.

Einzelnachweise