Diskussion:Ähnlichkeitsanalyse

aus Wikipedia, der freien Enzyklopädie

Vor und Nachteile von verschiedenen Distanzmaßen

Eine Diskussion über die Vor-und Nachteile der verschiedenen Distanz und Ähnlichkeitsmaße wäre für Anwender hilfreich, immer die richtigen für ihre Zwecke zu finden. Da jedes Distanzmaß konsequenzen für weitere Analysen hat, wäre meiner Meinung nach ein Pro et Contra angebracht. z.B für die Nei's Distanz:

Nei Distanz

Nei‘s Distanz beschreibt die gemeinsamen Allele in einem Locus. Die zugehörige Formel ist unten gezeigt:

Es zeigt ferner die Häufigkeiten an, und kann für nicht relative Loci verwendet werden, Zusätzlich besteht damit die Möglichkeit, SNP zu verrechnen und ist daher für biologische Daten hervorragend geeignet. Im Gegensatz zu Euklidischen Distanzen für kategoriale Variable, gibt es weitere Ausprägungen anstatt 0 und 1. Negative Distanzen die bei genetischen Daten vorhanden sein können, sind nur mit Einschränkung verwendbar, da Distanzen nach gängiger Definition positiv sein müssen, zumindest nach Dreiecksgleichung und Symmetrielehre 0 als Minimum aufweisen können. Mit negativen Distanzen lässt es sich nicht gut rechnen, anderseits sind Manipulationen an den Daten (z.B. absolute Werte, oder Auslassen) wissenschaftlich nicht tragbar, da derartige Datenmanipulation nicht einer wissenschaftlichen Arbeitsweise entspricht. Die Handlungsempfehlung verläuft dahingehend, dass solche Daten komplett aus der Analyse entnommen werden, solche Datensätze sind mit den heute bekannten Methoden nicht zu analysieren. Bevor allerdings zu dem drastischen Schritt zurückgegriffen werden muss, ist es ratsam, die gewonnen Daten zu validieren und die Distanzmatrizen sich ausgeben zu lassen. Erst wenn dort keine Fehler zu erkennen sind, müssen neue Daten erhoben werden.

Ferner würde ich gerne noch mehr zu diesen Methoden schreiben wollen: