Diskussion:Methode der kleinsten Quadrate/Archiv/2004
Verständnisfrage
Was soll eigentlich in dem Zahlenbeispiel das m? Steht das für gemessen? Man könnte das doch auch weglassen, oder man müsste es wenigstens tiefstellen. --Philipendula 12:28, 29. Aug 2004 (CEST)
- Ich denke schon. Das Beispiel ist schon ewig alt und gefällt mir auch nicht besonders gut. Viele Gruesse --DaTroll 13:17, 29. Aug 2004 (CEST)
- Nicht das Beispiel, sondern m sollte man weglassen. --Philipendula 19:31, 29. Aug 2004 (CEST)
Sollte in der Tabelle zum Schiffsbeispiel die vorletzte Spalte nicht t*t* bzw. t*^2 und die letzte Spalte y*y* bzw. y*^2 lauten?^
- Ja danke, habe ich geändert. Gruß --Philipendula 20:52, 23. Feb 2005 (CET)
Neustrukturierung von Regression
Es muss noch verwurstet werden:
Der alte Inhalt von Regressionsanalyse (jetzt auf der Diskussionsseite zwischengelagert): vor allem nichtlineare Regression problematisiert. Emzymkinetik. Algorithmus nach Marquart. Resistente Verfahren. Sollte zu Kleinste Quadrate
Lineare Regression: betrifft zu 90% deskriptive lineare Regression. Es ist natürlich die Frage, wo packen wir die hin. Bei mir ist schon ein einfaches Zahlenbeispiel mit kurzer mathematisch-statistischer Erläuterung dazu. Es wäre vielleicht angebracht, bei den Kleinsten Quadraten einen eigenen Abschnitt zu linearer Regression zu machen.
OLS: Mal schaun.
Lineare Regressionsanalyse: Bringt das numerische Verfahren zur Lösung einer linearen Einfachregression und Vorschläge für nichtlineare Regressionsansätze (Polynomregression + Fouriersche Reihen). Sollte auch wieder zu Kleinste Quadrate.
Bei Methode der kleinsten Quadrate sollte man vielleicht das t durch x ersetzen, weil t doch als Zeiteinheit schon belegt ist.
--Philipendula 12:42, 29. Aug 2004 (CEST)
- Lineare Regressionsanalyse ist IMHO völlig unverständlich, weil der Artikel eine schlechte Notation hat. Deswegen ist es hier auch t: um von x abzugrenzen und damit es, wenn man das Gleichungssystem als Ax=b schreibt, keine Verwirrung gibt. Viele Gruesse --DaTroll 13:20, 29. Aug 2004 (CEST)
Schon wieder ein Missverständnis. Ich sollte mich wirklich etwas präziser ausdrücken ;-): Es handelte sich bei dem "t" um das t in dem Zeit-Weg-Beispiel. Für das Beispiel ist es ja ok., aber für die allgemeine Darstellung braucht es das x. Das mit den Fourierschen Reihen ist schon in Ordnung.
Ansonsten: Der erste Teil mit der konkreten Herleitung wäre brauchbar. Allerdings würde ich die Mittelwerte weglassen, es geht analytisch auch ohne.
Der Teil mit der nichtlinearen Regression ist von der Notation her wohl wirklich etwas unklar. Heißt es, dass jedes Nj eine, z.B. "polynomische", Funktion aus verschiedenen X-Variablen darstellt? Allgemein müsste das denkbar sein, wenn die Kombinationen nicht zu abenteuerlich sind, könnte man vielleicht auch Ergebnisse rauskriegen.
Der Teil mit der Fourierschen Analyse ist ganz ordentlich. Wie so oft, würde ein Beispiel Wunder wirken.
Außerdem bezieht sich der Autor implizit auf Probleme wie Multikollinearität und/oder Überbestimmtheit des Gleichungssystems und schlägt als Lösung Forward-Regression und Backward-Regression vor. Statistisch würde man hier testen, ob eine weitere ins Modell genommene Variable einen wesentlichen Beitrag zur Regression leistet.
Solle wir ihn neilasse? Wie sollen wir jezt weiter vorgehen? Die verbliebenen Artikel verteilen? Oder killen? Die ersten Schläge habe ich mir schon abgeholt (Diskussion:Regressionsanalyse). Wer macht was? Hast Du überhaupt Zeit dazu? Ich könnte zeitlich was übernehmen. Viele Grüße --Philipendula 20:05, 29. Aug 2004 (CEST)
- Ich hab hierzu mal auf Diskussion:Regressionsanalyse geantwortet. Was den speziellen Artikel hier angeht: das Beispiel und seine Notation würde ich als letztes überarbeiten, wenn der Rest steht. Was das tatsächliche Tuen angeht: ich habe zur Zeit selten länger am Stück Zeit für die Wikipedia und betätige mich momentan eher als Ausputzer. Wenn es Dir also in den Fingern juckt, dann mach einfach. Ich würde mich freuen. Viele Gruesse --DaTroll 22:40, 29. Aug 2004 (CEST)
OK. --Philipendula 22:45, 29. Aug 2004 (CEST)
Neuer MQK-Artikel
Die neue Fassung ist von mir aus, bis auf einige Kleinigkeiten, die ich noch entdeckt habe, fertig. Sie wirkt teilweise etwas inhomogen und sperrig, was daran liegt, dass eben verschiedene Artikel, so gut es geht, ausgeschlachtet wurden.
DaTroll: Wenn du mal Zeit haben solltest, lies es mal kritisch durch. Was ich noch ansprechen wollte:
- Kann bei den Fourierschen Reihen bei der Minimierung auch das Mittel weggelassen werden? Numerisch hat es eigentlich keine Auswirkung. Vielleicht gibts da was Mathematisch-Physikalisches, was ich nicht blicke.
- Mir ist die Bedeutung von bei
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \min_{\alpha,\beta}\|\begin{pmatrix} t_1 & 1 \\ \vdots & \vdots \\ t_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} - \begin{pmatrix} y_1 \\ \vdots \\ y_{n}\end{pmatrix}\|_{2} = \min_x \|Ax-b\|_{2}.}
- nicht ganz klar. Bezieht sich das auf das System der Normalgleichungen? Oder ist es das überbestimmte Gleichungssystem?
- Könnte man nicht doch x statt t nehmen? Beim Ansatz mit mehreren Variablen müsste man sonst t1i, t2i usw. schreiben. Ist das üblich? Wenn ja, ändere ich meine "xe" in t um.
- Bei einem Artikel stand "Angewandt als Systemidentifikation ist die Methode der kleinsten Quadrate in Verbindung mit Modellversuchen für Ingenieure ein Ausweg aus der paradoxen Situation, dass man etwas berechnen muss, was man gar nicht berechnen kann." Wie könnte man das übersetzen (muss man es?).
- Zwischenbemerkung: Der Anatz ist durchaus nicht paradox. In jedem Fall muß man sich vor der Regression auf die Art der Funktion festlegen, zum Beispiel auf ein Polynom zweiten Grades. Die Regression liefert dann die besten Koeffizienten dieses Polynoms, auch wenn andere Funktionen besser passen würden. Mit anderen Worten: Der Kleinstquadrat-Ansatz ergibt stets die bestmögliche Anpassung gegebener Daten an eine gegebene Funktion. (Heinrich Faust 14. Juni 2005)
Jürgen Bode: Bist Du soweit zufrieden? Oder muss noch etwas geändert werden? Falls Dein Beitrag hier zu sehr untergeht, könntest Du ja überlegen, doch einen eigenen Beitrag zu Enzymkinetik zu verfassen.
Viele Grüße --Philipendula 10:28, 31. Aug 2004 (CEST)
- Das System der Normalgleichungen folgt aus dem, was Du hier ansprichst. Was ich hingeschrieben habe, ist das ueberbestimmte lineare Gleichunggsystem. Ich hab noch mal was dazu in den Artikel geschrieben, bitte guck mal, ob das jetzt verstaendlicher ist. Ach ja, eine Frage: die Variable t ist doch nicht gegeben, sondern die Hauptvariable? (irgendwo im ersten Abschnitt hast du das so geschrieben).
- Was x und t angeht: ich komme halt aus der numerischen linearen Algebra, wo man in diesem Kontext einfach ein ueberbestimmtes lineares Gleichungssystem betrachtet. Und lineare Gleichungssysteme heissen nun mal Ax=b :-) Mit den multivariaten Sachen habe ich mich nie richtig befasst: vom Standpunkt der linearen Algebra aus macht das halt keinen Unterschied. Viele Gruesse --DaTroll 11:05, 31. Aug 2004 (CEST)
Mit der linearen Algebra habe ich ja auch keine Probleme. Wir müssen uns nur einigen, ob wir im Regressionsmodell als Notation x oder t verwenden. Man könnte doch statt Ax=b auch Xβ=y schreiben oder kriegen Mathematiker dann Schrei(b)krämpfe? Rein algebraisch ist der multivariate Fall ja genau das. Wenn du in dem Artikel etwas weiterscrollst, entdeckst Du
"Hat man mehrere unabhängige Modellvariablen x1, ... xq, erhält man eine lineare Funktion der Art
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y_m(x_1; ... x_q;\beta_0, \beta_1, \cdots, \beta_q, )= \beta_0, + \beta_1 x_1 + \cdots, \beta_q x_q } .
Die Minimierung der Quadratsumme der Residuen ergibt wieder ein lineares System von Normalgleichungen
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{X}^T \vec{X}= \vec{X}^T \vec{y}\;, }
das bei Regularität der (qxq)-Matrix auf der linken Seite gelöst werden kann."
Da hatte ich ja eigentlich schon das Selbe in Grün geschrieben (nur bei der Notation von y=f(x) hatte ich noch einen Fehler). Meine xj sind die j-ten Spalten "Deiner" Koeffizientenmatrix A. Wie gesagt, ich müsste dann die xj in tj ändern, wobei natürlich t1 ein Einserspaltenvektor ist. Noch mal meine Frage: Ist das üblich, mehrere Vektoren tj zu betrachten? Im Bronstein ist übrigens immer von den Variablen x die Rede.
Zu fest vorgegeben: Was meinst Du mit Hauptvariable? Das mit dem fest vorgegeben bei t ist stochastisch gemeint. Es bedeutet, t kann stochastisch nicht variieren (auch wenn es das faktisch könnte), dagegen variiert y als Zufallsvariable. Es gehört eigentlich nicht hierher, war ein bisschen als Zugeständnis an unsere Ingenieure gedacht, die meistens Stochastik und Rechnerei vermischen.
Viele Grüße --Philipendula 14:01, 31. Aug 2004 (CEST)
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle A^TAx=A^Tb.} oder auch Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \vec{X}^T \vec{X}= \vec{X}^T \vec{y}\;, } ist glaube ich, beim Fall mit mehr als zwei Parametern besser aufgehoben, weil es ja oben nur eine (2x2)-Matrix ergibt, die eigentlich niemandem weh tut. Pfeile können meinetwegen weg, ich hasse sie sowieso. Man müsste sie dann nur ganz oben auch entfernen.
- Was ist nun: x oder t??? Siehe obiger Beitrag von meiner einer!
- Viele Grüße (;-))--Philipendula 13:29, 1. Sep 2004 (CEST)
- Eins nach dem anderen :-) Also ich bin fuer t. x ist halt im Denken als Variable gepraegt. Da man es hier darum geht, die Modellparameter zu bestimmen, sind die Modellparameter die Unbekannten und sollten also solche deutlich als x sichtbar sein. Dann muss die Funktionsvariable einen anderen Namen haben, halt t. Ich weiss, dass das in der Statistik total unueblich ist man dementsprechend bei X^TX als Gleichungssystemmatrix landet. Es hat beides seine Berechtigung. Wir sollten uns wohl an der Frage orientieren, wer hier haeufiger nachguckt: Leute mit statistischem oder Leute mit numerischen Hintergrund? Tja, keine Ahnung. Ich hol mal ne dritte Meinung ein. Viele Gruesse --DaTroll 13:41, 1. Sep 2004 (CEST)
DaTroll hat mich gebeten, meinen Senf dazuzugeben. Nun denn, schnell und oberflächlich:
- Glückwunsch zu dem, was Ihr als Text erstellt habt. Gut strukturiert und klar geschrieben.
- Bei den Formeln herrscht, wie Ihr selbst am besten wisst, groteskes Durcheinander.
- Ich persönlich bin f(x;p) gewohnt. Wenn ich aber Eure Diskussion recht verstanden und es eine Community gibt, die f(t;x) schreibt, dann sollte man auf x ganz verzichten - zumindest in den allgemein formulierten Teilen; bei den Beispielen fände ich einen Wechsel in einem Variablennamen (aber keine Permutation) hinnehmbar.
- Ich fände f besser als y_m (wenn letzteres, müsste man y_{\rm m} schreiben).
Weiterhin frohes Schaffen wünscht Weialawaga 14:26, 1. Sep 2004 (CEST)
- DaTroll: Wenn Du ohne Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \min_x\|Ax-b\|_2} nicht leben kannst, müsstest Du aber konsequenterweise auch die Elemente von A aij nennen, die Komponenten von b bi und die von x xj. Sonst gibt das ein hoffnungsloses Durcheinander. Ich setze das gern um. Es ist für mich keine Notationsart lebenswichtig. Die Beispiele jedoch muss man von Fall zu Fall betrachten :-). --Philipendula 18:42, 1. Sep 2004 (CEST)
Das sehe ich genauso. Ich würde für "X" plädieren (nicht "t"). Die Elemente einer Matrix A erwarte ich als aij, die Elemente des Vektors b als bj. Meine Herkunft ist - wie ihr daran seht - nicht die Statistik;-) -- tsor 21:39, 1. Sep 2004 (CEST)
- Mhmh, vier Leute, und vier Meinungen :-) Dann mach ich mal einen Vorschlag. Ich halte diesen Artikel fuer den, in dem ausfuehrlich irgendwann auf die numerischen Aspekte eingegangen werden soll. Im linearen Teil geht es dann nur um lineare Algebra und die liebste Kombination der drei Buchstaben A, b und x ist fuer so jemanden halt Ax=b. Deswegen schlage ich folgendes vor:
Wir haben eine Modellfunktion f(t, x_1, x_2, ..., x_q) (q Parameter x_i). Diese wollen wir den Datenpunkten (t_1,b_1), (t_2,b_2), ..., (t_n,b_n) anpassen. Die Matrix A ist dann halt die Matrix wie sie da steht, nicht mit Eintraegen a_ij. Dann schreibt man einen Kommentar dazu, dass die Notation in der Statistik anders ist. Im multivariaten Fall macht man ein Beispiel mit zwei Variablen: f(t,s,x_1,x_2, ...,x_n). s ist noch frei, den Uebergang zu noch mehr Variablen muss der Leser dann selbst schaffen.
- Und ganz nebenbei ist mir aufgefallen, dass mein Beispiel fuer nichtlineare Regression grosser Unsinn war, aber den hat Philippendula ja zum Glueck schon entfernt :-) Was meint ihr? Viele Gruesse --DaTroll 11:33, 2. Sep 2004 (CEST)
- (Kann mich nicht erinnern, was entfernt zu haben. Schau mal lieber, ob's nicht noch dasteht.) Gut, dann mache ich es, wie gewünscht. :-) --Philipendula 11:43, 2. Sep 2004 (CEST)
Artikel jetzt CD-fähig
Also ich habe die x in t umgewandelt, die betas in x. Ich habe den linearen Teil noch ein wenig präzisiert, auch auf die Gefahr von Redundanz hin. Aber bei Doppel-Indizes kann es nicht schaden. Die Beispiele habe ich mal so gelassen. Bei meinem Beispiel (mit der polynomialen Regression) müsste ich sonst neue Grafiken machen, was mich gar nicht recht freut.
Als weiteres To-Do: Zeit-Weg-Beispiel entrümpeln. Die Grafik ganz oben ersetzen durch eine, die von der Notation her übereinstimmt. Irgendwie wäre noch ein "echtes", nichtlineares iterativ gerechnetes Beispiel supi!
Aber wenn jetzt der Snapshot oder wie das auch immer heißt, gemacht wird, brauchen wir uns nicht schämen. Danke an alle, die mitgearbeitet haben, vor allem an DaTroll. --Philipendula 14:28, 2. Sep 2004 (CEST)
- Ich hab gerade gelesen, dass der Snapshot am 1.9. in der Fruehe gemacht wurde :-( Die Version von dem Artikel die da jetzt drauf ist, duerfte wie Kraut und Rueben aussehen. Oder wird wegen des Doppeleintragtags gar nicht reingenommen. Mhmh --DaTroll 14:34, 2. Sep 2004 (CEST)
- Na super! Richtig toll. Aber ich habe schon Schlimmeres erlebt. Wenn nach dem Snapshot das Zeug erst manuell durchgefieselt wird, könnte doch eigentlich eine Chance bestehen, beide Artikel nachträglich reinzukriegen, oder? Kennst Du jemand von den Verantwortlichen? Wenn nicht, ist es auch nicht tragisch. Die erste Version der CD ist wahrscheinlich ohnehin grauenhaft. Gräm dich nicht, die Artikel sind relativ gut geworden, das ist auch was wert. Bei der nächsten CD sind sie dann 100%ig. Eigentlich muss ich jetzt sogar grinsen. So ein Chaos ist richtig filmreif! :-) Viele Grüße --Philipendula 17:09, 2. Sep 2004 (CEST)
Partielle Ableitungen, erstes Beispiel
Hi Philippendula, bei der Herleitung der Normalgleichungen aus dem Minimierungsproblem hast Du geschrieben, dass man das mittels partieller Ableitungen macht. Ich sehe das nicht: mein Problem:
Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \|Ax-b\|_2=(Ax-b)^T(Ax-b)=x^TA^TAx-2x^TA^Tb+b^tb} .
Ableiten ergibt dann halt: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle A^TAx=2A^Tb} . Also irgendwo ein Faktor 2 zuviel. Ichdenke, dass man auf jedenfall den Projektionssatz braucht. Oder uebersehe ich was? Dann noch was zu Deinem ersten Beispiel: kannst Du da die Notation nicht noch mehr an den Text anpassen? Das ist mit den Bildern etwas schwierig, aber vielleicht ein bisschen? Ich verstehe auch nicht, wieso x_3 multikollinear sein soll. Viele Gruesse --DaTroll 14:13, 3. Sep 2004 (CEST)
- Hallo DaTroll,
- mit partiell Ableiten meinte ich natürlich bezüglich der Parameter xj, wenn man die Normalgleichungen komponentenweise hinschreibt. Für das Ableiten der obigen Form erhält Du für
- den Ausdruck Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 2(A^TA)x } und für Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle (2b^T A)x } entsprechend Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 2b^T A } .
- Alles klaro? Ich habe mal die 2. Form transponiert hingeschrieben, dann passt sie besser zur ersten.
- Mein Fehler: ist abgeleitet natürlich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle 2(A^TA)x } . Da fehlte mir der Faktor zwei :-) Viele Gruesse --DaTroll 19:10, 3. Sep 2004 (CEST)
- Wegen des Beispiels schau ich mal. Viele Grüße --Philipendula 18:24, 3. Sep 2004 (CEST)
Hallo DaTroll. So, Beispiel geändert. Das mit der Variablen t3 hat SPSS ungefragt gemacht, und ich konnte es ihm nicht ausreden. SPSS ist zwar mächtig, aber manchmal schrecklich schwerfällig. Dieses Mal habe ich Minitab genommen, das ist etwas flexibler (In diesem Sinn könnte man SPSS als Schlachtschiff und Minitab als Zerstörer bezeichnen ;-)). Aber ich habe die Erkenntnisse von Spss bezügl. t3 übernommen. Wahrscheinlich könnte man sogar noch eine Variable entfernen. Die Variablen sind halt alle hochkorreliert: Z.B. ist die Korrelation zwi. t2 und t3 0,991 und zwi. t3 und t4 0,994. Die Eigenwerte von A sind bei 4 Variablen 349,919, 0,039, 0,000 0,000 0,000. (Bei 3 Variablen haut es einen auch noch nicht um, aber das behalte ich für mich).
Ein paar Gedanken hätte ich noch:
- Wenn Du schon Anfälle von Didaktik bekommst, indem Du die einfachen LQ vor die multiplen schiebst: Sollte man beim einfachen linearen LQ noch direkt ein Rechenbeispiel mit einfügen, wie das Sektbeispiel bei Regressionsanalyse?
- Die Grafik in der Einleitung passt von der Notation nicht mehr.
- Ich suche noch nach einer griffigen Bezeichnung für t. Dich irritiert offensichtlich die Bezeichnung Variable: Datenvariable? In RA sagt man beispielsweise Regressor oder exogene oder unabhängige Variable.
- Ich habe beim linearen Verfahren von q Variablen und Parametern gesprochen. Es sind aber + Absolutglied q+1 Parameter. Das ist eleganter, weil dann das Absolutglied als Vektor t0 läuft. Aber dann müsste man in der Einleitung von q+1 Datenvektoren sprechen, was irgendwie blöd ist.
Viele Grüße --Philipendula 14:26, 4. Sep 2004 (CEST)
- Ich habe noch ein Problem mit Deinem Beispiel und das haengt wirklich mit dem Wort Variable zusammen: t^3 ist fuer mich keine Variable, sondern eine Variable hoch drei (oder meinst Du t_3, dann ist es aber kein polynomialer Ansatz mehr). Variablen sind t und die x_i. Bzw. in meinem Verstaendnis sind die x_i Parameter und die t eine Variable. Die Regression wird zur Bestimmung der x_i durchgefuehrt. Viele Gruesse --DaTroll 10:30, 8. Sep 2004 (CEST)
- Der Ansatz ist
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y \approx x_0 + x_1 t + x_2 t^2 + x_3 t^3 + x_4 t^4}
- In der Regressionsanalyse wird t^3 als eine neue Variable interpretiert, ähnlich wie das Vorgehen bei der biquadratischen Gleichung, wo ja auch "x^2" als eine neue Variable definiert wird. Nimmt man t^3 raus, bleibt als Ansatz
- Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle y \approx x_0 + x_1 t + x_2 t^2 + x_4 t^4}
- Ansonsten gehen wir konform: t ist (Daten)variable und x ist der gesuchte Parameter. Oder reden wir komplett aneinander vorbei? Der Begriff Variable für t scheint Dir eh nicht zu gefallen, hast Du da einen besseren Vorschlag? Viele Grüße --Philipendula 10:46, 8. Sep 2004 (CEST)
- Nein, wir reden nicht aneinander vorbei :-) Nein, Variable ist schon OK. Aber ich wuerde nie t^3 als Variable bezeichnen. Ich wuerde es anders formulieren: man stellt fest, dass t^3 im Ansatz nicht gebraucht wird, die Daten also durch Weglassen auch nicht schlechter modelliert werden. Also streicht man den Parameter x_3 und entsprechend t^3. t^3 als Variable zu bezeichnen finde ich sehr verwirrend. Viele Gruesse --DaTroll 11:29, 8. Sep 2004 (CEST)
- In der Regressionsanalyse ist es halt eine Variable, deshalb denke ich in dieser Kategorie. Oder man nennt es Regressor. Ich formuliere es mal in Deinem Sinn um. :-) --Philipendula 12:21, 8. Sep 2004 (CEST)
- Naja, so ganz ging das nicht. Da ja die t^j alle einen signifikanten Beitrag leisteten, werden eigentlich alle benötigt. t3 wird nur wegen Multikollinearität rausgeschmissen! Das muss so erwähnt werden, sonst stimmt das mit dem Output nicht überein. Aber vielleicht passt es so, wie ich es geändert habe. --Philipendula 12:36, 8. Sep 2004 (CEST)
- Habe die Multikollinearität im Beispiel doch rausgeschmissen. Das lenkt nur vom Beispiel ab. --Philipendula 23:16, 8. Sep 2004 (CEST)
Kuddelmuddel Ausgleichsrechnung, Pseudo Inverse
Der Artikel hier spielt die Rolle eines Artikels zur Ausgleichsrechnung, wobei ich persönlich mal für mich recherchieren müsste, ob damit auch andere, als 2-Norm Minimierungen gemeint sind. Es fehlt der an dieser Stelle übliche Hinweis auf Pseudoinverse, der momentan nur in Inverse Matrix kurz angerissen wird, und zur Moore-Penrose-Inversen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle A^+ = (A^tA)^{-1}A^t} . Eindruck: Das Thema wird von Numerikern, Stochastikern (Satz von Gauss-Markov) und Physikern gepflegt, der Artikel zeigt auch das entsprechende Durcheinander in der Bezeichnungsweise und Notation. --Marc van Woerkom 11:55, 27. Sep 2004 (CEST)
- Dass der Artikel interdisziplinär gepflegt wird, täuscht Dich nicht. Er wurde in ziemlich mühseliger Kleinarbeit von 6 Artikeln zu einem zusammengefasst, was schlimmer ist, als einen neuen zu schreiben, denn jeder der ehemaligen Autoren möchte sich ja wiederfinden. Bau halt den Artikel über inverse Matrix bezüglich der Pseudoinversen aus. Erklär dort, für was man sie braucht, ev. mit Zahlenbeispiel. Wenn Du meinst, dass die Nennung des Begriffs Moore-Penrose-Inverse der Wahrheitsfindung dient ;-), kannst Du ihn ja in Regressionsanalyse parken, die das statistische Pendant zu diesem Artikel darstellt. Da Dich die unterschiedliche Notation stört: Wir haben uns bemüht, bei der theoretischen Erläuterung eine einheitliche Notation zu wählen. Die Beispiele stammen von den früheren Autoren. Hier wurde deren Notation beibehalten. Das größte Durcheinander an Notation hat eigentlich das von Dir eingebrachte Beispiel gebracht. Es wäre schön, wenn Du es erkennbar als Regressionsansatz formulieren könntest und auch ein Zahlenbeispiel dazu rechnen. --Philipendula 12:28, 27. Sep 2004 (CEST)
- Die theoretische Erläuterung finde ich eher unschön und unübersichtlich, was die Dimensionen angeht. Ist halt Geschmackssache. Z.B. gefällt mir persönlich ein schlichter Fettdruck für Vektoren, oder gar keine Auszeichnung besser, als ein Vektorpfeil. --Marc van Woerkom 14:17, 27. Sep 2004 (CEST)
- Ich kann den Einwand nicht ganz verstehen. Der Artikel ist extra so angelegt, dass sowohl Numeriker als auch Stochastiker als auch Anwender hier ihre Sichtweise widerfinden. Etwas anderes halte ich auch nicht fuer sinnvoll. Der allgemeinere Artikel ist wie Philipendula schon sagte: Regressionsanalyse. Was die Pseudoinverse angeht, so fehlt das natuerlich noch. Wie auch viel von der mathematischen Loesungstheorie (Singulaerwertzerlegung etc.) Da gehts mathematische aber schon ziemlich in die Tiefe.
- Noch eine kleine Anmerkung: das Beispiel zur Tomographie finde ich nicht gelungen. So wie es jetzt dasteht, fehlt fast komplett der Zusammenhang zu diesem Artikel. Bis jetzt beschreibt das nur eine lineare Modellierung des Vorganges. Viele Gruesse --DaTroll 12:52, 27. Sep 2004 (CEST)
- DaTroll: Ausgleichsrechnung haben wir noch nicht eingebaut. Viele Grüße --Philipendula 12:31, 27. Sep 2004 (CEST)
- Mhmpf. Ja, dann muessen wir da nochmal ran :-( --DaTroll 12:47, 27. Sep 2004 (CEST)
- Es ist halt ein Beispiel für eine Anwendung von linearer Ausgleichsrechnung. Ich kann aber gerne eine Beispielsrechnung dazu tun, damit man mal sieht, wie das Verfahren dann selbst in diesem Fall abläuft. Mit dem Beispiel haben wir seinerzeit in Aachen Maschbauer im Numerikpraktikum gequält. Ich habe es aus dem Gedächtnis reproduziert. Es fehlt auch noch ein nettes Bildchen, welches die Einteilung des Gebietes und einen Strahl dadurch zeigt. (Mache ich nachher, wenn ich Zeit habe). Wobei mir bei der Gelegenheit einfällt: Kann man eigentlich Java Applets für Beispiele in die Wikipedia laden, oder ist das Overkill?
- --Marc van Woerkom 14:17, 27. Sep 2004 (CEST)
Ich habe mir jetzt nochmal die Regressionsanalyse angeschaut. Sehr speziell schon auf die Problematik der Statistiker zugeschnitten. Was tun, wenn die gleiche mathematische Technik in sehr vielen Gebieten unter anderem Namen, mit gewissen Problemstellungen auftaucht? Um die Verwirrung komplett zu machen, weise ich auch auf Approximationstheorie hin. Das Beispiel mit dem Bäumchen könnte man aus der Sicht eines E-Technikers auch unter Abtastung und Rekonstruktion aufführen. Eine Enzyklopädie zu machen, ist gar nicht so einfach. --Marc van Woerkom 14:47, 27. Sep 2004 (CEST)
- Physiker und Ingenieure benutzen fast ausschliesslich (und mit guten Gruenden) die Methode der kleinsten Quadrate
- Interessant wäre ja zu wissen, warum es eine gute Methode ist. Steht dazu hier etwas? --Marc van Woerkom 18:11, 27. Sep 2004 (CEST)
- und sind hier prima aufgehoben. Deswegen ist Regressionsanalyse fuer Statistiker. Die Anwender sagen immer "Ausgleichsrechnung", "Regression" aber meinen nichts anderes als eben diese Methode hier. Approximationstheorie ist ein viel weiterer Begriff (Least Squares ist nur ein spezielles Approximationsverfahren).
- Mir ist der Zusammenhang Approximationstheorie vs Regressionsanalyse noch nicht klar. Ist letztere nur Approximation von Funktionen im Kontext statistischer Probleme? --Marc van Woerkom 18:11, 27. Sep 2004 (CEST)
- Rekonstruktion auch (Least Squares ist ein spezielles Verfahren, dass man zur Rekonstruktion nutzen kann) und Abtastung auch (Abtastung ergibt Daten, die man mit Least Squares weiterverarbeiten kann, aber auch mit voellig anderen Dingen). Deswegen ist das Beispiel mit den Baeumen hier bisher auch so unpassend: es beschreibt eine Modellierung, die dann Daten liefert, die man dann weiterverwursten kann in einer Regressionsanalyse (und da z.B. mit Least Squares). Viele Gruesse --DaTroll 16:31, 27. Sep 2004 (CEST)
- Ich habe das ja absichtlich hinter der multilinearen Regression als Beispiel für ein mit dieser Methode lösbares Problem angeführt. Man kann Beispiele für Probleme, die man ins Verfahren steckt, also auch Beispiele für die Durchführung des Verfahrens, also eine Musterrechnung, angeben. Sind nicht beide wichtig? --Marc van Woerkom 18:11, 27. Sep 2004 (CEST)
- Ich antworte mal hier auf alle drei Beitraege. Der Least-Squares-Schaetzer ist BLUE, also der Best Linear Unbiased Estimator, kurz gesagt er ist in einem weitreichenden Sinne optimal. Das fehlt leider noch komplett im Artikel. Regressionsanalyse ist fuer mich Approximation im Kontext endlich vieler statistischer Daten. Approximationstheorie beinhaltet zusaetzlich vor allem die Approximation von Funktionen.
- Ansonsten hast Du Recht. Ein Beispiel, wo komplett die Modellierung und die Auswertung gemacht wird, klingt gut. Viele Gruesse --DaTroll 11:05, 28. Sep 2004 (CEST)
- Gut dann stecke ich noch etwas Arbeit rein. Wenn es hinterher nicht passt, bin ich auch nicht böse. Ich habe wahrscheinlich keine Zeit dafür, der Gedanke liegt hier nahe, ein Java Applet zu basteln. Wie geht die Wikipedia mit rich content, wie Java Applets, Flash Animationen, GIF Animationen, MP3 und Video Dateien um? (Wobei ich ja schon froh bin, dass TeX erlaubt ist). --Marc van Woerkom 13:13, 28. Sep 2004 (CEST)
- Animierte GIFs sind kein Problem, bei den anderen habe ich keine Ahnung. Ich persoenlich halte z.B. von Flash in der Wikipedia gar nichts, da das ja den Betrachter zwingt, sich noch ein weiteres Programm zu installieren. Viele Gruesse --DaTroll 16:16, 28. Sep 2004 (CEST)
Kleinst-Quadrat Methode
Mir ist das Verfahren auch schon als Kleinst-Quadrat Methode untergekommen, wobei ich jetzt nicht genau weiss, wie man dies dann korrekt schreibt. (Zusammenschreibung? Trennung? Bindestriche?) --Marc van Woerkom 12:00, 27. Sep 2004 (CEST)
- Vermutlich orthografisch korrekt mit Bindestrichen. --Philipendula 12:29, 27. Sep 2004 (CEST)
BLUE
Warum Norm2? Ich bin momentan zu kommod, darüber etwas nachzulesen, weil über das Warum selten was zu finden ist. BLUE selber ist ja wieder ein Begriff aus der Schätztheorie, also stochastisch motiviert. Rein numerisch könnte man es vielleicht so begründen:
- Die Quadrierung verhindert, dass positive und negative Abweichungen saldiert werden
- Große Abweichungen des Messwertes von der Ausgleichsgeraden werden durch das Quadrat stark gewichtet, kleine nur schwach. (Wenn man davon ausgeht, dass in einer großen Abweichung entsprechend wertvolle Information steckt, ist das erwünscht, wenn es nur ein Ausreißer ist, eher nicht)
- Die Ableitung des Quadrats ergibt eine lineare Funktion, was fein ist.
- Die Ausgleichsgerade (oder -hyperebene)kann häufig analytisch berechnet werden. (deshalb ist die Summe der absoluten Abweichungen weniger doll).
- Die Quadratsumme entspricht der Varianz als Maß für Informationsgehalt.
Wenn gewünscht, kann ich das noch einbauen. Ich habe es nur mal hier ins Unreine gedacht, weil ich mich dann weniger gifte, wenn es wieder weg muss ;-).
Viele Grüße --Philipendula 17:55, 28. Sep 2004 (CEST)
- Das klingt aber sehr heuristisch, also mathematisch nicht so überzeugend. Nicht, dass ich es derzeit bessr könnte. Meine Schnappstheorie war ja, dass die meisten Energiefunktionale quadratische Formen sind, von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E_\mbox{kin} = \frac{m}{2} v^2} bis zu den Feldenergien, z.B. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle E_\mbox{em} = \frac{\epsilon_0}{2} E^2 + \frac{1}{2\mu_0} B^2} (oder so ähnlich). Und in der Natur oft ein energetisches Minimum angestrebt wird. :-) Danke für den Versuch, ich muss es eh mal nachlesen. --Marc van Woerkom 00:31, 29. Sep 2004 (CEST)
- War auch heuristisch gemeint. Theoretisch kriegt man es z.B. über die BLUE-Eigenschaft. --Philipendula 00:34, 29. Sep 2004 (CEST)
Oma-Beispiel
Soll unser Oma auch ein Beispiel für mehrere unabhängige Datenvariablen kriegen? Ich hätte noch Tiefgang und Knoten anzubieten. --Philipendula 14:11, 12. Okt 2004 (CEST)
- Ich denke wir haben genug Beispiele. Was hast Du eigentlich mit Kriegsschiffen? Viele Gruesse --DaTroll 11:33, 13. Okt 2004 (CEST)
- Statistiker sind froh um alles, was sie an Daten kriegen können, vor allem metrisch skalierte Daten sind i.a. rar. Da mein Mann sich für Seekriegsgeschichte interessiert, hat er mir diese Daten gegeben. In der Vorlesung kriege ich damit immer Männeraugen zum Glänzen, vor allem, weil es da die kompletten Daten mit Namen der Schiffe usw. gibt. ;-). Das Beispiel oben hatte ich ehrlich gesagt nur eingefügt, weil das Baumtomographie-Beispiel für unser Oma vielleicht etwas schwerverdaulich war. Viele Grüße --Philipendula 12:43, 13. Okt 2004 (CEST)
Noch was zu erledigen
Oben ist immer noch der ominöse Satz, den ich aus einem der Aufsatzvorgänger entnommen hatte: ...Ingenieure ein Ausweg aus der paradoxen Situation, "dass man etwas berechnen muss, was man gar nicht berechnen kann". Ich wusste nicht, was das konkret heißen soll. Vielleicht kann jemand das übersetzen. --Philipendula 18:26, 14. Okt 2004 (CEST)
- Ich verstehe darunter folgendes: ein Ingenieur untersucht ein Phaenomen, ist aber nicht in der Lage fuer das Phaenomen eine mathematische Beschreibung zu geben. Er kann also nichts ausrechnen, haette aber gerne eine mathematische Beschreibung. Also macht er eine Regressionsanalyse. Besonders toll ist der Satz nicht :-) --DaTroll 13:08, 15. Okt 2004 (CEST)
Noch mal therapiert
- Einleitung noch mal umformuliert. Regression ist laut Stochastischem Lexikon von Müller in der Tat die stochastische Bezeichnung.
- Ominösen Ingenieurssatz übersetzt
- Ridgeregression gegen Multikollinearität
Überlegung: Führen eigentlich Vorwärts- und Rückwärtsselektion nicht zu weit? Ist das Baumtomographie-Beispiel nicht etwas zu schwierig? --Philipendula 12:16, 25. Okt 2004 (CEST)
- Ja, der Ingenieurssatz ist jetzt viel besser. Ich hab die anfängliche Erklärung nochmal geändert. Ich finde sie jetzt verständlicher, aber so richtig zufrieden bin ich immer noch nicht. Was ist denn Vorwärts- und Rückwärtsselektion?
- Forward- und Backward-Regression Guckst du hier
Ansonsten: Deine Tabelle für das Schiffsbeispiel ist noch irgendwie komisch: in der ersten Zeile gibt es bei mir einen Zeilenumbruch bei t_i-\bar{t}.
- Bei mir auch. Da muss ich mal einen Hilferuf starten.
Ausserdem vermisse ich noch eine Erläuterung der Größen.
- Was muss denn wie erläutert werden?
Und wo sind Tiefgang und Knoten aus der Einleitung des Beispiels hin?
- Die hatte ich mal vorsorglich mit eingebracht, falls das Beispiel noch für den multiplen Fall aufgebohrt werden sollte. Die können raus.
Viele Gruesse --DaTroll 00:13, 26. Okt 2004 (CEST)
- Ach ja: Das Baumbeispiel könnte von mir aus ersatzlos gestrichen werden. Aber was Marc dazu sagt?
- Weiß nicht.
- Ich bin noch mitten im Umzug nach München, daher kann ich diesen Teil nicht so schön gestalten, wie ich ihn mir vorstelle. Also könnt Ihr den Teil ruhig rausnehmen, geht ja nicht verloren. Der Artikel selbst gefällt mir noch nicht so. Die Gewichung stimmt nicht. Das Verfahren selbst ist ja einfach. Das würde ich auch einfach darstellen. Die Begründung, warum das Verfahren oft gerechtfertigt ist, erfordert jedoch die präzise Sprache der Mass- und Wahrscheinlichkeitstheorie und Stochastik. Das finde ich hier wiederum nicht. Die verwendeten Formeln finde ich oft recht hässlich, ich denke, das kann man schöner schreiben. Die Graphiken könnte man auch etwas netter gestalten. Danke für die Arbeit, man muss es erstmal besser machen. :) --Marc van Woerkom 14:47, 2. Nov 2004 (CET)
--DaTroll 00:15, 26. Okt 2004 (CEST)
- Viele Grüße --Philipendula 00:40, 26. Okt 2004 (CEST)
Dauerwelle und Tönung:
- Was heißt eigentlich Auslenkung einer Feder? Ist das die Dehnung?
- Die Wahl dieser Modellfunktion geschieht mittels Annahmen über die Lösung des betrachteten Problems. Diesen Satz verstehe ich nicht so recht. Könnte es sein: ...über die Lösungsmethode des betrachteten Problems?
- "Zunächst ist nicht klar, wie man zwei verschiedene Approximationen bezüglich ihrer Güte vergleichen soll. Gauß und Lagrange hatten die Idee, Annahmen über die Messfehler zu machen. Sind diese normalverteilt mit gleicher Varianz, so gibt es theoretisch keine Ausreißer. Das Kriterium zur Bestimmung der Approximation sollte dieses also wiederspiegeln und so gewählt werden, dass große Abweichungen von der Modellfunktion viel stärker bestraft werden als kleine."
- Irgend etwas missfällt mir da. Wie wäre es damit:
- "Zunächst ist nicht klar, wie man zwei verschiedene Approximationen bezüglich ihrer Güte vergleichen soll. Gauß und Lagrange hatten die Idee, Annahmen über die Messfehler zu machen. Sind diese normalverteilt mit gleicher Varianz, so gibt es theoretisch in den Messfehlern keine Ausreißer, die numerische Probleme hervorrufen können. Unter dieser Verteilungsannahme sollte das Kriterium zur Bestimmung der Approximationsmethode so gewählt werden, dass große Abweichungen von der Modellfunktion viel stärker bestraft werden als kleine."
- Ja, und dann noch was, was wieder mal den Graben zwischen Physikern/Ingenieuren/Mathematikern und dem Rest der Welt offenbart ;-): Mir gefällt die Bezeichnung Messfehler für Residuen überhaupst nicht. Da geht man immer von Naturgesetzen aus, die bloß nicht korrekt gemessen werden. Für Fragestellungen wie Messung eines IQ, Gewinn, Länge - Breite des Schiffes (was ja nicht naturgesetzlich vorgeschrieben ist, sondern der Willkür des Erbauers unterliegt) ist Messfehler inadäquat. Man verwendet hier Residuen als Ausdruck einer zufälligen Restgröße, die bei der Anpassung übrig bleibt.
Viele Grüße --Philipendula 12:39, 26. Okt 2004 (CEST)
- i) Genau, mit Auslenkung einer Feder meine ich die Dehnung. Ich ziehe mit irgendeiner Kraft und dann verlaengert sich die Feder.
- ii) Nein, Loesungsmethode waere nicht das, was ich meine: ich habe ein Problem, zu dem ich keine genau mathematische Darstellung der Loesung kenne.
Aus irgendwie geartetem Wissen (Gefuehl, Empirie, Mathematik) habe ich aber ein ungefaehres Gefuehl, wie sie aussieht. Das stecke ich in die Modellfunktion: sprich ob das letztlich ein Polynom, eine Exponentialfunktion etc. sein soll. Vielleicht etwas zu pessimistisch formuliert?
- Nö, letztlich geht man ja praktisch so vor. Wie wäre es mit etwas in Sinne von: Für die Wahl dieser Modellfunktion geht man im Allgemeinen von einem vermuteten Funktionstyp aus, was im Fall einer unabhängigen Variablen t meistens unproblematisch ist, und passt diese Funktion mittels der Parameter optimal an die Daten an.
- iii) Der Absatz soll dazu dienen, verstaendlich zu machen, wieso man das Quadrat der Residuen nimmt und nicht vielleicht einfach den Betrag. Da ist das mit den numerischen Probleme unnoetig kompliziert, finde ich.
- Wenn es nur darum geht, die Quadratsumme zu minimieren, wird aber die Normalverteilungsannahme nicht benötigt. Das war es, was mich irritiert hat, weil mir nicht klar war, wie diese beiden Aspekte zusammenpassen sollen. Das mit den numerischen Problemen war nur als Erläuterung, warum Normalverteilung. Ich schau mir das noch mal an.
- iv) Ich sehe, was Du meinst. Das mit den Messfehlern laesst sich ja aber noch abschwaechen, indem man das beispielhafter darstellt. Haben wir eigentlich irgendwo schon eine Betrachtung, wozu man Regressionsanalyse macht (also nicht nur: wir haben Daten und wollen die verwursten)
- Ich gehe davon aus, dass du hier Methode der Kleinsten Qu. meinst. Da gibt es natürlich die verschiedensten Motivationen. Es kann das Aufdecken von Naturgesetzen, der Erdwärmetransport durch Meeressedimente o.ä., sein, es können gewünschte Erkenntnisse im wirtschaftlich oder sozialen Bereich sein, etwa die Erstellung einer Preis-Absatz-Funktion, die Abhängigkeit der Gesamtzufriedenheit eines Kunden von bestimmten Einzelnoten (wobei wir hier das Problem ordinalskalierter Daten haben - was vom Thema abweicht), es kann aber schlicht auch "wir haben Daten und wollen die verwursten" sein, etwa beim Data Mining in großen Kundendatenbanken, wo man versucht, mit verschiedenen Verfahren auf verborgene Strukturen zu stoßen.
- Ne, ich meinte das grundsaetzlich. Vielen ist glaube ich nicht so recht klar, welche Moeglichkeiten das ganze bietet. So ein Abschnitt ist aber vermutlich besser in Regressionsanalyse aufgehoben.
- v) Ein Artikel ist mir noch aufgefallen: Kollinearität. Das ist doch eigentlich Multikollinearitaet in Gruen oder nicht?
- Ja, scheint es ziemlich zu treffen.
- vi) Den Abschnitt ueber Forward und Backward-Regression finde ich gut. Wie wichtig das ist, kann ich aber nicht beurteilen.
- Na, lasse mir in drin.
- Viele Gruesse --DaTroll 13:51, 26. Okt 2004 (CEST)
- Ist Dir lieber, wenn ich Ümlaute als Uemlaute usw. schreibe?
- Viele Grüße --Philipendula 14:36, 26. Okt 2004 (CEST)
- Ich habe mal Deine Anmerkungen versucht, einzupflegen. Wie Du Deine Umlaute schreibst, ueberlasse ich Dir ;-) Ich sitze halt den Grossteil des Tages an einer amerikanischen Tastatur, da muss man sich halt behelfen. Viele Gruesse --DaTroll 17:23, 26. Okt 2004 (CEST)
- Ach ja: kennst du eigentlich: Wikipedia:Review/Naturwissenschaft_&_Technik#Methode_der_kleinsten_Quadrate.2C_11._Oktober? Viele Gruesse --DaTroll 13:12, 27. Okt 2004 (CEST)
- Danke, kannte ich noch nicht. Offensichtlich ist das Ganze noch zu abgehoben. Ich glaube, ich könnte da noch einen wesentlichen Omaschub leisten, aber da müsste ich mit dem Hackebeil ran und alles, was formal ist, einer Nasenoperation unterziehen. Allerdings gibt es da ein Problem: Möglicherweise fallen dann entscheidende Beiträge der Vorautoren unter den Tisch. Ich kann ja mal einen Vorschlag machen. Zur Not kann man ihn reverten. Allerdings weiß ich nicht, ob ich diese Woche noch dazu komme. Viele Grüße --Philipendula 16:51, 27. Okt 2004 (CEST)
Diskussion aus Wikipedia:Review
Auf Anregung von Necrophorus stelle ich ihn mal hier rein. Glättet und poliert ihn, bis er gar schön erstrahlet ;-) Viele Gruesse --DaTroll 20:38, 11. Okt 2004 (CEST)
- Hallo Da Troll, ich habe nur mal schnell überflogen und gelobe hoch und heilig, nächstens in Ruhe zu lesen. Vorab: die Einleitung kann m.E. so nicht bleiben, abschreckend unverständlich. Offenbar habt Ihr versucht, dem Unverständnis mit drei Klammererlärungen abzuhelfen. Das ist aber a) nicht gelungen und b) machen sich drei erklärende Klammern in der Einleitung denkbar schlecht. Da kann also ein Fach-"Polier" gleich vorne loslegen :-) --Lienhard Schulz 12:09, 14. Okt 2004 (CEST)
- Ich bin das mal angegangen und habe die gesamte erste Bildschirmseite hoffentlich verstaendlicher gemacht. Viele Gruesse --DaTroll 16:36, 14. Okt 2004 (CEST)
- Erst mal ein super Artikel. Hab kaum was daran auszusetzen: Einige Anregungen, die eingebaut werden können aber nicht müssen: Der Begriff "Baumdoktor" hört sich etwas infantil an, ist das ein Begriff? Das CG-Verfahren ist gar nicht mal so schlecht und ist zumindest für grosse Probleme einem QR überlegen, weil man die Matrix nicht speichern muss. Mit Algorithmus von Marquart ist wahrscheinlich das Levenberg-Marquart Verfahren gemeint? Bei der Tomographie sollte man unbedingt die schlecht gestelltheit des Problem nennen, ein naives least squares funktioniert nur bei einer geringen Anzahl von Variablen (grobe Diskretisierung), ansonsten braucht man Regularisierung. Zu den Problemen mit Ausreisern: Hier kann man anmerken, dass in solchen Fällen eine L1-Norm oft besser ist als L2, (ist aber schwerer zu berechnen), eventuell die "Robuste Statistik" nennen, die beschäftigt sich damit (Literatur: P. Huber "Robust statistics"). Unyxos 19:08, 14. Okt 2004 (CEST)
- Mir persoenlich gefaellt das Tomographie-Beispiel gar nicht. Es haengt kontextlos im Artikel und wie Du schon sagst: in der Praxis ist das so gar nicht durchfuehrbar. Ansonsten: Algorithmus von Marquart aendere ich mal ab. Zu robuste Statistik kann ich leider nichts schreiben, da kenne ich mich nicht aus. Viele Gruesse --DaTroll 13:15, 15. Okt 2004 (CEST)
Vorschläge, Fragen:
- Einleitung: Methode ... ist so prominent - "prominent" eindeutschen.
- Einleitung gesamt: Viiiiiel besser jetzt, selbst ich (Soziologe) weiß, worum es geht.
- Tabelle neben dem Inhalt einen Tick kleiner? - Inhalt zieht sich bei kleinen Bildschirmen extrem in die Länge ... ansonsten Klasse in der optischen Aufteilung
- Sehr gelungen die folgende Gauß-Historie. Dann ab: Das Verfahren besteht darin ... ... für mich unverständlich. Gibt es eine Möglichkeit, das grundlegende Verfahren dem Laien mit einfachen Worten so ungefähr zu erläutern, bevor Ihr ins mathematische Detail geht?
- Der gesamte Rest ist m.E. für den Durchschnittsverbraucher (bis auf den "Baumdoktor") nicht verständlich. Vorausgesetzt, dass mathematisch alles korrekt und auch exzellent ist, ergibt sich die wohl entscheidende Frage, ob die recht wenigen allgemeinverständlichen Passagen zur Exzellenz reichen. Ich weiß es nicht.
- Vielleicht lässt sich bei jedem Kapitel eingangs in zwei, drei Zeilen "laienhaft" ausdrücken, worum es geht?
- Und bei Anwendung noch ein wenig mehr Allgemeines wär nicht schlecht, wobei der "Baumdoktor" in seinem allzu gewollten Laienjargon tatsächlich etwas seltsam rüber rüberkommt.
- Bitte nicht zu lange ablachen (max 5 Minuten) :-): bereits in der Einleitung weckt die Beschreibung bei mir Erinnerungen ans Integral/Differential unseliger Schulzeiten. Falls das nicht nur Unsinn ist, kann man hier per Analogie noch etwas für den Laien Sinnvolles schreiben?
- Layout, Grafiken, Aufteilung - Klasse.
Gruß --Lienhard Schulz 17:51, 20. Okt 2004 (CEST)
- Ich habe Punkte 1 und 3 mal versucht, umzusetzen. Fuer eine einfache Erklaerung werde ich nochmal nen eigenen Abschnitt spendieren. Das Niveau des Artikels bewegt sich halt notwendigerweise jenseits von Mathe-Leistungskurs: Etwas Stochastik und gute Kenntnisse der linearen Algebra werden hier verlangt. Wenn ein Ingenieur das versteht, waere ich schonmal gluecklich :-) Allerdings gibt es die Moeglichkeit, den Geschichtsteil noch etwas auszubauen. Zusammen mit einer verstaendlichen grundsaetzlichen Erklaerung des Verfahrens halte ich persoenlich den Artikel dann erstmal fuer Oma-geeignet.
- Bei Integral/Differential-Rechnung musste ich dann wirklich mal schmunzeln ;-) Ich nehme mal an, dass es Dir wegen des Hantierens mit Funktionen irgendwie bekannt vorkommt. Eine echte Parallele gibt es aber nicht. Allerdings ist das Ziel einer Regressionsanalyse ja, aus reinen diskreten Daten eine Funktion zu basteln (die dann ja prinzipiell an unendlich vielen Stellen existiert). Die Funktion kann man dann ableiten, integrieren also alles was man so an "unseligen" Sachen kennt, was man mit den Daten leider nicht kann. (DaTroll als ip, wohl zu schwer fuer die Hamster) --141.51.166.91 14:48, 21. Okt 2004 (CEST)
- Zum allzu gewollten Laienjargon: Ich rede immer so. :-)
- Das ihr mir den Baumdoktor nicht abnehmt ist schade, deswegen mache ich noch einen Link mit interessanten Bildern rein. --Marc van Woerkom 15:46, 2. Nov 2004 (CET)
Also ich muss mal sagen ich finde dn Artikel noch sehr unverständlich. Obwohl ich immerhein Tutor für Methoden der empirischen Sozialforschung und Statistik bin, hab ich erhebliche Probleme mit dem Verständnis. Das geht auch einfacher und Anschaulicher. Richardfabi 12:53, 23. Okt 2004 (CEST)
Verwirrend ist z.B. das plötzlich eine multiple Regression eingeführt wird und dann wieder eie bivariate Regression als Beispiel angeführt wird. Richardfabi 12:59, 23. Okt 2004 (CEST)
- Am Wochenende hab ichs nicht geschafft, das ganze verstaendlicher zu gestalten, aber eine Frage noch: Du moechtest also ein tri- oder noch hoeher variates statt des bivariaten Beispiels fuer die multiple Regression? -17:11, 25. Okt 2004 (CEST)
Nein so wars nicht gemeint :-)Ich würde eventuell erst das Beispiel für den einfachen linearen Fall anführen und dann das allgemeine lineare Modell anführen. Außerdem könnten ev. die kürzel (also die abkürzungen z.B. für den Mittelwer) teilweise etwas besser erläutert werden, die schreibweisen dafür sind nämlich sehr unterschiedlich und nicht jeder kennt jeden Kürzel. Sonst hat dem Artikel die Überarbeitung schon ganz gut getan. Richardfabi 22:59, 25. Okt 2004 (CEST)
- Ich habe den Abschnitt "Das Verfahren" nochmal neu geschrieben. Vielleicht kannst du ja nochmal Bescheid sagen, bis wo Du es jetzt verstehst. Viele Gruesse --DaTroll 14:48, 26. Okt 2004 (CEST)
Hallo DaTroll
ich hab mir den Artikel nun nochmal genau durchgelesen. Der Abschnitt das Verfahren ist nun viel besser. Auch sonst ist der Text etwas geschmeidiger geworden. Bei der Fourieranlyse steige ich verständnismässig trotzdem aus, da weiß ich zu wenig. dennoch ein paar Anmerkungen:
- Um was für variablen t1 t2 t3 und t4 handelt es sich bei den Gewichten?
- Erledigt
Es handelt sich ja, soweit ich es verstanden habe um eine Regression mit einer Parabel. Aber was ist z.B. das T3 das weggelassen wird?
- Es wurde aus dem Modellansatz x3t3 entfernt, weil t3 keinen zusätzlichen Benefit bringt.
- Müssen die messfehler um eine Sinnvolle Regressionsgerde zu bekommen (oder auch andere Regression) tatsächlich Normalverteilt sein? Müssen auch die Variblen, die in einen Zusammenhang gebracht werden normalverteilt sein? (An einer Stelle steht so etwas, wenn ich das richtig verstanden habe, was michjedoch wundern würde)
- Müssen sie nicht. Sie sollen bloß keine Ausreißer enthalten. Das Selbe gilt für die unabhängigen Variablen. Für ein sinnvolles Ergebnis ist eher Unkorreliertheit und Homoskedastie der Residuen erforderlich.
- Zu den Ausreiissern könnte man noch etwas mehr schreiben, in der Soziologie gibt es da nohc einige mehr verfahren.
- Führt das in diesem Zusammenhang nicht zu weit?
- bei nominal skalierten Variablen wird in der Soziologie oft die logistische Regression verwendet. funktioniert die auch nach der kleinste Quadrate Methode?
- Im Prinzip ja, ebenso wie die Probitregression.
Ich glaub das wars erstmal, bleib dran, der Artikel wir immer besser :-) Richardfabi 23:28, 26. Okt 2004 (CEST)
- Hallo Leute, bin von DaTroll auf diese Seite hingewiesen worden. Jetzt lasse ich mal alles ausdrucken, lese es und sag was dazu. Falls sich jemand wundert, warum ich das schreibe: Ich bin zur Zeit beim Endtuning mit eingespannt. --Philipendula 17:31, 27. Okt 2004 (CEST)
- Ist die neue Einleitung zu kindisch? --Philipendula 17:20, 28. Okt 2004 (CEST)
- Ich find die super. Viele Gruesse --DaTroll 11:35, 29. Okt 2004 (CEST)
- Ich habs noch mal kräftig geliftet. --Philipendula 00:06, 30. Okt 2004 (CEST)
So, wenn nichts mehr kommt würde ich ihn vorschlagen auf der Kandidatenliste. Viele Gruesse --DaTroll 23:09, 1. Nov 2004 (CET)
- Also mir fällt auch nichts mehr ein. Man könnte höchstens das Verteilungsgesumse noch zusammenstreichen. Viele Grüße --Philipendula 23:28, 1. Nov 2004 (CET)
Fourierzerlegung
Das Beispiel der Fourierzerlegung gefällt mir nicht so. Speziell frage ich mich, ob nicht andere Basen des üblichen Funktionenraumes (z.B. diverse Basen aus der Quantenmechnik) nicht die gleiche Eigenschaft haben. Es gibt vermutlich auch einen Bezug in Richtung Energie = quadratsche Form und deren Minimierung. --Marc van Woerkom 15:46, 2. Nov 2004 (CET)
- Gut moeglich, dass andere Basen diese Eigenschaft ebenfalls haben, allgemeine garantiert nicht, da das mit der Verteilung dann nicht passt. Und natuerlich gibts einen Bezug, das ist im wesentlichen der Satz von Gauß-Markow. --DaTroll 16:34, 2. Nov 2004 (CET)
Einleitung
Die Einleitung finde ich viel zu vage:
- Es soll eine möglichst genau passende Kurve in diese Punktwolke gelegt werden. Man bestimmt diese Kurve numerisch, indem man die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert.
Es wird überhaupt nicht klar, dass nur Parameter eines gegebenen Modells ermittelt werden. Der Eindruck, eine allgemeine Kurve werde ermittelt, ist falsch. Vorschlag:
- Unter den jeweiligen Modellannahmen, denen bestimmte parametrisierbare Kurven entsprechen, werden die Parameter einer speziellen Kurve ermittelt. Die Summe der quadratischen Abweichungen dieser Kurve von den beobachteten Punkten ist für diese Kurve minimal; diese Kurve ist im Sinne der kleinsten Quadrate die beste Annäherung der Punkte durch das Modell.
-- Schewek 16:16, 2. Nov 2004 (CET)
- Stimmt, da hast Du Recht. Auf der anderen Seite wird genau das im Abschnitt "Das Verfahren", wos Butter bei die Fische gibt, dann ausgiebig erlaeutert. Die Einleitung liefert dem Leser derzeit den Eindruck: "Ich habe Daten und lege da mittels eines speziellen Kriteriums eine Kurve rein, die ganz gut passt." Damit kann ich ganz gut leben: Erst einfach, dann komplizierter.
- Als Alternative noch ein Vorschlag, der mehr in Deine Richtung geht (Dein Textvorschlag ist mir noch zu kompliziert): "Es soll eine möglichst genau passende parameterabhängige Modellkurve in diese Punktwolke gelegt werden. Man bestimmt die Parameter und damit die Kurve numerisch, indem man die Summe der quadratischen Abweichungen der Kurve von den beobachteten Punkten minimiert." Viele Gruesse --DaTroll 16:28, 2. Nov 2004 (CET)
- Mein Vorschlag war auch mehr zur Verdeutlichung der empfundenen Mängel denn als Muss gedacht; sieh es als Kritik und Anregung. Ich verstehe schon, dass die Einleitung einfach gehalten werden sollte; allerdings nicht so einfach, dass sie evtl. irreführend ist. Dein Vorschlag räumt meine Bedenken aus. Mach man... -- Schewek 17:13, 2. Nov 2004 (CET)
- Hab man gemacht ;-) --DaTroll 17:42, 2. Nov 2004 (CET)
- Mein Vorschlag war auch mehr zur Verdeutlichung der empfundenen Mängel denn als Muss gedacht; sieh es als Kritik und Anregung. Ich verstehe schon, dass die Einleitung einfach gehalten werden sollte; allerdings nicht so einfach, dass sie evtl. irreführend ist. Dein Vorschlag räumt meine Bedenken aus. Mach man... -- Schewek 17:13, 2. Nov 2004 (CET)
Baumdoktor
Nach der vielen Kritik an dem Beispiel habe ich es rausgenommen und unter ich unter Benutzer:Marc van Woerkom/Baumdoktor abgespeichert. Die Kritikpunkte sind foldende: a) der Text ist noch nicht besonders toll. b) Hauptkritikpunkt: es hat einfach kaum was mit dem Thema des Artikels zu tun. Es wäre besser unter Regressionsanalyse aufgehoben. Viele Gruesse --DaTroll 16:50, 6. Nov 2004 (CET)
- Mein Beispiel basiert auf der Methode der kleinsten Quadrate. Ich kann nicht nachvollziehen, wieso Du das raus schmeisst und die anderen drin lässt. Sieht doch recht willkürlich aus, wo Du die Grenzen für on- und off-topic ziehst. --Marc van Woerkom 18:55, 6. Nov 2004 (CET)
- Um es noch präziser zu sagen, eigentlich sollte man dann auch
3 Lineare Modellfunktion 3.1 Beispiel für ein einfaches lineares Modell y = x0 + x1t 3.2 Der allgemeine lineare Fall 3.3 Anforderungen an die Daten 3.3.1 Multikollinearität 3.3.2 Ausreißer 4 Nichtlineare Modellfunktionen 4.1 Beispiel einer polynomialen Ausgleichskurve 4.2 Beispiel einer Ausgleichskurve als Quotient 4.3 Beispiel der Fourieranalyse 4.4 Beispiel aus der Enzymkinetik einer nicht linearisierbaren Modellfunktion
- in einen Artikel zu statistischen Verfahren verlagern, oder was macht deren höhere Relevanz in Bezug auf die Methode der kleinsten Quadrate aus? --Marc van Woerkom 19:05, 6. Nov 2004 (CET)
- Die Symbole sind nicht richtig erklärt und der Zusammenhang mit der MKQ wird immer noch nicht auf den ersten Blick klar. Man muss einfach zuviel Detektivarbeit investieren, um aus dem Beitrag schlau zu werden. Leider ist es in Regressionsanalyse auch nicht besser aufgehoben. --Philipendula 19:09, 6. Nov 2004 (CET)
- Welches Symbol ist nicht richtig erklärt?
- Man könnte oben etwas schöner unterstreichen, dass die Lösung eines überbestimmten Gleichungssystems, und genau das wir ja in meinem Beispiel vorgeführt -ein Strahl, eine Gleichung- eine Lösung im Sinne der MKQ ist. Das ist der Bezug. --Marc van Woerkom 19:27, 6. Nov 2004 (CET)
- Findest Du wirklich, dass der von mir aufgelistete Teil weiter im Artikel bleiben sollte, ich denke bei keinem der Punkte sofort an MQM. Ich glaube nicht, dass das nur an meiner persönlichen Sicht der Mathematik liegt. --Marc van Woerkom 19:29, 6. Nov 2004 (CET)
- Ich habe den Baumdoktor im Review kritisiert, weil mir einiges daran nicht gefallen hat. (Eigentlich vorderhand nur der Begriff Baumdoktor). Zum Zweiten bestand der Abschnitt hauptsächlich aus der Modellierung der Tomographie. Ich glaube ein entsprechender Absatz wär sicher in Computertomographie sehr gut aufgehoben. Des weiteren ist das Tomographieproblem eigentlich ein Beispiel dafür, warum das MkQ-Verfahren nicht funktioniert: Das Problem ist schlecht gestellt, d.h. auch bei einem Least squares kommen bei hinreichend vielen Variablen nur mehr Hausnummern raus. Meiner Meinung nach wären das Problem besser in einem Artikel über schlecht gestellte Probleme, bzw. Regularisierungsverfahren aufgehoben. Der Absatz in MkQ wär nicht falsch, aber verschleiert die Probleme, die auftreten. Unyxos 18:59, 9. Nov 2004 (CET)
- Die Symbole sind nicht richtig erklärt und der Zusammenhang mit der MKQ wird immer noch nicht auf den ersten Blick klar. Man muss einfach zuviel Detektivarbeit investieren, um aus dem Beitrag schlau zu werden. Leider ist es in Regressionsanalyse auch nicht besser aufgehoben. --Philipendula 19:09, 6. Nov 2004 (CET)
Alternative Version des Artikels
Ich sehe in der Wikipedia leider oft das Phänomen des Platzhirsches. Es ist menschlich verständlich, wer einmal viel Arbeit in seinen Artikel gesteckt hat, pflegt ihn dann auch ähnlich liebevoll wie einen Schrebergarten, da kann auch nicht einfach ein anderer Gartenbauarchitekt rein schneien und in einem anderen Stil um- und weiter bauen. Ausserdem ist Geschmack verschieden. Leider wird mir in Wikipedia zu oft so argumentiert, dass es rationale Gründe geben, wenn es in Wahrheit auch oft eine Frage des persönlichen Geschmacks ist. Blöderweise führt das übliche Hickhack nicht immer zu dem besten Artikel. Ich werde versuchen eine alternative Variante dieses Artikels zu erstellen, damit hier und dann dort die jeweilige Linie verfolgt werden kann und bei Fertigstellung versuchen, ob wir vielleicht noch eine Synthese hinbekommen, auch wenn ich da so meine Zweifel habe. Das der Artikel hier ausgeufert ist, bemerke ich ja nicht zum ersten Male. Mein Ideal wäre in etwa der englische Artikel, ergänzt um eine weitere Definition, aus Sicht der stärker masstheoretisch formulierten Statistik. Dazu weniger Beispiele, die aber sehr simpel. --Marc van Woerkom 19:27, 6. Nov 2004 (CET)
- Wie schon einmal erwähnt, hatte dieser Artikel "historisch" vor allem die Aufgabe, ca. 6 verschiedene Beiträge zu diesem Thema zusammenzufassen. Nachdem jeder der Autoren sich etwas bei seinem Beitrag gedacht hatte, haben wir auch alles, so weit möglich, übernommen, auch die Beispiele zu den diversen Spezialfällen. Gut, ich verstehe quasi nix von Fourieranneliese, aber zumindest war mir die Symbolik sofort klar. Und auch alle anderen Beispiele sind eigentlich von der Symbolik her sofort verständlich. Zumindest konnte ich sie unmittelbar in die t,x,y-Notation umsetzen. Von einem Platzhirschverhalten kann hier wohl nicht die Rede sein, eher von einem "Platzhalterhirschverhalten", weil ich ja die Inhalte der Vorautoren erhalten will. Die beteiligten Leute sind auch nicht ganz doof, es ist mindestens ein Prof mit von der Partie. Wenn man übrigens die Diskussion um die Qualität dieses Artikels verfolgt, haben sich doch viele Leute an dem Baumdoktorbeispiel gestört. Es ist sehr informativ, scheint aber auf wenig Akzeptanz zu stoßen. Viele Grüße --Philipendula 13:16, 7. Nov 2004 (CET)
- Hier muss ich doch energisch widersprechen. Du hast irgendwann Dein Baumdoktorbeispiel völlig kontextlos (vom Lesefluss, vom Inhalt, von der Notation) in den Artikel gepatscht. Und auf Kritik darauf nur gesagt, naja, ich finds halt ganz nett, das Beispiel, aber nichts daran geändert. Das ist bis heute so geblieben und nach einem Monat (oder mehr) habe ich übereifriger Platzhirsch das Beispiel dann einfach rausgenommen. Was Deine Kritik im Absatz drüber angeht, so kann ich die absolut nicht nachvollziehen. In diesem Artikel wird das Verfahren beschrieben und vor allem auf die numerischen Aspekte eingegangen. Die Modellierung selber ist nicht Thema dieses Artikels. --DaTroll 16:17, 7. Nov 2004 (CET)
- Das sehe ich anders:
- Kontextlos: Das ist ein Anwendungsbeispiel für die Methode der kleinsten Quadrate. Die Messungen liefern Gleichungen, man führt die Methode der kleinsten Quadrate durch, in dem man Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle A^t A x = A^t y} statt löst, erstere Lösung minmiert die Fehlerquadrate. (Ob das nu numerisch immer gut konditioniert ist, stand nicht zur Debatte, es sollte ja ein einfaches und kein optimales Anwendungsbeispiel sein.)
- Lesefluss: Ich habe eine Stelle bei den Beispielen gesucht. Das hätte man auch woanders hinschieben können, wenn ich da die falsche Stelle erwischt habe.
- Notation: ich habe das übliche x als Unbekannte und y als Lösungsvektor genommen, und statt t glaube ich i verwendet, wenn das ein Problem darstellt, bin ich doch verwundert. Ich hätte jetzt eher eine Frage zur Diskretisierung erwartet.
- Sag doch einfach, wenn Du das Beispiel nicht magst, deine Kritikpunkte sind jedenfalls an den Haaren herbei gezogen. Korrekt wäre ein Einwand Stilbruch gewesen. Deswegen werde ich versuchen einen alternativen Artikel abzufassen.
- Was mich wirklich frustriert: Der Artikel ist gurkig und ihr wollt ihn noch als exzellenten Artikel vorschlagen. Das hätte ich mich in der Form nicht getraut. (Wie ich es oben schon geschrieben habe, kann man, will man sich denn wirklich auf die Essenz konzetrieren, die zweite Hälfte des Artikels stark zusammenstreichen, weil das alles kein Inhalt ist, der spezifisch für die Methode der kleinsten Quadrate ist. Das ist alles Stoff der eher in eigene Artikel zur Statistik, Modellierung oder ähnlichem richtig aufgehoben wäre). Wenn wir in diesen Punkt keinen Konsenz finden, ist es einfach sinnlos mit euch zu diskutieren. Richtig ist, dass ich momentan kritisiere und es nicht besser mache, das wird vielleicht noch bis Weihnachten so sein, weil ich einfach zu wenig Zeit habe (bin noch mit Umzug beschäftigt).
- --Marc van Woerkom 10:35, 9. Nov 2004 (CET)
- Ja, kontextlos. Ich kann alles moegliche was mit der MkQ zusammenhaengt, in den Artikel packen an irgendeine Stelle. Das heisst noch lange nicht, dass es auch in den Artikel passt. Du hast es, wie Du ja schon sagst, an irgendeine Stelle von irgendwelchen Beispielen gepackt und auch, wie Du oben sagst, nicht gross gekuemmert wie die Notation wohl ist. Auf dieser Seite wurde einiges ueber die Notation diskutiert, weil die unterschiedlichen Communities unterschiedliche Notationen benutzen, was Dir halt gleich nicht so wichtig war. Ansonsten wird es wirklich schwierig hier Konsens zu finden: Ich verstehe einfach nicht was Du willst. Wenn Du also nicht konkret mal sagst (mit Textbeispielen am besten), was Dir am Artikel nicht gefaellt, kommen wir hier auch auf keinen gruenen Zweig mehr. Viele Gruesse --DaTroll 14:36, 9. Nov 2004 (CET)
- Ich frage mich langsam, ob Du mich veralberst. --Marc van Woerkom 18:07, 9. Nov 2004 (CET)
- Ja, kontextlos. Ich kann alles moegliche was mit der MkQ zusammenhaengt, in den Artikel packen an irgendeine Stelle. Das heisst noch lange nicht, dass es auch in den Artikel passt. Du hast es, wie Du ja schon sagst, an irgendeine Stelle von irgendwelchen Beispielen gepackt und auch, wie Du oben sagst, nicht gross gekuemmert wie die Notation wohl ist. Auf dieser Seite wurde einiges ueber die Notation diskutiert, weil die unterschiedlichen Communities unterschiedliche Notationen benutzen, was Dir halt gleich nicht so wichtig war. Ansonsten wird es wirklich schwierig hier Konsens zu finden: Ich verstehe einfach nicht was Du willst. Wenn Du also nicht konkret mal sagst (mit Textbeispielen am besten), was Dir am Artikel nicht gefaellt, kommen wir hier auch auf keinen gruenen Zweig mehr. Viele Gruesse --DaTroll 14:36, 9. Nov 2004 (CET)
- Das sehe ich anders:
Methode der kleinsten Quadrate, 2. November
Kein Votum, da Mitautor. --DaTroll 09:27, 2. Nov 2004 (CET)
Von mir auch keins, aber danke an DaTroll für das Organisatorische! --Philipendula 23:31, 2. Nov 2004 (CET)
- pro: nach eurer fleißigen überarbeitung in der Review und mir den schönen neuen Schaubildern. Richardfabi 20:02, 2. Nov 2004 (CET)
- pro: Ich fand den Artikel bereits vor dem Review gut und dort hat er weiter gewonnen. Wieder mal ein Beispiel, daß auch so "langweiliges" Zeug wie Mathematik spannend und verständlich verpackt werden kann -- Necrophorus 20:29, 2. Nov 2004 (CET)
- Jaja, vielleicht ist Mathematik auch einfach spannend? ;-) --DaTroll 17:26, 3. Nov 2004 (CET)
- pro Elasto 09:38, 3. Nov 2004 (CET)
- abwartend: Als Nichtmathematiker erscheint mir der Artikel umfassend und stilistisch gut geschrieben. Da ich aber ein regelmäßiger Anwender der nichtlinearen Regression bin (Gott sei Dank gibts für so etwas kompliziertes Softwarelösungen), bleiben für mich einige Fragen, die ich gern beantwortet wüsste und auch ein paar Anregungen: (i) Gibt es außer Gauss-Newton und Levenberg-Marquart auch noch andere Algorithmen (Simplex habe ich schon mal gehört). Deren Funktionsweise könnte auf den noch rot verlinkten Artikeln erklärt werden. (ii) Regression einer linearisierten nichtlinearen Funktion liefert zwar eine optimale Ausgleichsgerade mit der kleinsten Quadratsumme für die linearisierte Funktion aber nach Rückprojektion auf die nichtlineare Ausgangsfunktion ist die Quadratsumme hier nicht mehr zwingend minimal. Darauf sollte hingewiesen werden. Ansonsten Hut ab. Sven Jähnichen 12:30, 3. Nov 2004 (CET)
- Prinzipiell handelt es sich bei nichtlinearer Regression um ein spezielles nichtlineares Optimierungsproblem, alle Algorithmen der nichtlinearen Optimierung (Simplex gerade nicht ;-) koennen hier also benutzt werden. Da Levenberg-Marquardt jedoch die spezielle Struktur der nichtlinearen Regression nutzt gibt es dafuer wenig Gruende. Trotz allem ist Levenberg-Marquardt nicht das Ende der Fahnenstange, da es in einigen Faellen nur linear konvergiert. Ein konsequent besseres Verfahren ist meines Wissens aber nicht bekannt. Ich hab den Abschnitt aber nochmal etwas aufgemotzt. Viele Gruesse --DaTroll 17:27, 3. Nov 2004 (CET)
- Simplexverfahren sind für lineare Optimierung zuständig. Man kann damit auch Ungleichungen berücksichtigen. Hier findet zwar auch eine Optimierung statt, Minimierung der Fehlerquadrate, aber vom Wesen her ist es eher eine Approximation, denn Optimierung. --Marc van Woerkom 11:14, 9. Nov 2004 (CET)
- An sich pro, aber der Baumdoktor stört mich immer noch, umformulieren oder link verblauen Unyxos 18:49, 4. Nov 2004 (CET)
- abwartend: Zwei Abbildungen sind auf Englisch beschriftet. Das sollte noch geändert werden. --zeno 01:18, 5. Nov 2004 (CET)
- Es sind halt SPSS-Outputs. Sollte man die wirklich übersetzen?? --Philipendula 19:07, 7. Nov 2004 (CET)
- pro, sehr schöner Artikel BS Thurner Hof 20:52, 18. Nov 2004 (CET)
- contra - Ich finde Formulierungen wie Ein Baumdoktor möchte einen Blick in den Stamm eines Baumes werfen, ohne diesen aufzusägen. Zum Glück gibt es die Computertomographie auch für Bäume arg kindisch. Die Form der Diagramme sollte bitte annähernd einheitlich aussehen, was Konventionen wie Graphenform/-Farbe und ähnliche Aspekte angeht. Im Moment ist das noch sehr kunterbunt, und das nicht einmal schön. -- מישה 06:16, 6. Nov 2004 (CET)
- Ich habe das Baumdoktorbeispiel jetzt ersatzlos rausgenommen. Bei den Graphen muss ich mal laut nach Philippendula rufen: "Zu Hülf!". Viele Gruesse --DaTroll 16:47, 6. Nov 2004 (CET)
- Tut mir leid, das war halt Umgangssprache. Das hätte ich auch seriöse ausdrücken können. Die Graphen sind leider nicht einheitlich (mehrere) Autoren. DaTroll es sich einfach gemacht, und meinen Beitrag entfernt. Damit bleiben dann nur ursprünglichen Graphen übrig, die sind dann in der Tat einheitlich unschön. --Marc van Woerkom 11:07, 9. Nov 2004 (CET)
- Genügt es, wenn ich die Farben der Graphen angleiche? Ist ein weißer Hintergrund genehm?. Ich hoffe, dass ich die Graphiken noch auf der Festplatte habe. --Philipendula 17:52, 6. Nov 2004 (CET)
- Wobei ich allerdings nicht weiß, was bei den Grafiken jetzt speziell "noch nicht einmal schön" ist. Es ist die Frage, ob es überhaupt einen positiven Effekt hat, wenn ich mich nochmal drüber mache. Vielleicht könnte M. Schindler da etwas konkreter werden :). --Philipendula 12:39, 7. Nov 2004 (CET)
- abwartend - den Anfangsabschnitt finde ich sehr unanschaulich, der zweite Satz mit Es ist eine Punktwolke aus Daten gegeben,... setzt dem erklärungsuchenden Enzyklopädie-Leser -pardauz- gleich zwei Fachbegriffe vor die Nase, zu denen nicht mal wikilinks geboten werden.
Als erklärender Anfangsabschnitt scheint mir der Absatz unter "Zum Einstieg" anschaulicher. Der jetzige Anfangsabschnitt mit seinen ziemlich speziellen Erläuterungen wäre dann weiter unten besser. --WHell 09:31, 8. Nov 2004 (CET)
- Punktwolke dürfte eher Umgangssprache sein und kein fester Fachbegriff. --Marc van Woerkom 11:12, 9. Nov 2004 (CET)
- Mh. Also die Gliederung i) Allgemeine Erlaeuterung, ii) Geschichtlicher Hintergrund, iii) Genaue Erlaeuterung moechte ich nicht aendern. Der Abschnitt Zum Einstieg ist deswegen nicht als erster geeignet, einfach weil er nichts erklaert. Ansonsten muss ich sagen: weder Punktwolke noch Daten sind Fachbegriffe. Punktwolke ist der Versuch, anschaulich zu erklaeren, was passiert: Du hast eine Wolke von Datenpunkten und legst da eine Kurve rein. Viele Gruesse --DaTroll 15:42, 8. Nov 2004 (CET)
- @Troll: das mit der Punktwolke und Daten ist mir genauso klar wie Dir - aber verstehen das auch alle anderen Leute, Nicht-Techniker und Nicht-Mathematiker? Punkte ja, eine Wolke aus Punkten auch ja - aber woher kommen die "Punkte"? Das ist das qualitativ diffuse Pünktchen, auf das ich hinauswill. Gruß --WHell 11:23, 9. Nov 2004 (CET)
- Mh. Also die Gliederung i) Allgemeine Erlaeuterung, ii) Geschichtlicher Hintergrund, iii) Genaue Erlaeuterung moechte ich nicht aendern. Der Abschnitt Zum Einstieg ist deswegen nicht als erster geeignet, einfach weil er nichts erklaert. Ansonsten muss ich sagen: weder Punktwolke noch Daten sind Fachbegriffe. Punktwolke ist der Versuch, anschaulich zu erklaeren, was passiert: Du hast eine Wolke von Datenpunkten und legst da eine Kurve rein. Viele Gruesse --DaTroll 15:42, 8. Nov 2004 (CET)
- abwartend: Schon sehr gut, nur eine Kleinigkeit stört mich: Viele Absätze sind einfach zu lang, insbesondere die Einleitung. Das stört den Lesefluss. Kann man da vielleicht noch etwas mehr Absätze, vielleicht sogar Zwischenüberschriften einfügen? Stern !? 01:05, 9. Nov 2004 (CET)
- Ich hab mal versucht, das umzusetzen und noch ein Bild von Gauß reingepappt. So besser? --DaTroll 14:06, 9. Nov 2004 (CET)
- contra/abwartend: Der Artikel schiesst über das Ziel hinaus. Ein Artikel zu Methode der kleinsten Quadrate sollte sich auf Beschreibung und Geschichte diese Methode beschränken und nicht Statistische Modellierung erklären. Die Hälfte des Materials ca. gehört in andere Artikel aus dem Bereich der Statistik oder angewandte Mathematik. Vergleicht mal dazu den englischen Artikel.
Es fehlt die noch die Darstellung aus Sicht der modernen W-Theorie und Statistik. Es macht keinen Sinn, diese ausschliesslich zu verwenden, weil die benötigte Mathematik (Masstheorie) sehr speziell ist. Damit allein wäre keine allgemeinverständliche Einführung möglich. Andererseits ist diese Mathematik nun auch schon wieder etwa 100 Jahre alt, die darauf fussenden modernen mathematischen Modellierungen sind auch ein paar Jahrzehnte alt, daher sollte unbedingt darauf eingegangen werden. DaTroll ist Numeriker, ok. Aber Philipendula scheint mir eine angewandte Statistikerin zu sein, verwundert mich, dass sie nicht auf die Theorie eingeht.
Ich arbeite gerade an einer alternativen Fassung dieses Artikels. Es macht keinen Sinn jetzt satzweise um Änderungen zu streiten, das gibt nur einen Edit War, weil wir offensichtlich stark abweichende Vorstellungen haben. Bis dahin, sagen wir 24.11., bitte ich noch abzuwarten und dann sich für eine Fassung zu entscheiden. --Marc van Woerkom 11:07, 9. Nov 2004 (CET)
- Hallo Marc van Woerkom, ich halte den Weg über eine vollkommen neue Alternativfassung für absolut falsch. Wenn es inhaltlich unterschiedliche Auffassungen zum Thema gibt bzw. irgendetwas aus deiner Sicht falsch dargestellt wird, dann ist die Diskussion der richtige Ort, dieses anzusprechen. Durch die Diskussion wird auch verhindert, daß es zu einem Editwar kommen kann, denn dort ist es gemeinhin möglich, konstruktiv und gemeinsam eine Verbesserung des Artikels zu erreichen. Eine "Alternativversion" (besser wohl Gegenversion) ist demgegenüber schlicht destruktiv zu nennen. -- Necrophorus 12:20, 9. Nov 2004 (CET)
- Mir fällt kein besserer Weg ein, als eine Alternativversion zu erstellen. Ich brauche auch längere Zeit und eine Vielzahl von Änderungen, bis ich den Artikel da habe, wo ich ihn gerne hätte. Das kann ich am vorhandenen Artikel nicht machen. Das der Artikel hier im Reviewprozess ist, besagt doch schon einiges. Wie soll man gegen so ein Trägheitsmoment ankommen? --Marc van Woerkom 13:35, 9. Nov 2004 (CET)
- Also noch einmal (S. Diskussion:Methode der kleinsten Quadrate): Dieser Artikel war eine Synthese aus ca. 6 verschiedenen Artikeln mit ähnlichem Inhalt. Es ging uns zum Einen darum, Ordnung in diesen Wildwuchs zu bringen, und zum Anderen, die vorherigen Beiträge, so weit möglich, zu erhalten. Man hätte natürlich die Schrittweise Regression, die Ausreißer usw. auch in Regressionsanalyse packen können, aber dann hätte man einen Artikel komplett zerrissen. Ich bring so was halt nicht übers Herz. Einen neuen Artikel zu schreiben ist immer leichter.
- Man muss dabei auch bedenken, dass einige wahrscheinlichkeitstheoretische Aspekte wie Normalverteilung und Homoskedastie/Unkorreliertheit der Störgröße letztlich lediglich eine vernünftige Berechenbarkeit des linearen Ansatzes garantieren. Man könnte natürlich auch mit etwas in der Art: Gegeben ist ein Parameterraum Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \Pi(\theta)} usw. daherkommen. So etwas kann ich auch. Aber ich finde es einfach unhöflich, den Lesern so etwas um die Ohren zu hauen. Dagegen kann man sich Punktwolke durchaus vorstellen.
- Im Übrigen brauche ich mir fachlich von Marc nicht ans Bein pinkeln zu lassen. Ich bin beruflich erfolgreich und anerkannt.
- --Philipendula 12:48, 9. Nov 2004 (CET)
- Die Theorie fehlt. Wenn Du Statistik machst (was ich Dir gerne glaube, weil Du viel Arbeit in die Artikel gesteckt hast, dass macht man nur freiwillig) dann darf doch die Frage erlaubt sein, warum die abstraktere Theorie nicht vorgestellt wird. Ich habe mir die Artikel nicht systematisch angeschaut, mich nur gewundert, dass ich nur selten mal was von W-Massen, Stichprobenräumen etc. lese. An's Bein pinkeln unterstellt, dass ich Dich irgendwo unfair kritisiere oder Deine (mir unbekannte) fachliche Qualifikation in Zweifel ziehe. Ich bitte da um Entschuldigung, solltest Du Dich unfair behandelt fühlen. --Marc van Woerkom 13:35, 9. Nov 2004 (CET)
- Es gab gerade einen Dopplungsbug. Hoffentlich habe ich beim Beheben nix gelöscht. --Philipendula 12:51, 9. Nov 2004 (CET)
- Doch, du hast den Messeturm gekickt >;O). Ich habs wieder rengebastelt. -- Necrophorus 13:21, 9. Nov 2004 (CET)
- Sorry, danke!--Philipendula 14:09, 9. Nov 2004 (CET)
- Doch, du hast den Messeturm gekickt >;O). Ich habs wieder rengebastelt. -- Necrophorus 13:21, 9. Nov 2004 (CET)
- Es gab gerade einen Dopplungsbug. Hoffentlich habe ich beim Beheben nix gelöscht. --Philipendula 12:51, 9. Nov 2004 (CET)
- Hi Marc, der Artikel beschreibt folgendes: Was ist die Methode der kleinsten Quadrate prinzipiell ist, geschichtlichen Hintergrund und vor allem: Wie loese ich die aus der Methode resultierenden Minimierungsprobleme und was kann dabei alles passieren. Er beschreibt NICHT: Statistische Modellierung (ist mir voellig schleierhaft wie du immer behauptest, das waere im Artikel) und auch nur kurz den statistischen Hintergrund. Soll auch so sein, denn darauf sollte man in Regressionsanalyse und Satz von Gauß-Markow eingehen. Ansonsten ist das Hauptproblem nicht etwa Traegheit von Philipendula oder mir, sondern dass Du nie konkret sagst, was Dir nicht gefaellt. Deine Kritik bleibt leider immer auf dem sehr oberflaechlichen Niveau "Das gefaellt mir so nicht" und dann musst Du Dich nicht wundern, wenn da nicht gross drauf eingegangen wird.-DaTroll 14:29, 9. Nov 2004 (CET)
- Vielleicht sollten wir doch diese Diskussion an anderer Stelle weiterführen, sonst wird das Ganze hier unübersichtlich. --Philipendula 14:56, 9. Nov 2004 (CET)
- Habe die Diagramme jetzt mal einheitlich mit weißem Hintergrund gemacht und auch teilweise die Legende geändert. Es kann sein sein, dass es etwas dauert, bis das neue Erscheinungsbild im Artikel aufscheint, dass hängt davon ab, ob wir gerade einen Hamster frei haben, der das Bild ausschneidet und einklebt ;-). --Philipendula 14:47, 9. Nov 2004 (CET)
- Jetzt auch die Auswertungsdiagramme in Deutsch!! --Philipendula 11:16, 18. Nov 2004 (CET)
Pro: Ich versteh nichts von Mathematik, aber ich kann den Inhalt in etwa nach vollziehen, was bei vielen Mathe-Artikeln nicht unbedingt der Fall ist. Besonders gelungen finde ich die Story mit dem Asteroiden. --Grammatikus 17:15, 18. Nov 2004 (CET)
Neutral: Fachlich ist der Artikel sicher einwandfrei, aber den Oma-Test besteht dieser Artikel niemals. Ich befürchte, dass sich selbst mathematisch durchschnittlich gebildete, fachfremde Akademiker mit dem Verständnis schwer tun. Spätestens nach dem dritten Absatz werden die meisten aussteigen. Das kann man sicher verkraften – die Formeln muss ja nicht jeder nachvollziehen. Ein Lexikonartikel sollte aber auch dem interessierten Laien zumindest vermittelt was das Verfahren macht und wo es praktisch angewendet wird. Um diese Zielgruppe den Einstieg zu erleichtern sollte der Einstiegsabsatz m.E. noch durch ein einfaches, sehr anschauliches Beispiel ergänzt werden. (Frage zum Inhalt: Heißt der Mann jetzt Legendre oder Lagrange bzw. - Wenn das nicht ein und dieselbe Person ist, wer ist dann Lagrange?).--Bernd Untiedt 00:34, 19. Nov 2004 (CET)
- Das war Legendre, warum ich Joseph-Louis Lagrange im Hinterkopf hatte, keine Ahnung :-) Ansonsten ist Deine Einschaetzung richtig: ab Abschnitt 4 (lineare Modellfunktion) wird die Laien-Handbremese geloest und ohne Matheleistungskurs bzw. Hochschulkenntnisse in Linearer Algebra ist man recht schnell verloren. Das muss auch IMHO zwangslaeufig so sein, sonst kann man einfach nichts erzaehlen. Dafuer haben wirs ja mit vielen Beispielen gespickt. Viele Gruesse --DaTroll 11:35, 19. Nov 2004 (CET)
abwartend:ich hab ihn mir noch nicht ganz durchgelesen, aber inhaltlich denke ich ist er sehr gut, aber zumindest die Einleitung sollte allgemeinverständlicher sein. Es sollte jeder, ohne links, erkennen können, für was die Methode benutzt wird. --G 23:56, 21. Nov 2004 (CET)
Historisches
Ich habe ein paar Links mit (legalen) Scans der Originalarbeiten unter den Artikel Satz von Gauß-Markow gesetzt. --Marc van Woerkom 21:27, 11. Okt 2004 (CEST)
- Schön. 217.230.97.115 13:09, 10. Aug. 2011 (CEST)
Anregungen aufgegriffen
- Beispiel für lineare Einfachregression nach oben
- Mittelwert als Formel
- Baumdoktor nach unten. Die Symbole sind nicht erklärt. Es wird auch nicht sofort ersichtlich, wie sich das Modell als MKQ-Modell anwenden lässt.
--Philipendula 16:51, 29. Okt 2004 (CEST)
- erl. 217.230.97.115 13:17, 10. Aug. 2011 (CEST)