Diskussion:Sigmoidfunktion

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 1. April 2020 um 11:50 Uhr durch imported>SignaturBot(3147158) (Bot: Signaturnachtrag für Beitrag von 2.244.87.124: " →‎zu: Sigmoidfunktionen in Neuronalen Netzwerken: ").
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

zu: Sigmoidfunktionen in Neuronalen Netzwerken

Sigmoidfunktionen werden oft in Künstlichen Neuronalen Netzen als Aktivierungsfunktion verwendet, um Nichtlinearität in das Model einzuführen und um den Ausgabewert eines Neurons in einen bestimmten Bereich zu skalieren. In einem einfachen Neuronenmodell, das zum Beispiel in mehrschichtigen feed-forward Netzwerken verwendet wird, wird die Ausgabe eines Neurons durch Linearkombination der Eingabewerte und Anwendung einer Sigmoidfunktion auf das Ergebnis berechnet. Damit ist es möglich, dass das Netzwerk nicht linear-separierbare Aufgaben lösen kann, was bei den Vorgängern noch nicht möglich war (siehe Perceptron).

Dieser Absatz ist ein wenig missverständlich. Natürlich kann man auch mit mehreren Perzeptrons (deren Aktivierungsfunktion eine Schwellwertfunktion ist) nicht linear separierbare Aufgaben lösen (z.B. die XOR-Funktion nachbilden). Der große Vorteil der Sigmoidfunktion ist, dass sie Lernverfahren ermöglichen, die sich des Prinzip des Gradientenabstiegs in der Fehlerebene bedienen, denn solche Verfahren funktionieren nur, wenn die Fehlerfunktion differenzierbar ist.
--zeno 00:16, 27. Jun 2006 (CEST)
Du hast Recht, ich werde mir den Abschnitt mal vornehmen. --Reziprok 01:10, 24. Aug. 2007 (CEST)
  • Die Sigmoidfunktion ermöglicht keine Nichtlinearität. Wie du ja schon erwähnt hast kann man mit 3 Neuronen XOR lösen und dabei einen Hard Limiter als Aktivierungsfunktion verwenden. Andererseits kann ein einzelnes Neuron auch durch die Verwendung der Sigmoidfunktion keine nichtlineare Klassifikation durchführen.
  • "um den Ausgabewert eines Neurons in einen bestimmten Bereich zu skalieren" das ist doch schon eine Eigenschaft von Aktivierungsfunktionen im allgemeinen. Irgendwie ergibt das keinen Sinn, deswegen entferne ich es erstmal.
So, fertig. Habe mir Mühe gegeben es möglichst verständlich zu formulieren. --Reziprok 02:17, 24. Aug. 2007 (CEST)
Wäre es ggf. sinnvoll das "oft" zu entfernen? Meines Erachtens nach ist die Verwendung von Simoid zugunsten von ReLU (Rectifier) sogut wie ausgestorben, da ReLU besser trainierbar ist. (nicht signierter Beitrag von 2.244.87.124 (Diskussion) 13:45, 1. Apr. 2020 (CEST))

Zu allgemein?

Trifft es wirklich zu, dass auch beschränkte Funktionen mit durchweg negativer Ableitung sigmoid genannt werden? Zumindest stimmt dann die Namensmotivation hierfür nicht mehr (sind nicht S-förmig). Andererseits steht in en:Sigmoid function noch (allerdings hahnebüchen formuliert) die zusätzliche Bedingung, dass die Ableitung genau ein lokales Extremum (bzw. die Funktion selbst genau einen Wendepunkt) haben sollte...--Hagman 09:58, 21. Apr. 2007 (CEST)

Zu speziell?

Ist hier mit "differenzierbar" implizit nicht sondern gemeint? Bzw. warum heißt es Das Integral jeder glatten, positiven Funktion mit einem "Berg" und nicht Das Integral jeder stetigen, positiven Funktion mit einem "Berg"?--Hagman 10:09, 21. Apr. 2007 (CEST)

Qualität

Hab eben den Artikel auf QS-Mathe eingestellt, da er doch teilweise sehr salopp formuliert ist und meiner Meinung und meinem Wissen nach auch nicht 100%ig richtig ist, werd mir das aber erst noch genauer zu Hause durchlesen müssen. Außerdem wäre eine kleine Herleitung für die einfache Ableitungsregel hilfreich und mMn notwendig. --xand0r112358 16:13, 17. Jan. 2008 (CET)

  • Das im wesentlichen einzige saloppe Wort scheint mir "Berg" zu sein, was ich gerade eben schon einmal durch eine Eläuterung abgeschwächt habe.
  • Fehler bitte näher bezeichnen; ich habe an einer Stelle gerade "glatt" durch "stetig" ersetzt, da mehr entsprechend der darüber stehenden Definition nicht erforderlich ist (war aber dadurch vorher nicht falsch). Zweifelhaft wäre noch möglicherweise, ob an dem einen Wendepunkt zweimalige Differenzierbarkeit zu fordern ist - ich meine: nein.
  • Für die Herleitung der Ableitungsregel kann man eine mögliche Herleitung ja kaum viel ausführlicher schreiben als "Es ergibt sich nämlich ."--Hagman 14:54, 21. Jan. 2008 (CET)

Begriffsherkunft ?

Hallo,

mal abgesehen von der mathematischen Erklärung des Begriffs würde eine Angabe der sprachlichen Herkunft des Begriffs "sigmoid" den Artikel deutlich aufpeppen ... hat jemand eine Ahnung, wo der Begriff herkommt ? --Merkosh O=O 10:20, 23. Aug. 2010 (CEST)

Eine Erklärung findet sich z.B. hier: http://en.wiktionary.org/wiki/sigmoid --Toa7d6 (11:14, 12. Mai 2011 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Haben diese Funktionen auch einen Namen?

Bisher dachte ich immer, Sigmoidfunktionen haben folgende Eigenschaften:

  • f(0) = 0
  • f(1) = 1
  • f(½) = ½
  • f'(0) = f'(1) = 0
  • f'(x)>0 für 0<x<1
  • f im Intervall [0,1] punktsymmetrisch um (½;½).

Es gibt eine Reihe von Funktionen, die diese Eigenschaften erfüllen, etwa kubische Polynome, eine S-Kurve aus 2 Parabeln zusammengesetzt, eine entsprechend skalierte Sinuskurve usw… Anscheinend sind das aber keine Sigmoid-Funktionen. :-( Wie heißen die denn dann? --RokerHRO 20:22, 7. Feb. 2012 (CET)

1. Bild sinnlos?

Was in dem Bild dargestellt wird ist kein richtiges Koordinatensystem. Es gibt nie zwei verschiedene Nullpunkte in einem karthesischen Koordinatensystem. Das Bild sollte dringend ersetzt werden --85.179.199.210 20:46, 15. Feb. 2012 (CET)

Definitionsbereich

Also die englische WP verlangt hier im Gegensatz zur deutschen noch, dass f auf _ganz_ R definiert ist. --Boobarkee (Diskussion) 08:10, 19. Nov. 2017 (CET)