Selbstüberwachtes Lernen
Selbstüberwachtes Lernen ist ein Teilgebiet des maschinellen Lernens, das eine Zwischenform von überwachtem und unüberwachtem Lernen darstellt. Es handelt sich um eine Art autonomes Lernen mit Hilfe künstlicher neuronaler Netze, bei dem keine durch Menschen im Voraus klassifizierten Beispieldaten benötigt werden[1]. Zunächst wird das Netzwerk mit einer Voraufgabe (pretext task) konfrontiert, die vergleichsweise einfach zu lösen und auszuwerten sind, aber ein hohes Maß an semantischem Verständnis der Daten erfordert, welches wiederum für die Lösung einer anderen, nachgelagerten Aufgabe (downstream task) nützlich ist[2][3]. Während der erste Schritt meist auf durch Transformationen der Ursprungsdaten generierten Pseudo-Labeln basiert, kann die eigentliche Klassifikation mit überwachtem oder unüberwachtem Lernen durchgeführt werden[4][5][6]. Die Idee hinter der Voraufgabe ist, dass das Lösen dieser vergleichsweise einfachen Fragestellung die Gewichte des neuronalen Netzes so initialisiert, dass das Modell auch für andere Anwendungen nützlich sein kann[7]. Selbstüberwachtes Lernen hat in den letzten Jahren vielversprechende Ergebnisse hervorgebracht und bereits praktische Anwendung in der Bild-, Video- und Audioverarbeitung gefunden und wird unter anderem von Facebook zur automatischen Spracherkennung genutzt[8].
Abgrenzung zu anderen Formen des maschinellen Lernens
Selbstüberwachtes Lernen gehört insofern zu den Verfahren des überwachten Lernens, als dass es Ziel der Methode ist, aus dem Input einen klassifizierten Output zu generieren. Gleichzeitig ist aber keine explizite Verwendung von beschrifteten Input-Output-Paaren notwendig. Stattdessen werden Korrelationen, in die Daten eingebettete Metadaten oder im Input vorhandenes Domänenwissen implizit und autonom aus den Daten extrahiert.[9] Diese aus den Daten selbst generierten Informationen werden dann zur Klassifikation verwendet.[10]
Selbstüberwachtes Lernen ähnelt aber auch insofern dem unüberwachten Lernen, als dass es ohne explizit vorgegebene Labels in den Beispieldaten auskommt. Im Gegensatz zum unüberwachten Lernen erfolgt das eigentliche Lernen aber nicht mit Hilfe inhärenter Datenstrukturen.[9]
Die Kombination aus überwachtem und unüberwachtem Lernen wird als semi-überwachtes Lernen bezeichnet. Hier ist lediglich ein kleiner Teil der Lerndaten bereits gelabelt. Auch hiervon unterscheidet sich selbstüberwachtes Lernen deutlich, da es ganz ohne explizite Labels auskommt.[3]
Anwendung
Selbstüberwachtes Lernen ist vor allem dann wesentlich effizienter als überwachtes Lernen, wenn nur wenige Beispieldaten vorliegen, mit denen gelernt werden kann. Insofern hat die Methode das Potential, bisherige Einschränkungen des maschinellen Lernens zu überwinden und neue Anwendungsbereiche zu erschließen[11][12]. Selbstüberwachtes Lernen ist vor allem für automatische Bild-, Sprach- und Videoverarbeitung geeignet[13][14]. Facebook entwickelte beispielsweise mit wav2vec einen selbstüberwachten Algorithmus, um automatische Spracherkennung durchzuführen und verwendet hierfür zwei tiefe faltende neuronale Netze, die aufeinander aufbauen[8]. Das von Google entwickelte Modell BERT (Bidirectional Encoder Representations from Transformers) wird zum Beispiel zum besseren Verständnis des Kontextes von Suchanfragen verwendet.[15] Darüber hinaus entstand während der Forschung von OpenAi ein autoregressives Sprachmodell namens GPT-3, dass in der maschinellen Sprachverarbeitung eingesetzt werden kann. Damit könne unter anderem Texte übersetzt oder Fragen beantwortet werden.[16] Auch bestehende Methoden wie Clustering, Dimensionalitätsreduktion oder Empfehlungssystem können mittels selbstüberwachtem Lernen verbessert werden[1]. Konkrete Anwendungsbeispiele sind autonomes Fahren[17], Roboterchirurgie[18] oder monokulare Endoskopie[19].
Software
- Lightly – Eine Open-Source Python Bibliothek für selbstüberwachtes Lernen mit Bildern
- OpenSelfSup – Toolbox und Benchmark für selbstüberwachtes Lernen
- VISSL – VISSL ist eine Bibliothek mit erweiterbaren, modularen und skalierbaren Komponenten für selbstüberwachtes Lernen mit Bildern
Relevante Publikationen
Das Paper ‘ALBERT: A Lite BERT for Self-Supervised Learning of Language Representation’ ist das am meisten zitierte Paper über selbstüberwachtes Lernen obwohl es eines der Neuesten ist (Stand Dezember 2020). Es wurde geschrieben von Wissenschaftlern von Google Research und dem Toyota Technological Institute in Chicago. Das Paper wurde als Konferenzpaper im Zuge der International Conference on Learning Representations (ICLR) 2020 veröffentlicht. Das Ziel des Papers ist es den Verbrauch an Arbeitsspeicher zu verringern und die Geschwindigkeit des Trainings von BERT zu erhöhen. BERT, oder ausgeschrieben Bidirectional Encoder Representations from Transformers, ist eine Technik zum Pre-Training von maschineller Sprachverarbeitung.[20]
"Self-Supervised Learning of Audio-Visual Objects from Video" wurde von Autoren von der University of Oxford und der University of Michigan geschrieben. Einer der Autoren ist Andrew Zisserman, ein Professor an der University of Oxford, der viel zu der Forschung an selbstüberwachtem Lernen beiträgt. Innerhalb der Arbeit erläutern die Wissenschaftler eine Methode „um ein Video in eine Menge von diskreten audio-visuellen Objekten mittels selbstüberwachtem Lernen zu transformieren“[21]
Autoren von DeepMind und der University of Oxford veröffentlichten in den Proceedings der ICCV 2017 das Paper „Multi-Task Self-Supervised Visual Learning“. Es ist ebenfalls eines der am meisten zitierten Paper über selbstüberwachtes Lernen. Im Zuge des Papers haben die Wissenschaftler Methoden erarbeitet um mehrere Aufgaben mit selbstüberwachtem Lernen gemeinsam ausführen zu können. Das Ergebnis der Forschung war, dass das kombinieren von mehreren Aufgaben die Leistung erhöht.[2]
Einzelnachweise
- ↑ a b Chris Abshire: Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? 6. April 2018, abgerufen am 3. November 2020 (englisch).
- ↑ a b Carl Doersch, Andrew Zisserman: Multi-Task Self-Supervised Visual Learning. 2017, S. 2051–2060 (thecvf.com [abgerufen am 3. November 2020]).
- ↑ a b Xiaohua Zhai, Avital Oliver, Alexander Kolesnikov, Lucas Beyer: S4L: Self-Supervised Semi-Supervised Learning. 2019, S. 1476–1485 (thecvf.com [abgerufen am 3. November 2020]).
- ↑ Carl Doersch, Abhinav Gupta, Alexei A. Efros: Unsupervised Visual Representation Learning by Context Prediction. 2015, S. 1422–1430 (cv-foundation.org [abgerufen am 3. November 2020]).
- ↑
- ↑ Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Perez, Matthieu Cord: Boosting Few-Shot Visual Learning With Self-Supervision. 2019, S. 8059–8068 (thecvf.com [abgerufen am 3. November 2020]).
- ↑
- ↑ a b Wav2vec: State-of-the-art speech recognition through self-supervision. Abgerufen am 3. November 2020.
- ↑ a b Carlos E. Perez: The Paradigm Shift of Self-Supervised Learning. 13. Juni 2019, abgerufen am 3. November 2020 (englisch).
- ↑ Louis (What’s AI) Bouchard: What is Self-Supervised Learning ? | Will machines be able to learn like humans ? 27. Mai 2020, abgerufen am 3. November 2020 (englisch).
- ↑
- ↑ Vincent Vanhoucke: The Quiet Semi-Supervised Revolution. 15. Mai 2019, abgerufen am 3. November 2020 (englisch).
- ↑ Olivier J. Hénaff, Aravind Srinivas, Jeffrey De Fauw, Ali Razavi, Carl Doersch: Data-Efficient Image Recognition with Contrastive Predictive Coding. 1. Juli 2020, arxiv:1905.09272 [abs].
- ↑
- ↑ Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. In: Google AI Blog. Abgerufen am 18. Januar 2021 (englisch).
- ↑ Brown, Tom B. ; Mann, Benjamin ; Ryder, Nick et al.: Language Models are Few-Shot Learners. 28. Mai 2020
- ↑
- ↑
- ↑
- ↑ Lan, Zhenzhong ; Chen, Mingda ; Goodman, Sebastian ; Gimpel, Kevin ; Sharma, Piyush ; Soricut, Radu: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. 26. September 2019
- ↑ Afouras, Triantafyllos ; Owens, Andrew ; Chung, Joon Son ; Zisserman, Andrew: Self-Supervised Learning of Audio-Visual Objects from Video. 10. August 2020