MongoDB

aus Wikipedia, der freien Enzyklopädie
MongoDB
Basisdaten

Entwickler MongoDB, Inc.
Erscheinungsjahr 2009
Kategorie Dokumentenorientierte Datenbank
www.mongodb.com

MongoDB (abgeleitet vom engl. humongous, „gigantisch“) ist ein dokumentenorientiertes NoSQL-Datenbankmanagementsystem, das in der Programmiersprache C++ geschrieben ist.[1][2] Sie kann Sammlungen von JSON-ähnlichen Dokumenten verwalten. So können viele Anwendungen Daten auf natürlichere Weise modellieren, da die Daten zwar in komplexen Hierarchien verschachtelt werden können, dabei aber immer abfragbar und indizierbar bleiben.

Die Entwicklung von MongoDB begann im Oktober 2007 durch das Unternehmen 10gen, welches am 27. August 2013 in MongoDB, Inc. umbenannt wurde.[3] Die Erstveröffentlichung fand im Februar 2009 statt.[4] MongoDB wurde bis zum 15. Oktober 2018 als Freie Software veröffentlicht und ist seitdem unter der proprietären SSPL verfügbar.[5] Es ist die weitest verbreitete NoSQL-Datenbank (Stand: Oktober 2019).[6]

Systemvoraussetzungen

Die Binärdateien sind verfügbar für Windows, Linux, macOS und Solaris. MongoDB kann auf fast jedem Little-Endian-System kompiliert werden.

Aufbau

Datenbanken

Ein MongoDB-Prozess kann mehrere Datenbanken verwalten, und eine Datenbank kann mehrere Collections enthalten. Datenbank und Collection ergeben, durch einen Punkt getrennt, einen Namespace. Für eine Datenbank, die die Daten einer Firma verwalten soll, und eine Collection, die alle Mitarbeiter enthalten soll, könnte man beispielsweise den Namespace firma.mitarbeiter wählen.

Collections

Eine Collection enthält Dokumente und ist mit einer Tabelle einer relationalen Datenbank vergleichbar. Ein wesentlicher Unterschied besteht darin, dass die Dokumente einer Collection völlig unterschiedlich aufgebaut sein können. Weder müssen sie einem Schema folgen, noch müssen die Werte desselben Schlüssels vom selben Datentyp sein.

Capped Collections

MongoDB unterstützt größenbeschränkte Dokumentensammlungen – auch capped collections genannt.[7] Eine capped collection wird mit einer bestimmten Größe und – je nach Bedarf – einer Anzahl an Elementen angelegt. Eine capped collection ist die einzige Art Dokumentensammlung, die die Ordnung einhält: Sobald die spezifizierte Größe erreicht ist, verhält sich die capped collection wie ein digitaler Ringspeicher.

Eine besondere Art Cursor – genannt tailable cursor[8] – kann bei capped collections verwendet werden. Der Cursor wurde nach dem Unix-Befehl tail -f benannt. Er verschwindet nicht, sobald er die Wiedergabe der Ergebnisse beendet hat, sondern wartet und gibt neue Ergebnisse wieder, sobald neue Dokumente der Sammlung hinzugefügt werden.

System Collections

MongoDB legt automatisch System Collections an. Eine der System Collections beinhaltet alle Indizes der Datenbank, eine weitere alle Namespaces, eine JavaScript-Code und die übrigen Informationen zum Profiling und zu Benutzern.

Abfragen

Mongo erlaubt es, jedes Feld jederzeit abzufragen. Mongo unterstützt auch Bereichsabfragen, das Suchen nach regulären Ausdrücken und andere Spezialsuchabfragen zusätzlich zu Suchen anhand von Beispielen[9]. Diese Abfragen schließen auch benutzerdefinierte JavaScript-Funktionen ein. Abfragen können sowohl spezifische Dokumentenfelder wiedergeben (anstelle des gesamten Dokuments) als auch Ergebnisse sortieren, überspringen und einschränken. Abfragen können in eingebettete Objekte und Anordnungen hineinreichen.

Jedes Abfrageergebnis wird als Cursor bereitgestellt.

Indizierung

Die Software unterstützt Indexstrukturen, beispielsweise B-Bäume und Geospatial-Indizes.[10] Verschachtelte Felder (so wie oben in der Ad-hoc-Abfrage beschrieben) können gleichfalls indiziert werden. Das Indizieren von Listen ergibt eine Indizierung jedes einzelnen Elements der Liste.

Der Abfrage-Optimierer von MongoDB sucht während eines Abfragelaufs selbständig zwischen unterschiedlichen Auswertungsplänen aus und wählt den schnellsten; dabei findet periodisch eine Stichprobewiederholung statt. Entwickler können den verwendeten Index mittels der Funktion explain einsehen und einen anderen Index mit Hilfe der Funktion hint auswählen.

Indizes können jederzeit angelegt und gelöscht werden.

Aggregation

Zusätzlich zu Ad-hoc-Abfragen unterstützt die Datenbank auch andere Werkzeuge für die Aggregation einschließlich MapReduce und einer Gruppierungsfunktion ähnlich dem GROUP BY von SQL.

GridFS

Um Dokumente speichern zu können, die die Größenbeschränkung von 16 MB überschreiten, kann GridFS ("Grid File System") verwendet werden.[11] Dieser Dateien-Speicher-Mechanismus wurde bei Plug-ins für Apache,[12] nginx[13] und lighttpd[14] eingesetzt.

Abgrenzung zu relationalen (SQL-)Datenbanken

MongoDB wird als NoSQL-Datenbank klassifiziert und grenzt sich als solche dadurch von traditionellen Datenbanken ab, dass sie eine weniger mächtige Abfragesprache anbietet. Dies ist Nachteil und Vorteil zugleich: Zum einen muss in der Anwendungsschicht mehr Logik vorhanden sein, um die gleichen Ergebnisse zu erzielen wie mit SQL-Datenbanken. Zum anderen kann MongoDB den Datenbestand und die Arbeitslast auf mehrere Server verteilen, was in monolithischen SQL-Datenbanken nicht möglich ist. Gleichwohl gibt es mittlerweile auch SQL-Datenbanken z. B. Exasol oder Greenplum, welche über mehrere Server verteilt sind. Nur auf den Mehrserversystemen sind große Join-Operationen in einer angemessenen Zeit zu bewerkstelligen.

MongoDB zielt bei der Verteilung der Daten auf mehrere Server darauf ab, durch Replikation die Verfügbarkeit zu erhöhen und durch Sharding (siehe unten) die Arbeits- und Datenlast zu verteilen. Die Replikation bringt allerdings einen weiteren Nachteil mit sich: Wird ein Schreibzugriff von MongoDB bestätigt, dann gibt es standardmäßig ein Zeitfenster, in dem nachgelagerte Lesezugriffe den alten Datenbestand zurückliefern. Dieses Konsistenzmodell wird als Eventual Consistency bezeichnet.

Ein weiteres Abgrenzungsmerkmal von MongoDB zu Relationalen Datenbanken ist die Schemafreiheit. Während in Relationalen Datenbanken die Struktur eines Datenbankeintrages durch die Definition der Tabelle fest vorgeschrieben ist, können sich die Datenbankeinträge in MongoDB frei voneinander unterscheiden (auch wenn sie derselben Collection angehören).[15] Dieser Freiheit wird zugesprochen, dass sie eine agile Softwareentwicklung unterstützt, da es einfacher ist, auf veränderte Anforderungen zu reagieren.[16]

Allerdings müssen bei Analysen anschließend die Informationen ebenfalls strukturiert werden.

Abgrenzung zu anderen NoSQL-Datenbanken

Zwecks Klassifizierung von Datenbanken anhand ihrer Qualitätsmerkmale wird oft das CAP-Theorem herangezogen. Das CAP-Theorem besagt, dass im Falle einer Netzwerk-Partitionierung sich ein verteiltes System entscheiden muss, ob es weiterhin verfügbar bleiben oder Konsistenz gewährleisten soll.[17] MongoDB entscheidet sich hier für die Konsistenz, kann die Verfügbarkeit allerdings aufrechterhalten, solange die Mehrzahl der Knoten eines Replica Set miteinander kommunizieren können. CouchDB als Vergleich zu MongoDB mit ähnlichen Funktionalitäten stellt die Verfügbarkeit über die Konsistenz.

Verwaltungswerkzeuge

Offizielle Werkzeuge

Mit einem laufenden MongoDB-Server kann auf verschiedenen Wegen eine Verbindung aufgebaut werden. Die Mongo Shell ist in der Distribution enthalten. Eine HTTP-basierte Administrationsoberfläche sowie eine REST-Schnittstelle sind nach vorheriger Aktivierung in einem Browser aufrufbar. Schließlich stehen Programmierern Treiber für zahlreiche Programmiersprachen zur Verfügung, um die Kommunikation ihrer Anwendungen mit MongoDB zu implementieren.

Mongo Shell

Die Mongo Shell ist ein Kommandozeilen-Client. Sie dient der Verwaltung von MongoDB und ermöglicht ihrem Benutzer Lese- wie Schreiboperationen. Dazu erhält man eine Eingabeaufforderung, auf dem man Befehle in der Sprache JavaScript ausführen kann.

Treiber

MongoDB ist mit offiziellen Treibern ausgestattet für C, C++, C#, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala und Swift.[18]

Es gibt auch zu einigen Programmiersprachen offiziell unterstützte ORMs für MongoDB, wie z. B. Mongoose für die Node.js-Plattform.[19]

Cloud-basierter Monitoring-Dienst

MongoDB Management Service (MMS) ist eine cloud-basierte Monitoring-Lösung und Alert-Dienst für MongoDB Server.[20]

Grafische Oberflächen

Es gibt einige grafische Oberflächen (GUIs) zur Sichtung und Bearbeitung der Daten. Dazu gehören:

Name Beschreibung Lizenz Linux Windows Mac
MongoDB Compass offizielle plattformübergreifende GUI für MongoDB[21] Server Side Public License[22] ja ja ja
Studio 3T (ehemals MongoChef) eine plattformübergreifende MongoDB GUI[23] freie Lizenz und proprietär ja ja ja
Nucleon BI Studio Business Intelligence Frontend für MongoDB proprietär ja
Fang of Mongo ein webbasiertes UI, erstellt mit Django und jQuery[24] GNU AGPL v3.0[25] ja
Nucleon Database Master eine Windows-basierte Datenbank-Client-Software, die auch RDMS unterstützt proprietär ja
Futon4Mongo ein Klon des CouchDB-Futon-Web-Interfaces für MongoDB[26]
mms, Mongo Management Studio sowohl plattformübergreifendes als auch webbasiertes GUI[27] freie Lizenz und proprietär ja ja ja
Mongo3 ein Ruby-basiertes Interface[28] Apache License 2.0 ja ja ja
MongoHub eine native OS-X-Anwendung für das Management von MongoDB[29], inaktiv seit April 2015[30] nein nein ja
Opricot eine browserbasierte MongoDB-Shell, geschrieben mit PHP[31] GNU GPL v3.0 ja
Robo 3T (ehemals Robomongo) eine plattformübergreifende MongoDB-GUI[32] GNU GPL v3.0[33] ja ja ja
UMongo (JMongoBrowser) eine plattformübergreifende Management-GUI, geschrieben in Java[34] verschiedene OpenSource-Lizenzen[35]
DBHawk ein webbasiertes MongoDB-Tool[36] proprietär ja ja ja
DataGrip (und weitere professionelle JetBrains IDEs)[37] professionelle Datenbank-Entwicklungsumgebung mit Unterstützung für viele verschiedene Datenbanksysteme wie unter anderem MongoDB. Geschrieben in Java. Basiert auf der quelloffenen IntelliJ-Plattform.[38] proprietär ja ja ja

Replikation

Um Ausfälle einzelner Server zu kompensieren und die Last der Lesezugriffe auf mehrere Server zu verteilen, bietet MongoDB zwei Arten der Replikation an:

Master-Slave-Replikation

Die Master-Slave-Replikation ist veraltet und seit Version 4.0 nicht mehr verfügbar[39].

Ein Master konnte Lese- („Reads“) und Schreibzugriffe („Writes“) ausführen. Ein Slave kopierte die Daten vom Master und konnte nur für Lesezugriffe oder die Datensicherung eingesetzt werden, nicht aber für Schreibzugriffe.

Die Master-Slave-Replikation gestattete es Entwicklern, zu garantieren, dass auf einer Per-Ablauf-Basis zumindest ein Ablauf auf N Server repliziert wurde.

Replica-Sets

Replica-Sets ähneln dem Master-Slave-Verhältnis, enthalten aber die Möglichkeit für die Slaves, einen neuen Master zu wählen, wenn der derzeitige ausfällt.

Sharding

MongoDB skaliert horizontal unter Verwendung eines Systems, welches als horizontale Fragmentierung bezeichnet wird und das dem Bigtable- und PNUTS-Skalierungssystem sehr ähnlich ist. Der Entwickler wählt einen Fragmentierungsschlüssel, der festlegt, wie die Daten in einer Ansammlung verteilt werden. Die Daten werden in Bereiche aufgeteilt (unter Zugrundelegung des Fragmentierungsschlüssels) und über mehrere Instanzen verteilt.

Die Anwendung bzw. ihr Entwickler muss wissen, dass die Kommunikation bei bestimmten Abläufen mit einem fragmentierten Cluster erfolgt. So muss eine „findAndModify“-Abfrage den Fragmentierungsschlüssel zum Beispiel beinhalten, wenn die angefragte Sammlung horizontal fragmentiert ist. Die Anwendung kommuniziert mit einem speziellen Routing-Prozess, der „mongos“ genannt wird und der genauso wie ein einzelner MongoDB-Server aussieht. Dieser „mongos“-Prozess weiß, welche Daten von welcher Instanz verwaltet werden, und routet die Abfrage dementsprechend. Alle Abfragen fließen durch diesen Prozess: Dieser leitet nicht nur die Abfragen und Antworten weiter, sondern führt auch alle notwendigen, finalen Datenver- und -entflechtungen durch. Jede beliebige Anzahl an „mongos“-Prozessen kann gestartet werden, allerdings wird gewöhnlich nur eine pro Anwendungsserver empfohlen.

Technische Grundlagen

Bei Lese- und Schreibzugriffen werden die Daten zunächst im RAM abgelegt und erst nach einer bestimmten Zeit (per Voreinstellung alle 60 Sekunden) vom Betriebssystemdienst mmap auf Disk synchronisiert. Dies ergibt einen Geschwindigkeitsvorteil, da auf den RAM in Nanosekunden zugegriffen werden kann, auf Dateien hingegen im dreistelligen Millisekundenbereich. Ein Nachteil ist, dass etwa bei einem Serverabsturz alle nur im RAM vorhandenen Daten verlorengehen. MongoDB begegnet diesem Nachteil mit dem Journaling-Verfahren.[40]

Aufgrund der Nutzung von mmap ist auf 32-Bit-Rechnern die Datengröße auf 2 GB begrenzt (bei 64-Bit-Rechnern liegt die Obergrenze entsprechend sehr viel höher).[41] Der MongoDB-Server kann nur auf Little-Endian-Systemen benutzt werden, obwohl die meisten Treiber sowohl auf Little-Endian- als auch auf Big-Endian-Systemen laufen.

Weitere Merkmale sind:

  • UTF-8-Kodierung der Dokumente. Nicht-UTF-8-Daten können mittels eines speziellen Binärdatentyps gespeichert, angefragt und abgerufen werden.
  • Unterstützung von Datum, regulären Ausdrücken, Code und binären Daten (allesamt BSON-Kategorien).
  • Server-seitige JavaScript-Ausführung: JavaScript ist die Verkehrssprache von MongoDB und kann für Abfragen und Aggregationsfunktionen (wie beispielsweise MapReduce) verwendet werden, außerdem kann JavaScript direkt zur Datenbank geschickt und dort ausgeführt werden.

Lizenzierung und Unterstützung

MongoDB war bis Oktober 2018 unter der GNU Affero General Public License (AGPL) frei erhältlich. Die Sprachtreiber sind erhältlich unter einer Apache-Lizenz.[42]

Im Oktober 2018 wechselten die Entwickler der Datenbank MongoDB zur proprietären Server Side Public License (SSPL), damit Cloud-Provider die Datenbank nicht nutzen, ohne Code zurückzugeben.
Die SSPL erfordert, dass jeder, der den MongoDB-Service anbietet, auch den Quellcode des Services unter dieser Lizenz veröffentlicht, auch den Code aller Programme für das Management, für Nutzerinterfaces, für Monitoring und für Backups. MongoDB legte die Lizenz der Open Source Initiative (OSI) vor, wo diese abgelehnt wurde[43]. Eine neue Version 2 der Lizenz wurde erneut der OSI vorgelegt[44], dann aber zurückgezogen, nachdem klar wurde, dass diese nicht akzeptiert werden würde.[45] MongoDB ist derzeit nur unter der abgelehnten Version 1 verfügbar. Dem voraus ging eine ähnliche Lizenzänderung durch Entwickler der Datenbank Redis.[46]

Aufgrund der Lizenzänderung wurde MongoDB aus den Linux-Distributionen Debian, Fedora und Red Hat Enterprise Linux entfernt. Das Fedora-Projekt entschied, dass die SSPL version 1 keine Freie-Software-Lizenz ist.[47][48]

Sicherheit

Zahlreiche MongoDB-Installationen im Internet sind von jedermann lesbar und teilweise sogar beschreibbar. Eine Suche mit Shodan lieferte im Januar 2017 52.000 offene Datenbanken.[49]

Ursache ist, dass in der Standardinstallation keinerlei Zugriffskontrolle konfiguriert ist. Wird die Datenbank später auf einen öffentlichen Server verschoben und die Konfiguration nicht angepasst, kann von außen frei auf die Daten zugegriffen werden.[50] Zum Teil wurde das von Ransomware ausgenutzt, die diese Daten verschlüsselt hat.[51] Der Hersteller der kommerziellen Variante empfiehlt schon seit langem Maßnahmen zur Absicherung.[50][52]

Bekannte Anwender

Literatur

  • Marc Boeker: MongoDB. Sag Ja zu NoSQL. EntwicklerPress, Frankfurt am Main 2010, ISBN 978-3-86802-057-1
  • Tobias Trelle: MongoDB. Der praktische Einstieg. dpunkt, Heidelberg 2014, ISBN 978-3-86490-153-9

Weblinks

Einzelnachweise und Anmerkungen

  1. MongoDB. (Nicht mehr online verfügbar.) Archiviert vom Original am 3. Dezember 2013; abgerufen am 20. November 2013.
  2. MongoDB-Website. Abgerufen am 22. Juni 2012.
  3. 10gen Announces Company Name Change to MongoDB, Inc. 27. August 2013, abgerufen am 28. August 2013.
  4. MongoDB Blog - March 2010. Abgerufen am 22. Juni 2012.
  5. MongoDB now released under the Server Side Public License. Abgerufen am 29. November 2018.
  6. DB-Engines Ranking. Abgerufen am 14. Oktober 2019.
  7. Capped collections. Abgerufen am 22. Juni 2012.
  8. Tailable cursors. Abgerufen am 22. Juni 2012.
  9. MongoDB Find Command. Abgerufen am 16. Oktober 2016.
  10. Geospatial indexes. Abgerufen am 22. Juni 2012.
  11. GridFS. Abgerufen am 15. Januar 2016.
  12. mod_gridfs. Abgerufen am 19. November 2014.
  13. nginx. Abgerufen am 22. Juni 2012.
  14. lighttpd. Abgerufen am 22. Juni 2012.
  15. Vor- und Nachteile von MongoDB. Abgerufen am 30. Januar 2016.
  16. Wozu Schemafreiheit? Abgerufen am 30. Januar 2016.
  17. CAP-Theorem. Abgerufen am 30. Januar 2016.
  18. Drivers. Abgerufen am 9. Januar 2022.
  19. Node.js MongoDB Driver docs.mongodb.org
  20. Mongo Cloud, Zugriff am 17. Oktober 2015
  21. Compass. Abgerufen am 23. September 2020 (amerikanisches Englisch).
  22. mongodb-js/compass. Abgerufen am 23. September 2020 (englisch).
  23. Studio 3T (formerly MongoChef) - The IDE for MongoDB. Abgerufen am 1. Oktober 2014.
  24. Fang of Mongo. Abgerufen am 22. Juni 2012.
  25. Fang-of-Mongo/LICENCE at fom_object Fiedzia/Fang-of-Mongo – GitHub
  26. Futon4Mongo. Abgerufen am 22. Juni 2012.
  27. Mongo Management Studio. Abgerufen am 1. September 2014.
  28. Mongo3. Abgerufen am 22. Juni 2012.
  29. MongoHub. Archiviert vom Original am 7. Februar 2015; abgerufen am 22. Juni 2012.
  30. jeromelebel/MongoHub-Mac. Abgerufen am 30. August 2018 (englisch).
  31. Opricot. Abgerufen am 22. Juni 2012.
  32. robomongo. Abgerufen am 10. Januar 2018.
  33. robomongo/LICENSE at master paralect/robomongo – GitHub
  34. UMongo. Abgerufen am 22. Juni 2012.
  35. umongo/README.rst at master agirbal/umongo – GitHub
  36. DBHawk. Abgerufen am 6. Januar 2018.
  37. All Developer Tools and Products by JetBrains. Abgerufen am 9. Januar 2022 (englisch).
  38. DataGrip: The Cross-Platform IDE for Databases & SQL by JetBrains. Abgerufen am 9. Januar 2022 (englisch).
  39. https://docs.mongodb.com/manual/release-notes/4.0-compatibility/index.html#replica-sets
  40. Tobias Trelle: MongoDB. Der praktische Einstieg, dpunkt, Heidelberg 2014, S. 21.
  41. 32-bit limitations. Abgerufen am 22. Juni 2012.
  42. The AGPL - MongoDB Blog: May 5, 2009. Abgerufen am 22. Juni 2012.
  43. [License-review] Approval: Server Side Public License, Version 1 (SSPL v1). Abgerufen am 29. November 2018.
  44. [License-review] Approval: Server Side Public License, Version 2 (SSPL v2). Abgerufen am 29. November 2018.
  45. [License-review] Approval: Server Side Public License, Version 2 (SSPL v2). Abgerufen am 22. März 2019.
  46. Hanno Böck: MongoDB wechselt Lizenz
  47. Steven J. Vaughan-Nichols: MongoDB "open-source" Server Side Public License rejected (Englisch)
  48. MongoDB’s licensing changes led Red Hat to drop the database from the latest version of its server OS (Amerikanisches Englisch) 16. Januar 2019.
  49. Extortionists Wipe Thousands of Databases, Victims Who Pay Up Get Stiffed, Krebs on Security, 10. Januar 2017
  50. a b MongoDB: Ungeschützte Datenbanken absichern. 18. Februar 2015, abgerufen am 18. Februar 2015.
  51. MongoDB ransacking@1@2Vorlage:Toter Link/docs.g00gle.com (Seite nicht mehr abrufbar, Suche in Webarchiven Info: Der Link wurde automatisch als defekt markiert. Bitte prüfe den Link gemäß Anleitung und entferne dann diesen Hinweis.
  52. Anleitung zur Absicherung: How to secure MongoDB on Linux or Unix production server, nixCraft, 9. Januar 2017
  53. MongoDB Powering MTV's Web Properties. 10. Mai 2011. Abgerufen am 6. Juli 2011.
  54. Disney Central Services Storage: Leveraging Knowledge and skillsets. 24. Mai 2011. Archiviert vom Original am 11. Juni 2011. Abgerufen am 6. Juli 2011.
  55. MongoDB at foursquare - Presentation at MongoNYC. 21. Mai 2010. Archiviert vom Original am 12. Juni 2010.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/blip.tv Abgerufen am 28. Juni 2010.
  56. Jacqueline Maher: Building a Better Submission Form, NYTimes Open Blog. 25. Mai 2010. Abgerufen am 28. Juni 2010. 
  57. How Python, TurboGears, and MongoDB are Transforming SourceForge.net. PyCon 2010. 20. Februar 2010. Archiviert vom Original am 19. August 2010. Abgerufen am 22. Juni 2012.
  58. MongoDB at Etsy. Code as Craft: Etsy Developer Blog. 19. Mai 2010. Abgerufen am 28. Juni 2010.
  59. Holy Large Hadron Collider, Batman!. The MongoDB NoSQL Database Blog. 3. Juni 2010. Abgerufen am 3. August 2010.
  60. AppScale - Supported Datastores. (Nicht mehr online verfügbar.) Archiviert vom Original am 7. September 2013; abgerufen am 22. Juni 2012.