Google Cloud Dataproc

aus Wikipedia, der freien Enzyklopädie
Google Cloud Dataproc

Logo von Google Cloud Dataproc
Basisdaten

Maintainer Google Cloud Platform
Erscheinungsjahr 2016
Aktuelle Version 1.2.31
(13. April 2018)
Betriebssystem
cloud.google.com/dataproc

Google Cloud Dataproc (Cloud Dataproc) ist ein Platform as a Service (PaaS), der auf der Google Cloud Platform angeboten wird. Cloud Dataproc nutzt viele Technologien der Google Cloud Platform wie Google Compute Engine und Google Cloud Storage, um vollständig verwaltete Cluster mit gängigen[1][2] Datenverarbeitungs-Frameworks wie Apache Hadoop und Apache Spark anzubieten.[3]

Geschichte

Cloud Dataproc wurde am 23. September 2015 als öffentlich zugänglicher Beta-Service veröffentlicht[4] und ist seit dem 22. Februar 2016 öffentlich verfügbar.[5]

Design

Cloud Dataproc ist ein Platform as a Service (PaaS)-Produkt, das die Apache Spark und Apache Hadoop Frameworks mit vielen gängigen Cloud Computing Patterns kombiniert. Cloud Dataproc trennt Compute und Storage, was bei vielen Cloud Hadoop-Angeboten ein relativ gängiges Design ist. Cloud Dataproc verwendet virtuelle Maschinen der Google Compute Engine zur Berechnung und Google Cloud Storage zur Speicherung von Dateien. Cloud Dataproc verfügt über eine Reihe von Kontroll- und Integrationsmechanismen, die den Lebenszyklus, das Management und die Koordination von Clustern koordinieren. Cloud Dataproc ist in den YARN Application Manager integriert, um die Verwaltung und Nutzung von Clustern zu erleichtern.[6]

Cloud Dataproc enthält viele Open-Source-Pakete, die für die Datenverarbeitung verwendet werden, darunter Elemente aus dem Spark und Hadoop Ökosystem, sowie Open-Source-Tools, um diese Frameworks mit anderen Google Cloud Platform Produkten zu verbinden.[7]

Einzelnachweise

  1. Derrick Harris: Survey shows huge popularity spike for Apache Spark. In: fortune.com. 25. September 2015, abgerufen am 9. Juli 2019 (englisch).
  2. Vaibhav Nivargi: On The Growth Of Apache Spark. In: techcrunch.com. 19. März 2015, abgerufen am 9. Juli 2019 (englisch).
  3. CLOUD DATAPROC. Cloudnatives Apache Hadoop und Apache Spark. In: Google. Abgerufen am 9. Juli 2019.
  4. James Malone: Google Cloud Dataproc: Making Spark and Hadoop Easier, Faster, and Cheaper. In: Google Blog. 23. September 2015, abgerufen am 9. Juli 2019 (englisch).
  5. James Malone: Google Cloud Dataproc managed Spark and Hadoop service now GA. In: Google. 22. Februar 2016, abgerufen am 9. Juli 2019 (englisch).
  6. Cloud Dataproc – FAQs. Wie funktioniert Cloud Dataproc? In: Google. Abgerufen am 9. Juli 2019.
  7. Cloud Dataproc Image version list. In: Google. Abgerufen am 9. Juli 2019.