Diskussion:Apache Hadoop
Der Artikel ist sehr unausgewogen. Yahoo! und IBM werden komplett übergangen. Obwohl nicht viel zu Hadoop selber drinn steht, wird (nur) auf Hive eingegangen? -- FF-Wonko D•B 07:46, 25. Aug. 2009 (CEST)
Facebook Datenbank
"Die von Facebook verwendete Hadoop-Datenbank gehört mit etwa 21 Petabyte (Stand: Mai 2010) zu den größten der Welt." Hadoop ist keine Datenbank. Facebook hat eine HBase-Datenbank (!!!) die auf Hadoop aufsetzt. Das ist ein sehr großer Unterschied und vor allem falsch. (nicht signierter Beitrag von Togusa (Diskussion | Beiträge) 08:14, 29. Dez. 2011 (CET))
Der vom Benutzer Togusa richtig angemahnte Fehler ist auch nach gut vier Jahren noch immer im Artikel. Bitte mal den Artikel lesen, da steht dass Hadoop ein Framework ist und HBase die Datenbank dazu. --Leuchuk (Diskussion) 09:14, 20. Apr. 2016 (CEST)
Da es sich auch nach 10 Jahren immer noch um eine "Hadoop-Datenbank" handelt, habe ich mal in die englischsprachige Wikipedia geschaut. Da steht richtigerweise, dass es sich um einen Cluster handelt. Das habe ich angepasst. --Leuchuk (Diskussion) 19:16, 28. Aug. 2021 (CEST)
sortier benchmark
"schnellste Implementierung" (effizienz der software) ist irrefuehrend, es war ja auch die Implementierung auch mit meisten verteilten ressourcen ('working nodes'), deswegen erscheint hadoop bei den effizienz tests nicht. auch konnte schon 2008 google sowohl bei der nackten leistung (terabyte pro min) als auch der effizenz (pro hardwareknoten) eine schnellere implementierung vorweisen. http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html 141.52.232.84 17:22, 26. Nov. 2010 (CET) quelle welche das ergebnis diskutiert http://databeta.wordpress.com/2009/05/14/bigdata-node-density/ 141.52.232.84 14:56, 29. Nov. 2010 (CET)
- Nochmals: Nicht gewonnene Preise sind irrelevant. Hadoop hat auch keinen CodeObfuscationContest gewonnen - das im Artikel zu erwähnen ist unnötig.
- Ebenso irrelevant sind Deine persönlichen Probleme mit dem Test. Ob der Test aussagekräftig ist oder nicht obligt nicht Deiner (oder meiner) Entscheidung. Habe somit Deine Änderungen (nochmals) reverted. Bitte keinen WP:Editwar anfangen, sonst wird die Seite gesperrt... --Sebastian.Dietrich ✉ 23:50, 30. Nov. 2010 (CET)
- solange etwas von irrefuehrender "schnellster implementierung " gefasselt wird (was nirgednwo in den quellen getan wird, da wurden system getestet keine implementierungen), werde ich weiter den text verbessern. Es wurden in diesem benchmark Cluster bleibiger groesse getest auf denen irgendeine software lief. ein eindeutiger schluss auf die software-qualitaet bleibt damit unmöglich. falls solches hier angedeutet wird ist das mindestens OR wenn nicht eine bewusste luege. 95.114.32.28 01:03, 1. Dez. 2010 (CET)
- Dann schreib bitte auch hinein, dass es keinen Code Obfuscation Contest gewonnen hat. Schnell ist wenn etwas rascher erledigt wird als woanders. Ein Prosche ist auch schnell und niemand schreibt dazu "aber nur deswegen, weil er mehr PS hat, beim km/h pro PS Test hat er nicht gewonnen". Solange Du derartiges reinschreibst, werde ich Dich reverten.
- Hole jetzt dritte Meinung ein. --Sebastian.Dietrich ✉ 09:14, 1. Dez. 2010 (CET)
- Übrigens - aber ich denke hier können wir uns einigen oder - hat Geschwindigkeit nichts mit Software Qualität zu tun. --Sebastian.Dietrich ✉ 09:14, 1. Dez. 2010 (CET)
- ach nein? performance ist keine objektive metrik welche eine softwarequalitaet definieren kann? und übrigens dein akueller revert ist selbst nach deiner eigenen definition unbegruendet, da ich das durchaus valide argument der effizienz nicht mehr habe einfliessen lassen. Damit keine begruendung vorhanden fuer diesen aktuellen zustand -> revert bis sich ein breiteres meinungsbild findet (übrigens eine gute idee). Zu dem bild des porsches: ein porsche gewinnt ein rennen gegen beliebige andere autos (freestyle race: alle PS und autos sind erlaubt), nun daraus zu schliessen das der Fahrer des porsche der beste rennfahrer ist, ist pure spekulation. genauso ist es hier mit hadoop. Waere in den statuten des benchmarks festgelegt das alle implementierungen mit der exakt gleichen hardware laufen, koennte man es schliessen, da das jedoch nicht der fall ist, ist das unmoeglich. 141.52.232.84 11:18, 1. Dez. 2010 (CET)
- Oje, noch einer, der meint Performance wäre eine "Metrik" noch dazu eine bezüglich Softwarequalität. Performance ist in erster Linie ein Requirement. Dieses Requirement überzuerfüllen bringt niemandem was - ergo ist es keine Metrik und kein Qualitätshinweis.
- @Knotenanzahl. Erstens lese ich weder auf wievielen Knoten der Mitbewerb läuft (bitte liefere dafür eine Referenz), zweitens ist die Knotenanzahl bei dem Benchmark nicht relevant. Deine Kritik geht gegen den Benchmark, aber Du formulierst sie gegen den Gewinner des Benchmarks. Vielleicht hatte Hadoop einfach als einziger Kandidat die Fähigkeit mit sovielen Knoten umzugehen - wer weiss.
- Niemand behauptet, dass der Fahrer des Porsches der beste Rennfahrer ist, nur dass der Porsche das Rennen gewonnen hat. Da ist es unwichtig, wieviel PS der Porsche hatte, oder ob er rot war. Vielleicht hat der Porsche das Rennen ja auch nur wegen der PS gewonnen (was erst zu belegen wäre) - aber dann ist es trotzdem Porsche die es (im Gegensatz zur Konkurrenz) schaffen so viel PS in einem Auto unterzubringen. --Sebastian.Dietrich ✉ 12:23, 1. Dez. 2010 (CET)
- um in dem bild auto und rennen zu bleiben: doch, hadoop ist der rennfahrer der die technik (den cluster) steuert. die behauptung hadoop ist der sieger (die schnellste/effizienteste steuerung) abgeleitet aus dem gewinn des gesamtgefaehrts (cluster+steuerung), ist mit dem existierenden benchmark nicht moeglich. zu dem thema performance: zuallererst ist performance eine messbare, objektive metrik. je nach kontext (anforderung, use-case) kann sie requirement sein oder eben auch nicht. eine messbare metrik ist sie immer, und kann eine softwarequalitaet sein die je nach anforderung mal mehr oder weniger relevant ist. im übrigen, die bringschuld des beweises liegt auf der seite von hadoop und nicht umgekehrt. Es muss nicht bewiesen werden das die hardware relevanter war, sondern umgekehrt das zweifelsfrei die hadoop implementierung federfuehrend der grund war, was nicht aus den quellen hervorgeht. Zum GraySort Benchmark: der benchmark fuer sich ist voellig valide und von mir unkritisiert: bei dem gray benchmark geht es nur darum meoglichst schnell integer zu sortieren, egal ob mit besseren algorithmen oder mit mehr oder besserer hardware. Mit diesen Regeln sind weitergehnede schluesse oder rankings der teilelemente der benchmarksysteme nicht meoglich, es wurden gesamtsysteme vermessen 141.52.232.84 16:15, 1. Dez. 2010 (CET)
- Ok - wenn der Benchmark also valide ist und es lt. deinen Worten "nur darum <geht> meoglichst schnell integer zu sortieren, egal ob mit besseren algorithmen oder mit mehr oder besserer hardware", warum bestehst Du dann darauf das Ergebnis des Benchmarks zu relativieren und zu behaupten er wäre "jedoch mit einer deutlich größeren Knotenzahl als die Mitbewerber" gewonnen worden? Genau das sollte ja lt. deinen eigenen Worten egal sein. Es werden in dem Artikel auch keinerlei Schlüsse oder Rankings der Teilelemente gemacht, warum weist Du immer wieder darauf dann hin? Ausserdem hast Du bis jetzt noch keinen Beleg für die angeblich größere Knotenzahl gebracht. --Sebastian.Dietrich ✉ 22:37, 1. Dez. 2010 (CET)
- uff, also nochmal, zum mitschreiben. dieser artikel beschaeftigt sich mit reiner software (keinem gesamtsystem, zB dem Ge-benchmarkten cluster von yahoo... heist der artikel "yahoo cluster mit hadoop"? nein!). der benchmark wird in einem abschnitt namens "leistung" verwendet, legt also den schluss nah das esum die reine softwarelesitung geht. es wird auf einen benchmark verwiesen bei dem sich die performance aus software und hardware zusammensetzt. ergo, kein schluss auf die reine software moeglich. (und NOCHMAL du musst nachweisen das die software der relevante faktor war fuer die performance und nicht ich muss nachweisen das es die hardware war!!!!)141.52.232.84 12:30, 2. Dez. 2010 (CET)
- Ok - wenn der Benchmark also valide ist und es lt. deinen Worten "nur darum <geht> meoglichst schnell integer zu sortieren, egal ob mit besseren algorithmen oder mit mehr oder besserer hardware", warum bestehst Du dann darauf das Ergebnis des Benchmarks zu relativieren und zu behaupten er wäre "jedoch mit einer deutlich größeren Knotenzahl als die Mitbewerber" gewonnen worden? Genau das sollte ja lt. deinen eigenen Worten egal sein. Es werden in dem Artikel auch keinerlei Schlüsse oder Rankings der Teilelemente gemacht, warum weist Du immer wieder darauf dann hin? Ausserdem hast Du bis jetzt noch keinen Beleg für die angeblich größere Knotenzahl gebracht. --Sebastian.Dietrich ✉ 22:37, 1. Dez. 2010 (CET)
- um in dem bild auto und rennen zu bleiben: doch, hadoop ist der rennfahrer der die technik (den cluster) steuert. die behauptung hadoop ist der sieger (die schnellste/effizienteste steuerung) abgeleitet aus dem gewinn des gesamtgefaehrts (cluster+steuerung), ist mit dem existierenden benchmark nicht moeglich. zu dem thema performance: zuallererst ist performance eine messbare, objektive metrik. je nach kontext (anforderung, use-case) kann sie requirement sein oder eben auch nicht. eine messbare metrik ist sie immer, und kann eine softwarequalitaet sein die je nach anforderung mal mehr oder weniger relevant ist. im übrigen, die bringschuld des beweises liegt auf der seite von hadoop und nicht umgekehrt. Es muss nicht bewiesen werden das die hardware relevanter war, sondern umgekehrt das zweifelsfrei die hadoop implementierung federfuehrend der grund war, was nicht aus den quellen hervorgeht. Zum GraySort Benchmark: der benchmark fuer sich ist voellig valide und von mir unkritisiert: bei dem gray benchmark geht es nur darum meoglichst schnell integer zu sortieren, egal ob mit besseren algorithmen oder mit mehr oder besserer hardware. Mit diesen Regeln sind weitergehnede schluesse oder rankings der teilelemente der benchmarksysteme nicht meoglich, es wurden gesamtsysteme vermessen 141.52.232.84 16:15, 1. Dez. 2010 (CET)
- diskussion dazu: Diverging views on Big Data density, and some gimmes
- hier ein vergleich der moeglicherweise mehr mit den implementierungen zu tun hat, da hardware in ähnlciher grössenordnung und anzahl:
apache hadoop 2009: 1PB sort in 16 hours and 15 minutes on 3600 nodes Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
google 2008: 1PB in 6 hours and 2 minutes on 4000 nodes Sorting 1PB with MapReduce
leistungsverhaeltnis implementierung (für hadoop auf 4000 knoten linear hochinterpoliert): (6*60+2)/((16*60+15)*(3600/4000)) = 0.4125 google/hadoop d.h. unter aehnlcihe bedingungen ist die google implementierung 2.5 mal schneller, es faellt also schwer zu behaupten hadoop waere die "schnellste implementierung" 141.52.232.84 13:11, 2. Dez. 2010 (CET)
- ach nein? performance ist keine objektive metrik welche eine softwarequalitaet definieren kann? und übrigens dein akueller revert ist selbst nach deiner eigenen definition unbegruendet, da ich das durchaus valide argument der effizienz nicht mehr habe einfliessen lassen. Damit keine begruendung vorhanden fuer diesen aktuellen zustand -> revert bis sich ein breiteres meinungsbild findet (übrigens eine gute idee). Zu dem bild des porsches: ein porsche gewinnt ein rennen gegen beliebige andere autos (freestyle race: alle PS und autos sind erlaubt), nun daraus zu schliessen das der Fahrer des porsche der beste rennfahrer ist, ist pure spekulation. genauso ist es hier mit hadoop. Waere in den statuten des benchmarks festgelegt das alle implementierungen mit der exakt gleichen hardware laufen, koennte man es schliessen, da das jedoch nicht der fall ist, ist das unmoeglich. 141.52.232.84 11:18, 1. Dez. 2010 (CET)
- solange etwas von irrefuehrender "schnellster implementierung " gefasselt wird (was nirgednwo in den quellen getan wird, da wurden system getestet keine implementierungen), werde ich weiter den text verbessern. Es wurden in diesem benchmark Cluster bleibiger groesse getest auf denen irgendeine software lief. ein eindeutiger schluss auf die software-qualitaet bleibt damit unmöglich. falls solches hier angedeutet wird ist das mindestens OR wenn nicht eine bewusste luege. 95.114.32.28 01:03, 1. Dez. 2010 (CET)
Wir reden offensichtlich aneinander vorbei. Du versteifst Dich darauf, dass der Benchmark nicht allein die Performance der Software misst und verlangst Beweise, dass dem so wäre (als wärst Du der Richter). Ich sage immer wieder, dass das gerne stimmen mag, aber dennoch den Zusatz "wenn jedoch mit einer deutlich größeren Knotenzahl als die Mitbewerber" nicht rechtfertigt. Erstens schaffst Du diese Aussage nicht zu belegen (wieviele Knoten hatte denn der Mitbewerb bei dem Test????), zweitens ist diese Anzahl lt. Regeln des Bewerbs irrelevant. Nachdem aber leider die Kommunikation mit Dir nicht funktioniert und Du anfängst großkotzig zu werden, bleibt Dein trotz der vielen Referenzen unbelegter Nonsens halt ungesichtet im Artikel. Ich bin jetzt mal weg, kannst mit Dir alleine weiterspielen... --Sebastian.Dietrich ✉ 22:41, 2. Dez. 2010 (CET)
- seufz, exakt das ist der punkt... bei diesem benchmark die anzahl der knoten undefiniert, deswegen kann man diesen nicht als beleg fuer eine softwareperformance verwenden, deswegen mein kompromissvorschlag eines weiteren einordnenden halbsatzes. (strikt waere dieser absatz komplett weg) 95.114.197.33 23:49, 2. Dez. 2010 (CET)
performant
Der Artikel wimmelt von TechSpeak. Das ist vertraut für Insider, aber er sollte verständlich für Laien sein. Dieses "performant" - heisst das "leistugsfähig" oder ist da noch etwas anderes drin? Wie unterscheidet sich "verfügbar" von "hochverfügbar"? Geezernil nisi bene 10:07, 1. Dez. 2010 (CET)
- Performant heisst auf nicht-IT Deutsch leistungsfähig, wobei die Leistung in geforderte Fachlichkeiten pro Zeiteinheit gemeint ist. Da das Wort "leistungsfähig" auch noch viele andere Bedeutungen im Deutschen hat (siehe Leistung (Informatik)) wird in der IT üblicherweise das Wort "performant" vorgezogen (entspricht nur der unter "Geschwindigkeit" in Leistung (Informatik) aufgezählten Bedeutung). --> d.h. der TechSpeak ist hier mMn korrekter als das deutsche Wort.
- Verfügbar heisst in der IT eigentlich gar nichts (ausser, dass eine Software einsatzbereit ist). Hochverfügbar (siehe Hochverfügbarkeit) heisst, dass die Software 99,99% in ununterbrochenen Betrieb sein kann. --Sebastian.Dietrich ✉ 22:49, 1. Dez. 2010 (CET)
Defekter Weblink
Der Link in der Referenz ist nicht mehr auf Yahoo erreichbar: Owen O'Malley - Yahoo! Grid Computing Team: Apache Hadoop Wins Terabyte Sort Benchmark. Juli 2008. Abgerufen am 14. Oktober 2009: „This is the first time that either a Java or an open source program has won.“ (nicht signierter Beitrag von 194.25.30.14 (Diskussion) 10:03, 24. Aug. 2016 (CEST))
Carsten-Methode
Zitat: "Optimierung. Pig optimiert selbständig die Ausführung komplexer Operationen nach der Carsten-Methode."
Kein Link zur Carsten-Methode und auch Prof Google liefert da nichts wirklich brauchbares. Was soll das sein? Wenn nichts genaueres bekannt ist, dann verwirrt diese Aussage nur. (nicht signierter Beitrag von 193.28.61.1 (Diskussion) 10:25, 24. Aug. 2016 (CEST))
Trivia
Hadoop wird im Roman "Die sonderbare Buchhandlung des Mr. Penumbra" von Robin Sloan persifliert. --94.216.111.76 19:22, 20. Nov. 2021 (CET)