Wikiup Diskussion:Technik/Cloud

aus Wikipedia, der freien Enzyklopädie
< Wikiup Diskussion:Technik
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 6. April 2022 um 14:41 Uhr durch imported>PerfektesChaos(310926) (→‎Denial-Of-Service Alarm durch Crawler von IP aus der Wikimedia-Cloud: aw).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Denial-Of-Service Alarm durch Crawler von IP aus der Wikimedia-Cloud

Leider hat ein primitiver Crawler von einer IP aus der Wikimedia-Cloud (185.15.56.0 - 185.15.56.255) heute die DOS-Abwehr einer am Rechenzentrum der Universität Hamburg gehosteten Anwendung ausgelöst. Es ist ein typischer Anfängerfehler alle Artikel der Reihe nach mit maximaler Geschwindigkeit auslesen zu wollen, noch dazu mit einer "gefälschten" User Agent-Kennung in den Requests. Nach kurzer Zeit wurde die IP automatisch gesperrt. Falls eine dauerhafte Sperrung des IP-Bereichs für diese Anwendung (und ggf. andere) vermieden werden soll, rate ich dringend von der Verwendung solcher Brute-Foce Methoden ab. Falls die Inhalte einer Projekt-Website für Wikipedia verwendet werden sollen, wäre es IMHO wesentlich sinnvoller Kontakt zu den inhaltlich für das Projekt verantwortlichen aufzunehmen.
Leider habe ich keine Kontaktadresse gefunden, sodass ich hier eine Nachricht hinterlasse.

(nicht signierter Beitrag von 134.100.54.226 (Diskussion) 2022-04-05T17:41:07‎)

Das mag so sein.
Allerdings gibt es fast 1000 Konten für Cloud-Werkzeuge, über sie wir hier keinerlei Überblick haben. Abfragen nach Dokumenten der Universität Hamburg legt deutschsprachigen Betreiber nahe.
Der gefälschte User Agent wird eigentlich sogar gefordert, das Werkzeug soll sich mit Klarnamen und Kontaktadresse (Mail/Webseite) identifizieren.
Wir hier sammeln und produzieren allerdings nur deutschsprachige Dokus zu den Werkzeugen, oder erstellen sie erstmals anhand des beobachteten Verhaltens.
Die Diagnose „Anfängerfehler“ klingt stimmig. Wir haben allerdings weder Kenntnisse über die global tätigen Werkzeug-Entwickler noch irgendwelche Interventionsmöglichkeiten.
VG --PerfektesChaos 19:46, 5. Apr. 2022 (CEST)
Vielen Dank für die Antwort.
Es wäre aus meiner Sicht begrüßenswert, Personen, die automatisierte Webseitenabrufe programmieren, über die geltenden Standards in Kenntnis zu setzten, ebenso über die Folgen der Nichtbeachtung derselben. Der angesprochene Regelsatz wurde ergänzt, sodass gegebenenfalls der gesamte IP-Bereich (185.15.56.0 - 185.15.56.255) gesperrt wird, nicht nur die auslösende IP-Adresse.
Jeder Crawler (Spider, Bot, ...) sollte sich mit einem geeigneten User Agent identifizieren, siehe z.B. User Agent String - What webmasters want (webmasterworld.com). Wenn der User-agent eines gängigen Browsers für einen Crawler verwendet wird, wirft das kein gutes Licht auf den Betreiber des Crawlers. Im vorliegenden Fall wurde der User-agent einer Firefox-Version missbräuchlich verwendet.
Das automatische Auslesen von Personendaten ist eine IMHO eine zweifelhafte Vorgehensweise. Die korrekte Zuordnung der abgerufenen Daten durch den Automatismus kann nicht hinreichend sichergestellt werden, zudem entspricht das Vorgehen einem E-Mail-Harvester.
134.100.54.225 10:32, 6. Apr. 2022 (CEST)
  • Cloud-Aktivisten: Das sind größenordnungsmäßig 1000 Menschen, die größenordnungsmäßig 1000 Werkzeugkonten (nicht immer 1:1 zugeordnet) betreuen.
    • Viele sind Vollprofis, aber manche sind halt auch blutige Anfänger bei ersten Gehversuchen, überall auf dem Planeten.
  • User-Agent
    • Es gibt meta:User-Agent policy für Besucher von Wikimedia-Servern, und umgekehrt wollen wir von unseren Werkzeugen ebenfalls eine Deklaration konfiguriert sehen.
    • Also etwa Crawler XYZ (Wikimedia Cloud) https://XYZ.toolforge.org/issues
    • mw:Manual:Creating a bot #Bot best practices
    • Allerdings gibt es das Problem, dass manche Server unseren Crawlern etwa zur Prüfung der Erreichbarkeit von URL oder Größe von Ressourcen in kB nicht antworten, oder sich per 404 oder 503 totstellen, und einige unserer Bots gezwungen sind, sich mit Merkmalen eines handelsüblichen interaktiven Browsers zu dekorieren, jedoch in der Versionsbezeichnung ihre reale Identität preiszugeben.
  • Eine Beschwerdestelle für solche Vorkommnisse haben wir nicht.
    • Allerdings ein agiles Management, das ziemlich flott die Lizenz entzieht, wenn sie denn wüsste wem.
    • mw:Project:Support desk ist zwar nicht die zuständige Stelle, weil es kein Problem mit der MediaWiki-Software selbst gibt, aber die dortige audience wüsste vielleicht ein Procedere.
    • Wenn das fortbesteht, bräuchte man ein frisches Protokoll mit UTC-Sekunden und IP-Adressen, und das Server-Personal könnte dies abgleichen mit Nutzungen und dadurch den Tool-Account ermitteln. Wegen Datensparsamkeit und Begehrlichkeiten staatlicher Stellen auf dem Planeten gibt es die aber nur für wenige Tage zurück; danach werden die Logs gewiped.
VG --PerfektesChaos 16:41, 6. Apr. 2022 (CEST)