Diskussion:Internet Archive/Archiv/001

aus Wikipedia, der freien Enzyklopädie

FBI + National Security Letter

Vielleicht mag das wer einarbeiten. [1] --141.84.69.20 12:14, 9. Mai 2008 (CEST)

robots.txt

Zitat Artikel: "Problematisch an der Wayback Machine ist einerseits, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahre der Öffentlichkeit zugänglich gemacht. Dies lässt sich jedoch durch eine entsprechende robots.txt-Datei[6] im Stammverzeichnis der Domain beheben."

Das geht nur im voraus, nicht nachträglich. Oder wie soll ich meiner robots.txt nahebringen, einen Inhalt auf archive.org nicht zu zeigen, nur weil ich ihn nicht mehr vertreten will? --Air Check One 21:47, 3. Mär. 2011 (CET)

Brand und Spendenaufruf

Klick. --Gabbahead. (Diskussion) 10:44, 16. Dez. 2013 (CET)

Archive-It

Gehört auch zum Internet Archive. Siehe engl. Wikipedia. Danke fürs Ergänzen. --KurtR (Diskussion) 21:21, 22. Jan. 2014 (CET)

dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten....

Ich finde, da wird etwas zu einem Problem gemacht, das eigentlich gar keines ist: Jedes Zeitungsarchiv hat Artikel gespeichert, die für jemanden unangenehm sind. Jede Bibliothek hat Bücher, für die sich der Auto geniert, jeder Fernsehsender hat diese Dokumente. Warum ist es dann ein besonderes oder anderes Problem, wenn das mit Internettechnologie geschieht? --Peter2 (Diskussion) 09:13, 1. Mai 2014 (CEST)

Kritik, Rechtslage und Schwächen

Originaltext

Originalautoren dieses Texts: siehe [2] --PM3 01:18, 15. Mai 2014 (CEST)

Durch die offizielle Anerkennung als Bibliothek in den Vereinigten Staaten ist das Internet Archive grundsätzlich berechtigt, Inhalte innerhalb der USA zu sammeln und auch innerhalb der USA öffentlich zugänglich zu machen. Inwiefern Inhalte von außerhalb der USA gesammelt und auch außerhalb der USA öffentlich zugänglich gemacht werden dürfen, hängt dagegen von der Urheberrechtslage der betroffenen Länder ab.

Die Wayback Machine berücksichtigt Opt-out-Markierungen von Webseiten oder entfernt sie auf Wunsch der Rechteinhaber aus dem Archiv. So lässt sich durch einen entsprechenden Eintrag in der robots.txt-Datei[1] im Stammverzeichnis der Domain das Crawlen von Webseiten und die Anzeige von Archivinhalten durch die Wayback Machine sperren. Diese Opt-out-Vorgehensweise ist in vielen Ländern, und höchstwahrscheinlich auch nach europäischem und deutschem Urheberrecht, unzulässig. Allerdings können nur Inhalte von noch existierenden Webservern gesperrt werden, da auf nicht mehr existierenden Webservern keine robots.txt-Datei platziert werden kann. Andersherum kommt es vor, dass Webseiten später wieder durch einen anderen Besitzer registriert werden, welcher eine robot.txt setzt und damit unwissentlich den Zugriff auf die vorherigen Inhalte sperrt, obwohl kein Zusammenhang zwischen den beiden Besitzern besteht.

Problematisch an der Wayback Machine ist, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahrzehnte der Öffentlichkeit zugänglich gemacht. Sofern diese Vorfälle auf dem eigenen Webserver passiert sind, ist eine nachträgliche Sperrung/Löschung in der Wayback Machine mittels robots.txt-Datei möglich. Da in Zeiten des Web 2.0 Inhalte aber häufig auch in öffentlichen Foren und/oder Sozialen Netzwerken veröffentlicht werden, wo Autoren keine robots.txt platzieren können, besteht meist kaum eine Möglichkeit, diese Inhalte aus der Wayback Machine löschen zu lassen.

Eine weitere Schwäche der Wayback Machine besteht in der zeitlich stark verzögerten, sehr unregelmäßigen und oft unvollständigen Speicherung der Daten. So werden Grafiken, Multimedia-Elemente und dynamische Inhalte oft nur in geringem Umfang oder gar nicht gespeichert. Dadurch funktionieren manche der archivierten Webseiten nicht mehr oder entscheidende Inhalte, die zum vollständigen Verständnis notwendig sind, fehlen.

Die Wayback Machine bietet zudem keine Verknüpfungsmöglichkeiten von Webinhalten, die im Laufe der Jahre zwischen oder innerhalb von Webservern umgezogen sind. Schon kleinste Änderungen im URL einer Webseite führen dazu, dass die vorherige Version einer Webseite nur noch gefunden werden kann, wenn der Suchende von dem Umzug bzw. der URL-Änderung weiß.

  1. Internet Archive, abgerufen am 14. August 2012

Diskussion

Ich habe die seit nunmehr fast zwei Jahren unbelegte und relativ überdimensionierte Kritik hier geparkt. Es entsteht der Eindruck eines unseriösen Katastrophenprojekts, ohne dass das fundiert dargestellt wäre. Unseriös ist in diesem Fall die womöglich subjektive Kritik, die im Wesentlichen von nur einem Autor stammt. --PM3 00:52, 15. Mai 2014 (CEST)

Noch ein Denkanstoß zum Thema Urheberrecht usw.: Werke aus anderen Ländern sammmeln und beliebig weiterveröffentlichen, obwohl das in den jeweiligen Ländern gegen Urheberrechte verstößt, tut auch die Wikipedia. Da steht dann z.B. dieser Baustein drin. Entsprechendes gilt für das Archivieren von (übernommenen) "Inhalten, die die Autoren nicht mehr vertreten." Das macht es nicht "besser" - in Kritik an der Wikipedia ist auch noch viel Platz. Aber vielleicht hilft es, solche Praktiken besser zu verstehen und einzuordnen. --PM3 03:50, 15. Mai 2014 (CEST)

Ich habe auch den Eindruck, dass es sich bei dem Abschnitt hauptsächlich um Theoriefindung / Theorieetablierung bzw persönliche Meinung des Autors handelt. Besonders die Aussage "Problematisch an der Wayback Machine ist, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahrzehnte der Öffentlichkeit zugänglich gemacht" ist seit Erfindung der Schrift Usus, damit muss ein Autor leben, dass seine Verlautbarungen egal ob auf Papier oder digitalisiert einmal unters Volk gebracht, bis ans Ende aller Tage erhalten bleiben.
Und die technischen Unzulänglichkeiten werden sich, wie bei jeder anderen technischen Entwicklung auch, nach und nach verbessern. So ist als Beispiel ein Auto heutzutage besser, als eines von vor 10 Jahren und ein Auto in 10 Jahren wird besser sein als eines heutzutage. So etwas bedarf keiner expliziten Erwähnung unter der Überschrift Kritik --Bestoernesto (Diskussion) 02:27, 24. Mär. 2015 (CET)
Das tun im Prinzip auch Bibliotheken. Die sammeln auch Werke von Autoren und zwar nach dem Recht des Staates, in dem die Bibliothek betrieben wird. Nicht nach dem Herkunftsland der Autoren.77.11.165.142 21:15, 8. Nov. 2014 (CET)

Ich empfehle meinen Hinweis unten (Kritikloser Artikel) auf den Springer-Verlag. Sie können das jederzeit auf Archive.org selbst nachprüfen! Wer das nicht als Verstoß gegen Urheberrechte erkennt, dem ist nicht mehr zu helfen. Das Internet ist kein rechtsfreier Raum (Aber nur, solange keine amerikanische Rechte verletzt werden).

Internet Archive ignoriert künftig robots.txt

heise.de: [3]. --KurtR (Diskussion) 03:45, 20. Mai 2017 (CEST)

Praktisch scheint das Gegenteil richtig. Zunehmend findet sich (auch bei harmlosen Seiten) die Meldung: “Sorry. This URL has been excluded from the Wayback Machine.” Selbst wenn robots-Einträge ignoriert würden, Requests werden es nicht, so dass dennoch rückwirkend Vieles nicht mehr angezeigt wird. z.B. [4]. --89.204.130.206 21:30, 6. Dez. 2017 (CET)
...das hat häufig mit "URV" zu tun. durch abmahnanwälte sind user gezwungen auch alle relevanten suchmaschinen-caches und archive-seiten löschen zu lassen (um keine kostenintensive folgeabmahnung wg bruch der unterlassungserklärung zu riskieren)... (nicht signierter Beitrag von 2.247.249.153 (Diskussion) 05:49, 7. Dez. 2017 (CET))

Anteil vom Gesamt-Internet? , Seiten vorschlagbar?

Wie gross ist das (Internet)Archiv gemessen am Gesamt-Internet schätzungsweise z.B. in Gigabyte, Domains, URLs ? Kann man selbst bewirken das eine bestimmte Seite/URL archiviert wird ? --Bugert 16:20, 10. Jun. 2007 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 06:55, 22. Apr. 2019 (CEST)

Internetarchiv Alexandria (offizielle Spiegelung)

sieht irgendwie tot aus. --217.84.31.55 00:00, 17. Sep. 2007 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 07:49, 22. Apr. 2019 (CEST)

Webseiten aus dem Archiv entfernen

Zu dem Absatz:

"Problematisch an der Wayback Machine ist, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahre der Öffentlichkeit zugänglich gemacht."

hier eine Zusatzinfo: Durch Einfügen der folgenden Zeilen in die Datei robots.txt, die (dauerhaft) im Wurzelverzeichnis der Website liegen muß, können Seiten aus dem Archiv entfernt werden:

User-agent: ia_archiver

Disallow: /

(Quelle)

--StefanB 22:37, 20. Sep. 2007 (CEST) Wenn die robots.txt gelöscht wird sind alle Inhalte wieder zusehen!

Das halte ich für ein Gerücht. Das Archiv speichert Momentaufnahmen auf den eigenen Servern. Wenn man eine robots.txt auf seinem Webspace platziert, werden entsprechende Sites nicht mehr gecrawlt, im Speicher vom Archiv sind sie aber trotzdem noch. Das stimmt so nicht. --Julian Rabe 22:43, 5. Apr. 2008 (CEST)
Warum sollte das denn ein Problem sein? Das wäre doch auch die einfachste Lösung für die Internet-Archive-Betreiber. Die können doch nicht jeden Lösch-Request manuell bearbeiten. Im übrigen kann man das auch nochmal auf arrchive.org selbst nachlesen. — Falk  Palaver … 22:35, 26. Jul. 2010 (CEST) Sig selbst nachgetragen
Der obige Eintrag in der robots.txt funktioniert tatsächlich! (Selbst mehrfach getestet.)
Nach Anlegen eines solchen Eintrags werden die Inhalte tatsächlich nicht mehr angezeigt und zukünftig auch nicht mehr gecrawlt. Was aber mit den alten, bereits früher archivierten, Inhalten passiert ist mir schleierhaft. - Nach Aussage auf der Wayback-Webseite werden durch diesen Eintrag auch Altinhalte aus dem Archiv gelöscht. (Ich habe aber den obigen Eintrag schon seit über einem Jahr in der robots.txt mehrerer meiner Webserver und nach Entfernung des Eintrags werden die Altinhalte sofort wieder angezeigt.) Also scheinbar dauert das mit dem Löschen auch etwas länger...
Das robots.txt-Verfahren funktioniert zudem nur bei Webservern bei denen man die Möglichkeit hat eine solche Datei anzulegen. Also z.B. nicht bei öffentlichen Webforen, Sozialen Netzwerken und ähnlichem. Und auch wenn der Webserver gar nicht mehr existiert oder sich die Domain im Laufe der Jahre verändert hat (man also auch keine robots.txt mehr anlegen kann) ist das keine Lösung.--Navigate1972 (Diskussion) 18:58, 14. Aug. 2012 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 07:52, 22. Apr. 2019 (CEST)

Speichermedien?

ja gottle, schon wieder mal: eine ganz wichtige und interessante Frage ist hier nicht beantwortet: Auf welchen Speichermedien wird denn gespeichert? Festplatten? Magnetbänder? ...? Ja, das sollte man schon wissen. --Itu 02:46, 17. Mär. 2009 (CET)

Jaha, dann recherchier’s halt. — Falk  Palaver … 22:34, 26. Jul. 2010 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 07:54, 22. Apr. 2019 (CEST)

Weitere Projekte

archive.org arbeitet wohl an folgenden Archiven mit:

Ich bin aber nicht so tief eingestiegen, um dazu etwas in den Artikel zu schreiben. Die Katrina-site scheint nicht so recht zu funktionieren. --AHert 12:43, 27. Aug. 2009 (CEST)

Keiner dieser beknackten Links funktioniert. --91.62.131.70 15:28, 17. Okt. 2009 (CEST)
Vom Ersteller wohl falsch hier eingefügt, www entfernen und die Links funktionieren ;-) :-) MfG PeterJJ--@--93.223.219.46 22:41, 6. Nov. 2009 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 07:55, 22. Apr. 2019 (CEST)

Quelle

...habe für diesen Edit um eine Quelle gebeten. Nun wurde http://web.archive.org/web/ angegeben... da steht aber nicht: seit Mitte 2008 werden keine neu archivierten Webseiten mehr zugänglich gemacht. Weiß jemand näheres dazu? Gruß, --Wissling 10:16, 26. Mär. 2010 (CET)

Es ist eine simple u. für jeden mit Zugriff auf das Web bzw. archive.org leicht nachvollziehbare Feststellung u.(bis zur Erbringung eines Gegenbeweises) so gültig. --178.25.129.84 18:15, 26. Aug. 2010 (CEST)
Verstehe, Du weißt also auch nix näheres dazu. --Wissling 19:05, 26. Aug. 2010 (CEST)

Nach wenigstens zwei jähriger Verzögerung? gibt es ein öffentliches offizielles Statement:

Im Blog des teams

Did you know the team behind the Wayback Machine has a blog?

gibts die Quelle: Updated Wayback Machine in Beta Testing

The classic Wayback Machine [...] may not receive any further index updates.
(It received its last major update in 2008, with only small piecemeal updates since.)

Surf the web as it was - BETA version!

en:Wayback Machine --91.34.143.156 17:34, 10. Feb. 2011 (CET)

Quelle (2)

... "Der Gesamtumfang beträgt etwa 150 Milliarden Seiten (Stand: November 2009)" diese Aussage scheint frei erfunden und es ist auch keine Quelle angegeben. (nicht signierter Beitrag von 85.216.68.7 (Diskussion) 13:49, 14. Nov. 2010 (CET))

Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 07:58, 22. Apr. 2019 (CEST)

Konzertmitschnitte, Torrents und deutsches Recht

Hallo, ich finde, dass der Artikel sich sehr einseitig mit der Wayback-Funktion beschäftigt, die ja nur ein Teil des Angebotes von Archive.org ausmacht. Insbesondere würde mich interessieren, wie die rechtliche Lage der Konzertmitschnitte in Deutschland geregelt ist. Mir ist bewusst, dass Künstler wie z.B. Jason Mraz Konzertmitschnitte auf ihren eigenen Konzerten erlauben, solange es sich nicht um professionelle Mitschnitte handelt. Viele dieser Mitschnitte sind auf Archive.org zu finden und können u.A. mittels Torrent runtergeladen werden. Dadurch werde ich jedoch auch automatisch zum Verteiler dieser aktuellen Musik. Ich kann mir vorstellen, dass dies zu Reibereien mit der GEMA führen kann. Kann mir jemand mit juristischem Fachwissen weiterhelfen und einen entsprechenden Abschnitt in den Artikel einbauen? - - 92.224.212.213 11:59, 13. Okt. 2012 (CEST)

Ich darf hierzu auf meinen Beitrag (unten) verweisen: "Kritikloser Artikel"! Archiv.org verstößt gegen deutsches Urheberrecht.

Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 08:01, 22. Apr. 2019 (CEST)

Belege fehlen

Das hört sich mehr nach Essay an als nach Fakten für eine Enzyklopädie. 87.78.30.153 11:32, 18. Mär. 2014 (CET)

Dem stimme ich zu! (nicht signierter Beitrag von 87.164.235.140 (Diskussion) 08:24, 7. Mai 2018 (CET))
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 08:06, 22. Apr. 2019 (CEST)

Spieleprüfung

Man sollte vielleicht mal erwähnen das seitens Internet Archive keine nachvollziehbare Prüfung stattfindet, welcher Titel Abandonware ist. Derzeit wird es so geregelt man lädt den Kram hoch und hofft das sich kein Rechteinhaber meldet. Auch wenn Origin und ID-Software nicht mehr als eigenständig existieren, sind deren Spiele noch geschützt. --188.96.105.170 19:08, 20. Dez. 2015 (CET)

Die Online-Präsentation zwecks Bespielung deckt die gesetzl. Lage im Übrigen auch nicht ab.--188.96.105.170 19:10, 20. Dez. 2015 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 08:12, 22. Apr. 2019 (CEST)

offline

Die Seite scheint seit November offline ("Fehlercode: SEC_ERROR_OCSP_OLD_RESPONSE"). --2.247.255.182 19:41, 6. Nov. 2018 (CET)

Funktioniert bei mir ohne Probleme, muss also bei Dir liegen. https://archive.org/. --KurtR (Diskussion) 20:02, 6. Nov. 2018 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: Ciao • Bestoernesto 08:07, 22. Apr. 2019 (CEST)