Diskussion:Webcrawler
Das Wort "Indexierung"
Heißt es nicht korrekterweise "Indizierung"? Will aber nichts ändern, weil es verlinkt ist.
~~__Würde dem zustimmen.
- Es gibt Indexierung und Indizierung. In diesem Fall ist mMn Indexierung gemeint. --Doc ζ 08:49, 24. Jun. 2008 (CEST)
- Das ist nicht ganz richtig. In dem Fall ist das computergestützte Indexierung, und das ist dann wiederumg Indizierung. --Mullinger 07:30, 21. Jan. 2009 (CET)
Crawl-Abstände
Was ist mit Werten für die Abstände in denen Crawler über Seiten laufen? Es gibt leider keinen Standard, aber viele Schätzungen, die der gleichen Meinung sind.
- Die Abstände mit der Webseiten gecrawlt werden sind sehr unterschiedlich und von vielen Parametern abhängig, wie z.B. dem jeweiligen Crawler (Google, Yahoo etc.) der Frequenz mit der die Seite geändert wird, die Anzahl der Backlinks u.s.w. Eine Angabe wird deshalb schwierig werden. --Doc ζ 08:49, 24. Jun. 2008 (CEST)
Ergänzung wünschenswert: Crawler-Liste
Was ich in diesem Artikel vermisse ist eine Liste der bekannten Crawler, idealerweise mit Erkenntnissen zu deren Absichten. Das wäre eine ganz große Entscheidungshilfe für das Aussperren bestimmter Crawler! (Der vorstehende, nicht signierte Beitrag – siehe dazu Hilfe:Signatur – stammt von 92.204.26.188 (Diskussion • Beiträge) 12:09, 20. Jan. 2009)
- Das sehe ich nicht so - dafür gibt es einschlägige Webseiten, die Wikipedia sollte hier keine detaillierte Liste aufführen. --91.2.40.224 06:56, 21. Jan. 2009 (CET) der IP-Beitrag stammt von --Mullinger 06:57, 21. Jan. 2009 (CET)
- Bedauerlich. Wikipedia sollte doch den Menschen durch möglichst umfassende Information weiterhelfen, die gerne auch einen praktischen Nutzen haben darf. 30. Januar 2009, 22:14 Uhr 92.204.113.126
- "dafür gibt es einschlägige Webseiten" ist in keiner Weise ein Argument gegen die Aufnahme von Informationen in die Wikipedia. Das ist kein Relevanzkriterium. Im Gegenteil: Wenn eine Webseite "einschlägig" ist, dann wäre das ein gutes Argument sie als Quelle heranzuziehen, angefangen damit, dass man sie als weblink am Ende des Artikels aufführt. Die pure Behauptung von "einschlägigen" Seiten ohne eine konkrete Angabe zu machen, ist nichts als heiße Luft. Das hilft niemandem. Wir haben in der Wikipedia eine sehr große Zahl von Artikeln, die einfach nur Listen sind und die als hilfreich und relevant gelten. Es gibt sogar eine Kategorie für Listen von Listen ;-) --Manorainjan (Diskussion) 21:09, 29. Jun. 2016 (CEST)
- Diese Liste darf gerne hinzugefügt werden! --Soluvo (Diskussion) 09:02, 8. Jul. 2016 (CEST)
Google Sitemap Generator
ist damit der Webcrawler obsolet? [1] [2] Mit der Software sendet der Webserver Änderungen und neue Seiten an Suchmaschinen. -- Cherubino 03:05, 26. Jan. 2009 (CET)
- Nein, es hilft den Suchmaschinen (und damit dem Webcrawler) nur die vorhandenen Seiten besser zu finden und zu aktualisieren. --Doc ζ 08:35, 26. Jan. 2009 (CET)
Verallgemeinerung
Wir haben noch keinen Artikel zum übergeordneten Lemma Crawler und ich denke es wird hier nicht sehr viel wichtiges spezifisch zu Webcrawlern gesagt, was nicht unter dem Lemma Crawler gut aufgehoben wäre, hingegen gibt es durchaus erwähnenswertes über Crawler-Bots zu sagen, die nicht unbedingt im Web unterwegs sind.
Daher würde ich diesen Artikel gerne erstmal nach Crawler verschieben und dazu leicht anpassen.--Wondigoma 10:00, 8. Okt. 2009 (CEST)
- Wenn es etwas zu sagen gibt, dass nicht in Webcrawler oder Bot enthalten ist, dann kann man einen entsprechenden Artikel Crawler neu anlegen. Verschieben sollte man diesen Artikel jedenfalls nicht. --79.222.129.109 10:32, 8. Okt. 2009 (CEST)
Auffinden von Stadtplänen
Ein weiterer Verwendungszweck von Webcrawlern ist das Auffinden von urheberrechtlich geschützten Stadtplänen im Internet.
Das scheint mir eine eher seltene Spezialanwendung von Crawlern zu sein. Ist das wirklich relevant für das Thema Webcrawler? Wenn ja, dann sollte das zumindest irgendwie belegt werden. --Johannes Koch 22:18, 13. Mai 2010 (CEST)
Referenz 1 404
die pdf datei auf der in referenz 1 (webcrawler 40% des traffics) gewiesen wird, gibt es nicht mehr. Ich hab auch auf google auf den ersten blick nichts neues passendes gefunden, es wird oft angemerkt, dass der verursachte traffic (zu) hoch ist. -- 84.139.114.144 19:19, 30. Jul. 2011 (CEST)
Defekter Weblink
– GiftBot (Diskussion) 21:20, 8. Okt. 2012 (CEST)
Das ganze WWW?
"Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden". Eigentlich doch nur verlinkte Seiten, oder? Also besser "Auf diese Weise können theoretisch alle verlinkten Seiten des WWW gefunden werden" ? --85.181.21.81 14:07, 30. Mai 2013 (CEST)
- Danke, ich hab's mal geändert. --Doc ζ 16:50, 30. Mai 2013 (CEST)