Habe heute Nachmittag bis auf /forum/* die komplette CC-domain nach toten Links gescannt:
Getestet wurden insgesamt 222073, wovon 3939 gar nicht oder nur mit Fehlern aufgelöst werden konnten (~1,77%). Es gibt noch eine technisch bedingte Dunkelziffer von Referenzen, die nicht erfasst werden konnten, etwa 2000. Grob geschätzt bleiben damit 30 nicht funktionierende Links, die nicht im Ergebnis enthalten sind.
Von den 3939 führen 3762 zu einem 404-Fehler (~95,5%)
Insbesondere Fehlermeldungen wie BadStatusLine: '' (die Anführungszeichen sind Teil der Meldung) haben damit zu tun, dass die erhaltene Antwort vom verwendeten Crawler nicht verstanden wurde, was aber nicht zwangsläufig bedeutet, dass z.B. ein Browser sie auch nicht versteht. Die entsprechenden Einträge müssen daher händisch überprüft werden. Sollte sich hinter einem solchen BadStatusLine- oder auch Internal-Error-Link eine Quelle mit weiteren Verweisen finden und sollten sie nur über genau diese Seite erreichbar sein, wurden sie, da der Vorgang i.d.R. rekursiv erfolgt, nicht maschinell ausgelesen (die besagte Dunkelziffer). Das Problem tritt glücklicherweise häufiger bei Bildern und Videos auf, wo es keinen Einfluss auf den weiteren Suchvorgang hat.
Bemerkenswerterweise gilt auch für den Endstand die 80/20-Regel: 20% der Ressourcen verursachen 80% der toten Links. Bespielsweise teilen sich die Top-20 der nicht erreichbaren Seiten 2549 Verweise. Das alleine sind bereitsfast 65%. Ich nehme an, es ist klar, wohin man seine Bemühungen verlagern sollte...
Die Ergebnisse sind der Übersichtlichkeit halber aufgeteilt worden: Alle 404-Fehler gibt es unter
http://nopaste.dk/p5791Alle Nich-404-Fehler dagegen unter
http://nopaste.dk/p5790 und das angesprochene Ranking der Ressourcen kann man hier finden:
http://nopaste.dk/p5792
Alles, was du sagst sollte wahr sein, doch nicht alles, was wahr ist, solltest du auch sagen...