Problemfälle
1. Einführung
Die Crawler in eurem Knowledge Hub helfen dabei, Informationen aus verschiedenen Quellen wie Webseiten, PDFs und Textdokumenten automatisiert zu sammeln. Dabei gibt es jedoch Grenzen, was die Verarbeitung bestimmter Inhalte und URLs angeht. Diese Dokumentation zeigt auf, welche Faktoren und technischen Einschränkungen zu beachten sind, damit der Crawler optimal konfiguriert werden kann.
2. Inhalte, die nicht verarbeitet werden können
2.1. Geschützte Bereiche
Inhalte, die hinter einer Passwortabfrage liegen (z. B. Login-Bereiche), können ohne zusätzliche Authentifizierung nicht erfasst werden.
Beispiele:
Admin-Bereiche
Benutzerkonten
2.2. CAPTCHA-geschützte Seiten
Webseiten mit einem CAPTCHA verhindern, dass der Crawler automatisiert darauf zugreift.
2.3. Ungewöhnliche HTML-Strukturen
Seiten, die sich nicht an gängige Webstandards halten, bereiten dem Crawler Probleme, insbesondere:
Inhalte, die in verschachtelten Frames (iframes) eingebettet sind.
2.4. Tabellen, Bilder und Grafiken
Tabellen
Komplexe Tabellenlayouts können fehlerhaft oder unvollständig interpretiert werden.
Daten aus verschachtelten oder dynamisch generierten Tabellen werden oft nicht korrekt erfasst.
Bilder und Grafiken
Bildinhalte werden in der Regel nicht extrahiert, da sich der Crawler auf Textdaten konzentriert.
Informationen wie Bildunterschriften oder Alt-Texte können fehlen, wenn sie nicht im HTML-Text hinterlegt sind.
3. URL-Beschränkungen
3.1. Begrenzte Unterstützung für Sitemaps
URLs, die nicht in einer standardisierten XML-Sitemap enthalten sind, können möglicherweise nicht gefunden werden.
3.2. Defekte oder ungültige Links
Fehlerhafte Links (z. B. 404-Seiten) können nicht verarbeitet werden.
4. Technologische Grenzen
4.1. Dateiformat-Beschränkungen
Inhalte in proprietären oder veralteten Formaten (z. B. ältere WordPerfect-Dokumente) sind problematisch.
PDFs mit gesperrtem Text oder gescannten Bildern können nicht verarbeitet werden.
4.2. Sprach- und Zeichensatzprobleme
Nicht unterstützte Sprachen oder Sonderzeichen können die Verarbeitung blockieren.
4.3. API-Beschränkungen
Daten, die ausschließlich über APIs verfügbar sind, können nur verarbeitet werden, wenn die API dafür freigegeben ist.
5. Sicherheits- und Datenschutzvorgaben
Rechtlich geschützte Inhalte (z. B. urheberrechtlich geschützte Werke) dürfen nicht automatisch verarbeitet werden.
Kunden- oder personenbezogene Daten sind von der automatisierten Verarbeitung ausgeschlossen.
6. Empfehlungen
6.1. Optimierung der Quellen
Stellt sicher, dass relevante URLs leicht zugänglich und in einer XML-Sitemap aufgelistet sind.
Für strukturierte oder geschützte Datenquellen sollte auf APIs zurückgegriffen werden.
6.2. Zusammenarbeit mit Webseitenbetreibern
Klärt ab, ob der Crawler Zugriff auf geschützte Bereiche erhalten darf.
6.3. Pflege und Wartung
Aktualisiert regelmäßig die URL-Listen und überprüft die erfassten Daten auf Richtigkeit.
Zuletzt aktualisiert
War das hilfreich?
