Problemfälle

1. Einführung

Die Crawler in eurem Knowledge Hub helfen dabei, Informationen aus verschiedenen Quellen wie Webseiten, PDFs und Textdokumenten automatisiert zu sammeln. Dabei gibt es jedoch Grenzen, was die Verarbeitung bestimmter Inhalte und URLs angeht. Diese Dokumentation zeigt auf, welche Faktoren und technischen Einschränkungen zu beachten sind, damit der Crawler optimal konfiguriert werden kann.


2. Inhalte, die nicht verarbeitet werden können

2.1. Geschützte Bereiche

Inhalte, die hinter einer Passwortabfrage liegen (z. B. Login-Bereiche), können ohne zusätzliche Authentifizierung nicht erfasst werden.

Beispiele:

  • Admin-Bereiche

  • Benutzerkonten

2.2. CAPTCHA-geschützte Seiten

Webseiten mit einem CAPTCHA verhindern, dass der Crawler automatisiert darauf zugreift.

2.3. Ungewöhnliche HTML-Strukturen

Seiten, die sich nicht an gängige Webstandards halten, bereiten dem Crawler Probleme, insbesondere:

  • Inhalte, die in verschachtelten Frames (iframes) eingebettet sind.

2.4. Tabellen, Bilder und Grafiken

Tabellen

  • Komplexe Tabellenlayouts können fehlerhaft oder unvollständig interpretiert werden.

  • Daten aus verschachtelten oder dynamisch generierten Tabellen werden oft nicht korrekt erfasst.

Bilder und Grafiken

  • Bildinhalte werden in der Regel nicht extrahiert, da sich der Crawler auf Textdaten konzentriert.

  • Informationen wie Bildunterschriften oder Alt-Texte können fehlen, wenn sie nicht im HTML-Text hinterlegt sind.


3. URL-Beschränkungen

3.1. Begrenzte Unterstützung für Sitemaps

URLs, die nicht in einer standardisierten XML-Sitemap enthalten sind, können möglicherweise nicht gefunden werden.

3.2. Defekte oder ungültige Links

Fehlerhafte Links (z. B. 404-Seiten) können nicht verarbeitet werden.


4. Technologische Grenzen

4.1. Dateiformat-Beschränkungen

  • Inhalte in proprietären oder veralteten Formaten (z. B. ältere WordPerfect-Dokumente) sind problematisch.

  • PDFs mit gesperrtem Text oder gescannten Bildern können nicht verarbeitet werden.

4.2. Sprach- und Zeichensatzprobleme

Nicht unterstützte Sprachen oder Sonderzeichen können die Verarbeitung blockieren.

4.3. API-Beschränkungen

Daten, die ausschließlich über APIs verfügbar sind, können nur verarbeitet werden, wenn die API dafür freigegeben ist.


5. Sicherheits- und Datenschutzvorgaben

  • Rechtlich geschützte Inhalte (z. B. urheberrechtlich geschützte Werke) dürfen nicht automatisch verarbeitet werden.

  • Kunden- oder personenbezogene Daten sind von der automatisierten Verarbeitung ausgeschlossen.


6. Empfehlungen

6.1. Optimierung der Quellen

  • Stellt sicher, dass relevante URLs leicht zugänglich und in einer XML-Sitemap aufgelistet sind.

  • Für strukturierte oder geschützte Datenquellen sollte auf APIs zurückgegriffen werden.

6.2. Zusammenarbeit mit Webseitenbetreibern

  • Klärt ab, ob der Crawler Zugriff auf geschützte Bereiche erhalten darf.

6.3. Pflege und Wartung

  • Aktualisiert regelmäßig die URL-Listen und überprüft die erfassten Daten auf Richtigkeit.

Zuletzt aktualisiert

War das hilfreich?