Crawler für Webseiten

Das Problem
Ihr Unternehmen benötigt Zugriff auf Webinhalte von externen Webseiten, sei es zum Aufbau von Wissensdatenbanken, zum Analysieren der Konkurrenz oder zur Informationsgewinnung und Auswertung, etwa mit Big Data Werkzeugen.
Das Ablaufen oder Crawlen von Inhalten im Internet ist eine anspruchsvolle Aufgabe, denn es gibt gleich mehrere Herausforderungen zu überwinden:
- Das stupide Crawling von Drittseiten ist ineffektiv und unvollständig.
- Zu viele Zugriffe von einem Server aus sorgen nicht selten dafür, dass die IP-Adresse des Servers zeitweilig oder gar dauerhaft gesperrt wird.
- Es werden zu viele (also auch irrelevante) oder zu wenige Links (Beispiel: Javascript-Logik) gefunden.
- Auch in Zeiten von schema.org sind Webinhalte an sich nicht strukturiert abgelegt.
- Die benötigten Informationen können nicht vollautomatisiert verstanden werden.
Die Lösung
Für anspruchsvolle Aufgaben bedarf es angepasster Tools, und genau diese bauen wir für Sie. Natürlich werden hierbei zahlreiche bewährte Routinen wieder verwendet, so dass das Kosten-Nutzen Verhältnis optimal ist. Unsere langjährige Erfahrung im Crawlen und Scrapen von Web Inhalten hält die Entwicklungsdauer für kundenorientierte und spezifische Software-Lösungen sehr gering.
Dank einer weit entwickelten Anwendungsarchitektur laufen unsere Crawler stabil und sind Fail Safe. Es ist sogar möglich, einige hundert Webseiten gleichzeitig zu crawlen. Dazu werden entsprechend viele Crawler-Instanzen auf einmal (also buchstäblich im gleichen Augenblick) erzeugt und laufen parallel los. Die Ergebnisse landen in einer hochperformanten Datenbank, so dass die eingelesenen Inhalte später ausgelesen und ausgewertet werden können. Unsere Crawler können sogar deutsche oder englische Texte verstehen, wenn entsprechende NLP-Module auf Kundenwunsch integriert werden.
Nützliche Features
Unsere Web Crawler bieten zahlreiche nützliche Features, so etwa die Unterstützung von Proxies. Sie als Kunde können entweder einen bereits vorhandenen Proxy-Service nutzen oder unsere Proxy-Technologie verwenden, die in der Lage ist, ständig neue Proxies zu verwenden, sobald eine bestehende Serververbindung von Server der ausgelesenen Website blockiert wurde.
Unter einem guten Crawler verstehen wir eine robuste Lösung, die nach einem Timeout, einem Stromausfall oder nach einem beabsichtigten Herunterfahren des Systems dort wieder ihre Arbeit aufnimmt, wo sie zuletzt dran war. Keine unnötigen Mehrdurchläufe und keine verlorenen Crawl-Ergebnisse.
Alle Ergebnisse, die beim Crawlen von Webinhalten anfallen, werden für gewöhnlich in einer Datenbank weggeschrieben. Dabei ist es egal, ob es sich um eine herkömmliche Datenbank wie MySQL handelt oder um ein NoSQL Derivat mit moderner Architektur. Aber auch das Beschicken einer API mit den Ergebnisse der Websuche ist möglich, ganz so, wie Sie es brauchen!
Content Quellen
Was auch immer ausgelesen werden soll, im Prinzip ist alles möglich, was legal ist. Die häufigste Form des Webcrawling ist das Auslesen von Google Suchergebnissen, sogenannten SERPs. Die Ergebnislisten von Google zu verstehen, ist ein Schlüssel zu mehr online Erfolg. Das beinhaltet offensichtlich auch das Abfragen von Ergebnissen zu relevanten Keywords für Ihr Business, und zwar täglich.
Denn jeden Tag nehmen große Suchmaschinen, zu denen auch Bing zählt, mehrere Anpassungen an Ihren Suchalgorithmen vor. Und auch die Konkurrenz schläft nicht und optimiert ihre Inhalte. Nur ein dauerhaftes, möglichst lückenloses Scannen der Trefferlisten zeigt, wo man selbst steht und wie sich die Performance der eigenen Webseite entwickelt.
Neben Google-Ergebnissen können auch Wissensseiten wie Wikipedia, Hotelverzeichnisse, Adresskarteien oder Seiten der Konkurrenz gecrawlt werden, um wertvolle Informationen zu erhalten. Wir leben im Informationszeitalter und das Sammeln von Massendaten ist oft ein notwendiger und hilfreicher Schritt zur Erkenntnis.
Umfassender Ansatz
Neben dem Erkennen und Einlesen von Links gehört auch das sogenannte Scrapen von Webinhalten zu unseren Kernkompetenzen. Unter Scraping versteht man das möglichst effektive und am besten fehlerfreie Identifizieren der Kerninhalte einer HTML-Seite, also der relevanten Textpassagen und Medien (Bilder, Videos, Dokumente). Seiteninhalte wie Menüs, Sidebars oder der Kopfbereich und der Fussbereich interessieren letztendlich meist nicht.
Das Reduzieren des eingelesenen HTML Contents auf das Wesentliche sorgt für höhere Bearbeitungsgeschwindigkeiten in nachgelagerten Prozessen und für einen schonenden Umgang mit Speichermedien. Viel wichtiger aber ist, dass es dann wesentlich leichter ist, die empfangenen Daten auch auszuwerten, denn sie sind bereits soweit von Ballast befreit wie möglich.
Unsere Software läuft mit Sicherheit auch auf Ihrem Serversystem, denn wir verwenden langjährig bewährte Branchenstandards, die nicht nur mit allen System kompatibel sind, sondern sich auch durch eine hohe Ausführungsgeschwindigkeit auszeichnen.
Praxisbeispiel: DSGVO-Tool für Webseiten
Sie können unseren Crawler online in Aktion sehen. Probieren Sie das Datenschutz-Tool für Webseiten jetzt aus.
Unsere Datenschutz-Software, die auf einem bewährten Crawler basiert, leistet folgendes:
- Webseite eingeben
- Start-Button drücken
- nach wenigen Sekunden die Datenschutz-Befunde zur Webseite sehen

Unsere Datenschutz-Software für Webseiten basiert zwar auf einem leistungsfähigen Crawler, enthält aber zahlreiche weitere Komponenten, um Webseiten DSGVO-konform zu machen. Dazu setzen wir Künstliche Intelligenz (KI) ein. Insbesondere ist der Crawler an Algorithmen zur Inhaltsanalyse und an eine Wissensdatenbank angebunden.
Nach unserer Kenntnis (Stand: 18.01.2020) ist under DSGVO-Tool für Webseiten das einzige, welches nicht nur fundiert Datenschutz-Probleme auf Webseiten findet, sondern zu den gefundenen Problemen auch Lösungen anbietet. Die Generierung einer Datenschutzerklärung ist dabei die leichteste Übung.
Lassen Sie Ihren Erfolg programmieren
Kontaktieren Sie uns, um mehr zu erfahren. Wir möchten Ihre Anforderung verstehen und machen Ihnen dann ein Angebot für eine maßgeschneiderte Lösung, die Ihrem Bedarf gerecht wird!