In unserem vorherigen Beitrag haben wir Ihnen gezeigt, wie Sie ein leistungsstarkes, kostenloses Tool zur Datenextraktion aus dem Web direkt in Google Sheets mit Apps Script erstellen können. Es war eine fantastische Lösung zur Automatisierung der Datenerfassung von einfachen Websites. Doch wie viele von Ihnen feststellten, ist das moderne Web komplex. Sobald Sie versuchen, Daten von einer dynamischen E-Commerce-Website oder einem durch Anti-Bot-Maßnahmen geschützten Portal zu extrahieren, stößt die Basislösung an ihre Grenzen.
Heute durchbrechen wir diese Grenze. Wir werden unser ursprüngliches Skript zu einem professionellen Datenextraktions-Tool aufrüsten, das die Herausforderungen des modernen Webs bewältigen kann, und dabei die Bequemlichkeit beibehalten, alles von Ihrem Google Sheet aus zu verwalten.
Inhaltsverzeichnis
- Warum scheitern einfache Datenextraktions-Tools? Die Herausforderung des modernen Webs
- Die Lösung: Bright Datas Web Unlocker
- Bright Data vs. Apify: Eine professionelle Perspektive
- Das aufgerüstete Skript: So funktioniert es
- So richten Sie das aufgerüstete Datenextraktions-Tool ein und nutzen es
- Der Quellcode
- Neue Geschäftsmöglichkeiten erschlossen
- Zusammenfassung: Warum dieses Upgrade ein Wendepunkt ist
Warum scheitern einfache Datenextraktions-Tools? Die Herausforderung des modernen Webs
Websites haben sich weiterentwickelt. Sie sind nicht mehr nur statische Seiten. Wenn ein einfaches Datenextraktions-Tool wie unser ursprüngliches scheitert, liegt es meist an einem dieser Gründe:
- JavaScript-gerenderte Inhalte: Viele Websites laden zuerst eine Basisseite und verwenden dann JavaScript, um die eigentlichen Inhalte (wie Preise oder Produktdetails) abzurufen und anzuzeigen. Googles
UrlFetchApp
sieht oft nur die anfängliche, leere Seite und übersieht die benötigten Daten. - Anti-Extraktions-Schutzmaßnahmen: Um Missbrauch zu verhindern und ihre Daten zu schützen, setzen Websites ausgeklügelte Abwehrmechanismen ein. Die häufigsten sind:
- IP-Sperrung: Wenn ein Server zu viele Anfragen von einer einzelnen IP-Adresse (wie Googles Servern) erkennt, wird er diese blockieren.
- CAPTCHAs: Diese „Ich bin kein Roboter“-Tests sollen automatisierte Skripte aufhalten.
- Browser-Fingerprinting: Websites können nach Anzeichen suchen, dass eine Anfrage von einem automatisierten Skript und nicht von einem echten Benutzerbrowser stammt.
Dieser Kampf allein ist ein ständiges, frustrierendes Katz-und-Maus-Spiel. Die Lösung ist die Nutzung eines spezialisierten Dienstes, der diese Probleme bereits gelöst hat.
Die Lösung: Bright Datas Web Unlocker
Hier kommt ein Dienst wie Bright Data ins Spiel. Bright Data ist eine führende Webdatenplattform, die die notwendige Infrastruktur für den zuverlässigen Zugriff auf öffentliche Webdaten bereitstellt. Anstatt eine direkte Anfrage von Google an die Zielwebsite zu senden, senden wir unsere Anfrage an Bright Data. Sie nutzen dann ihr riesiges Netzwerk von Proxys und ihre intelligente „Web Unlocker“-Technologie, um:
- Ihre Anfrage über eine echte private oder mobile IP-Adresse zu leiten, sodass sie wie die eines normalen Benutzers aussieht.
- CAPTCHAs automatisch zu lösen.
- Browser-Fingerprints und Cookies zu verwalten.
- Fehlgeschlagene Anfragen zu wiederholen, bis sie erfolgreich sind.
Im Wesentlichen kümmert sich Bright Data um alle komplexen Blockierungsprobleme und stellt sicher, dass Sie jedes Mal den sauberen HTML-Code erhalten, den Sie benötigen.
Bright Data vs. Apify: Eine professionelle Perspektive
Bei der Suche nach Datenextraktionslösungen wird oft Apify erwähnt. Es ist eine leistungsstarke Plattform mit einem Marktplatz von „Actors“ (vorgefertigten Datenextraktions-Tools), von denen viele von der Community entwickelt wurden. Das ist großartig, kann sich aber weniger zentralisiert anfühlen als ein Dienst wie Bright Data, den ich als professionelleren, auf Unternehmen ausgerichteten Dienst betrachte.
Beide Plattformen bieten maßgeschneiderte Tools, die spezifische Websites extrahieren und strukturierte JSON-Daten zurückgeben können. Für unseren universellen Ansatz verwenden wir jedoch Bright Datas „Web Unlocker“. Dies ist ein universelles Tool, das zuverlässig den vollständigen HTML-Inhalt von jeder URL zurückgibt und uns maximale Flexibilität bietet. Während Apify leistungsstarke Datenextraktions-Tools für spezifische Websites bietet, bietet es kein einziges, universelles Tool wie den Web Unlocker, das darauf ausgelegt ist, einfach den rohen HTML-Code von jeder URL zurückzugeben, unabhängig vom Schutz.
Meiner Meinung nach sind beide Dienste großartig, aber ich halte Bright Data für robuster und zuverlässiger bei geschäftskritischen Aufgaben. Ihr Preismodell ist auch einfacher. Apify verwendet ein Abonnementmodell, das auf „Plattform-Credits“ basiert, was die Kosten schwer vorhersehbar machen kann. Bright Datas Pay-As-You-Go-Plan kostet etwa 1,50 $ pro 1.000 erfolgreiche Anfragen. Diese Transparenz ist perfekt für unser Projekt, und aus Integrations- und Kostensicht glaube ich, dass Bright Data ein besseres Preis-Leistungs-Verhältnis bietet.
Herausragende Funktionen von Bright Data
- Geolocation-Targeting: Sie können Ihre Anfragen so erscheinen lassen, als kämen sie aus einem bestimmten Land, Bundesland oder sogar einer Stadt. Dies ist unerlässlich für die Extraktion lokalisierter Inhalte, wie z.B. regionale Preise, lokale Suchergebnisse oder die Verfügbarkeit in Geschäften.
- Extraktion als Markdown: Die API kann den extrahierten Inhalt direkt in einem sauberen Markdown-Format zurückgeben. Dies ist unglaublich leistungsstark, um Daten direkt in KI-Modelle einzuspeisen oder Dokumentationen zu erstellen, ohne zuerst komplexes HTML parsen zu müssen.
- Screenshot zurückgeben: Sie können einen visuellen Screenshot der Zielseite anfordern. Dies ist von unschätzbarem Wert für die visuelle Überprüfung, die Archivierung des Aussehens einer Seite zu einem bestimmten Zeitpunkt oder die Fehlersuche bei Problemen, bei denen das Layout die Daten beeinflusst.
- Benutzerdefinierte Cookies und Header: Die API ermöglicht es Ihnen, Ihre eigenen benutzerdefinierten Header und Cookies mit einer Anfrage zu senden. Dies ist eine erweiterte Funktion, um eine eingeloggte Benutzersitzung oder einen bestimmten Browsertyp nachzuahmen, um auf Daten zuzugreifen, die eine Authentifizierung oder bestimmte Browsereinstellungen erfordern.
Das aufgerüstete Skript: So funktioniert es
Die Entwicklung unseres Skripts geht weit über den Austausch eines API-Aufrufs hinaus. Wir haben es in ein viel allgemeineres und professionelleres Tool verwandelt.
- Eine vollständige Workflow-Verbesserung: Während der Austausch von
UrlFetchApp
durch Bright Data die zentrale Änderung zur Handhabung geschützter Websites war, haben wir den gesamten Workflow verbessert. - Datenextraktion direkt aus Sheets gestartet: Das Skript ist jetzt ein gebundenes Skript, was bedeutet, dass es direkt an Ihr Google Sheet angehängt ist. Wir haben einen benutzerdefinierten Menüpunkt hinzugefügt, der es Ihnen ermöglicht, den gesamten Prozess mit einem einzigen Klick auszulösen, was die Benutzererfahrung erheblich vereinfacht.
- Beliebigen Text extrahieren, nicht nur Preise: Wir haben die gesamte preisspezifische Logik entfernt. Das Skript ist jetzt vollständig generisch und in der Lage, beliebige textbasierte Daten zu extrahieren, auf die Sie es verweisen, sei es ein Produkttitel, ein Lagerstatus, eine Benutzerbewertung oder eine Schlagzeile.
- Mehrere Ergebnisse von einer einzelnen Seite erfassen: Die bedeutendste funktionale Verbesserung ist die Fähigkeit, mehrere Elemente von einer einzelnen Seite zu extrahieren. Wenn Ihr CSS-Selektor mehrere Elemente (wie alle Produktnamen auf einer Kategorieseite) findet, zieht das Skript diese nun alle und platziert jedes ordentlich in einer separaten Spalte in Ihrem Sheet.
Diese Änderungen heben das Skript von einem einfachen Preis-Tracker zu einer vielseitigen, robusten Datenextraktions-Engine auf, die vollständig in Ihrem Google Sheet verwaltet wird.
Aus technischer Sicht funktioniert es wie folgt:
- Nimmt die Ziel-URL, die Sie extrahieren möchten.
- Verpackt sie in eine Anfrage an die Bright Data API.
- Fügt Ihren geheimen API-Schlüssel zur Authentifizierung hinzu.
- Sendet die Anfrage und gibt den sauberen HTML-Code zurück, den Bright Data abruft.
Der Rest unseres Skripts bleibt mehr oder weniger gleich!
So richten Sie das aufgerüstete Datenextraktions-Tool ein und nutzen es
Der Einstieg erfordert eine einfache, einmalige Einrichtung, um Ihr Google Sheet mit dem notwendigen Skript und der Bright Data API zu verbinden. Befolgen Sie diese Schritte, um Ihr leistungsstarkes neues Datenextraktions-Tool in Betrieb zu nehmen.
- Schritt: Google Sheet erstellen und Apps Script öffnen
Gehen Sie zuerst zu Ihrem Google Drive und erstellen Sie ein neues Google Sheet. Navigieren Sie im Menü Ihres neuen Sheets zu Erweiterungen > Apps Script. Dies öffnet den Skripteditor in einem neuen Browser-Tab, wo Sie den Code des Datenextraktions-Tools einfügen werden. - Schritt: Den Code des Datenextraktions-Tools und die erforderliche Bibliothek installieren
- Apps Script Code einfügen: Scrollen Sie nach unten, um das vollständige Skript zu finden. Kopieren Sie den Code, fügen Sie ihn in den soeben geöffneten Apps Script Editor ein und klicken Sie auf das „Speichern“-Symbol.
- Die Cheerio-Bibliothek hinzufügen: Das Skript verwendet eine Bibliothek namens Cheerio, um HTML von einer Webseite effizient zu lesen und zu parsen, wodurch es einfach wird, spezifische Daten mithilfe eines CSS-Selektors zu extrahieren.
- Klicken Sie im linken Menü des Skripteditors auf das Plus-Symbol (+) neben „Bibliotheken“.
- Sie werden nach einer Skript-ID gefragt. Um diese zu finden, öffnen Sie einen neuen Tab und suchen Sie bei Google nach „Cheerio Apps Script.“ Das erste Ergebnis ist typischerweise eine GitHub-Seite, die die ID enthält.
- Kopieren Sie die Skript-ID von der GitHub-Seite, kehren Sie zu Ihrem Skripteditor zurück und fügen Sie sie in das Feld „Skript-ID“ ein. Klicken Sie auf die Schaltfläche „Suchen“.
- Wählen Sie die neueste verfügbare Version aus dem Dropdown-Menü und klicken Sie auf die Schaltfläche „Hinzufügen“. Cheerio ist nun erfolgreich mit Ihrem Projekt verknüpft.
- Schritt: Die Bright Data API-Verbindung konfigurieren
Unser Skript sendet Anfragen an Bright Data, das dann in Ihrem Namen den HTML-Code von der Zielwebsite abruft und dabei alle Anti-Bot-Systeme umgeht.- Ihren Bright Data API-Schlüssel erhalten:
- Gehen Sie zur Bright Data Website und erstellen Sie ein Konto.
- Nach dem Login navigieren Sie in der linken Navigation zu „Proxies & Scraping Infrastructure“. Klicken Sie auf die Schaltfläche „Hinzufügen“ und wählen Sie „Web Unlocker“ aus.
- Sie müssen eine „Zone“ einrichten, die eine Konfiguration für Ihre Datenextraktionsaufgaben darstellt. Die Standardeinstellungen sind für die meisten Websites ausreichend. Wenn Sie jedoch planen, hochgeschützte Websites (bekannt als „Premium-Domains“) zu extrahieren, müssen Sie die Einstellung für Premium-Domains für Ihre Zone aktivieren.
- Nachdem Sie auf „Hinzufügen“ geklickt haben, um die Zone zu erstellen, werden Ihr API-Schlüssel und Ihre Zonen-ID generiert. Kopieren Sie beide.
- Anmeldeinformationen zum Skript hinzufügen:
- Kehren Sie zu Ihrem Apps Script Editor zurück.
- Fügen Sie den API-Schlüssel und die Zonen-ID in die entsprechenden Platzhaltervariablen am Anfang des Skripts ein.
- Klicken Sie auf das Symbol „Projekt speichern“.
- Ihren Bright Data API-Schlüssel erhalten:
- Schritt: Das Datenextraktions-Tool ausführen und Berechtigungen erteilen
Sie sind nun bereit, mit der Datenextraktion zu beginnen.- Aktualisieren Sie Ihr Google Sheet. Nach dem Neuladen sehen Sie einen neuen benutzerdefinierten Menüpunkt namens „Scraper“.
- Fügen Sie in Ihrem Sheet eine URL in Spalte A und den entsprechenden CSS-Selektor in Spalte B ein.
- Klicken Sie auf das Menü „Scraper“ und wählen Sie „Scraper ausführen“.
- Skript autorisieren: Wenn Sie es zum ersten Mal ausführen, benötigt Google Ihre Erlaubnis, damit das Skript funktioniert.
- Ein Fenster „Autorisierung erforderlich“ wird angezeigt. Klicken Sie auf „Berechtigungen überprüfen“.
- Wählen Sie Ihr Google-Konto aus. Möglicherweise sehen Sie einen Bildschirm mit der Meldung „Google hat diese App nicht überprüft.“ Dies ist völlig normal und zu erwarten, da das Skript die Berechtigung benötigt, sich mit einem externen Dienst zu verbinden und Ihre Tabelle zu ändern.
- Überprüfen und erteilen Sie alle notwendigen Berechtigungen, um fortzufahren.
Nachdem die Einrichtung abgeschlossen ist, können Sie das Datenextraktions-Tool jederzeit über das benutzerdefinierte Menü ausführen. Das Skript wird ausgeführt und füllt die Ergebnisse innerhalb weniger Sekunden direkt in Ihr Sheet ein.
Der Quellcode
Neue Geschäftsmöglichkeiten erschlossen
Mit diesem leistungsstarken Datenextraktions-Tool können Sie nun leistungsstarke Geschäftsautomatisierungstools erstellen, die zuvor unmöglich waren:
- Zuverlässiger Preisvergleich: Verfolgen Sie Preise auf großen E-Commerce-Plattformen wie Amazon oder Walmart, ohne blockiert zu werden.
- Immobilien-Deal-Benachrichtigungen: Extrahieren Sie neue Angebote von mehreren Immobilienportalen, die Ihren genauen Kriterien entsprechen, und erhalten Sie sofort Benachrichtigungen.
- Lead-Generierung: Extrahieren Sie Geschäftsinformationen aus geschützten Online-Verzeichnissen, um gezielte Lead-Listen zu erstellen.
- Nachrichten- & Markenüberwachung: Verfolgen Sie Nachrichten-Websites, Blogs und Foren nach Erwähnungen Ihrer Marke, Wettbewerber oder Branchen-Keywords, um Trends voraus zu sein und Ihren Ruf zu managen.
- Wettbewerber-Website-Überwachung: Behalten Sie die Websites Ihrer Wettbewerber im Auge, um Änderungen – von subtilen Textaktualisierungen bis hin zu größeren Neugestaltungen – zu erkennen und automatisch benachrichtigt zu werden.
- Markt- & Wettbewerbsanalyse: Überwachen Sie täglich die Lagerbestände Ihrer Wettbewerber, neue Produkteinführungen oder Kundenbewertungen.
Zusammenfassung: Warum dieses Upgrade ein Wendepunkt ist
Durch den Wechsel von UrlFetchApp zu Bright Data haben wir unser einfaches Tool in eine robuste Datenerfassungs-Engine verwandelt. Die Hauptvorteile sind:
- Zuverlässigkeit: Keine fehlgeschlagenen Anfragen oder fehlenden Daten mehr. Sie bekommen, was Sie anfordern.
- Leistung: Extrahiert mühelos Daten von dynamischen, JavaScript-lastigen Websites.
- Tarnung: Umgeht mühelos gängige Anti-Extraktions-Schutzmaßnahmen.
- Einfachheit: Die gesamte Komplexität wird von Bright Data gehandhabt, während Sie weiterhin alles von einem einfachen Google Sheet aus verwalten.
Sie haben jetzt eine professionelle Web-Datenextraktionslösung zur Hand, die eine neue Welt datengesteuerter Automatisierungsmöglichkeiten für Ihr Unternehmen erschließt.