Nel nostro post precedente, ti abbiamo mostrato come creare un potente e gratuito strumento di estrazione dati dal web direttamente in Fogli Google usando Apps Script. Era una soluzione fantastica per automatizzare la raccolta dati da siti web semplici. Tuttavia, come molti di voi hanno scoperto, il web moderno è complesso. Nel momento in cui provi a estrarre dati da un sito e-commerce dinamico o da un portale protetto da misure anti-bot, la soluzione di base incontra un ostacolo.
Oggi, supereremo quell’ostacolo. Andremo a aggiornare il nostro script originale in uno strumento di estrazione dati di livello professionale in grado di affrontare le sfide del web moderno, mantenendo la comodità di gestire tutto dal tuo Foglio Google.
Indice
- Perché i Semplici Strumenti di Estrazione Dati Falliscono? La Sfida del Web Moderno
- La Soluzione: Web Unlocker di Bright Data
- Bright Data vs. Apify: Una Prospettiva Professionale
- Lo Script Aggiornato: Come Funziona
- Come Configurare e Usare lo Strumento di Estrazione Dati Aggiornato
- Il codice sorgente
- Nuove Opportunità di Business Sbloccate
- Riepilogo: Perché Questo Aggiornamento Cambia le Regole del Gioco
Perché i Semplici Strumenti di Estrazione Dati Falliscono? La Sfida del Web Moderno
I siti web si sono evoluti. Non sono più solo pagine statiche. Quando un semplice strumento di estrazione dati come il nostro originale fallisce, di solito è per uno di questi motivi:
- Contenuto Renderizzato con JavaScript: Molti siti caricano prima una pagina di base e poi usano JavaScript per recuperare e visualizzare il contenuto effettivo (come prezzi o dettagli del prodotto).
UrlFetchApp
di Google spesso vede solo la pagina iniziale, vuota, perdendo i dati di cui hai bisogno. - Protezioni Anti-Estrazione Dati: Per prevenire abusi e proteggere i propri dati, i siti web impiegano difese sofisticate. Le più comuni sono:
- Blocco IP: Se un server rileva troppe richieste da un singolo indirizzo IP (come i server di Google), lo bloccherà.
- CAPTCHA: Quei test “Non sono un robot” sono progettati per fermare gli script automatizzati.
- Fingerprinting del Browser: I siti web possono verificare i segnali che indicano che una richiesta proviene da uno script automatizzato piuttosto che dal browser di un utente reale.
Cercare di combattere questa battaglia da soli è un gioco costante e frustrante del gatto e del topo. La soluzione è utilizzare un servizio specializzato che ha già risolto questi problemi.
La Soluzione: Web Unlocker di Bright Data
È qui che entra in gioco un servizio come Bright Data. Bright Data è una piattaforma leader per i dati web che fornisce l’infrastruttura necessaria per accedere in modo affidabile ai dati web pubblici. Invece di fare una richiesta diretta da Google al sito web di destinazione, inviamo la nostra richiesta a Bright Data. Loro utilizzano quindi la loro vasta rete di proxy e la loro intelligente tecnologia “Web Unlocker” per:
- Instradare la tua richiesta attraverso un vero indirizzo IP residenziale o mobile, facendola sembrare quella di un utente normale.
- Risolvere automaticamente i CAPTCHA.
- Gestire le impronte digitali del browser e i cookie.
- Riprovare le richieste fallite finché non hanno successo.
In sostanza, Bright Data gestisce tutti i complessi problemi di blocco, assicurandoti di ottenere l’HTML pulito di cui hai bisogno, ogni singola volta.
Bright Data vs. Apify: Una Prospettiva Professionale
Quando cerchi soluzioni di estrazione dati, spesso vedrai menzionato Apify. È una piattaforma potente con un marketplace di “Actors” (strumenti di estrazione dati pre-costruiti), molti sviluppati dalla community. Questo è ottimo, ma può sembrare meno centralizzato di un servizio come Bright Data, che considero un servizio più professionale e orientato alle aziende.
Entrambe le piattaforme offrono strumenti su misura che possono estrarre dati da siti web specifici e restituire dati JSON strutturati. Tuttavia, per il nostro approccio universale, stiamo utilizzando il “Web Unlocker” di Bright Data. Questo è uno strumento generico che restituisce in modo affidabile il contenuto HTML completo da qualsiasi URL, offrendoci la massima flessibilità. Mentre Apify ha potenti strumenti di estrazione dati per siti specifici, non offre uno strumento unico e universale come il Web Unlocker che è progettato per restituire semplicemente l’HTML grezzo da qualsiasi URL, indipendentemente dalla protezione.
A mio parere, sebbene entrambi i servizi siano ottimi, trovo Bright Data più robusto e affidabile per attività critiche per il business. Il loro modello di prezzo è anche più semplice. Apify utilizza un modello di abbonamento basato su “crediti di piattaforma,” il che può rendere i costi difficili da prevedere. Il piano Pay-As-You-Go di Bright Data costa circa $1.50 per 1.000 richieste riuscite. Questa trasparenza è perfetta per il nostro progetto e, da una prospettiva di integrazione e costo, credo che Bright Data offra una proposta di valore migliore.
Funzionalità eccezionali di Bright Data
- Targeting per Geolocalizzazione: Puoi far sì che le tue richieste appaiano come se provenissero da un paese, uno stato o persino una città specifica. Questo è essenziale per l’estrazione di contenuti localizzati, come prezzi regionali, risultati di ricerca locali o disponibilità in negozio.
- Estrazione come Markdown: L’API può restituire il contenuto estratto direttamente in un formato Markdown pulito. Questo è incredibilmente potente per alimentare direttamente modelli AI o generare documentazione senza dover prima analizzare HTML complesso.
- Restituzione di uno Screenshot: Puoi richiedere uno screenshot visivo della pagina di destinazione. Questo è inestimabile per la verifica visiva, l’archiviazione dell’aspetto di una pagina in un momento specifico o il debug di problemi in cui il layout influisce sui dati.
- Cookie e Header Personalizzati: L’API ti consente di inviare i tuoi header e cookie personalizzati con una richiesta. Questa è una funzionalità avanzata per simulare una sessione utente autenticata o un tipo specifico di browser per accedere a dati che richiedono autenticazione o impostazioni particolari del browser.
Lo Script Aggiornato: Come Funziona
L’evoluzione del nostro script va ben oltre la semplice sostituzione di una chiamata API. Lo abbiamo trasformato in uno strumento molto più generico e professionale.
- Un Miglioramento Completo del Workflow: Sebbene la sostituzione di
UrlFetchApp
con Bright Data sia stata la modifica principale per gestire i siti protetti, abbiamo migliorato l’intero workflow. - Estrazione Dati Avviata Direttamente da Fogli: Lo script è ora uno script associato, il che significa che è direttamente collegato al tuo Foglio Google. Abbiamo aggiunto una voce di menu personalizzata che ti consente di attivare l’intero processo con un singolo clic, rendendo l’esperienza utente molto più fluida.
- Estrai Qualsiasi Testo, Non Solo Prezzi: Abbiamo rimosso tutta la logica specifica per i prezzi. Lo script è ora completamente generico, capace di estrarre qualsiasi dato basato su testo a cui lo punti, che si tratti di un titolo di prodotto, uno stato di magazzino, una recensione utente o un titolo di notizia.
- Cattura Risultati Multipli da una Singola Pagina: L’aggiornamento funzionale più significativo è la capacità di estrarre più elementi da una singola pagina. Se il tuo selettore CSS corrisponde a più elementi (come tutti i nomi dei prodotti su una pagina di categoria), lo script ora li estrarrà tutti e li posizionerà ordinatamente in colonne separate nel tuo foglio.
Queste modifiche elevano lo script da un semplice tracker di prezzi a un versatile e robusto motore di estrazione dati gestito interamente all’interno del tuo Foglio Google.
Dal punto di vista tecnico funziona nel seguente modo:
- Prende l’URL di destinazione da cui vuoi estrarre dati.
- Lo impacchetta in una richiesta all’API di Bright Data.
- Include la tua chiave API segreta per l’autenticazione.
- Invia la richiesta e restituisce l’HTML pulito che Bright Data recupera.
Il resto del nostro script rimane più o meno lo stesso!
Come Configurare e Usare lo Strumento di Estrazione Dati Aggiornato
Per iniziare è necessaria una configurazione semplice e una tantum per collegare il tuo Foglio Google allo script necessario e all’API di Bright Data. Segui questi passaggi per mettere in funzione il tuo nuovo e potente strumento di estrazione dati.
- Passo: Crea il Foglio Google e Apri Apps Script
Per prima cosa, vai sul tuo Google Drive e crea un nuovo Foglio Google. Dal menu del tuo nuovo foglio, naviga su Estensioni > Apps Script. Questo aprirà l’editor di script in una nuova scheda del browser, dove inserirai il codice dello strumento di estrazione dati. - Passo: Installa il Codice dello Strumento di Estrazione Dati e la Libreria Richiesta
- Incolla il Codice Apps Script: Scorri verso il basso per trovare lo script completo. Copia il codice, incollalo nell’editor di Apps Script che hai appena aperto e clicca sull’icona ‘Salva’.
- Aggiungi la Libreria Cheerio: Lo script si basa su una libreria chiamata Cheerio per leggere e analizzare in modo efficiente l’HTML da una pagina web, rendendo facile estrarre dati specifici usando un selettore CSS.
- Nel menu a sinistra dell’editor di script, clicca sull’icona più (+) accanto a ‘Librerie’.
- Ti verrà richiesto un ID Script. Per trovarlo, apri una nuova scheda e cerca su Google “Cheerio Apps Script.” Il primo risultato è tipicamente una pagina GitHub contenente l’ID.
- Copia l’ID Script dalla pagina GitHub, torna al tuo editor di script e incollalo nel campo ID Script. Clicca sul pulsante ‘Cerca’.
- Seleziona la versione più recente disponibile dal menu a discesa e clicca sul pulsante ‘Aggiungi’. Cheerio è ora collegato con successo al tuo progetto.
- Passo: Configura la Connessione API di Bright Data
Il nostro script invia richieste a Bright Data, che poi recupera l’HTML dal sito web di destinazione per tuo conto, bypassando qualsiasi sistema anti-bot.- Ottieni la Tua Chiave API di Bright Data:
- Vai al sito web di Bright Data e crea un account.
- Una volta effettuato l’accesso, naviga su ‘Proxies & Scraping Infrastructure’ nel menu di navigazione a sinistra. Clicca sul pulsante ‘Aggiungi’ e seleziona ‘Web Unlocker’.
- Dovrai configurare una ‘zona,’ che è una configurazione per le tue attività di estrazione dati. Le impostazioni predefinite vanno bene per la maggior parte dei siti web. Tuttavia, se prevedi di estrarre dati da siti altamente protetti (noti come ‘domini premium’), devi abilitare l’impostazione dei domini premium per la tua zona.
- Dopo aver cliccato su ‘Aggiungi’ per creare la zona, verranno generate la tua chiave API e l’ID Zona. Copia entrambi.
- Aggiungi le Credenziali allo Script:
- Torna al tuo editor di Apps Script.
- Incolla la Chiave API e l’ID Zona nelle rispettive variabili segnaposto all’inizio dello script.
- Clicca sull’icona ‘Salva progetto’.
- Ottieni la Tua Chiave API di Bright Data:
- Passo: Esegui lo Strumento di Estrazione Dati e Concedi i Permessi
Ora sei pronto per iniziare l’estrazione dati.- Aggiorna il tuo Foglio Google. Dopo il ricaricamento, vedrai una nuova voce di menu personalizzata chiamata ‘Strumento di Estrazione Dati’.
- Nel tuo foglio, incolla un URL nella colonna A e il suo corrispondente selettore CSS nella colonna B.
- Clicca sul menu ‘Strumento di Estrazione Dati’ e seleziona ‘Esegui Strumento di Estrazione Dati’.
- Autorizza lo Script: La prima volta che lo esegui, Google richiederà la tua autorizzazione affinché lo script funzioni.
- Apparirà una finestra ‘Autorizzazione richiesta’. Clicca su ‘Rivedi i permessi’.
- Scegli il tuo account Google. Potresti vedere una schermata che dice: “Google non ha verificato questa app.” Questo è perfettamente normale e previsto, poiché lo script necessita di permessi per connettersi a un servizio esterno e modificare il tuo foglio di calcolo.
- Rivedi e concedi tutti i permessi necessari per continuare.
Ora che la configurazione è completa, puoi eseguire lo strumento di estrazione dati in qualsiasi momento dal menu personalizzato. Lo script verrà eseguito e popolerà i risultati direttamente nel tuo foglio in pochi secondi.
Il codice sorgente
Nuove Opportunità di Business Sbloccate
Con questo strumento di estrazione dati potenziato, puoi ora costruire potenti strumenti di automazione aziendale che prima erano impossibili:
- Confronto Prezzi Affidabile: Tieni traccia dei prezzi su importanti piattaforme e-commerce come Amazon o Walmart senza essere bloccato.
- Avvisi su Offerte Immobiliari: Estrai dati da più portali immobiliari per nuove inserzioni che corrispondono ai tuoi criteri esatti e ricevi notifiche istantaneamente.
- Generazione di Lead: Estrai informazioni aziendali da directory online protette per costruire liste di lead mirate.
- Monitoraggio Notizie e Brand: Tieni traccia di siti di notizie, blog e forum per menzioni del tuo brand, dei concorrenti o di parole chiave del settore per rimanere al passo con le tendenze e gestire la tua reputazione.
- Monitoraggio Siti Web dei Concorrenti: Tieni d’occhio i siti web dei tuoi concorrenti per qualsiasi cambiamento—dagli aggiornamenti di testo sottili alle importanti riprogettazioni—e ricevi avvisi automaticamente.
- Analisi di Mercato e Concorrenza: Monitora quotidianamente i livelli di stock dei prodotti dei tuoi concorrenti, i lanci di nuovi prodotti o le recensioni dei clienti.
Riepilogo: Perché Questo Aggiornamento Cambia le Regole del Gioco
Passando da UrlFetchApp a Bright Data, abbiamo trasformato il nostro semplice strumento in un robusto motore di raccolta dati. I vantaggi chiave sono:
- Affidabilità: Niente più richieste fallite o dati mancanti. Ottieni ciò che chiedi.
- Potenza: Estrae dati facilmente da siti web dinamici e ricchi di JavaScript.
- Furtività: Bypassa le comuni protezioni anti-estrazione dati senza sforzo.
- Semplicità: Tutta la complessità è gestita da Bright Data, mentre tu continui a gestire tutto da un semplice Foglio Google.
Ora hai a portata di mano una soluzione di estrazione dati dal web di livello professionale, sbloccando un nuovo mondo di possibilità di automazione basate sui dati per la tua attività.