Page 1 sur 1

Quel outil pour scraper 10 000 pages/jour de sites variés ?

par romane
Publié : dim. janv. 19, 2025 8:55 am
Pour mon agence, je dois scraper des dizaines de sites différents (certains en WordPress, d'autres en custom) avec des structures très variées. Besoin de 10k pages/jour minimum. J'hésite entre Scrapy et un outil no-code comme Apify. Conseils ? Budget 500€/mois max.

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par ambre33
Publié : dim. janv. 19, 2025 11:55 am
Scrapy + Splash pour le rendu JS, hébergé sur Scrapinghub. J'ai fait un benchmark l'an dernier : 12k pages/jour pour environ 400€. Par contre faut savoir coder en Python.

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par indiemaker_du_93
Publié : dim. janv. 19, 2025 6:55 pm
Je déconseille Apify pour ce volume, leurs prix explosent vite. Regarde du côté de Zyte (ex-Scrapinghub) ou même une solution maison avec des instances AWS spot + rotating proxies.

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par romane
Publié : lun. janv. 20, 2025 4:55 am
Merci ! @45 tu utilises des proxies avec Scrapy ? J'ai peur que certains sites bloquent si je scrape trop fort depuis une seule IP.

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par ambre33
Publié : lun. janv. 20, 2025 9:55 am
Oui, obligatoire ! J'alterne entre 3 fournisseurs : Smartproxy pour le US, Soax pour l'Europe et un petit fournisseur local pour les sites FR. Environ 100€/mois en plus pour les proxies. Configure bien les DOWNLOAD_DELAY aussi !

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par le_ethan
Publié : lun. janv. 20, 2025 9:55 pm
Petit tips : j'utilise Scrapy Cloud de Zyte qui gère automatiquement le throttling et les retries. Ça coûte plus cher (environ 600€/mois pour ton volume) mais ça m'a fait gagner un temps fou en dev.

Re: Quel outil pour scraper 10 000 pages/jour de sites variés ?

par romane
Publié : mar. janv. 21, 2025 6:55 am
Top tous ces retours ! Je pense partir sur Scrapy + proxies alors. Dernière question : vous gérez comment le parsing quand les sites changent leur structure ? C'est la galère pour moi...