Page 1 sur 1
Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par hugo_du_31
Publié : mar. janv. 07, 2025 3:53 pm
Je galère à scraper un site e-commerce protégé par Cloudflare (version Enterprise). Requests et Scrapy ne passent plus. Des alternatives testées récemment ? J'ai entendu parler de playwright-stealth mais pas encore essayé.
Re: Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par gabriel.m
Publié : mar. janv. 07, 2025 11:53 pm
J'ai réussi en combinant : 1) Residential proxies (chez Smartproxy) 2) Playwright avec Firefox en headful 3) Simulation de mouse movements. Par contre c'est 3x plus lent et ça coûte 200€/mois en infra...
Re: Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par nathan75
Publié : mer. janv. 08, 2025 1:53 am
Le vrai game-changer c'est les API officielles quand elles existent. Sur mon dernier projet, j'ai reverse-engineered l'app mobile : leur API GraphQL était wide open avec juste un token JWT basique. 10k req/min sans souci.
Re: Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par hugo_du_31
Publié : mer. janv. 08, 2025 2:53 am
@33 Malheureusement pas d'API ici... @124 Tu gères bien les CAPTCHA avec ta méthode ? J'ai peur que Cloudflare affiche un challenge après X requêtes.
Re: Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par gabriel.m
Publié : mer. janv. 08, 2025 6:53 am
Oui, environ 1 CAPTCHA toutes les 500 req. J'ai un micro-service avec Anti-Captcha qui coûte 0.50€/1000 résolutions. Le combo reste rentable car les données valent 5€/unit...
Re: Scraper des sites avec Cloudflare protection : solutions fiables en 2024 ?
par linkgrowth38
Publié : mer. janv. 08, 2025 4:53 pm
Petite astuce free : utilisez les caches Google. 'cache:url' dans la recherche donne parfois le HTML brut même sur sites protégés. Bon pour du one-shot mais pas en scale.