Page 1 sur 1
Scraping de sites en React/JS : comment contourner le rendu côté client ?
par jade_labs
Publié : jeu. avr. 17, 2025 5:06 pm
Je galère à scraper un site e-commerce qui charge tout en React. Les données que je veux ne sont pas dans le HTML initial. J'ai essayé Puppeteer mais c'est super lent. Des alternatives ?
Re: Scraping de sites en React/JS : comment contourner le rendu côté client ?
par hugo_du_31
Publié : jeu. avr. 17, 2025 7:06 pm
J'utilise Playwright avec Firefox en mode headless. C'est 2x plus rapide que Puppeteer sur mon benchmark. Astuce : active le cache et désactive les images pour gagner encore 30% de perf.
Re: Scraping de sites en React/JS : comment contourner le rendu côté client ?
par linkgrowth38
Publié : jeu. avr. 17, 2025 11:06 pm
As-tu regardé si le site appelait une API REST ? Souvent les sites React consomment des endpoints en JSON. Tu peux les trouver dans l'onglet Network des DevTools. J'ai remplacé 3 scrapers complexes comme ça !
Re: Scraping de sites en React/JS : comment contourner le rendu côté client ?
par jade_labs
Publié : ven. avr. 18, 2025 7:06 am
Bonne idée @201 ! J'ai trouvé l'API mais elle nécessite une clé d'authentification dans les headers. Vous savez comment la générer ou la bypasser ?
Re: Scraping de sites en React/JS : comment contourner le rendu côté client ?
par linkgrowth38
Publié : ven. avr. 18, 2025 1:06 pm
Regarde si la clé est hardcodée dans le JS du site (cherche 'apiKey'). Sinon, copie-colle simplement les headers depuis une requête légitime avec l'extension 'Copy as cURL'. Ça marche dans 70% des cas !