Page 1 sur 1
Quel outil choisir pour scraper des données à grande échelle ?
par zoe13
Publié : mar. sept. 03, 2024 12:56 pm
Salut à tous, je cherche un outil pour scraper des données à grande échelle (plusieurs milliers de pages par jour). J’ai testé Scrapy, mais je pense que je vais vite atteindre des limites en termes de vitesse et de gestion des proxies. Quelqu’un a une recommandation ?
Re: Quel outil choisir pour scraper des données à grande échelle ?
par ambre33
Publié : mar. sept. 03, 2024 2:56 pm
Scrapy est solide, mais pour aller plus loin, j’utilise Octoparse depuis quelques mois. C’est encore plus puissant pour le scraping à grande échelle, et tu peux gérer les proxies plus facilement. Par contre, il faut bien paramétrer les délais pour éviter de se faire bloquer.
Re: Quel outil choisir pour scraper des données à grande échelle ?
par hacker1967
Publié : mar. sept. 03, 2024 5:56 pm
Je suis plutôt team Scrapy aussi, mais j’ai entendu parler de ParseHub qui semble intéressant pour les projets complexes. Est-ce que quelqu’un l’a déjà testé ?
Re: Quel outil choisir pour scraper des données à grande échelle ?
par nina
Publié : mar. sept. 03, 2024 9:56 pm
ParseHub est bien, mais pour moi, Octoparse reste plus flexible. J’ai scrappé des centaines de milliers de pages sans trop de soucis, avec une bonne gestion des IPs. Par contre, il faut un budget un peu plus conséquent.
Re: Quel outil choisir pour scraper des données à grande échelle ?
par nocode1965
Publié : mar. sept. 03, 2024 10:56 pm
Et côté tarif, vous avez vu quoi ? Octoparse semble bien, mais j’ai vu que le plan pro est assez cher. Est-ce que ça vaut vraiment le coup par rapport à Scrapy qui est gratuit ?
Re: Quel outil choisir pour scraper des données à grande échelle ?
par ambre33
Publié : mer. sept. 04, 2024 1:56 am
Oui, Octoparse est cher, mais si tu fais du scraping intensif, ça peut vraiment valoir le coup. Scrapy est gratuit, mais tu vas devoir gérer tes proxies et ta planification toi-même, ce qui peut vite devenir chronophage.