Je développe une appli juridique et besoin de scraper les décisions de tribunaux (France). Les sites officiels bloquent le scraping. Des idées pour accéder à ces données proprement ?
LegalTech ici. La seule solution légale c'est l'API open-data justice.gouv. 5000 requêtes/mois gratuites. Les jugements sont en XML malheureusement, mais c'est la source officielle.
Attention, l'API ne couvre que 30% des décisions... Pour le reste, certains cabinets paient des stagiaires pour la saisie manuelle (véridique !). Sinon regarde du côté de Doctrine ou Jurinet, mais c'est très cher.
Merci ! @33 tu as un exemple de parsing des XML ? Je trouve la structure hyper complexe. @199, Doctrine propose vraiment un accès API ? Je ne trouve pas l'info sur leur site.
Je t'envoie un script Python ce soir (je ne peux pas ici à cause des règles du forum). En gros tu dois gérer les balises `TEXTE_ARRET` et `META_COMMUNE` qui contiennent l'essentiel. Prévois un système de cache, les fichiers font parfois 10Mo+ !
Petite astuce : les tribunaux de commerce publient souvent leurs décisions en PDF sur leurs sites. J'ai un scraper en Node qui convertit ensuite en texte. Taux de réussite ~85% avec pdf-lib.
@156 Doctrine a une API privée (min 10k€/an...). Sinon en gratuit, regarde le projet OpenLaw sur GitHub, ils ont scrapé 50k jugements avant le blocage de 2022. La BDD est dispo en torrent.