The Art of Scrap

Anthony Morel 14 oct. 2022

Il y a fort longtemps, la donnée était une ressource rare, convoitée par toute personne avide de savoir.

Aujourd’hui, grâce au développement du numérique, et la démocratisation d’Internet, les temps se sont apaisés, la donnée est maintenant abondante et riche, connectée, et organisée.

C’était du moins le rêve des inventeurs du Web Sémantique, cependant l’histoire a choisi une autre voie, la réalité de là où nous en sommes aujourd’hui est bien décevante.

Bien que l’acceptation d’Internet par les foules a réussi à rendre la donnée omniprésente, nous avons échoué à la rendre accessible de manière simple et structurée.
De précieuses données sont ainsi étouffées dans une multitude de formats et de sources hétérogènes, perdues sur des articles de blog, égarées sur divers sites web.

C’est à ce moment qu’est née la quête du Scraping, créer des programmes afin de pouvoir redonner du sens à ces données.

Avec le temps, bien des méthodes se sont développées, et c’est l’objectif de cet article que de vous les présenter, afin de vous aider à faire les bon choix lorsque l’heure s’y prêtera.

Qu’est ce que le scraping ?

Le Scraping est un procédé permettant d’accumuler et de structurer les données d’un site web.
Cela consiste en une série d’opérations effectuées sur un site web pour en extraire des données.

Nous allons voir dans cet article, le fonctionnement de base du Scraping, les alternatives, ainsi que des techniques pour vous permettre de résoudre les problèmes sur lesquels vous pourriez tomber.

Préparation

Cet article contient des exemples de code en Python, populaire pour le scraping.

Il existe également des équivalents à chacune de ces bibliothèques en JS, langage aussi très utilisé pour le Scraping.

Requests - Permet d’effectuer des requêtes HTTP
Beautiful Soup - Permet de parser simplement des documents XML et HTML par extension
lxml - Autre parser pour document XML
websocket-client - Bibliothèque pour lire les websockets
Sélénium - Permet de contrôler un navigateur avec du code
Insomnia - Permet de facilement travailler avec des requêtes

Choses à savoir

Dans cet article nous parlons et effectuons des requêtes HTTP(S), il paraît important de faire un rappel sur leur fonctionnement.

Une requête est constituée d’un URL, d’une entête, de paramètres divers, ainsi que d’une méthode (GET, POST, PUT, ...)

Une fois la requête effectuée, le serveur va renvoyer une réponse qui va dépendre de la route et des paramètres précisés.

Un outil basique pour effectuer une requête est cURL
Ici on utilise httpbin.org qui permet de faire des tests pour l’envoi des paramètres.

Il existe des outils graphiques permettant de faire la même chose, comme Insomnia, Postman, Hoppscotch et autres.

Ils permettent notamment de générer du code dans un langage choisi à partir d’une requête. (Le site https://curlconverter.com/ fait la même chose si vous préférez ne pas installer un nouvel outil)

Avant de commencer

Avant toute chose, il est important de se poser les bonnes questions.

En effet, le scraping est souvent une tâche fastidieuse et longue à mettre en place pour des projets complexes.
Il existe dans la plupart des cas une solution alternative plus efficace et qui vous fera gagner du temps.

“L’art du scrap, c’est de réussir sans combattre.”

Sun Tzu, possiblement

Je vais détailler ici ces différentes solutions (accompagnées d’un ou plusieurs exemples), leurs avantages, ainsi que leurs inconvénients.
Les solutions sont présentées dans l'ordre de priorités dans lequel elles doivent être, selon moi, étudiées.

Cet article a un Notebook compagnon pour vous permettre d'exécuter le code et d'expérimenter vous même directement depuis votre navigateur.

Lien du notebook :

Pour l’utiliser de votre côté, faites Fichier > Enregistrer une Copie sur Drive

Cliquer sur "Fichier > Enregistrer une Copie sur Drive"

Méthode 1 - La route dorée

De nos jours, énormément de sites internet, surtout les plus gros, disposent d'API publiques permettant d'accéder directement aux données voulues via une simple requête HTTP(S).

Si l'information que vous recherchez est disponible via cet API c'est la solution la plus rapide à implémenter, notamment à l’aide d’une documentation complète sur les routes et les paramètres.

De plus cette implémentation sera en général plus durable dans le temps, les routes ayant peu de chance de changer.

Prenons l'API de Google Maps par exemple :
Supposons que nous voulions récupérer les reviews sur la Tour Eiffel

(Son identifiant Google Maps est: ChIJLU7jZClu5kcR4PcOOO6p3I0)

Il y a une documentation qui nous indique la route et les paramètres à utiliser :
https://developers.google.com/maps/documentation/places/web-service/details

La route est donc celle ci :
https://maps.googleapis.com/maps/api/place/details/json

On peut préciser des paramètres tels que “fields” qui indiquent les champs que l’on veut récupérer.
Sur l’image ci-dessous les paramètres sont dans la variable “querystring”.
En plus de ces champs on doit s’identifier avec une clé API que l’on obtient depuis Google Cloud Platform (GCP) dans notre cas.

Pour en savoir plus sur comment créer une clé dans GCP :

https://developers.google.com/maps/documentation/android-sdk/get-api-key?hl=fr

Code Python effectuant une requête à l'API Google Maps, avec le résultat affiché en dessous sous format JSON pour la Tour Eiffel

En seulement quelques lignes et le lancement de notre requête, les informations nous sont disponibles et présentées dans un format JSON.

L'inconvénient évident de ces API est qu'elle demandent quasiment toujours une authentification, cette authentification va donc enregistrer l'utilisation de l'API et en fonction des sites webs, des quotas peuvent exister.

Aussi certains sites font payer l'accès à leur API, ce qui peut engendrer des coûts plus ou moins lourds en fonction de votre utilisation.

Cout:

Simplicité:

Pérennité:

Cette méthode est à prioriser lorsqu'elle est possible.
Dans le cas où le site Web ne propose pas d'API, d'autres méthodes sont à essayer.

Méthode 2 - La route argentée

Le site dont vous voulez extraire les données ne propose pas d’API ?

Il y a peut être encore une solution pour vous simplifier la tâche.

“Connais ton ennemi et connais-toi toi-même eussiez-vous cent guerres à soutenir, cent fois vous serez victorieux”

Sun Tzu

C’est pourquoi une analyse du site web va être nécessaire.
Les données affichées viennent forcément de quelque part, et pour beaucoup de sites internet modernes elles viennent de requêtes faites au backend.
Plus précisément il va falloir analyser les requêtes XHR/Ajax effectuées par le site internet.

Pour cela, nous devons ouvrir les outils développeur,

Il existe plusieurs méthodes pour ouvrir ce menu en fonction du navigateur ou de l’OS, la méthode que je préfère est simplement un clic droit n’importe où sur la page, et cliquer sur “inspecter”.

Aller ensuite dans l’onglet Network/Réseau.

Vue sur l'onglet "Network" de l'inspecteur d'élément

Dans la partie gauche se trouve la liste des requêtes effectuées par le site web (fichiers JS, images, etc..)

En cliquant sur une de ces requêtes, on peut observer le détail de celle-ci à droite, notamment la réponse dans l’onglet “Réponse/Response” (Je préfères utiliser l’onglet Preview qui affiche une version plus lisible des réponses, notamment des JSON)

En faisant clic droit, copier en tant que cURL on peut copier l'entièreté de la requête afin de la rejouer ailleurs.

Grâce à Insomnia, un simple copier-coller dans la barre d’url va automatiquement convertir la requête cURL et remplir les bons champs.

Pour exécuter la requête il faut ensuite cliquer sur le bouton “Send”

Vue sur Insomnia, avec un URL en haut, des paramètres à gauche et un résultat à droite

Évidemment ici, il n’y a aucune information intéressante, il s’agit uniquement d’un exemple.

Si jamais l’outil est rempli de requêtes diverses, il peut être intéressant de cliquer sur l'icône poubelle/clear en haut à gauche de l’outil développeur pour y voir plus clair.

Nous allons donc entrer les informations normalement dans le site internet et ensuite lancer la recherche, ce qui va avoir pour effet d’effectuer une requête sur le backend.

Plus généralement, il faut activer la fonctionnalité qui va récupérer les résultats souhaités (Par exemple, cliquer sur le bouton suivant s'il s’agit d’une page ecommerce)

Dans notre cas, nous allons récupérer les publications sur le site d’Ippon.

On va rapidement voir énormément de requêtes s’effectuer dans l’onglet Network/Réseau.

Onglet Network, liste des requêtes effectués au chargement de la page de publication Ippon

C’est ici qu'une analyse de ces requêtes est primordiale, pour faciliter cette tâche il est possible de filtrer les requêtes par XHR(XMLHttpRequest), ce qui rend cela beaucoup plus lisible.

L’idée est de cliquer sur les différentes requêtes affichées et essayer si la réponse contient les informations recherchées.
Dans notre cas beaucoup de requêtes s’effectuent, en regardant dans l’onglet réponse on va pouvoir voir quelles informations sont récupérées par cette requête.

Il va falloir trouver celle qui contient les informations que nous cherchons, parfois cela est assez simple, parfois il va falloir y passer un peu plus de temps.

Résultat d'une requête parmi celles vu au dessus, le résultat est un JSON contenant une liste des publications

Une fois la bonne requête trouvée, il suffit de faire un clic droit sur la requête et de copier en tant que cURL, pour être utilisé par la suite.

(Cela peut varier en fonction du navigateur utilisé, sous Firefox par exemple il faut faire "Copier la valeur" > "Copier comme cURL")

Clic sur "Copy as cURL" dans le sous-menu "Copy" en faisant un clic droit sur une requête dans l'onglet Network

Une fois copiée, on peut la coller dans Insomnia pour tester que tout fonctionne correctement (Coller la requête dans la barre URL d’Insomnia, et appuyer sur SEND)

La même requête lancée dans Insomnia, avec le paramètre "publicationType" qui a comme valeur "Publication", le résultat est le même JSON qu'auparavant

On peut maintenant exporter cette requête dans notre langage de programmation de destination.

Dans le cadre de cet article ce sera Python avec Requests :

Clic droit sur la requête dans Insomnia, clic sur Generate Code

Code généré par Insomnia en python, et en utilisant requests

Dans notre cas le code généré ressemble plus ou moins à ça :

(J’ai enlevé les cookies et autres headers pour rendre la lecture plus facile.De plus, la bibliothèque json a été ajoutée pour convertir la réponse en un format json utilisable facilement)

Code récupérant la liste des titres des publications avec le résultat en dessous

On entre maintenant dans la partie de découverte de l’API, contrairement à la première méthode il n’y a pas de documentation, ce qui laisse place à l’expérimentation.

Dans notre cas cet API est très simple, avec un seul paramètre: “PublicationType”

Après expérimentation,le résultat change si on change la valeur de “Publications” à “Articles”

Changement de paramètre sur Insomnia, le paramètre "publicationType" a maintenant la valeur "Articles", ce qui change le résultat à droite

Souvent, les paramètres auront des noms assez simples à déterminer, si ce n’est pas le cas, il est important d’essayer de relier les données dans la requête à celle que nous avons fourni au formulaire auparavant.

Un cas souvent présent sur beaucoup de sites web est la pagination.

Elle peut être simplement basée sur un numéro avec un paramètre indiquant “page”:”1” par exemple, ou bien avec un token dans le json indiquant “next”:“......”, qui demandera un code adapté.

C’est pourquoi je conseille toujours d’encapsuler les requêtes dans des fonctions une fois que les paramètres ont été compris.

Même code qu'au dessus mais la logique à été déplacé dans une fonction avec des paramètres

Cette méthode est quasiment équivalente à la méthode 1, à la seule différence près qu’il faut trouver et comprendre soit même les différents API.

Il est à noter que parfois un token ou un cookie sont nécessaires pour faire ces requêtes, sans quoi vous serez bloqués, c’est pourquoi cette méthode peut être utilisée en combinaison avec d’autres méthodes que l’on verra par la suite qui vont nous permettre de récupérer un cookie ou token valide.