Récupérer tous les URLS des articles sur un blog sous Blogger
Un script Python qui permet de récupérer les URLs de tous les articles sous un blog sous Blogger.
Le problème
C’est difficile sinon impossible de récupérer les URLs des articles d’un blog sous Blogger. Par exemple, je possède plusieurs blogs sous Blogger et c’est un cauchemar de faire de simples liens entrants. Car l’interface de Blogger ne détecte pas les articles existants quand on veut faire des liens internes. L’idéal serait de récupérer tous les URLs de ses articles dans un fichier et faire les liens à la main.
Le script Python
- 1 – Il vous suffit de lancer le script Python ci-dessous :
# Importer les modules nécessaires
import requests
import xml.etree.ElementTree as ET
# Demander à l'utilisateur de fournir une URL de la plateforme Blogger qui contient un fichier XML
url = input("Entrez une URL de la plateforme Blogger qui contient un fichier XML : ")
# Envoyer une requête HTTP GET à l'URL et obtenir le contenu XML
response = requests.get(url)
xml = response.text
# Créer un objet ElementTree pour analyser le XML
tree = ET.fromstring(xml)
# Trouver tous les éléments <link> qui ont l'attribut rel="alternate"
links = tree.findall(".//{http://www.w3.org/2005/Atom}link[@rel='alternate']")
# Créer une liste vide pour stocker les urls des articles
articles = []
# Parcourir tous les éléments <link> trouvés
for link in links:
# Extraire l'attribut href qui contient l'url de l'article
article_url = link.attrib["href"]
# Ajouter l'url à la liste des articles
articles.append(article_url)
# Afficher le nombre d'articles trouvés
print(f"Nombre d'articles trouvés : {len(articles)}")
# Afficher les urls des articles
for article in articles:
print(article)
- 2 – Quand ce script se lancera, il affichera un champ intitulé :
Entrez une URL de la plateforme Blogger qui contient un fichier XML :
- 3 – Fournissez l’URL de votre blog sous la forme suivante : https://votreblog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
- 4 – C’est obligatoire que vous la fournissez sous cette forme. C’est un genre de sitemap qui contient la majorité de vos articles de votre blog Blogger. Par exemple, pour un de mes blogs de tests qui est : https://creditsbancaires.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500, voici tous les URL qu’il a récupéré.
Simple et efficace.
Note : Pour les blogs très anciens, il ne pourra pas forcément récupérer les plus vieilles urls. Pour un de mes blogs qui existe depuis 2012, il a pu aller jusqu’à la moitié de 2013, mais pas plus en avant. Mais vous aurez récupéré 90 % de vos URLs blogger. Et oui, le script marche aussi si vous avez un nom de domaine personnalisé pour votre blog sous Blogger.
Je ne connais rien à Python, comment lancer ce script ?
Vous n’avez pas besoin de connaitre Python pour utiliser ce script. Vous copiez le code et vous l’enregistrez dans un fichier .py, par exemple, url-blogger.py. Ensuite, vous devez le lancer dans la ligne de commande, mais il faut que vous ayez installé Python au préalable…
Je vois déjà que vous grimacez pour toutes ces étapes.
Pas de souci, je vais vous faciliter la tâche.
- Allez sur Thonny.org et téléchargez la version de Thonny pour votre système d’exploitation : Windows, Mac ou Linux. C’est un IDE Python pour les débutants, très léger et très facile à installer.
- Une fois qu’il est installé, vous devez télécharger un package qui est nécessaire à ce script qui est requests, mais Thonny peut le faire en quelques clics.
- Allez dans Outils/Gérer les paquets et en haut à gauche, tapez “requests” dans la barre de recherche.
- Le package va apparaitre et vous pouvez l’installer en clic. Si Thonny n’arrive pas à installer un package pour une erreur ou autre, vous pouvez aussi télécharger le package manuel en le cherchant par son nom sur Google et Thonny peut aussi l’installer via le package que vous aurez téléchargé. Mais le package requests est bien disponible dans Thonny.
Ensuite, Créez un nouveau fichier et copiez-coller le script dedans. Appuyez sur la touche F5 pour lancer le script directement dans Thonny et fournissez l’URL de votre blog sous Blogger comme indiqué dans les étapes précédentes et voilà !