Récupérer tous les URLS des articles sur un blog sous Blogger


  • Français
  • English

  • Un script Python qui permet de récupérer les URLs de tous les articles sous un blog sous Blogger.


    Le problème

    C’est difficile sinon impossible de récupérer les URLs des articles d’un blog sous Blogger. Par exemple, je possède plusieurs blogs sous Blogger et c’est un cauchemar de faire de simples liens entrants. Car l’interface de Blogger ne détecte pas les articles existants quand on veut faire des liens internes. L’idéal serait de récupérer tous les URLs de ses articles dans un fichier et faire les liens à la main.

    Le script Python

    • 1 – Il vous suffit de lancer le script Python ci-dessous :

    # Importer les modules nécessaires
    import requests
    import xml.etree.ElementTree as ET

    # Demander à l'utilisateur de fournir une URL de la plateforme Blogger qui contient un fichier XML
    url = input("Entrez une URL de la plateforme Blogger qui contient un fichier XML : ")

    # Envoyer une requête HTTP GET à l'URL et obtenir le contenu XML
    response = requests.get(url)
    xml = response.text

    # Créer un objet ElementTree pour analyser le XML
    tree = ET.fromstring(xml)

    # Trouver tous les éléments <link> qui ont l'attribut rel="alternate"
    links = tree.findall(".//{http://www.w3.org/2005/Atom}link[@rel='alternate']")

    # Créer une liste vide pour stocker les urls des articles
    articles = []

    # Parcourir tous les éléments <link> trouvés
    for link in links:
    # Extraire l'attribut href qui contient l'url de l'article
    article_url = link.attrib["href"]
    # Ajouter l'url à la liste des articles
    articles.append(article_url)

    # Afficher le nombre d'articles trouvés
    print(f"Nombre d'articles trouvés : {len(articles)}")

    # Afficher les urls des articles
    for article in articles:
    print(article)

    • 2 – Quand ce script se lancera, il affichera un champ intitulé :

    Entrez une URL de la plateforme Blogger qui contient un fichier XML :

    Un script Python qui permet de récupérer tous les URLs des articles sous Blogger. L'image montre le champ où on doit fournir l'URL

    • 3 – Fournissez l’URL de votre blog sous la forme suivante : https://votreblog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

    Fournissez l'URL de votre blog sous Blogger dans le script Python, respectez la forme indiquée.

    • 4 – C’est obligatoire que vous la fournissez sous cette forme. C’est un genre de sitemap qui contient la majorité de vos articles de votre blog Blogger. Par exemple, pour un de mes blogs de tests qui est : https://creditsbancaires.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500, voici tous les URL qu’il a récupéré.

    Tous les urls des articles Blogger récupéré par le script Python

     

    Simple et efficace.

    Note : Pour les blogs très anciens, il ne pourra pas forcément récupérer les plus vieilles urls. Pour un de mes blogs qui existe depuis 2012, il a pu aller jusqu’à la moitié de 2013, mais pas plus en avant. Mais vous aurez récupéré 90 % de vos URLs blogger. Et oui, le script marche aussi si vous avez un nom de domaine personnalisé pour votre blog sous Blogger.

    Je ne connais rien à Python, comment lancer ce script ?

    Vous n’avez pas besoin de connaitre Python pour utiliser ce script. Vous copiez le code et vous l’enregistrez dans un fichier .py, par exemple, url-blogger.py. Ensuite, vous devez le lancer dans la ligne de commande, mais il faut que vous ayez installé Python au préalable…

    Je vois déjà que vous grimacez pour toutes ces étapes.

    Pas de souci, je vais vous faciliter la tâche.

    • Allez sur Thonny.org et téléchargez la version de Thonny pour votre système d’exploitation : Windows, Mac ou Linux. C’est un IDE Python pour les débutants, très léger et très facile à installer.
    • Une fois qu’il est installé, vous devez télécharger un package qui est nécessaire à ce script qui est requests, mais Thonny peut le faire en quelques clics.
    • Allez dans Outils/Gérer les paquets et en haut à gauche, tapez “requests” dans la barre de recherche.
    • Le package va apparaitre et vous pouvez l’installer en clic. Si Thonny n’arrive pas à installer un package pour une erreur ou autre, vous pouvez aussi télécharger le package manuel en le cherchant par son nom sur Google et Thonny peut aussi l’installer via le package que vous aurez téléchargé. Mais le package requests est bien disponible dans Thonny.

    Installer un paquet sur l'IDE Python Thonny

    Chercher un paquet Python avec l'IDE Python

    Les paquets python disponibles dans Thonny

    Ensuite, Créez un nouveau fichier et copiez-coller le script dedans. Appuyez sur la touche F5 pour lancer le script directement dans Thonny et fournissez l’URL de votre blog sous Blogger comme indiqué dans les étapes précédentes et voilà !

     

    Houssen Moshinaly

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    Copy code