Comment les fichiers ODT sont structurés


  • FrançaisFrançais


  • Les fichiers de traitement de texte étaient auparavant des formats fermés et propriétaires. Dans certains traitements de texte plus anciens, le fichier du document était essentiellement un vidage mémoire du traitement de texte. Bien que cela ait permis un chargement plus rapide du document dans le traitement de texte, cela a également rendu le format de fichier du document un gâchis opaque.

    Vers 2005, le groupe OASIS (Organisation pour l’avancement des normes d’information structurée) a défini un format ouvert pour les documents bureautiques de tous types, l’Open Document Format for Office Applications (ODF). Vous pouvez également voir ODF appelé simplement “Format OpenDocument” car il s’agit d’un standard ouvert basé sur le OpenOffice.org Spécification du fichier XML. ODF comprend plusieurs types de fichiers, y compris ODT pour les documents OpenDocument Text. Il y a beaucoup à explorer dans un fichier ODT, et cela commence par un fichier zip.

    Structure zippée

    Comme tous les fichiers ODF, ODT est en fait un document XML et d’autres fichiers enveloppés dans un conteneur de fichiers zip. L’utilisation de zip signifie que les fichiers occupent moins d’espace sur le disque, mais cela signifie également que vous pouvez utiliser des outils zip standard pour examiner un fichier ODF.

    J’ai un article sur le leadership informatique intitulé “Grignoté à mort par des canards” que j’ai enregistré sous forme de fichier ODT. Puisqu’il s’agit d’un fichier ODF, qui est un conteneur de fichiers zip, vous pouvez utiliser unzip depuis la ligne de commande pour l’examiner :

    $ unzip -l 'Nibbled to death by ducks.odt'
    Archive: Nibbled to death by ducks.odt
    Length Date Time Name
    39 07-15-2022 22:18 mimetype
    12713 07-15-2022 22:18 Thumbnails/thumbnail.png
    915001 07-15-2022 22:18 Pictures/10000201000004500000026DBF6636B0B9352031.png
    10879 07-15-2022 22:18 content.xml
    20048 07-15-2022 22:18 styles.xml
    9576 07-15-2022 22:18 settings.xml
    757 07-15-2022 22:18 meta.xml
    260 07-15-2022 22:18 manifest.rdf
    0 07-15-2022 22:18 Configurations2/accelerator/
    0 07-15-2022 22:18 Configurations2/toolpanel/
    0 07-15-2022 22:18 Configurations2/statusbar/
    0 07-15-2022 22:18 Configurations2/progressbar/
    0 07-15-2022 22:18 Configurations2/toolbar/
    0 07-15-2022 22:18 Configurations2/popupmenu/
    0 07-15-2022 22:18 Configurations2/floater/
    0 07-15-2022 22:18 Configurations2/menubar/
    1192 07-15-2022 22:18 META-INF/manifest.xml
    970465 17 files

    Je souhaite mettre en évidence quelques éléments de la structure du fichier zip :

    1. La mimetype Le fichier contient une seule ligne qui définit le document ODF. Les programmes qui traitent les fichiers ODT, comme un traitement de texte, peuvent utiliser ce fichier pour vérifier le MIME type de document. Pour un fichier ODT, cela devrait toujours être :
    application/vnd.oasis.opendocument.text
    1. La META-INF répertoire a un seul manifest.xml fichier dedans. Ce fichier contient toutes les informations sur l’emplacement des autres composants du fichier ODT. Tout programme qui lit les fichiers ODT commence par ce fichier pour localiser tout le reste. Par exemple, le manifest.xml file pour mon document ODT contient cette ligne qui définit où trouver le contenu principal :
    <manifest:file-entry manifest:full-path="content.xml" manifest:media-type="text/xml"/>
    1. La content.xml fichier contient le contenu réel du document.

    2. Mon document comprend une seule capture d’écran, qui est contenue dans le Pictures annuaire.

    Étant donné que le document ODT n’est qu’un fichier zip avec une structure spécifique, vous pouvez en extraire des fichiers. Vous pouvez commencer par décompresser l’intégralité du fichier ODT, par exemple avec cette commande de décompression :

    $ unzip -q 'Nibbled to death by ducks.odt' -d Nibbled

    Un collègue a récemment demandé une copie de l’image que j’ai incluse dans mon article. J’ai pu localiser l’emplacement exact de n’importe quelle image intégrée en regardant dans le META-INF/manifest.xml dossier. La grep La commande peut afficher toutes les lignes décrivant une image :

    $ cd Nibbled
    $ grep image META-INF/manifest.xml
    <manifest:file-entry manifest:full-path="Thumbnails/thumbnail.png" manifest:media-type="image/png"/>
    <manifest:file-entry manifest:full-path="Pictures/10000201000004500000026DBF6636B0B9352031.png" manifest:media-type=" image/png”/>

    L’image que je recherche est enregistrée dans le Pictures dossier. Vous pouvez le vérifier en listant le contenu du répertoire :

    $ ls -F
    Configurations2/ manifest.rdf meta.xml Pictures/ styles.xml
    content.xml META-INF/ mimetype settings.xml Thumbnails/

    Et le voici :

    (Jim Hall, CC BY-SA 40)

    Format OpenDocument

    Les fichiers OpenDocument Format (ODF) sont un format de fichier ouvert qui peut décrire des fichiers de traitement de texte (ODT), des fichiers de feuille de calcul (ODS), des présentations (ODP) et d’autres types de fichiers. Étant donné que les fichiers ODF sont basés sur des normes ouvertes, vous pouvez utiliser d’autres outils pour les examiner et même en extraire des données. Vous avez juste besoin de savoir par où commencer. Tous les fichiers ODF commencent par le META-INF/manifest.xml fichier, qui est le fichier “racine” ou “bootstrap” pour le reste du format de fichier ODF. Une fois que vous savez où chercher, vous pouvez trouver le reste du contenu.

    Source

    La Rédaction

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

    Copy code