Fichier texte corrompu

Révision de 20 juin 2013 à 11:12 par ThomasB (discussion | contributions) (Ouvrir le .docx avec le gestionnaire d'archive)

Révision de 20 juin 2013 à 11:12 par ThomasB (discussion | contributions) (Ouvrir le .docx avec le gestionnaire d'archive)


réparation fichier corrompu

Docx.jpg

Contributeur·ice·s

User:[[contributeur::ThomasB
La propriété « Contributeur » (comme le type de page) avec la valeur d’entrée « User:[[contributeur::ThomasB » contient des caractères non valides ou est incomplète, et donc peut provoquer des résultats inattendus lors d’une requête ou d’un processus d’annotation.
|ThomasB]]

Statut du projet

fonctionnel

Statut de la publication

License

GPL

Inspiration

Fichiers source

Machines

Matériaux

Lien





Sommaire

Comment récupérer le texte d'un document .docx corrompu ?

Ça arrive à tous le monde, au moins une fois dans sa vie, parfois on bosse sur un mémoire, un rapport de stage, une thèse, une traduction, son autobiographie... Des milliers de caractères qui s'enchaînent les uns à la suite des autres.

On fait pas forcément attention à sauvegarder 20 versions différentes de son documents, dans 30 dossiers chiffrés afin de s'assurer de la pérennité de son travail... Et un beau jour (...) notre fichier maViemonOeuvre.docx ne veut plus s'ouvrir.

AHHHHHHHHH !!!!

Notre fichier est corrompu, c'est foutu, je t'avais bien dit de pas utiliser des logiciels libres, c'est vraiment pas fiable...Bref c'est la panade.

Tout d'abord il faut savoir que ce genre de problème n'est pas inhérent à l'utilisation de solutions libres (d'ailleurs .docx est la propriété de Microsoft ©©©), c'est également très présent dans des solutions propriétaires. Quant à l'origine du bug, ça reste un mystère (importation de données copier-coller depuis le web ? vérole envoyée par de vils personnages ?...)

Ouvrir le .docx avec le gestionnaire d'archive

Et maintenant une solution... :

Les documents textes "complexes" tels que ceux utilisés avec libreOffice, mais aussi openOffice, word etc. sont en fait des paquets contenant plusieurs types de fichiers. En somme un fichier .odt ou ici .docx s'apparentent plus à un dossier qu'à un fichier. C'est le syndrome des poupées russes.

Intéressons nous au format .docx : https://fr.wikipedia.org/wiki/Docx

Alors comment accéder au contenu disponible dans un fichier .docx ? Et bien tout simplement en utilisant un gestionnaire d'archives.

"Le format docx est en fait un fichier compressé au format ZIP qui contient un ensemble de fichiers (XML, images .jpg) décrivant le document."
Ce qu'il y a dans votre fichier .docx

Ouvrir le fichier document.xml

Qu'est ce que le XML ?

Récupérer le contenu textuel depuis le fichier document.xml

Processing ?

C'est fini !