En
informatique, les documents (textes, images fixes, sons, images
animées) existent sous la forme de fichiers. Et ces
fichiers ont des formats. Il existe de très nombreux
formats de fichiers. Mais tous les formats ne sont pas identiques
: ils ont des caractéristiques propres, des avantages,
des inconvénients, des limites, voire même des
dangers.
Les documents de type texte (au sens large) sont certainement
de ceux qui sont les plus fréquemment produits et
rencontrés. Et là aussi les formats de fichiers
sont assez nombreux. Voici un petit panorama pour mieux
s'y retrouver et évitez certains dangers...
Au départ est le document
texte.
Le terme de document texte renvoit à tout type de
texte au sens large : cela peut aller de l'article plus
ou moins long au mémoire d'études supérieures
en passant par un livre ou un rapport, incluant ou pas images,
graphiques, tableaux, notes de bas de page,... selon la
complexité du document.
Le txt : format universel, mais...
Vous avez forcément au moins une fois rencontré
ce format : il est le plus simple possible, avec aucune
mise en forme visuelle élaborée, seulement
le texte brut (on dit aussi format ASCII). Il n'y a que
les lettres (accentués ou pas), d'autres caractères,
des lignes vides mais pas de gras, d'italique, ou de taille
de police différente par exemple. C'est le format
standard des fichiers intutilés "lisezmoi" ou "readme"
qui fournissent des informations sur les logiciels. Ce format
est lu par tout les ordinateurs quel que soit le système
d'exploitation, Windows, MacOS, Linux ou autres. Et si le
texte est écrit sans utiliser les lettres accentués
de notre alphabet ( comme é, à, ç,
ö, î), c'est alors même un format universel
: lu par tous, sans exception. Cependant, pas de mise en
forme ou de mise en page autre que rudimentaire.
Le format des traitements de texte
: propriétaires et limités, dangers...
Pour produire un document texte, on utilise la plupart
du temps, les traitements de texte.
Pourtant, le fichier obtenu est limité et contient
des dangers...
Voyons cela de près.
Lorsque vous produisez un document avec un traitement de
texte, ce document est créé en utilisant un
format, celui du traitement de texte. Cela est évident,
mais cela entraine des conséquences importantes.
Que signifie exactement qu'un texte est à un format
d'un traitement de texte donné ? Cela signifie que
les informations qui y figurent sont codées par et
pour le logiciel en question. Ainsi, pour faire apparaître
des mots en italique, le codage de l'italique est celui
utilisé par le logiciel. Et cela est identique bien
sûr pour tout le document (les gras, les polices,
les sauts de page, etc.).
Or là apparait le problème : ce codage des
informations n'est pas connu, il est propriétaire
et reste secret. Et cela entraine des conséquences
auxquelles vous avez sans doute déjà été
confrontées.
Nouvelle version
Tout d'abord il se peut que la nouvelle version du traitement
de texte utilise un autre codage des informations. Et si
aucune prise en compte de l'ancien format n'est assuré,
cela posera problème. Et dans le cas d'une version
trop ancienne, le codage n'est peut-être plus compris.
Votre document fait il y a quelques années est alors
presque perdu.
Communiquer son fichier
Si vous voulez communiquer votre document à une autre
personne, que se passe-t-il ? Si elle ne possède
pas le même traitement de texte que vous avez utilisé,
elle ne pourra pas le lire, ou du moins par forcément
au mieux (dans le cas où son traitement de texte
différent du votre sache reprendre votre fichier).
Disparition du traitement de texte
Si votre logiciel de traitement de texte disparait ou
n'existe plus ? Cela peut arriver, cela est arrivé
(par exemple les logiciels WordPerfect sous DOS ou AmiPro
ont disparu). Les documents produits à ces formats
ne seront aussi que difficilement récupérés.
Et voici l'imprimante
Les traitements de texte tiennent compte de l'imprimante
déclarée. C'est normal pour imprimer, qui
est l'objectif. Mais cela va plus loin, hélas, et
constitue une limite. En effet, bien qu'à l'écran
la mise en page ait certaines caractéristiques (marges,
espacements,...), elle ne sera pas la même sur le
papier suivant le type d'imprimante ! Votre document n'aura
donc pas de rendu papier indépendant de l'imprimante
utilisée...
Face à ces problèmes, n'existe-t-il pas
un format commun compréhensible par les traitements
de texte ? Si, le RTF.
Le RTF : une solution, mais...
Le format RTF (Rich Text Format) est un format connu (on
sait comment les informations sont codées) qui a
pour objectif d'être lu par tous les traitements de
texte. C'est une solution pour échanger ses fichiers,
mais le problème lié à l'imprimante persiste.
Le HTML : universel, mais...
Le format HTML est un format connu (on sait comment les
informations sont codées pour afficher ce que nous
voyons à l'écran) et normalisé (le
Consortium W3C
s'en charge). Un document au format HTML est normalement
lu par n'importe quel ordinateur ayant un navigateur, ce
qui est maintenant presque toujours le cas. A condition
de respecter la normalisation du langage HTML, ce qui n'est
pas toujours le cas.
Cependant, ce format n'est pas fait pour l'impression mais
pour l'affichage sur écran.
Le PDF : reconnu, mais...
Le format PDF garantit un contenu non modifiable, une lecture
presque universelle (le logiciel pour lire du PDF, Acrobat
Reader, est gratuit et disponible pour Windows, MacOS, Linux)
et une impression exacte à ce que vous avez souhaité
(marges, disposition,...).
Le format PDF est aussi un format connu (on sait comment
les informations sont codées pour afficher et surtout
imprimer).
Cependant le logiciel qui permet de créer des PDF,
Adobe Acrobat, a un coût très élevé
(même si d'autres moyens existent aussi).
Alors, un format idéal ?
Tout ce que nous avons vu possèdent avantages et
inconvénients, certains contenant même des
dangers. Quel serait dans ce contexte un format idéal
? Et existe-t-il ?
Le format idéal serait un format connu, échangeable
et lisible par tous, garantissant la mise en page de la
version imprimée. De plus, ce format devrait permettre
de générer d'autres formats comme le HTML,
le RTF ou le PDF, sans autre saisie.
Ce format existe, ou plutôt ces formats existent,
car plusieurs formats permettent d'atteindre les objectifs
cités ci-dessus. Ces formats s'appellent sgml, tex,
xml ou docbook. Eux-mêmes et les outils pour les créer
relèvent des logiciels libres.
A suivre dans le prochain numéro...