Tableau
récapitulatif
Commençons tout d'abord par un petit tableau récapitulatif
: pour chacun des formats que nous avions vus, vous trouverez
ci-dessous ses caractéristiques comme son extension,
qui en est en charge, son ojectif d'utilisation.
| Formats |
Caractéristiques |
| Des
logiciels propriétaires |
formats
fermés
dépendent des éditeurs des logiciels
à chaque logiciel son format
problème de diffusion, de version, de perennité |
| Texte
brut ou ASCII |
fichier
.txt
format ouvert
lu par tous les logiciels
aucune de mise en forme |
RTF
Rich Text Format |
fichier
.rtf
format ouvert, établi par Microsoft
permet d'être lu et utilisé par les traitements
de texte |
PDF
Portable Document Format |
fichier
.pdf
format ouvert, établi par Adobe
garantit la mise en page en vue de l'impression du document |
HTML
HyperText Markup Language |
fichier
.htm (ou .html)
format ouvert, établi par le Consortium du World
Wide Web
permet l'affichage sur écran et les liens entre
les pages, les sites
n'est pas fait pour l'impression |
Il faut introduire un nouveau format dans ce tour
d'horizon, celui concernant l'impression. Ce format, le
PostScript, est dédié aux sorties papier
des imprimantes (voire même des photocomposeuses).
Il est reconnu, puissant, et surtout il est lui aussi ouvert
: on en connait les spécifications, qui sont publiées
(un énorme manuel de référence technique),
développées et maintenues par la société
Adobe. Les fichiers PostScript ont des noms se terminant
en .ps et sont utilisés par le monde professionnel
de l'édition : la qualité obtenue est élevée.
C'est aussi un format très souvent rencontré
dans le monde du logiciel libre.
Comme écrit en introduction, nous allons nous intéresser
aux solutions et outils permettant d'obtenir en une seule
saisie les 5 versions indiquées ci-dessus, PostScript,
HTML, PDF, RTF et TXT.
Ces solutions reposent sur une autre approche du document
que celle habituellement utilisée.
Une nouvelle approche du document
Si on prend un document, il est possible d'en distinguer
trois composants :
- les propos développés ;
- le plan adopté ;
- la présentation.
Ces trois composants sont fortement liés : les propos
sont développés selon un plan qui les met en
valeur et avec une présentation particulière.
Cette présentation est normalement cohérente
dans tout le document : les informations de même nature
(les titres, les sous-titres, les citations, etc.) sont
toujours présentées de la même façon
(gras pour les uns, italique, décalage pour les autres,
etc.). Regardez cet article pour le constater !
Habituellement, on travaille sur les trois composants en
même temps : on tape le texte, on crée le plan
(en numérotant par exemple) et on met en forme (en
mettant en gras par exemple).
Or ce travail de mise en forme est répétitif
et pourrait très bien être automatisé.
N'oublions pas que la définition du mot informatique
fait état du traitement automatique de l'information
par des logiciels.
Ainsi, une nouvelle approche consiste à indiquer
explicitement la nature des informations. Le logiciel
s'occupe alors de mettre en forme correctement, de numéroter
les parties ou les listes, etc.
Prenons un exemple pour illustrer le plus clairement
possible l'intérêt de cette approche. Dans
l'article que vous lisez, il y a des titres de parties,
qui sont toujours en bleu. Je n'ai pas mis en bleu, mais
j'ai indiqué où se situe le début et
la fin de ces titres.
A cette nature « titre », a été
associée une mise en forme gras. Et cela pour tout
le document, en une seule fois. Mais notez qu'une autre
mise en forme peut être choisie, qui va alors affecter
aussi tout le document en un seul changement d'association
!
Il en va de même des numérotations des chapitres,
des numéros dans une liste, des citations en italique
(ou en autre chose). En fait, on sépare le fonds
de la forme. Vous ne vous occupez que du contenu et
de sa hiérarchie (le plan). La mise en forme découlera
de la nature des informations.
Certains d'entre vous penseront sans doute aux relectures
quils ont faites pour s'assurer que leurs titres,
les titres d'ouvrages cités, les numéros,
avaient toujours la même présentation, faite
à la main à chaque fois... Avec cette approche,
vous en aurez la garantie absolue sans le faire à
la main (si vous n'avez pas oublié d'indiquer la
nature de l'information !).
Certains d'entre vous se diront que ce qui est décrit
s'appelle des feuilles de style, utilisées dans les
logiciels de traitement de texte. C'est exact, mais ces
feuilles de style sont propres au logiciel utilisé
et ne sont pas à un format ouvert et connu. On en
revient au même problème que celui des formats
de fichiers propriétaires.
Après la théorie,
la pratique !
Avec cette nouvelle approche à l'esprit, comment
la mettre en pratique ? Cela est possible au travers de
4 formats principalement, qui utilisent le principe des
balises : l'information est encadrée à
son début et à sa fin par des balises qui
sont explicites.
Ainsi : <titre>Après la théorie, la
pratique !</titre>
Mais rassurez-vous, vous n'aurez pas forcément à
les taper complètement et systématiquement.
Les formats
Le SGML (Standard Generalized Markup Language)
C'est l'un des plus anciens. Il est extrêmement puissant,
mais trop lourd à mettre en oeuvre en pratique, sauf
avec l'outil SGML Tools.
Le XML avec DTD libre
Le XML (eXtensible Markup Language) est aussi un langage
à balise puissant et de plus en plus utilisé.
Il repose sur des déclarations de type de documents
(DTD, Document Type Declaration). Vous créez vos
balises (titre-du-chapitre, citation, titre-de-livre, etc)
que vous définissez.
Le XML avec DTD DocBook
Les balises sont celles de la DTD DocBook, qui est complète
et de plus en plus utilisée.
TeX et LaTeX
À prononcer tèque et latèque, et à
écrire avec les majuscules telles quelle !
C'est l'un des plus anciens (presque 25 ans pour TeX !).
Il est puissant, utilisé par le monde de l'édition,
le plus aiséà mettre en oeuvre des quatre.
À partir de ces formats, il est possible d'obtenir
les versions PostScript, HTML, PDF, RTF, ou TXT du document.
Les outils
Pour écrire en SGML, en XML libre, en
DocBook, en TeX/ LaTeX, voici des outils disponibles en
logiciel libre (donc entre autres gratuits et pas seulement
en version pour Linux).
Les éditeurs de texte
Que ce soit Vim, Emacs ou d'autres, ils permettent
d'écrire assez facilement le document avec des modules
d'aide performants pour chaque format, à condition
de se pencher un peu sur les balises de chacun de ces formats.
http://www.vim.org/
http://www.emacs.org/
LyX
Tout se fait avec une interface graphique : vous surlignez,
vous indiquez dans un menu qu'il s'agit d'un titre (ou autre)
et c'est tout. Le balisage se fait sans avoir à le
taper.
http://www.lyx.org/
TeXmacs
Particulièrement dédié aux écrits
scientifiques, il est aussi avec une interface graphique.
http://www.texmacs.org/
OpenOffice.org
C'est une suite bureautique complète (traitement
de texte, tableur, présentation, dessin, base de
données) qui permet de sauvegarder en XML ouvert
et documenté.
http://www.openoffice.org/
En espérant que ce tour d'horizon vous en aura ouvert
de nouveaux, bon travail !
Copyright © 2002
Permission vous est donnée de distribuer et/ou de
modifier cet article sous les termes de la licence GNU Free
Documention License, http://www.fsf.org/licenses/fdl.html