Professional Documents
Culture Documents
par
Luc SONK
Docteur en mathmatiques
Prsident de STSI-SA (Socit des Technologies et Systmes dInformation), Paris
1.
1.1
1.2
1.3
1.4
1.5
2.
2.1
2.2
2.3
4
4
5
5
3.
3.1
3.2
3.3
3.4
3.5
3.6
7
7
11
12
12
12
13
4.
4.1
4.2
4.3
4.4
14
14
14
14
14
5.
5.1
5.2
5.3
14
14
15
15
6.
6.1
6.2
6.3
6.4
15
15
15
17
17
7.
Conclusion .................................................................................................
18
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 - 2
Doc. H 7 138
H 7 138 1
SGML ________________________________________________________________________________________________________________________________
1. Notions fondamentales
1.1 Origine de SGML
SGML (Standard Generalized Markup Language) est n des travaux de synthse de deux langages conus sur le concept de balisage logique : GML (Generalized Markup Language), dvelopp
chez IBM par C.F. Goldfarb et GENCODE dvelopp pour GCA (Graphic Communication Association) par W. Tunnicliffe.
SGML a aussi beaucoup profit des recherches faites sur les documents structurs, notamment dans les milieux acadmiques, et en
particulier, de langages comme Scribe de Brian Reid.
SGML a officiellement t adopt comme norme ISO (International Organization for Standardization) en octobre 1986 sous la rfrence ISO 8879.
H 7 138 2
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
Introduction
chapitre1
section1 (paragraphe1, ...,
paragraphen)
...
sectioni (paragraphe1, ...,
paragraphek)
...
Introduction
Maintenance prventive
Alimentation (circuit primaire, ..., fusibles)
Cabine (tableaux alarmes, ...,
commandes)
chapitrep
section1 (paragraphe1, ...,
paragraphem)
...
sectionj (paragraphe1, ...,
paragraphel)
...
Maintenance corrective
Gnralit (paragraphe1, ...,
paragraphek)
...
Moteur (rotors, ..., tuyres)
SGML
1.4 Balisage
Le balisage consiste en linsertion de marques au sein dun document, ce marquage visant permettre et faciliter ultrieurement
divers traitements sur le document. Du balisage physique au balisage logique gnrique, ce principe de marquage sest affin progressivement au gr des progrs de linformatique ditoriale. Cette
volution de la notion de balisage peut tre vue la fois comme un
largissement progressif du champ des traitements possibles sur un
document marqu, et comme la capacit accrue de marquer les
documents les plus singuliers.
On peut enfin concevoir le balisage (en particulier le balisage logique gnrique) comme une mise en uvre du concept de documentation structure.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 3
SGML ________________________________________________________________________________________________________________________________
2. Fondements conceptuels
de SGML
Ce paragraphe sattache montrer en quoi SGML peut tre considr comme un mtalangage. Lexpos propose au lecteur des
bases conceptuelles utiles pour une bonne comprhension thorique de SGML.
H 7 138 4
2.1.1 Modle
Un modle est la description dun univers donn, en vue de sa
prise en compte automatique. Par prise en compte automatique, on
entend ici la gnration ou linterprtation, sur ordinateur, de donnes appartenant cet univers.
Le modle peut, dans une phase initiale et ventuellement plusieurs phases intermdiaires, tre spcifi au moyen de langages
graphiques tels que NIAM (Nijssen Information Analysis Method )
ou IDEF0 (Integrated computer-aided manufacturing DEFinition language - Functional Modeling ). Cependant, ayant en vue la prise en
compte automatique des modles ( la diffrence des modles
mathmatiques, par exemple), on est orient vers la dfinition de
modles formels dont lcriture en permet le traitement en machine.
Des exemples de ces modles (en restant dans le domaine documentaire) sont RTF, LATEX ou HTML [5].
Cette remarque conduit galement inclure, dans la dfinition
dun modle, les critres de conformit des futures instances du
modle.
2.1.2 Instance
Une instance est un assemblage cohrent de donnes valide dans
un univers donn, cest--dire conforme un modle donn. Elle est
drive du modle par valuation des diffrents paramtres et structures prvus au sein de celui-ci. Il sagit dune donne passive, en ce
sens que, bien que valus, les paramtres quelle contient ne sont
pas activs. Linstance peut tre gnre automatiquement ou non.
Le modle dfinit une classe dont linstance est un reprsentant.
Le nombre dinstances nest donc a priori pas limit.
La conformit de linstance au modle doit se vrifier par une procdure automatique. On parle alors de parsing indpendamment de
tout traitement possible sur cette instance. De ce point de vue, dans
le domaine documentaire, la visualisation dune instance compose
ne peut suffire pour prononcer la conformit de cette instance son
modle.
2.1.3 Occurrence
La notion doccurrence dsigne le rsultat dune excution particulire dune instance. Dfinir la gnration dune occurrence
comme une excution dune instance revient dire quune occurrence nest pas uniquement une transformation (rorganisation
structurelle, par exemple) dune instance donne. Par-del les ventuelles transformations, le processus de gnration dune occurrence peut se caractriser de la manire suivante :
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
SGML
Le nombre doccurrences que lon peut gnrer partir dune instance donne est illimit.
Ainsi, une DTD (Dfinition du Type de Document) est une grammaire particulire permettant la description dune classe particulire
de documents.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 5
SGML ________________________________________________________________________________________________________________________________
Le balisage utilis dans lexemple qui prcde est donc dfini par
une DTD. Un aspect au moins de cette DTD est trs rudimentaire. Il
sagit de la dfinition des balises <gras> et </gras>, conues pour
indiquer, un logiciel de prsentation, la mise en gras dune partie
du texte. Inspire de la prsentation initiale du texte baliser, la dfinition de cette balise ne couvre cependant pas dautres traitements
qui, bien que diffrents de la mise en gras, relvent cependant de la
mme notion.
...
<p> Ceci est un exemple destin <mise-en-evidence
type=gras> illustrer </mise-en-evidence> le concept de
<concept> balisage physique </concept> </p>.
...
2.3.3.1 Dclaration SGML
</article>
Dans ce nouvel exemple, la balise <gras> est remplace par la
balise <mise-en-evidence type=gras>. Cette nouvelle balise permet dindiquer le type de mise en vidence souhait, en affectant
une valeur lattribut type (ici, la valeur est gras . Mais elle
pourrait tre italique , clignotant , etc.). La notion dattribut
sera dfinie au paragraphe 3.1.2.1.3.
En conclusion cette brve introduction, il apparat que :
SGML permet de dfinir un modle de document (DTD) permettant le balisage dune classe de documents ;
un mme document peut recevoir plusieurs modles de document au sens SGML.
2.3.3.2 Prologue
H 7 138 6
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
SGML
Balisage
Dclarations et appels
dentits
Groupage
Modle
de contenu
Indicateur
doccurrence
Connecteur
Autre
Attributs
Syntaxe
abstraite
Signification
Syntaxe concrte
de rfrence
STAGO
<
ETAGO
</
TAGC
>
MDO
<!
MDC
>
PIO
<?
PIC
>
ERO
&
PERO
%
&#
CRO
REFC
GRPO
GRPC
OPT
PLUS
REP
SEQ
OR
AND
&
RNI
VI
LIT
LTA
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 7
SGML ________________________________________________________________________________________________________________________________
3.1.2 Prologue
Comme nous lavons vu au paragraphe 2.3.3.2, le prologue
contient les dclarations des types de document (DTD), dont lune
est la dclaration du type de document de base, et les dclarations
des types de liens (LPD). Ce paragraphe est consacr la description
formelle des concepts de base de ces composantes du prologue.
avec :
ELEMENT mot rserv qui annonce la dclaration dun ou de
plusieurs lments ; et le modle de contenu qui se dcompose
comme suit :
(elm1, ..., elmk ) est le groupe de modle, compos des k
noms dlments que lon dfinit (il ny a pas de parenthses lorsque k = 1) ;
O sont les indicateurs domission de balisage de dbut et de
fin dlment ;
(el1, ..., elj ) est le contenu commun aux lments dclars,
compos des j lments el1, ..., elj ; et enfin les exceptions :
(e1, e2, ..., ei ) groupe dlments inclus ;
(ex1, ex2, ..., exn ) groupe dlments exclus.
Inclusions et exclusions sont dfinies ci-aprs.
Exceptions
3.1.2.1 DTD
Inclusions :
(ex1, ex2, ..., exn ) Exclusion des lments ex1, ..., exn. Leur occurrence est impossible dans chacun des lments elm1, ..., elmk
mme si la dfinition des sous-lments el1, ..., elj autorise leur
prsence.
Exclusions :
+(e1, e2, ..., ei ) Inclusion des lments e1, ..., ei. Leur occurrence
est autorise dans les lments elm1, ..., elmk mme si leur dfinition nest pas explicite dans les sous-lments el1, ..., elj.
Lexclusion dun lment rendu obligatoire par le groupe de
modle est interdit.
Lexclusion a la priorit sur linclusion. Autrement dit un lment
la fois autoris par une inclusion et interdit par une exclusion est
exclu tous les niveaux hirarchiquement infrieurs au niveau o a
lieu la dclaration.
Ces deux rgles montrent quil est prfrable dindiquer les
exceptions au plus prs des lments concerns, cest--dire le plus
bas possible dans la structure hirarchique.
Groupe de modle
SGML utilise les connecteurs , , & et | pour prciser le
contenu dun groupe de modle. Le groupe de modle dcrit donc le
contenu dun lment au moyen dune expression rgulire
compose didentifiants dlments. Les lments terminaux (donnes textuelles) sont indiqus par le symbole #PCDATA.
Groupe de modle
Signification
o :
DOCTYPE est le mot rserv qui annonce la dclaration dun
type de document ;
nom_du_type_de_document est lidentificateur du type de
document. Il ne peut apparatre comme identificateur dun autre
type de lien, ni dun autre type de document, au sein du mme
prologue ;
identificateur_externe pointe sur une entit rfrence qui
constitue, avec les dclarations, la dclaration du type de
document ;
entre les crochets [dclarations] sont dclares les diverses
parties de la structure du document ainsi que les ventuelles abrviations adoptes. Nous dtaillons ci-aprs quelques-unes de ces
dclarations.
H 7 138 8
Un et un seul des j lments doit tre prsent dans les lments dcrits.
Les lments el1, el2, ..., elj peuvent ventuellement tre suivis
dun symbole doccurrence, par exemple (el1, el2*, el3?, el4+, ..., el
j ).
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
SGML
0
128
RE
13
RS
10
SPACE
32
TAB
SEPCHAR
NAMING
LCNMSTRT ""
UCNMSTRT ""
LCNMCHAR "-"
UCNMCHAR "-"
NAMECASE GENERAL
ENTITY
NO
DELIM
GENERAL SGMLREF
SHORTREF SGMLREF
NAMES
SGMLREF
QUANTITYSGMLREF
FEATURES
MINIMIZE
DATATAG YES
LINK
SIMPLE
YES
OTHER
CONCUR
YES
FORMAL
NO
YES
OMITTAG YES
10 IMPLICIT
10 SUBDOC
RANK YES
YES
SHORTTAG
EXPLICIT
YES
YES
YES
10
10
APPINFO NONE>
Symbole
Signification
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 9
SGML ________________________________________________________________________________________________________________________________
Certaines donnes ou ensembles de caractres peuvent tre destins sinsrer dans le document (des donnes issues dautres
sources, par exemple), sans quil soit ncessaire de les saisir directement. Ces ensembles sont alors rfrencs sous des noms symboliques. Ce sont les entits.
Les entits SGML peuvent se classer en trois catgories : les entits gnrales, les entits paramtres et les entits externes.
Les entits gnrales
Rfrences dans une DTD ou un LPD, elles sont destines tre
utilises dans le document instance. La forme de leur dclaration est
la suivante :
(f, b)>
<!ELEMENT f
(a,b?)>
type1
valeur_par_dfaut1
attribut2
type2
valeur_par_dfaut2
type_n
valeur_par_dfaut_n >
...
attribut_n
o :
ATTLIST est le mot rserv qui annonce la dclaration dune
liste dattributs ;
elem est le nom de llment dont on dfinit les attributs ;
attribut_k est le nom du ke attribut dclar ;
type_k est un mot-cl qui prcise la nature du contenu du ke
attribut.
On a :
Mot-cl
NUTOKEN
NMTOKEN
ENTITY(IES)
CDATA
ID
NAME(S)
Un nom SGML
Signification
#REQUIRED
#IMPLIED
Le systme dfinira une valeur pour lattribut si aucune valeur nest indique
#FIXED
#CURRENT
contenu_rfrenc>
o :
nom_de_lentit est le nom de lentit dclare ;
contenu-rfrenc est le contenu de lentit dclare, du texte
entre crochets.
Dans la DTD, lappel se fera par % nom_de_lentit.
Les entits externes
Il sagit dentits paramtres ou gnrales, mais dont le contenu
rfrenc est externe. contenu_rfrenc est alors la rfrence (par
exemple, un nom de fichier) au texte de lentit qui est stock par
ailleurs. Les entits externes ont lune des formes de dclaration suivantes.
Entit systme :
<!ENTITYnom_de_lentit
H 7 138 10
contenu_rfrenc>
<!ENTITY % nom_de_lentit
NUMBER(S)
Mot-cl
<!ENTITY nom_de_lentit
o :
ENTITY est le mot rserv qui annonce la dclaration dune
entit ;
nom_de_lentit est le nom de lentit dclare ;
contenu_rfrenc est le contenu de lentit dclare, avec
pour valeur possible : un paramtre littral, du texte entre crochets,
des donnes textuelles, une spcification dentit externe.
SYSTEM
identificateur_systme>
o :
SYSTEM est le mot rserv qui caractrise une entit systme ;
identificateur_systme indique au systme la valeur de lentit
dclare.
Entit public :
<!ENTITY % nom_de_lentit PUBLIC identificateur_public
identificateur_systme>
o :
PUBLIC est le mot rserv qui caractrise une entit publique ;
identificateurpublic indique lidentit de lentit dclare, qui
est indpendant du systme ;
identificateur_systme indique la manire dont le systme
accde localement lentit dclare.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
SGML
Mot-cl
SUBDOC
CDATA
SDATA
NDATA
Notation :
Il sagit dune fonctionnalit de base de la norme, mme si certains systmes ne les traitent pas tous. Elles dclarent certaines parties du document destines recevoir des traitements particuliers.
La forme de la dclaration est la suivante :
<![type_de_traitement [contenu__traiter]]>
o contenu__traiter est le texte de la section marque et
type_de_traitement peut prendre lune des valeurs suivantes :
IGNORE : contenu__traiter est ignor ;
INCLUDE : contenu__traiter est inclus ;
RCDATA : seuls les appels dentits sont traits dans
contenu__traiter ;
CDATA : les caractres spciaux SGML de contenu__traiter
sont ignors ;
TEMP : contenu__traiter est inclus, mais temporaire.
3.1.2.2 LPD
Les dfinitions de processus de liens (LPD - Link Process
Definition ) ne sont voques ici qu titre historique, les objectifs
viss par ces constructions tant dsormais repris intgralement par
la norme DSSSL (cf. [Doc H 7 138]).
Les LPD ont en effet t conus au dpart pour associer, un type
de document donn (DTD), un autre type de document, dans un but
de formatage. Il sagit dune transformation du type document
logique document physique.
Concrtement, le LPD regroupe au sein du prologue un ensemble
de dclarations dattributs. Ces attributs spcifiques sont associs
(mis en correspondance) avec les lments dune DTD donne, sans
modification de cette dernire.
3.1.3 Instance
Linstance SGML correspond bien la dfinition gnrale que
nous avons donne de la notion dinstance au paragraphe 2.1.2. Il
sagit du document balis conformment son modle, la DTD.
Les divers lments dclar dans la DTD reoivent ici leurs contenus sous forme de texte ou didentifiant des adresses de leurs
contenus ; les attributs sont valus, les liens sont rsolus. Linstance
peut contenir des sections marques et des sous-documents.
Linstance est donc le document apte recevoir (presque) tous les
traitements de gestion et dexploitation mis en place par les utilisateurs dans le cadre dapplications particulires ; par exemple :
la migration de composants du document vers une base de
donnes de gestion de fragments ;
lchange de fragments ;
la composition selon divers styles.
3.1.3.1 Instructions de traitement
Parce que lis des systmes particuliers, certains traitements
effectus sur une instance peuvent exploiter, outre le balisage du
document conformment sa DTD, des instructions spcifiques
insres dans le corps du document. Il sagit des Processing Instruction (PI).
Les PI peuvent apparatre nimporte quel endroit au sein du
document. Leur syntaxe est la suivante :
<?instruction_de_traitement>
o :
<? est la syntaxe concrte pour PIO (processing instruction
open - ouverture dune instruction de traitement) ;
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 11
SGML ________________________________________________________________________________________________________________________________
Parmi les objectifs poursuivis par SGML, lchange des documents entre partenaires est lun des plus importants. Lchange est
ici entendu au sens de lEDI (Electronic Data Interchange ), cest-dire dordinateur ordinateur, voir dapplication application. Le
but vis est la non-intervention manuelle dans la chane lectronique de linformation.
SDIF (Standard Document Interchange Format ) spcifie dans la
norme ISO 9069 (cf. [Doc H 7 138]) le format dchange de documents SGML. Il spcifie lempaquetage, au sein dun flot unique de
donnes, des divers parties (types de documents, entits externes,
documents externes, etc.) dun document SGML, au moyen de descripteurs indiquant les liens entre ces parties.
Entre autres donnes, SDIF permet la transmission entre systmes :
du jeu de caractres utilis ;
des instructions de traitement (dlimiteurs spcifiques pour les
balises complmentaires) ;
des informations extrieures devant sinsrer dans le document ;
des informations concernant le balisage du document (par
exemple, lutilisation des diverses fonctionnalits proposes par
SGML) ;
de la syntaxe du langage utilis pour construire le balisage (les
dlimiteurs, les mots-cls et symboles spciaux qui permettent de
construire le systme de balisage particulier lapplication) ;
des modles de document ;
des instances.
Cr pour satisfaire au besoin croissant dune utilisation professionnelle de lInternet, le concept dIntranet a rapidement atteint les
limites de HTML comme norme dchanges dapplications documentaires professionnelles. XML est ainsi n et se positionne
demble comme la (future) norme pour les applications Web-Intranet.
Sur la base de ces distinctions, nous pouvons donner les dfinitions ci-aprs.
H 7 138 12
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
3.5.1 HTML
SGML
Lvolution de XML prvoit la spcification de feuilles de style normalises bases sur la norme DSSSL.
3.5.2 XML
3.5.2.1 Objet de XML
Projet du W3C, XML (eXtensible Markup Language) vise la diffusion, travers le Web, de vritables instances SGML. La spcification peut donc sentendre (comme le suggre ce nom) comme une
extension de HTML permettant lutilisateur de dfinir ses propres
balises. Comme nous lavons indiqu en introduction, XML est en
fait une restriction particulire des possibilits de SGML, ce qui est
la dfinition mme dun profil dapplication.
On peut donc schmatiquement situer XML entre SGML et HTML.
Sa naissance a t suscite par les limites rencontres dans lutilisation de ces deux dernires normes, pour la ralisation dapplications
Web professionnelles.
Ces limites peuvent se rsumer dans les deux points qui suivent :
la structuration insuffisante et labsence de smantique dans
lapproche HTML (et donc le trop peu de possibilits dindexation
des documents) ;
la lourdeur de mise en uvre dans lapproche SGML, due pour
lessentiel la prsence obligatoire du modle de document (DTD),
ce qui exige la prsence doutils danalyse de conformit toutes les
tapes le long dune chane documentaire SGML.
Le document bien form est la seule notion XML que nous prsentons ici. Nous renvoyons la lecture du document [6] dit par le
W3C, pour plus de dtail sur le contenu de la spcification. Pour une
prsentation introductive, voir larticle de F. Chahuneau [7].
La notion XML de document bien form ne sapparente que de
loin la notion de validit au sens SGML (conformit un modle),
la prsence de la DTD ntant plus requise pour les documents XML.
La dfinition ci-aprs est une interprtation de la dfinition formelle du document officiel de la spcification XML. La dfinition
exacte nous conduirait un expos dtaill des notions XML soumises aux contraintes WFC (well-formedness constraint), ce qui est
hors du propos du prsent article.
Un document texte est dit bien form au sens XML si la structure reconstituable partir de son balisage est complte et ferme, et peut tre mise en bijection avec lensemble des nuds
dun arbre hirarchique.
La notion de fermeture implique une forte exhaustivit locale du
document (suppression des rfrences externes).
Cette dfinition implique la notion dhritage, mais aussi un
niveau de dterminisme lev quant au contenu des instances dune
telle DTD, do la suppression de nombreuses possibilits de SGML,
au nombre desquelles :
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 13
SGML ________________________________________________________________________________________________________________________________
4. Positionnement de SGML
dans le contexte normatif
Il sagit ici de situer SGML non dans le contexte normatif gnral,
mais par rapport au corpus de ses normes satellites , cest-dire :
4.2 SMDL
SMDL (Standard Music Description Language ISO/IEC 10743)
(cf. [Doc H 7 138]) est une application-extension SGML pour la
description et lchange lectronique de documents musicaux.
SMDL est lorigine de lapproche temporelle de la modlisation utilisant la syntaxe SGML, ide reprise par la suite par
HyTime. On pourrait interprter SMDL comme une structuration
SGML du temps.
4.3 DSSSL
Longtemps attendu par tous les acteurs du monde ditorial,
DSSSL (Document Style Semantics and Specification Language
ISO/IEC 10179) (cf. [Doc H 7 138]) est la dernire norme conue par
le mme comit international ayant travaill il y a quelques annes
la dfinition de la norme SGML.
DSSSL vient complter la modlisation des donnes (SGML,
HyTime) par la modlisation des traitements ralisables sur ses donnes, le formatage en particulier.
Elle dfinit cet effet un langage permettant lexpression formelle
et rigoureuse :
des spcifications de prsentation et autres traitements automatiques dinstances SGML (textes baliss) ;
des traitements raliss par une gamme de formateurs la plus
large possible, des outils natifs aux composeurs actuels, laide de
traducteurs spcifiques.
Imagine au dpart pour standardiser la manire dindiquer les
styles et actions de composition associs un texte balis selon une
DTD SGML, cette spcification sest en fait gnralise en vritable
langage de manipulation dinstances SGML, la composition apparaissant comme un cas particulier de telles manipulations.
DSSSL est bas sur une vue base de donnes dune instance
SGML. Le fichier (en entre dun processeur DSSSL) nest donc pas
parcouru squentiellement. Cest ainsi que la spcification a introduit un langage de requte permettant laccs direct une partie
donne du document (instance SGML).
4.1 HyTime
4.4 SPDL
HyTime (Hypermedia Time-based structuring language ), extension-application de SGML, est parue en 1992, sous la rfrence
ISO/IEC 10744 (cf. [Doc H 7 138]). HyTime est une modlisation
spatio-temporelle tendant aux hyperdocuments les principes de
descriptions gnriques dfinis par SGML.
H 7 138 14
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
SGML
Conduit par le JTC 1/SC 18/WG 8 de lISO/IEC, ce projet vise la formalisation de lenrichissement smantique de documents SGML
existants. En dautres termes, il sagit de dcrire la manire dtablir
des rapprochements, dajouter de linformation et de la pertinence
des documents existants, sans modifier leur contenu initial ni interfrer sur leur cycle de vie. Un rseau de liens est cr par-dessus
les documents.
6. SGML et lingnierie
documentaire
Fondamentalement, SGML garderait son originalit comme mtalangage, mais gagnerait en pouvoir de conceptualisation et, corollaire naturel, en complexit de mise en uvre.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 15
SGML ________________________________________________________________________________________________________________________________
Principes
Prennit des donnes vhicules travers lensemble des processus du systme dinformation documentaire.
Suppression des lots dinformation (un systme est fait
dlots, ds lors quune de ses composantes se trouve dconnecte
du reste du systme. La pertinence des donnes nest plus alors
assure).
Indpendance du systme dinformation vis--vis des platesformes logiciels et matriels.
Minimisation du Cot Global de Possession (LCC Live-Cycle
Cost dans la terminologie CALS).
Ces dfinitions signifient que la pertinence smantique de la primitive documentaire est complte ds lors que lon a connaissance
de son contenu, ce contenu tant exhaustif, en ce sens que toutes
les informations ncessaires la pertinence smantique sont physiquement prsentes ou rfrences avec possibilit daccs dynamique au contenu des donnes.
Les processus au sein dune architecture dingnierie documentaire peuvent se rpartir en trois grandes activits primaires :
lacquisition des donnes, le stockage et la gestion des donnes, la
diffusion et lexploitation des donnes. Le rappel de larchitecture
globale et une brve description de chacune de ces activits nous
permettront de positionner SGML au sein de larchitecture fonctionnelle dun systme dinformation documentaire, mais aussi de donner une classification des outils SGML.
Architecture globale
En utilisant la mthode IDEF0, larchitecture globale peut se dcliner comme sur la figure 2.
Par affinement progressif, les trois principales activits repres
peuvent elles-mmes tre dclines en sous-activits jusquau plus
bas niveau, selon la mme syntaxe de reprsentation IDEF0.
Acquisition
Lacquisition des donnes met en uvre deux types de processus,
lis lorigine des donnes. Elle sopre par saisie directe ou par
transcodage, selon que les informations sont gnres ex nihilo ou
rcupres de sources existantes, lectroniques ou mme papier.
Gestion : bases dinformation modulaires
Nous sommes ici au cur de larchitecture globale.
H 7 138 16
Lactivit de gestion des donnes au sein des architectures dingnierie documentaire sappuie sur des bases dinformation modulaires.
Rappelons pour finir que, quelle que soit la mthode suivie pour
constituer lensemble des modules dinformation, elle doit obir
deux principes :
lexhaustivit (la base dinformation doit contenir toutes les
informations permettant de rpondre toute demande documentaire dun domaine donn) ;
la non-redondance ( travers le partage de linformation, la
base dinformation doit viter autant que possible la duplication des
donnes).
Cest en cela quune base dinformation modulaire dans un
domaine donn est considre comme une base documentaire
orthonorme pour le domaine en question.
Diffusion
Trois types de diffusion des donnes sont aujourdhui considrs
comme classiques :
la diffusion de type documentaire (lorganisation et la diffusion
de linformation sous forme de documents, au sens classique), sur
support papier ou non ;
la diffusion lectronique dextraits de la base dinformation
sous forme de lots de primitives documentaires ;
la diffusion en ligne des deux catgories prcdentes.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
_______________________________________________________________________________________________________________________________
Contrle local
Donnes
brutes
Contrle global
SGML
Contrles spcifiques
Donnes
structures
Acqurir
Stocker / Grer
Modules
d'information
Diffuser
Donnes
consultables
Transcodage,
saisie directe
SGBD
Formatage / composition
Dans chacun de ces cas, un processus de composition est ncessaire pour formater les donnes de manire les rendre humainement exploitables par destinataires.
On peut complter ses modes de diffusion par la diffusion/exploitation interactive qui a donn lieu quelques travaux importants ces
dernires annes [9] [10] [11] [12].
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
H 7 138 17
SGML ________________________________________________________________________________________________________________________________
Parsing local
Donnes
brutes
Saisie /
Transcodage
Parsing global
DSSSL
Instances
SGML
SGML
repository
Fragments
SGML
Formatage /
Diffusion
Donnes
SPDL
Les ressorts conceptuels de la norme se sont affins, en particulier sous limpulsion des travaux mens dans le cadre des normes
satellites. Il en rsulte un abandon de certaines notions dont lutilit
ntait pas manifeste, telles que les rfrences abrges. Il se dessine une volution de la norme vers un corps de concepts de base
assez abstraits, toujours sous-tendus par la puissance conceptuelle
de lapproche mtalangage.
Tant pour son intrt thorique que pour ses possibilits dapplication, on peut prvoir pour SGML un nombre dutilisateurs en augmentation dans les annes venir.
7. Conclusion
H 7 138 18
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Informatique
P
O
U
R
SGML
par
E
N
Luc SONK
Docteur en mathmatiques
Prsident de STSI-SA (Socit des Technologies et Systmes dInformation), Paris
Bibliographie
[1]
[2]
[3]
[6]
[10]
MIL-D-87269. Data Base, Revisable : Interactive Electronic Technical Manuals, for the
support of. DoD (oct. 1992).
[7]
[11]
CHAHUNEAU (F.). SGML sans DTD. Document numrique vol 1 n 1, Herms (fv.
1997).
[8]
[12]
[9]
Ouvrage
[4]
[5]
Normalisation
SGML a officiellement t adopt comme norme ISO (International Organization for Standardization) en octobre 1986 sous la rfrence ISO 8879.
LAFNOR a, quant elle, adopt la norme en 1990, sous la rfrence NF
EN 28879. La norme a reu en 1988 un amendement (Amendement 1) qui est
incorpor au texte de rfrence. Conformment aux procdures de lISO, une
premire rvision de la norme a eu lieu en 1991 et une deuxime en 1996.
Aucune de ces rvisions na pour linstant donn lieu la diffusion dune nouvelle version de la norme. Un rectificatif technique a cependant t publi
en 1996.
ISO 8879
ISO 8632-1
ISO/IEC 10179
1988 Information processing - SGML support facilities SGML Document Interchange Format (SDIF). [Traitement de linformation - Facilit de support SGML - Format dchange de documents SGML (SDIF)].
ISO/IEC 10744
ISO/IEC 10743
1994 Information processing - SGML support facilities Standard Music Description Language (SMDL).
ISO/IEC 10180
Pour consulter ces normes, on pourra faire appel aux adresses suivantes :
http://www.ornl.gov/sgml/wg4
http://www.ornl.gov/sgml/wg8/wg8home.htm
http://www.hightext.com/tnm
Doc. H 7 138 1
S
A
V
O
I
R
P
L
U
S