Afficher les documents scientifiques sur le Web

Michel Goossens, Jean-Yves Le Meur
1998 Cahiers GUTenberg  
Résume Le CERN traite chaque jour un très grand nombre de documents de recherche, principalement balisés en L A T E X et provenant de divers serveurs Internet. Notre but est de les acher sur le Web via le Catalogue des Preprints de la Bibliothèque du CERN sous plusieurs formes (PostScript, pdf, gif). Nous passons en revue la procédure de conversion et décrivons nos essais de production massive pour générer de l'html directement à partir des sources T E X. Nous nissons par une discussion de
more » ... discussion de quelques développements récents dans le cadre de xml (et mml) qui amélioreront le support pour les formules mathématiques dans les programmes de visualisation. Abstract CERN daily handles a large number of research documents, mostly marked up in L A T E X and coming from many I n ternet servers. Our aim is to make them easily locatable on the Web with the help of the CERN Library's Preprint Catalogue in several formats (PostScript, pdf, gif). We review the conversion procedures and give some details on some massive production trial runs to directly generate html from the T E X sources. We conclude with a discussion of recent developments in the framework of the xml (and mml) eorts which should ease the support of mathematics formulae in Web browsers. Présenté à la dixième conférence T E X européenne à Saint-Malo du 29 mars -1 avril 1998 Publié dans les actes : Cahiers GUTenberg 28-29, pages 181-196. a. ) IT Division, b. ) AS Division, 1 Le catalogue des preprints du CERN 1.1 Introduction Le catalogue des preprints est un des plus volumineux catalogues de la bibliothèque du CERN. Cette littérature grise , constituée d'articles soumis pour publication, utilise le même système informatique pour cataloguer que celui des livres, périodiques, vidéos, coupures de presse, etc. Les documents peuvent provenir directement du CERN ou de n'importe quel autre institut dans le monde et ils doivent être rapidement, durablement et facilement accessibles sur le World Wide Web. L'acquisition de ces documents est devenue de plus en plus électronique ces dernières années et l'objectif est d'approcher une acquisition 100% automatisée. Dans cette optique, nous considérons un document comme constitué des éléments suivants : une information bibliographique (aussi appelée méta-données ) ; un texte en papier (le document complet et imprimé) ; un texte électronique (le format est variable) ; les gures électroniques (non incluses dans le texte principal). Chacun de ces éléments suit un traitement particulier. Conversion à la volée : tth 2.3.1 Description L'application tth est écrite en C et n'utilise aucune application extérieure pour convertir T E X en html. Les formules sont traduites en html au lieu d'être converties en images. Une description complète est disponible à l'url http://venus.pfc.mit.edu/tth/tth.html. Le fait le plus marquant est que tth utilise les polices Symbol disponibles sur un système X-Window, Mac ou PC. Par exemple, avec X-window, il sut d'inclure la ligne Netscape*documentFonts.charset*adobe-fontspecific: iso-8859-1 dans le chier .Xdefaults pour utiliser les caractères en question avec Netscape. Par défaut, les images ne sont pas incluses dans le document généré mais sont disponibles comme des liens externes (il est toutefois possible de demander l'inclusion de ces images comme chiers gif, mais ceci complique le traitement). Le fragment du document type généré avec tth est montré en gure 5. Avantages La vitesse. Le programme est d'une rapidité étonnante, à tel point que le stockage peut se faire dans un répertoire groupé (.tar) et compressé (.gz) et que la conversion (gunzip, tar xvf puis
doi:10.5802/cg.231 fatcat:urparsd2sbaqpd4f2ramaqw4jq