GAMMA 60

EXEMPLE DE TRAITEMENT D'INFORMATION NON NUMÉRIQUE

LE TRÉSOR DE LA LANGUE FRANÇAISE (TLF)

par Gérard Papelier

 

I - Introduction

II - La réalisation du dictionnaire TLF avec l'aide du Gamma 60

III - Traits d'originalité de ce dictionnaire

IV - Perspectives pour le TLF et l'Institut National de la Langue Française (INaLF)

Bibliographie:

I - INTRODUCTION

Ce projet de dictionnaire compte parmi les plus importants travaux réalisés par le CNRS dans les années 60 et 70 dans le domaine des "Sciences de l'homme et de la Société" et constitue un exemple du traitement d'information non numérique par ordinateur.

Le résultat final est un dictionnaire en 16 volumes comportant des citations extraites de plus de 1500 ouvrages littéraires, scientifiques et techniques.

Un "Directoire du Trésor de la Langue Française" constitué de linguistes, a sélectionné plus de 400 écrivains de la période retenue 1789 à 1960 et certaines de leurs oeuvres  La sélection des textes scientifiques et techniques s'est faite par grands domaines (sciences exactes et domaines para scientifiques, sciences et techniques appliquées, sciences humaines, art et technique d'expression ...)

La limitation du nombre d'ouvrages littéraires fut fixée de façon à ne pas dépasser 70 millions d’occurrences de mots et pour les textes techniques 20 millions d’occurrences.

La matière d'un dictionnaire mettant en oeuvre un si grand nombre d'emplois et de citations pour le classement de plusieurs dizaines de milliers de mots-vedettes, il est normal que ce domaine ait été choisi en premier pour exploiter les possibilités de la mécanographie puis de l'informatique.

Le dépouillement et traitement de ces textes introduits par bandes perforées, s'est fait par le Gamma 60 acquis par le CNRS et mis à la disposition à partir de 1963, du "Centre de recherche pour un Trésor de la Langue Française" situé à Nancy et dirigé par le Recteur Imbs.

II - LE PROJET

II - 1 : les travaux du Laboratoire d'Analyse Lexicologique (LAL) et l'étape en mécanographie:

le traitement informatique fut précédé par les travaux du LAL crée en 1958 par le professeur B.Quemada au Centre d'étude du Vocabulaire Français de l'Université de Besançon.

Le LAL a constitué un vaste ensemble de documents lexicographiques gérés par la mécanographie: à partir du dépouillement de plusieurs centaines de textes littéraires français de 1958 à 1963, un inventaire est effectué permettant de disposer d'un catalogue aussi exhaustif que possible du vocabulaire.

Après création de fichiers de cartes-mots et de fichiers de cartes-texte, les traitements permettaient la réalisation de travaux de base de types suivants:

Le LAL était équipé de matériel mécanographique BULL : une tabulatrice BS, une tabulatrice TAS avec poinçonneuse connectée, une traductrice TRAD 80, une reporteuse, deux trieuses D 3, une perforatrice-reproductrice-duplicatrice PRD avec photo-lecteur, une sélectionneuse-contrôleuse-retourneuse SCR sans compter le matériel de saisie...

Ce matériel avait subi une adaptation originale permettant la codification et la transcription de signes graphiques (code à 59 caractères différents)

Le LAL est à l'origine du développement en France des recherches en statistique lexicale; à la demande d'organismes étrangers, une réalisation de l'inventaire statistique de l'Allemand et de l'Espagnol a été prise en charge.

II - 2 : la réalisation du Trésor de la Langue Française (TLF): le stade de l'informatisation avec le Gamma 60

A partir de 1965 et durant 5 ans les textes sélectionnés ont été saisis sur bandes perforées par des machines Friden, par 30 mécanographes; ces bandes lues par le Gamma 60 et l'information stockée sur rubans magnétiques.

Ces textes étaient destinés à fournir des documents imprimés de plus en plus élaborés, grâce à des outils réalisés par le LAL: les dictionnaires-machines

Au rythme de 100.000 mots traités chaque jour, le Gamma 60, à l'aide de ces outils a permis d'établir 3 types de documents fondamentaux:

Le Gamma 60 a fonctionné à Nancy jusqu'à fin 1971 à raison en moyenne de 16 heures par jour. Par exemple en 1965, 15 millions de mots-occurences avaient été traités et le délai de fin de chantier documentaire initialement prévu à 1970-71, a été globalement respecté, non sans difficultés!

Après cette date le Gamma 60 a été remplacé par un 10070 de la CII, installé à l'Institut de calcul de l'Université de Nancy.

III  TRAITS D’ORIGINALITÉ DU TLF

Le linguiste F.J.Hausmann écrivait en 1988 dans "Zeitschrift für französische Sprache und Literatur": « le TLF est comme un grand chêne isolé, flanqué certes dans la forêt dictionnairique mondiale de quelques autres arbres impressionnants, mais ces arbres sont soit vieux, soit d'une autre espèce. Lui seul est chêne et pousse vigoureusement sa cime dans un firmament étonné"

L'originalité du TLF réside notamment dans la multiplicité de ses exemples, dans sa nomenclature (ou macrostructure) et certains points de la microstructure.

III - 1 : originalité par les exemples

on a vu le nombre énorme d'exemples pour chaque mot, crées par les traitements en Gamma 60 puis archivés sur microfilms et que seule une petite sélection des citations a été imprimée dans le dictionnaire.

Ce dictionnaire ne constitue donc qu'une fraction de la banque textuelle FRANTEX de l'INaLF à Nancy: c'est une originalité pour un dictionnaire que d'offrir à son consultant la possibilité de compléter la documentation d'exemples cités, par l'examen de la banque FRANTEX.

III - 2 : originalité par la nomenclature (ou macrostructure)

la compétition entre les dictionnaires se joue plutôt sur l'extension de la nomenclature traitée et sur l'accueil plus ou moins large de néologismes, de régionalismes de France ainsi que d'anglicismes et américanismes.

Quelques principes de base avaient été posés au départ:

Et c'est ainsi que le TLF fournit des définitions de près de 100.000 mots.

III -3 : originalité par certains points de la microstructure

Ainsi que le notait le recteur Imbs: "Il est théoriquement impensable et pratiquement impossible que le contenu sémantique d'un mot ne se ressente pas peu ou prou du chemin qu'il a parcouru dans le temps et l'espace: c'est à déceler ce passé subsistant dans le présent que doit aider le rappel de l'étymologie» étymologie non seulement origine mais aussi histoire!"

IV - PERSPECTIVES POUR LE TLF ET L'INALF

Passant par la valorisation de l'existant, l'objectif est double: enrichissement des corpus et affinement des procédures d'accès.

Depuis 1992 une priorité est établie pour la réalisation d'un "Trésor de la Langue Française Informatisé" (TLFI).; la lisibilité sur ordinateur permettrait des analyses systématiques du contenu, puis les données seraient aménagées sous forme de base relationnelle pour les transformer en un multidictionnaire: il s'agit en somme de rétroconvertir le dictionnaire!

Un accord cadre a été établi entre l'INaLF et la Bibliothèque Nationale de France (BNdF): la BNdF prend en charge les opérations de saisie correspondant aux huit premiers tomes, en échange de la base FRANTEXT; les tomes suivants seront repris à partir de leurs bandes de photocomposition.

Quelle sera la place et fonction du TLFI dans le poste de lecture assistée par ordinateur à la BNdF?

Un colloque tenu en Mai 1995 à Nancy sur le sujet "Autour de l'informatisation du TLF" a abordé les thèmes suivants:

On voit l'ombre portée par ce dictionnaire TLF, ce grand chêne dont parlait F.J.Hausmann.

 

Bibliographie

Le Trésor de la langue française