Professional Documents
Culture Documents
De lusage des corpus textuels dans la rdaction du Novum Glossarium Mediae Latinitatis
Le Novum Glossarium
Une fdration dacadmies (www.uai-iua.org) Des entreprises collectives (de 3 plus de 80) Des critres scientifiques modernes Un dictionnaire gnraliste (Europe, 800-1200) Les dpouillements prliminaires Les dictionnaires nationaux
Bruno Bon (CNRS/IRHT - Comit Du Cange) 2
Lorganisation du travail
Le Novum Glossarium
Plus de 10 000 rfrences bibliographiques Un dpouillement traditionnel au fil de leau Un sous-effectif permanent Nouveau support, nouveau calendrier La numrisation rtrospective (glossaria.eu/ngml)
La documentation numrique
Affichage et recherche : HTML & Scan, par feuilletage ou requte (texte, apparat, notes) Tlchargement : PDF, par page A limage des instruments sur papier Au-del des collections imprimes
La documentation numrique
Affichage et recherche : HTML, par feuilletage Tlchargement : XML-TEI, par dition Affichage et recherche : PhiloLogic, par requte Tlchargement : TXT, DOC, PDF, par dition A database for latin ecclesiastical chant vs Online resource of medieval liturgical texts Affichage et recherche : HTML, par requte Tlchargement : JPG, par feuillet
5
A la recherche du sens
Facilit de prise en dfaut : obsession Retour sur investissement proche de zro Dispersion smantique limite : matrise Ambigut de la variation morphologique Immensit de la documentation : impunit Syntaxe, fausses fentres et autres artifices
Bruno Bon (CNRS/IRHT - Comit Du Cange) 6
A la recherche du sens
La pche lhapax : grand corpus Feuilletage des index : PLA* Le rechargement : corpus annot Requtes fermes : THESAUR* + CEL* Le rseau smantique : statistique lexicale Exemple : PLANTA / PLANTUM
Bruno Bon (CNRS/IRHT - Comit Du Cange) 7
A la recherche du sens
Le plus frquent : texte ET outil associ Requte contrainte : statistiques impossibles Avec ou sans outil : textes en tlchargement Ensembles spcialiss : statistiques difficiles Grands corpus : payants et mal concus Corpus gratuits : ingaux et disperss
Bruno Bon (CNRS/IRHT - Comit Du Cange) 8
Un dilemme rsoudre
A la recherche du sens
La question graphique
Variation graphique, variation morphologique Corpus non lemmatiss : statistiques inefficaces TreeTagger (www.cis.uni-muenchen.de) Les paramtres Omnia (glossaria.eu/treetagger)
Pour UN grand corpus (annot) de latin mdival lemmatis et ses corpus de comparaison
Bruno Bon (CNRS/IRHT - Comit Du Cange) 9