Outils pour utilisateurs

Outils du site


user:alexandra_volanschi:consignes_pour_la_mise_en_forme_des_corpus

Quelles consignes respecter pour que le corpus résultant soit homogène et facilement utilisable ?

1. Récupérer la base du corpus

Afin que vous puissiez soumettre des corpus formatés de la même manière, je vous invite à commencer par télécharger cette archive dans votre répertoire perso.

Même si l'extension du fichier est .txt, il s'agit en réalité d'une archive .zip. Ceci montre bien que l'extension des fichiers ne nous renseigne pas véritablement sur leur nature :!:. Elle indique simplement au système d'exploitation quel logiciel utiliser pour chaque type de fichier. Cet artifice a été nécessaire car l'équipe système empêche le téléchargement des fichiers .zip dans les salles informatiques afin d'éviter la propagation des virus informatiques. Changez l'extension du fichier en .zip et décompressez cette archive. Observez bien l'arborescence du répertoire qui vient d'être crée (l'organisation hiérarchique des fichiers).

2. L'arborescence du répertoire

  • le répertoire racine s'appelle CORPUS_PRENOM_NOM. Il faudra le renommer en remplaçant PRENOM par votre prénom (tout en majuscules) et … vous avez deviné :-|… NOM par votre nom de famille (tout en majuscules). Ne pas effacer le préfixe 'CORPUS_'.
  • le répertoire racine contient deux sous-répertoires - un pour chaque langue que vous allez utiliser dans le corpus. Vous devez stocker les textes en français dans le répertoire 'FRANCAIS' et le textes en anglais … vous avez bien deviné. Si vous travaillez avec une autre langue que ces deux-là, renommez le répertoire inutile, en gardant tous les caractères en majuscule.
  • Chaque sous-répertoire contient :
  1. un sous-répertoire appelé SOURCES. Vous allez déposer ici les fichiers en format d'origine (.pdf, .html, etc.) en respectant la convention de nommage des fichiers (discipline_année_nom).
  2. un sous-répertoire appelé TEXTES. Vous allez déposer ici les fichiers en format texte brut, en utilisant le codage UTF-8 et suivant la même convention de nommage des fichiers. (discipline_année_nom). Il est impératif que les noms du fichier source et fichier texte soient identiques (exceptée l'extension du fichier, bien évidemment).
  3. un fichier Excel appelé STEP_biblio_corpus_EN_NOM.xls et respectivement STEP_biblio_corpus_FR_NOM.xls où vous allez renseigner les informations bibliographiques associées à chaque fichier que vous avez choisi d'inclure dans le corpus. Penser à remplacer NOM par votre nom.

3. Comment procéder et à quoi sert chaque répertoire ?

  • Pour chaque texte que vous décidez d'inclure dans vos corpus, vous allez créer deux fichiers, que vous allez stocker dans le bon répertoire (comme illustré par les fichiers exemples inclus dans l'archive) :
  1. le répertoire SOURCES contient les documents 'sources', c'est à dire, tels que vous les trouvez, qu'ils soient en format .pdf, .ppt, .sxw, .html, .doc, .ps, etc. (Consultez si nécessaire la page de l'équipe système sur les formats des fichiers). On veut garder ces fichiers, car ils contiennent des images, formules, tableaux, qu'on ne pourra malheureusement pas garder dans le corpus final. De plus, comme la plupart des pages web ont une durée de vie limitée, ces textes pourraient ne plus être disponibles dans le futur. Par ailleurs, nous pourrons revenir sur la conversion des fichiers vers le format texte brut au fur et à mesure que nous acquerrons de meilleurs outils.
  2. pour tous les traitements ultérieurs (annotation, indexation, requête), les corpus devront être en format .txt, c'est a dire du texte brut UTF-8, le seul format que les outils respectifs savent traiter. C'est la raison pour laquelle chaque texte sauvegardé dans SOURCES sera converti en texte brut, nettoyé (les images, formules, tableaux seront effacés, les espaces entre paragraphes seront mis en évidence). Puis, le texte résultant sera enregistré dans le répertoire TEXTES. Regardez bien l'exemple de corpus nettoyé que vous avez dans les deux répertoires textes.
  3. une fois ces opérations accomplies, remplir la ligne correspondante dans le fichier Excel. Il fournit des méta-données pour les textes que vous voulez inclure dans le corpus et permettra l'indexation, le classement et la gestion automatique de vos corpus. Regardez les deux exemples de notice bibliographique pour comprendre à quoi correspondent les champs à renseigner. Ne modifiez pas le nom de champs (la première ligne). Cherchez à remplir le champs 'Auteur' même s'il s'agit d'une page perso sur le web. Ceci vous fera vous poser des questions sur l'identité de l'auteur, et de la fiabilité du texte comme ressource terminologique. Pour les langues, utiliser les codes an, fr, it, es, de, avec leurs variantes régionales fr-ca, fr-be, an-uk, an-us, etc. Pour le type de document et la discipline utilisez exclusivement les codes indiques dans les onglets discipline et type de doc du fichier Excel. Utilisez le champs 'commentaire' pour toute observation liée au texte (est-ce que la conversion s'est bien passé ? est-ce que le fichier .txt est propre ? faudra-t-il revenir la-dessus ?). Ce fichier vous sera aussi très utile au moment de rédiger votre mémoire, car il vous facilitera la tâche de citer vos sources.

Enfin voici quelques conventions pour le nommage des fichiers. Les fichiers dont les noms comportent des espaces pourraient être traités comme plusieurs fichiers (inexistants :!:). Par exemple un fichier nommé 'MECHANICS OF EARHT FLOWS.txt', serait traité par nos outils comme s'il s'agissait de 4 fichiers : 'MECHANICS', 'OF', 'EARTH', 'FLOWS.txt', dont aucun n'existe en réalité. Il est donc une bonne pratique en général de ne pas utiliser des espaces, ou caractères spéciaux ('?', ',', etc.) dans les noms des fichiers. C'est la principale raison pour laquelle nous allons adopter la convention de nommage des fichiers suivante:

CODE-DISCIPLINE_ANNEE-PUBLICATION_NOM-PREMIER-AUTEUR.extension.

Par exemple, si l'auteur (le premier auteur) s'appelle Baum, s'il s'agit d'un article de climatologie et que l'article est publié en 1996 (il est déjà un peu ancien, la terminologie du domaine a pu évoluer entre temps :!:), le fichier texte qu'on va créer dans le répertoire TEXTES s'appellera CL_1996_BAUM.txt. Si le fichier source était en format pdf, on l'enregistrera dans le répertoire SOURCES sous le nom CL_1996_BAUM.pdf.

4. La procédure de soumission du corpus

  1. Date : 2 novembre 2013
  2. Via la plateforme Didel. Voir le travail intitulé “SOUMISSION DE LA 1ERE VERSION DU CORPUS”.
  3. N'oubliez pas d'effacer les fichiers exemples de l'archive initiale.
  4. Créer une copie de votre répertoire CORPUS_PRENOM_NOM. Dans cette copie du corpus (et seulement dans celle-la) effacez les deux répertoires SOURCES. Vous ne soumettrez que les TEXTES et les deux fichiers bibliographiques. Zippez ce répertoire. Ensuite vous allez le soumettre avant la date et selon la procédure qui seront indiquées ci-dessus.
user/alexandra_volanschi/consignes_pour_la_mise_en_forme_des_corpus.txt · Dernière modification: 2013/10/18 10:46 par Alexandra Volanschi