Outils pour utilisateurs

Outils du site


user:alexandra_volanschi:consignes_pour_la_mise_en_forme_des_corpus_m2

Quelles consignes respecter pour que le corpus résultant soit homogène et facilement utilisable ?

1. Récupérer la base du corpus

Afin que vous puissiez soumettre des corpus formatés de la même manière, je vous invite à commencer par télécharger cette archive dans votre répertoire perso.

2. L'arborescence du répertoire

  • le répertoire racine s'appelle CORPUS_PRENOM_NOM. Il faudra le renommer en remplaçant PRENOM par votre prénom (tout en majuscules) et… vous avez deviné… NOM par votre nom de famille (tout en majuscules). Ne pas effacer le préfixe 'CORPUS_'.
  • le répertoire racine contient deux sous-répertoires — un pour chaque langue que vous allez utiliser dans le corpus. Vous devez stocker les textes en français dans le répertoire 'FRANCAIS' et le textes en anglais… vous avez bien deviné. Si vous travaillez avec une autre langue que ces deux-là, renommez le répertoire inutile, en gardant tous les caractères en majuscule.
  • Chaque sous-répertoire contient :
  1. un sous-répertoire appelé SOURCES. Vous allez déposer ici les fichiers en format d'origine (PDF, HTML, etc.) en respectant la convention de nommage des fichiers (discipline_année_nom).
  2. un sous-répertoire appelé TEXTES. Vous allez déposer ici les fichiers en format texte brut, en utilisant le codage UTF-8 et suivant la même convention de nommage des fichiers (nom_année). Les noms du fichier source et fichier texte devraient être identiques (exceptée l'extension du fichier, bien évidemment).

3. Comment procéder et à quoi sert chaque répertoire ?

  • Pour chaque texte que vous décidez d'inclure dans vos corpus, vous allez créer deux fichiers, que vous allez stocker dans le bon répertoire (comme illustré par les fichiers exemples inclus dans l'archive) :
  1. le répertoire SOURCES contient les documents 'sources', c'est à dire, tels que vous les trouvez, qu'ils soient en format PDF, PPT, SXW, HTML, DOC, PS, etc. (consultez si nécessaire la page de l'équipe système sur les formats des fichiers). On veut garder ces fichiers, car ils contiennent des images, formules, tableaux, qu'on ne pourra malheureusement pas garder dans le corpus final. De plus, comme la plupart des pages web ont une durée de vie limitée, ces textes pourraient ne plus être disponibles dans le futur. Par ailleurs, nous pourrons revenir sur la conversion des fichiers vers le format texte brut au fur et à mesure que nous acquerrons de meilleurs outils.
  2. pour tous les traitements ultérieurs (annotation, indexation, requête), les corpus devront être en format TXT, c'est a dire du texte brut UTF-8, le seul format que les outils respectifs savent traiter. C'est la raison pour laquelle chaque texte sauvegardé dans SOURCES sera converti en texte brut, nettoyé (les images, formules, tableaux seront effacés, les espaces entre paragraphes seront mis en évidence). Puis, le texte résultant sera enregistré dans le répertoire TEXTES. Regardez bien l'exemple de corpus nettoyé que vous avez dans les deux répertoires textes.
  3. une fois ces opérations accomplies, remplir la référence bibliographique du fichier dans votre base de données terminologique. Cette référence vous sera aussi très utile au moment de rédiger votre mémoire, car elle vous facilitera la tâche de citer vos sources.

Enfin voici quelques conventions pour le nommage des fichiers. Les fichiers dont les noms comportent des espaces pourraient être traités comme plusieurs fichiers (inexistants :!:). Par exemple un fichier nommé 'MECHANICS OF EARHT FLOWS.txt', serait traité par nos outils comme s'il s'agissait de 4 fichiers : 'MECHANICS', 'OF', 'EARTH', 'FLOWS.txt', dont aucun n'existe en réalité. Il est donc une bonne pratique en général de ne pas utiliser des espaces, ou caractères spéciaux ('?', ',', etc.) dans les noms des fichiers. C'est la principale raison pour laquelle nous allons adopter la convention de nommage des fichiers suivante :

NOM-PREMIER-AUTEUR_ANNEE-PUBLICATION.extension

Par exemple, si l'auteur (le premier auteur) s'appelle Baum et que l'article est publié en 2006, le fichier texte qu'on va créer dans le répertoire TEXTES s'appellera BAUM_2006.txt. Si le fichier source était en format PDF, on l'enregistrera dans le répertoire SOURCES sous le nom BAUM_2006.pdf.

Attention !! Nouvelle procédure pour les métadonnées associées à chacun de vos textes : vous devez copier-coller au début de chacun de vos fichiers .txt le contenu du fichier modele.txt et remplir ces métadonnées directement dans le fichier.

4. La procédure de soumission du corpus

  1. Date limite : à préciser
  2. N'oubliez pas d'effacer les fichiers exemples de l'archive initiale.
  3. Créer une copie de votre répertoire CORPUS_PRENOM_NOM. Dans cette copie du corpus (et seulement dans celle-la) effacez les deux répertoires SOURCES. Vous ne soumettrez que les TEXTES. Compressez (au format ZIP ; ni 7Z ni RAR) ce répertoire.
user/alexandra_volanschi/consignes_pour_la_mise_en_forme_des_corpus_m2.txt · Dernière modification: 2015/12/02 10:22 par Alexandra Volanschi