Outils pour utilisateurs

Outils du site


user:pascal_cabaud:blog:applications_corpus

Applications corpus (nouvelle mise à jour)

Developing Linguistic Corpora: a Guide to Good Practice présente au néophyte différents aspects de la construction et des usages d'un corpus (spécialisé ou non), à lire ! En particulier, le premier chapitre et l'appendice.

D'autre part, dans l'article AntConc: A Learner and Classroom Friendly, Multi-Platform Corpus Analysis Toolkit, Laurence Anthony présente les différents usages possibles de son logiciel AntConc (aide en ligne).

Concernant l'acquisition de corpus depuis des fichiers PDF, consultez les pages Transformer un fichier PDF en texte et Gallery of Adobe Remedies.

Enfin, au moins l'un d'entre vous a un souci avec ses corpus, une marque invisible au début de chacun de ses fichiers s'est immiscée lors du copier-coller. Cela se traduit dans AntConc de la manière suivante : les fichiers incriminés sont ignorés purement et simplement.

Pour ceux que cela intéresse, il s'agit du byte order mark (aka BOM), une marque qui n'apparaît que sur la première ligne d'un fichier. Pour un aperçu de la question, voir le chapitre 4 de : Developing Linguistic Corpora: a Guide to Good Practice

Comment le voir :

  • Sur Unix (GNU/Linux et Mac OS X), dans un terminal :
$ head -1 mon_fichier_moisi.txt
...blablabla

(pour ouvrir un terminal sur Mac OS X : dans le Finder taper POMME + Shift + U et ouvrir Terminal. Sur GNU/Linux cela dépend de votre environnement graphique : GNOME, KDE, XFCE, …)

  • Sur Windows, dans un terminal :

C:\Documents and Settings\pc\Desktop> type mon_fichier_moisi.txt

´╗┐...blablabla

(pour ouvrir un terminal sur Windows : cliquer sur le bouton « Démarrer » puis sur « Exécuter » et taper cmd ; valider)

Comment s'en débarrasser :

  • Sur GNU/Linux avec NEdit : supprimer  au début du fichier.
  • Sur Mac OS X avec TextWrangler : ouvrir le fichier puis dans le menu « Edit », ouvrir « Document Options » et choisir Unicode (UTF-8, no BOM).
  • Sur Windows, avec Notepad++ : ouvrir votre fichier et dans le menu « Format », indiquer UTF-8 sans BOM.
user/pascal_cabaud/blog/applications_corpus.txt · Dernière modification: 2008/10/17 22:50 par Pascal Cabaud