Outils pour utilisateurs

Outils du site


user:alexandra_volanschi:lg_il_2

Linguistique de corpus - « Langages IL », 2008/2009 S2

L'objet du cours ce semestre est d'apprendre à manipuler des corpus de texte avec les outils classiques disponibles sur GNU/Linux.

27 janvier 2009 et 3 février 2009

Information complémentaire

10 février 2009 et 17 février 2009

3 mars 2009 et 10 mars 2009 : EXERCICES

  1. Calculer la liste de fréquence des mots de votre corpus : utiliser les commandes cat(1), tr(1), sort(1), uniq(1)
  2. Calculer la liste de 50 mots les plus frequents de votre corpus
  3. Exercices 1 et 2.2 de la séance du 17 février
  4. Transformer la sequence de commandes dans l'exercice 1 dans un script dont l'argument est le nom du fichier à traiter
  5. Modifier ce script de manière à ce qu'il prenne un deuxième argument : la longueur de la liste de fréquence (autrement dit, les n mots les plus fréquents du corpus).
  6. Calculer les sequences de 2 ou 3 mots les plus fréquentes dans votre corpus. Indication : utiliser les mêmes commandes qu'à l'exercice 1 + la commande tail(1) avec l'option --lines=+1)
  7. Transformer cette suite de commandes dans un script.
  8. (Solution des exercices 4 et 7) : ici (en particulier les points 3 et 4)

17 mars 2009 et 24 mars 2009 : la commande grep(1)

31 mars 2009 : la commande SED

  • Référence : explorer les possibilités de la commande sed dans la page dédiée aux sed oneliners
  • Exercice 1. Soit le fichier Williams_2007.txt. Il provient de sciencedirect.com. Le but de l'exercice est de corriger ce fichier.
    • effacer les lignes du type : Full-size image (30K) - Opens new window Full-size image (30K) (quelque soit la taille des images)
    • effacer les occurrences de “next term” et “previous term” qui polluent le texte :

Intervals of previous termtrue polar wandernext term such as postulated by others for the Ediacaran and Early Cambrian imply major mass-redistributions within the Earth at those times, which may provide a potential mechanism for reducing the obliquity during the Ediacaran–early Palaeozoic.

  • Attention, nous ne souhaitons pas effacer toutes les occurences de next term et previous term, mais seulement celles ou les deux mots sont suivis/précédés par une lettre. Nous pouvons récupérer cette lettre grâce à la commande suivante :
sed 's/\([a-z]\)next term/\1/g'

où \1 est une variable qui renvoie au caractère retrouvé à la position suivant previous term (à l'emplacement marqué par les parenthèses).

  • Exercice 2. Soit l'archive .zip contenant des fichiers .xml provenant du même site (www.plos.org). Explorer la structure de ces fichiers en les ouvrant par exemple avec firefox. Il s'agit de transformer les fichiers .xml en fichiers .txt. Nous allons dans un premier temps nous concentrer sur un seul fichier, et, une fois trouvée la bonne manipulation, nous allons l'appliquer à tous les autres.
    • La solution la plus simple consisterait à effacer toutes les balises
    • Améliorer cette solution en effaçant d'abord les tableaux (entre balises de type <table-wrap>), les figures (entre balises de type <fig>)
    • Trouver un moyen de garder les légendes des figures précédées par la chaîne de caractères : FIGURE :
    • Proposer d'autres améliorations possibles de cette solution
    • Maintenant, en une seule commande, appliquer la même commande à tous les fichers .xml
  • Exercice 3. A partir des fichiers .txt obtenus à l'exercice 2., trouver un moyen (consulter les sed oneliners) pour obtenir un fichier contenant uniquement les sections “Introduction” des textes, puis une autre pour les sections “Results”.

7 avril 2009

  • quelques indications pour la réalisation du projet
  • fichiers d'illustration : ici
  • exercices sur sed (6ème point du projet)
user/alexandra_volanschi/lg_il_2.txt · Dernière modification: 2009/09/07 13:05 par Pascal Cabaud