Outils pour utilisateurs

Outils du site


enseignement:lea:cours:linguistique:appli-corpus:slides-tools

Voir cette page sous forme de diaporama.

Outils

Outils d’exploitation des corpus

!!incremental|Comment trouver du corpus ?

!!incremental|Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ?

!!incremental|Prise en main du concordancier TextSTAT

!!incremental|Un peu de pratique !

Comment trouver du corpus (1/2)

Rappel :

  • Science Direct
  • archives de thèses,
  • Google

Comment trouver du corpus (2/2)

Quelle requête ?

  • le domaine
  • termes qui apparaissent dans le texte
  • extracteurs de termes (Terminology Extractor) → fréquenceur

http://wall.eila.univ-paris-diderot.fr/dyn/freq.cgi

Quel format pour le stockage ?

→ Créer un répertoire CORPUS_NOM_PRENOM

→ Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS)

→ Stocker dans les deux des articles convertis en format .txt, avec l’encodage UFT-8

Nom du fichier

  • le nom de l’auteur +
  • _ +
  • année de publication +
  • a, b, c (optionnel, si plusieurs articles de la même année) +
  • .txt

Exemple : DUPONT_2006.txt

Utilisez Notepad plutôt que Wordpad. Pourquoi ?

TextSTAT

Mode d'emploi simplifié : TextSTAT2

Comporte un fréquenceur et un concordancier (comme les outils sur WALL).

Manipule des fichiers TXT, HTML, ODT.

TP

  • Chercher des articles en Français et en Anglais liés au texte à traduire
  • Les convertir en .txt et le sauvegarder dans le bon répertoire
  • Utiliser
    1. le bon logiciel de traitement de texte
    2. la bonne convention de nommage
    3. le bon encodage des caractères (UTF-8)

Fin !

enseignement/lea/cours/linguistique/appli-corpus/slides-tools.txt · Dernière modification: 2014/06/24 18:02 (modification externe)