Outils pour utilisateurs

Outils du site


enseignement:lea:cours:linguistique:appli-corpus:slides-make

Voir cette page sous forme de diaporama.

Constitution de corpus

Introduction à l'utilisation des corpus

Comment constituer un corpus ?

  • Comment trouver du corpus ? Où et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ?
  • Comment exploiter au mieux les fonctionnalités des moteurs de recherche ?
  • Comment choisir quel texte inclure ou pas dans le corpus ?
  • Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)

Rappel : quel type de corpus ?

On va constituer un mini corpus

  • Électronique
  • Bilingue comparable (quelles langues? )
  • D’originaux (éviter les auteurs locuteurs non-natifs)
  • Synchronique
  • Annoté? Ou bien forme de textes bruts?
  • Ouvert : constamment enrichi
  • De spécialité. Domaines/sous-domaines couverts ? Exemples : le volcans de boue, le circuit de l’eau dans les sols, les montagnes

Où trouver des textes ? (1/2)

1. Science Direct (http://www.sciencedirect.com)

  • 1/4 de la littérature scientifique, médicale et technique en ligne
  • plus de 2.000 journaux, centaines de livres, manuels
  • accès uniquement sur le campus ou via l'ENT
  • droits d’auteur ;-)

2. PLOS (Public Library of Science, http://www.plos.org/)

Où trouver des textes ? (2/2)

3. Liens « périodiques et littérature grise » de Mme Geneviève Bordet. Exemples :

4. http://www.sudoc.abes.fr (recherche de thèses)

5. ENT de l’université Paris Diderot : HAL, GEOBASE

6. Recherche sur Internet

Recherche documentaire sur Internet

Internet n’est pas une grande bibliothèque. Tout n’est pas crédible. Avant d’inclure un texte récupéré sur Internet, vérifier :

  • la date de mise à jour du site
  • qui est l’auteur de la page ?
  • le texte a été écrit par un locuteur natif ?
  • quelle institution cautionne le contenu ?

Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus.

Google : comment l’utiliser au mieux ?

Comment cibler au mieux les résultats : formuler → résultats plus pertinents

Google : syntaxe de base

  • pomme de terre → (AND implicite)
  • “pomme de terre”
  • Paris OR London, hôtel (Paris OR London)
  • Bush -George –president
  • Bush, BUSH, bush
  • écri* ?????
  • “trois * raisons” * caractère joker
  • glossary OR vocabulary OR lexicon~glossary

Google : syntaxes spéciales

Opérateurs Google : intitle:, inurl:, intext:, inanchor:, site:, link:, filetype:, related:, define:

Et plein d’autres!!!

L’ordre des termes de la requête et la répétition peuvent affecter les résultats.

Autres questions

Que faire si une page n’existe plus ?

Où trouver des glossaires et corpus parallèles?

Un dernier Google hack

Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.

Fin !

enseignement/lea/cours/linguistique/appli-corpus/slides-make.txt · Dernière modification: 2014/06/24 18:02 (modification externe)