Outils pour utilisateurs

Outils du site


enseignement:lea:cours:linguistique:appli-corpus:slides-intro

Voir cette page sous forme de diaporama.

Qu'est ce qu'un corpus ?

Question ouverte

Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement / l’effort nécessaire pour les construire ?

Questions abordées

!!incremental| → Qu'est-ce qu'un corpus ?

!!incremental| → Quels types de corpus y a-t-il ?

!!incremental| → Quelques exemples.

!!incremental| → À quoi peut servir un corpus ?

!!incremental| → Dans quel but doit-on constituer des corpus dans le cadre du Master ?

!!incremental| → Où trouver du corpus ?

!!incremental| → Comment stocker le corpus ?

Qu'est ce qu'un corpus ?

Les corpus sont des

  • collections de textes de taille importante (BNC=100 Million words !)
  • constituées de textes authentiques
  • rassemblées selon des critères spécifiques
  • collectées sous format électronique

Corpus et concordanciers

Format électronique →

  • les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre)
  • mais interrogés (concordanciers)

La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc ou de .pdf.

Un concordancier est un logiciel qui construit des concordances

Concordances monolingues

http://www.collins.co.uk/corpus/CorpusSearch.aspx

  • comparer les divers emplois|sens d'un même terme
  • observer la fréquence des mots
  • identifier des collocation, définitions
  • observer des propriétés distributionnelles de certains mots : http://www.natcorp.ox.ac.uk/

Concordances bi-lingues

!!incremental| → la traduction des passages correspondant à la requête

!!incremental| → résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés ?

!!incremental| → méthodes d'alignement qui établissent automatiquement des liens entre les segments correspondants de textes traduits

!!incremental| → entrée aux systèmes de traduction automatique basés sur des mémoires de traduction (unités de traduction extraites à partir d'un corpus parallèle).

Quels types de corpus existe-t-il ?

!!incremental| → support : papier, électronique, oral, vidéo

!!incremental| → version langagière :

!!incremental| → monolingue, bilingue (comparable ou alignés), multilingue

!!incremental| → originaux, traductions

!!incremental| → locuteurs natifs ou apprenants de la langue

!!incremental| → état de la langue : synchronique ou diachronique

!!incremental| → but : corpus de référence ou de spécialité

!!incremental| → ouvert / fermé

!!incremental| → présence d'annotation : textes bruts ou annotés

Quel type d’annotation ? (1/2)

  • les attributs de formatage : paragraphes, sections, titres, etc.
  • l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple

Quel type d’annotation ? (2/2)

  • l'analyse linguistique du contenu du texte :
    • étiquetage morpho-syntaxique (tagging). Exemple
    • lemmatisation. Exemple
    • analyse syntaxique. Exemple
    • marquage prosodique des corpus oraux transcrits. Exemple
    • annotation des erreurs dans les corpus des apprenants. Exemple

Utilisations (1/2)

  • Lexicographie (aide à la constitution de dictionnaires)
  • Apprentissage des langues
  • Études sociolinguistiques

Utilisations (2/2)

  • Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots)
  • Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle
  • Terminologie, traduction, rédaction technique
    • analyser les caractéristiques des textes traduits
    • aide à la traduction

Réflexion

Quels sont les avantages des corpus par rapport :

  • aux textes imprimés
  • aux dictionnaires
  • aux experts
  • au Web
  • à l'intuition

Exemple

Le mot umbrella dans Oxford English Dictionary :

  1. portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle.
  2. Any kind of general protecting force or influence.

Comparer avec l’information dans le BNC

Fin !

enseignement/lea/cours/linguistique/appli-corpus/slides-intro.txt · Dernière modification: 2014/06/24 20:02 (modification externe)