Outils pour utilisateurs

Outils du site


enseignement:lea:cours:linguistique:appli-corpus:wall

Mode d'emploi du concordancier WALL

Déroulement d'une requête

Ouvrez votre navigateur favori et allez à l'URL suivante : http://wall.eila.univ-paris-diderot.fr/dyn/Context2

Voilà ce que vous devez voir apparaître:

Cliquez sur le menu déroulant intitulé Corpus et sélectionnez :

  • HOWTO (en)b pour interroger le corpus anglais et rechercher les traductions en français
  • HOWTO (fr)b pour interroger le corpus français et rechercher les équivalents en anglais

Il s'agit de deux corpus parallèles, à savoir, l'un est la traduction de l'autre - en l'occurrence, le corpus anglais a été traduit en français. Les deux corpus sont alignés paragraphes par paragraphes.

Dans le champ Séquence à rechercher vous taperez un mot ou une expression régulière. Pour plus de précisions très techniques sur les expressions régulières, vous pouvez cliquer sur le lien expressions régulières.

Dans le menu déroulant suivant, sélectionner Récupérer les résultats déjà extraits vous donnera par exemple les premières occurrences que vous avez déjà recherchées une fois sur une séquence particulière ; sélectionner Forcer la recherche a pour conséquence une recherche de nouvelles occurrences (pour autant qu'il y en ait) sur la séquence spécifiée.

Dans le champ Nombre de caractères environnants, vous pouvez :

  • spécifier le nombre de caractères apparaissant à gauche et à droite de la séquence recherchée
  • demander à voir la phrase complète dans laquelle la séquence apparaît ; dans ce cas tapez -1 dans le champ de saisie

Dans le champ Limite, vous pouvez spécifier le nombre d'occurrences que vous voulez trouver. Si vous sélectionnez 100 occurrences, le système vous affiche les cent premières occurrences de la séquence recherchée.

Laissez le champ Dictionnaire tel quel.

Le champ Format de sortie vous permet de trier ou non les résultats, ainsi que les contextes gauches et droits de chaque occurrence. Si par exemple, vous choisissez EDG, ce sont les occurrences de la séquence recherchée qui seront triées par ordre alphabétique, ensuite le contexte droit et enfin, le contexte gauche.

Lorsque tous les champs sont remplis, soumettez votre requête en cliquant sur Submit query et attendez.

Vous devez voir apparaître des concordances affichées dans un tableau comprenant quatre colonnes :

  • Colonne 1 : le nom du HOWTO duquel est extrait l'occurrence apparaît sous forme de lien ; il conduit à l'affichage parallèle du paragraphe français et du paragraphe anglais dans l'un desquels a été trouvée la séquence recherchée. Cela permet de rechercher la traduction d'un terme ou d'une séquence. Utilisez la commande Ctrl-f faisant apparaître la boîte de dialogue Rechercher dans la page (sous Firefox par exemple).
  • Colonne 2 : le contexte gauche.
  • Colonne 3 : la séquence recherchée.
  • Colonne 4 : Le contexte droit.

Statistiques et performances

En bas de la page, vous trouverez des statistiques sur le temps de calcul pris par votre requête : essentiellement le temps d'exécution et la taille du corpus que vous venez d'interroger ; d'autres informations sur l'état du daemon s'affichent aussi. Il est évident que plus votre corpus est gros (la taille est exprimée en kilo octets i. e. KB), plus votre requête risque d'être longue à traiter.

De plus, la première requête sur un corpus est beaucoup plus longue que les suivantes du fait du temps de lecture sur disque des fichiers. Par la suite, ces fichiers sont gardés en mémoire et n'ont plus besoin d'être relus, les temps d'accès sont donc bien plus rapides. Par exemple, sur un corpus d'environ 190 MB (environ 190000 KB), la première requête prend plus de 90 secondes et les suivantes environ 40 secondes.

Syntaxe des recherches

Les séquences sont des expressions régulières permettant de formaliser les mots et les catégories syntaxiques, telles que noms, verbes, adjectifs, adverbes, pronoms.

Expressions régulières

Chaque caractère correspond à lui-même, à moins qu'il ne s'agisse de l'un des caractères spéciaux +?.*^$()[]{}|\.

On peut éviter la signification spéciale de ceux-ci en les faisant précéder de \.

Opérateurs
. trouve un caractère arbitraire: lettre, chiffre, espace, ponctuation, etc.
(…) groupe une série d'éléments différents en un seul élément
[…] représente une classe de caractères à rechercher.
(…|…|…) trouve au moins l'une des alternatives
/ séparateur exprimant une contrainte sur le mot qui suit
\ L'antislash \ permet de supprimer la signification particulière de tout caractère non alphanumérique qui le suit; dans le cas des caractères alphanumérique au contraire, il leur donne une signification particulière.

Les quantifieurs trouvent une séquence autant de fois que possible, il s'agit des suivants :

Quantificateurs
+ trouve la séquence qui le précède une fois ou plus
? trouve la séquence qui le précède zéro ou une fois
* trouve la séquence qui le précède zéro fois ou plus
{N,M} dénote le nombre minimum N de fois à trouver et le nombre maximum M de fois à trouver
{N} trouve le nombre exact N de fois
{N,} trouve au moins N fois
Classes de caractères
\w trouve tout caractère alphanumérique (lettre ou chiffre) PAR CONSÉQUENT
\w+ signifie une séquence contenant au moins un caractère alphanumérique ou plus, i.e. un mot ou un chiffre !
\W recherche ce qui n'est pas alphanumérique
\s matche les espaces
\S recherche ce qui n'est pas espace
\d trouve ce qui est numérique
\D non numérique

\w, \s et \d peuvent être utilisés dans des classes de caractères [].

Extension du formalisme des expressions régulières

Catégories syntaxiques

Les étiquettes de catégories simples sont les suivantes:

Étiquette dans le formalisme Signification
&N nom
&V verbe
&A adjectif
&ADV adverbe
&PRO pronom
&PREP préposition

Il n'y a pas de levée d'ambiguïté lors de l'étiquetage. Par conséquent, un mot ambigu comme run portera l'étiquette de verbe et celle de nom.

Il est possible de rechercher des catégories syntaxiques, mais il faut toujours préciser que la catégorie porte sur un mot, à savoir, une chaîne de caractères.

Exemples

Mot(s) isolé(s)

flies
flying planes

Attention, n'oubliez pas les espaces entre deux mots.

Alternatives

Rappel : le caractère pipe | s'obtient par la combinaison de touches :

  • AltGr 6 sur les claviers azerty PC 105
  • Alt Shift L sur les claviers azerty Apple
can|may
trouve may et/ou can
is|am|are
trouve les forme de to be au simple present active ; l'environnement ne contient pas de lemmatiseur; il faut donc taper toutes les formes fléchies d'un nom ou d'un verbe
run(s|ning)?
trouve runs et/ou running zéro ou une fois ; s'il le trouve zéro fois, il trouvera au moins run
ha(s|ve|d) run
trouve has run, have run, had run : attention, certaines formes verbales ne sont peut-être pas dans le corpus
ha(s|ve|d) been fl(ying|ied)
trouve des formes au passif et au continu
(can|may|should|would) (fly|run|boot)
trouve un modal suivi d'un infinitif
boot(s|ing|ed)?
trouve toutes les formes fléchies de boot zéro ou une fois : il peut suffire de taper toutes les formes fléchies existantes sans préciser les formes composées : un passif se termine par un participe passé par exemple. À l'utilisateur de trier le bruit (les formes qui ne sont pas des verbes, par exemple des adjectifs).

Combinaisons

run &PREP/\w+
run on \w+ &N/\w+
trouve run on suivi de n'importe quel mot, suivi d'un nom
run &PREP/\w+
trouve run suivi d'une préposition
\w*zip\w*
trouve tous les mots contenant les trois lettres zip : gunzip, zipped, gzipped, etc.
fini[set]
trouve fini suivi de l'un des caractères de la classe décrite, à savoir, suivi de s, e ou t : finis, finie, finit
[a-l]\w+ed
trouve les mots se terminant en ed et dont la première lettre est l'une de la classe des caractères de a à l
a [aeiouyh]\w+
trouve a suivi d'un mot commençant par une voyelle
aussi\.
trouve aussi suivi d'un point (l'antislash annule la signification spéciale du point)
not.{0,40}yet\.
trouve not suivi de yet et séparés par 0 à 40 caractères
[Ii]f.{0,50}(would|should)
trouve if suivi de would ou should séparés par 0 à 50 caractères
known as
permet de retrouver des termes spécialisés comme dans with positions for interrupt (otherwise known as IRQ)!
&N/\w+able
recherche tous les mots étiquetés comme noms et se terminant par le suffixe able
&N/pre\w+
recherche tous les mots étiquetés comme noms et commençant par le préfixe pre
if.{0,50} then
séquence discontinue : recherche if suivi de zéro à cinquante caractères arbitraires, suivis de then

À tester

the (more|&A/\w+er).{0,80}the (more|&A/\w+er)
[Ii]f.{0,80}will
in \d+.{0,60}\w+ed
wait(s|ed|ing)?|expect(s|ed|ing)?
ma(ke|kes|king|de)|(do|does|did)
allo(w|ws|wed|wing).{0,80}to
as \w+ \w+ as
as &A\w+ as
\w+ing &N/\w+
&N\w+ de \w+ &N\w+
(ha(s|d|ve)|(sha|wi)ll) boot(ed)?
(ha(s|d|ve)|(sha|wi)ll) (be )?boot(ing|ed)?

Pour aller plus loin

enseignement/lea/cours/linguistique/appli-corpus/wall.txt · Dernière modification: 2011/04/01 14:05 par Pascal Cabaud

Outils de la page