Outils pour utilisateurs

Outils du site


user:alexandra_volanschi:exercices_xml

Exercices XML

1. Trouvez les erreurs de syntaxe

  • quelle erreur de syntaxe contient ce fichier (essayez de l'ouvrir avec Mozilla Firefox)
  • trouvez 6 erreurs dans ce ficher XML. Utiliser pour la validation l'interface en ligne Validome. Étant donné que — à ce stade — nous n'allons pas utiliser une DTD - Document Type Declaration, cocher la case “Well-formedless only”. Pour faciliter de lecture, cocher également la case “View Sourcecode”.
  • même exercice avec ce fichier.
  • même exercice avec ce fichier. Cette fois-ci, nous allons utiliser l'éditeur Emacs pour valider ce document du point de vue syntaxique. Mettre Emacs en mode XML (M-x xml-mode) et utiliser l'indentation pour détecter les lignes comportant des erreurs. Observer également le coloriage des éléments, attributs, commentaires.

2. Exercice de structuration de l'information

Le paragraphe suivant contient de l'information « en vrac ». Réorganisez-la de manière à mettre en évidence sa structure logique, sans forcément passer par une mise en forme XML.

Une bouteille d'eau Cristaline de 150 cl contient par litre 71 mg d'ions 
positifs  calcium, et  5,5 mg  d'ions  positifs magnésium.  On y  trouve
également des ions négatifs comme des chlorures à 20 mg par litre et des
nitrates avec  1 mg par litre.  Elle est recueillie à  St-Cyr la Source,
dans le département  du Loiret. Son code barre est  3274080005003 et son
pH est de  7,45. Comme la bouteille est sale,  quelques autres matériaux
comme du  fer s'y  trouvent en suspension.  Une seconde  bouteille d'eau
Cristaline a été,  elle, recueillie à la source d'Aurèle  dans les Alpes 
Maritimes. La concentration  en ions calcium est de 98  mg/l, et en ions
magnésium  de 4  mg/l. Il  y a  3,6 mg/l  d'ions chlorure  et 2  mg/l de
nitrates, pour un pH  de 7,4. Le code barre de cette  bouteille de 50 cl
est  3268840001008.  Une bouteille  de  même  contenance est  de  marque
Volvic, et a été puisée à... Volvic, bien connu pour ses sources donnant
un pH  neutre de  7. Elle  comprend 11,5 mg/l  d'ions calcium,  8,0 mg/l
d'ions  magnésium,  13,5  mg/l  d'ions  chlorures  et  6,3  mg/l  d'ions
nitrates. Elle  contient également  des particules  de silice.  Son code
barre est 3057640117008.
  • Soit le fichier Plester_2009.txt (fragment), issu de votre corpus et ce fichier Plester_2009_etiq.txt résultant de l'analyse linguistique automatique :
    • segmentation en phrases et en tokens,
    • étiquetage morpho-syntaxique et lemmatisation.

Proposer une annotation XML du fichier Plester_2009.txt qui permette de représenter en même temps la structuration du texte (segmentation en paragraphes, phrases et mots) et des valeurs attribuées par l'analyse linguistique (lemma et pos). On va supposer que l'élément racine de ce document XML sera fichier, avec un attribut id dont la valeur sera le nom du fichier. On suppose aussi que chaque phrase et chaque mot du texte se verra attribuer un identifiant unique.

3. Application à la traduction

Soit le fichier livreA.xml. Donnez la liste des balises internes et externes dans ce fichier. Y a-t-il des éléments avec des attributs à traduire ? Lesquels ?

4. Création d'un fichier conforme à la norme TEI

Pour un des textes de votre corpus, nous allons créer un fichier d'annotation de type TEI. Nous allons en particulier nous concentrer sur l'en-tête du fichier, et plus particulièrement sur l'élément fileDesc. Nous allons tenter de remplir un maximum d'information sur le fichier que nous avons décidé d'inclure dans le corpus. En partant de ce modèle d'en-tête TEI vide tâchez de remplir un maximum d'information concernant votre texte. Plus de précisions sur chaque type d'annotation ici.

user/alexandra_volanschi/exercices_xml.txt · Dernière modification: 2009/12/01 09:45 par Alexandra Volanschi