-
-
- Formations :
-
-
-
Le paragraphe suivant contient de l'information « en vrac ». Réorganisez-la de manière à mettre en évidence sa structure logique, sans forcément passer par une mise en forme XML.
Une bouteille d'eau Cristaline de 150 cl contient par litre 71 mg d'ions positifs calcium, et 5,5 mg d'ions positifs magnésium. On y trouve également des ions négatifs comme des chlorures à 20 mg par litre et des nitrates avec 1 mg par litre. Elle est recueillie à St-Cyr la Source, dans le département du Loiret. Son code barre est 3274080005003 et son pH est de 7,45. Comme la bouteille est sale, quelques autres matériaux comme du fer s'y trouvent en suspension. Une seconde bouteille d'eau Cristaline a été, elle, recueillie à la source d'Aurèle dans les Alpes Maritimes. La concentration en ions calcium est de 98 mg/l, et en ions magnésium de 4 mg/l. Il y a 3,6 mg/l d'ions chlorure et 2 mg/l de nitrates, pour un pH de 7,4. Le code barre de cette bouteille de 50 cl est 3268840001008. Une bouteille de même contenance est de marque Volvic, et a été puisée à... Volvic, bien connu pour ses sources donnant un pH neutre de 7. Elle comprend 11,5 mg/l d'ions calcium, 8,0 mg/l d'ions magnésium, 13,5 mg/l d'ions chlorures et 6,3 mg/l d'ions nitrates. Elle contient également des particules de silice. Son code barre est 3057640117008.
Proposer une annotation XML du fichier Plester_2009.txt qui permette de représenter en même temps la structuration du texte (segmentation en paragraphes, phrases et mots) et des valeurs attribuées par l'analyse linguistique (lemma et pos). On va supposer que l'élément racine de ce document XML sera fichier, avec un attribut id dont la valeur sera le nom du fichier. On suppose aussi que chaque phrase et chaque mot du texte se verra attribuer un identifiant unique.
Soit le fichier livreA.xml. Donnez la liste des balises internes et externes dans ce fichier. Y a-t-il des éléments avec des attributs à traduire ? Lesquels ?
Pour un des textes de votre corpus, nous allons créer un fichier d'annotation de type TEI. Nous allons en particulier nous concentrer sur l'en-tête du fichier, et plus particulièrement sur l'élément fileDesc. Nous allons tenter de remplir un maximum d'information sur le fichier que nous avons décidé d'inclure dans le corpus. En partant de ce modèle d'en-tête TEI vide tâchez de remplir un maximum d'information concernant votre texte. Plus de précisions sur chaque type d'annotation ici.
UFR EILA
Notice