Outils pour utilisateurs

Outils du site


enseignement:lea:cours:linguistique:appli-corpus:slides-store

Voir cette page sous forme de diaporama.

Stocker ses corpus

Formats de fichiers (1/3)

Moyen d’encoder de l’information afin de la stocker sur l’ordinateur.

  • images uniquement : .jpg, .png, etc
  • formats de fichiers textuels
    • sans aucun formatage : .txt, uniquement des caractères textuels ordinaires
    • formatés

Formats de fichiers (2/3)

Fichiers formatés :

  • .doc : format propriétaire (Microsoft)
  • .rtf : format propriétaire (Microsoft) : lisible, inter-opérable
  • .odt (Open Format Document) : logiciel libre, sources disponibles
  • .html, .xml : langages à balises
  • .pdf : format propriétaire (Adobe Systems), même si ouvert ; préserve polices, images, graphiques et la mise en forme

Formats de fichiers (3/3)

Démonstration : comparaison entre les documents de type .txt, .doc, .html, .rtf, .odt

Observer la taille des documents

Pour plus de détails, voir les commentaires de l'équipe informatique

Fichiers texte vs binaire

  • Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné.
    • en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers .xml ; .txt
  • Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis.
    • fichier exécutable ;
    • fichier de base de données structuré en enregistrements de taille fixe ou variable ;
    • documents de traitements de texte ;
    • fichiers multimédias : images, sons, vidéos.

Encodage du texte (1/2)

Associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers.

  • Exemples d’encodage :
    • le code Morse
    • le code ASCII : encode des lettres, numéraux (1963 : alphabet anglais). Très limité → extensions afin de couvrir d’autres systèmes d’écriture.
    • approche systématique : Unicode (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères) → permet le mélange de langues
      • UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour Unicode

Encodage du texte (2/2)

  • US-ASCII (1967): American Standard Code of Information Interchange
    • 7 bits (128 codes) 98 signes définis
  • ISO 8859 (1987) : International Standards Organization
  • 8 bits (256 codes) 191 signes définis
    • ISO 8859-1 : Europe le l’Ouest
    • 8859-2 : Latin 2, Europe de l’Est
    • 8859-3 : Latin 3, Europe du Sud Est
    • 8859-4 : Latin 4, Scandinavie, Baltique
    • 8859-5 : cyrillique
    • 8859-6 : arabe
    • 8859-7 : grec, etc

Stockage du corpus

  • CORPUS_NOM_PRENOM/
    • CORPUS_NOM_PRENOM/ANGLAIS/
      • CORPUS_NOM_PRENOM/ANGLAIS/JDOE_2005.txt
      • CORPUS_NOM_PRENOM/ANGLAIS/JDOE_2005_a.txt
      • CORPUS_NOM_PRENOM/ANGLAIS/DFOO_2007.txt
    • CORPUS_NOM_PRENOM/ALLEMAND/
    • CORPUS_NOM_PRENOM/FRANCAIS/
    • :!: Erreur : CORPUS_NOM_PRENOM/FRANÇAIS/

La référence de chaque fichier doit apparaître sur la première ligne de chaque texte ! (Droits d’auteurs)

Références bibliographiques (1/2)

Comment citer la source ?

  • Quels champs indiquer pour chaque type de document ? (JabRef) :
  • Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages
  • Site web : Titre, (Auteur|institution), Url (localisation), date de consultation.
  • Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)

Références bibliographiques (2/2)

  • Thèse de doctorat : Auteur.(2008). Titre. École. (directeur de recherche)
  • Actes de colloque : Auteur(2008). Titre. Conférence (Date, Lieu), pages ou URL.

TP

Démonstration : comment stocker les fichiers constituant son corpus ?

Fichiers PDF (1/2)

  • Portable Document Format, créé par Adobe Systems (sur les fondements du Postscript)
  • préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plateforme → très utilisé dans l'édition !
  • PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances.
  • les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).

Fichiers PDF (2/2)

  • Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!):
  • Utiliser les logiciels OCR. Exemple : Omnipage ; démonstration.
  • Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!) ; démonstration.
  • Vérifier l’intégrité du texte extrait (surtout lorsqu’il s’agit de texte en colonnes, avec images).

Fin !

enseignement/lea/cours/linguistique/appli-corpus/slides-store.txt · Dernière modification: 2014/06/24 18:02 (modification externe)