Veuillez choisir le dossier dans lequel vous souhaitez ajouter ce contenu :
Filtrer les résultats
La présentation procédera à un examen systématique des caractéristiques du corpus d'Éruditd'un point de vue de traitement automatique de la langue (TAL). Celles‐ci incluent les suivantes :(1) ses caractéristiques informatiques, dont principalement le format des documents, laprésence de métadonnées explicites et l'existence de balisage sémantique étendu; (2) lescaractéristiques linguistiques du corpus, notamment le degré de multilinguisme des textes, levocabulaire utilisé, étudié à la fois d'un point de vue terminologique et de sémantique lexicale,ainsi que quelques éléments de linguistique textuelle telle qu'observée dans un échantillon ducorpus; (3) un certain nombre de critères pragmatiques, incluant les distinctions entre revuesscientifiques et culturelles ainsi …