TXM et Iramuteq à l’essai
En plongée depuis quelques jours dans les univers de ces
deux outils de textométrie TXM et Iramuteq, je refais surface pour donner les
premières impressions :
L’installation :
L’installation de TXM peut s‘avérer délicate : il faut
vérifier et mettre à jour la plateforme Java, ajouter l’installation de
Treetagger et bien vérifier le paramétrage du raccourci qui doit lancer tXM.bat
et TXM.vbs (voir post précédent)
L’installation de Iramuteq n’a pas posé de problème
particulier
Plateformes :
Java et Eclipse pour TXM. Appel des librairies R pour les
statistiques et de Treetagger, module de lemmatisation et étiquetage
morphosyntaxique. Langage CQL (Corpus Query Language).
Langage Python et R pour Iramuteq.
Interface avec R :
Les librairies R sont préinstallées. Les programmes R sont
accessibles et éditables.
Dans les deux logiciels on devrait pouvoir greffer ses fonctions R (librairie psy et fpca)
Dans les deux logiciels on devrait pouvoir greffer ses fonctions R (librairie psy et fpca)
Préparer un corpus digeste :
Pour TXM :
Placer dans un répertoire-corpus les x textes éléments du corpus, au
format .txt. le nom est le numéro identifiant que l’on retrouve dans les
métadonnées.
Les métadonnées sont dans un fichier metadata.csv, placé avec les textes : ce sont les informations
structurées (de type base de données) que l’on associe aux textes, par exemple,
l’auteur, l’année, le lieu, la source,…. L’identifiant en fait partie et est
obligatoire.
J’ai construit mon fichier à
l’aide d’Excel et sauvegardé en .csv. les champs sont encadrés par des " et séparés par des virgules (comma en anglais, csv=
comma separated values).
Exemple de fichier
metadata.csv :
Id,loc,annee,
"0001","deniau_O","1942"
"0002","Hugo","1859"
"0003","Hugoogl1","2011"
"0004","Hugoogl2","2011"
"0005","Hugoogl4","2011"
"0006","Deniau2","1945"
"0007","Deniau3","1945"
"0008","PeB","2014"
C’est tout. Votre corpus est prêt à être chargé dans TXM.
Pour Iramuteq, j’ai importé le format de TXM et Iramuteq a
convertit et généré son format (similaire à Alceste) :
Cette fois tous les textes sont placés à la suite, avec leurs métadonnées en debut, dans un fichier corpusxxx.txt :
Cette fois tous les textes sont placés à la suite, avec leurs métadonnées en debut, dans un fichier corpusxxx.txt :
Exemple : hugo.txt
Les fonctionnalités
On trouve les analyses statistiques descriptives de base
dans les deux :
Nombre de textes, occurrences, nombre de formes, nombre
d’hapax. Iramuteq documente plus d’infos et génère un graphique de la loi de
Zipf.
TXM avec son langage CQL permet une manipulation des corpus
avec des requêtes sophistiquées. Création de sous-corpus possible.
Génération et manipulation des index dans les 2
logiciels : on pourra travailler avec au choix, les mots, les lemmes ou
les formes (pos ou part of speech), tris
,filtres, regroupements…
TXM propose un graphe des spécificités (score de
prépondérance ou de faible utilisation d’un mot), ainsi qu’un graph cumulé
d’usage d’un mot choisi, sur tout le corpus
Des méthodes de classification hiérarchique descendante sont
implémentées dans les deux logiciels.
Les AFC (analyse factorielle et graphes d’analyses en
correspondance principale sont confondus) sont paramétrables (choix des dimensions,
position des sujets (corpus) ou des mots…
Un plus pour IramuteQ qui propose plusieurs vues avec méthodes
d’analyses différentes et la possibilité de vues en 3D, d’un paramètre couleur,
d’enregistrer une cinétique et d’afficher les mots de taille proportionnelle à
leur occurrence.
IramuteQ génère également un nuage de mots.
Les imports et exports
Les corpus sont exportables sous différents formats que je
détaillerai plus tard. (Alceste…). Les
imports sont réalisables à partir de nombreux format également.
J’ai pu aisément passer un corpus TXM à Iramuteq qui généré
son propre format (proche d’alceste)
TXM et Iramuteq permettent de générer les matrices
terme-document. Ce sera utile pour d’autres analyses avec R par exemple.
Conclusion
Conclusion
Deux logiciels libres, faciles à utiliser et
ergonomiques, offrant un choix
d’analyses et de graphes assez varié. Ils me semblent complémentaires.
Pierre