dimanche 15 février 2015

Suite des recherches de Pierre Beaufils sur TXM et le text mining

TXM et Iramuteq à l’essai

En plongée depuis quelques jours dans les univers de ces deux outils de textométrie TXM et Iramuteq, je refais surface pour donner les premières impressions :
L’installation :
L’installation de TXM peut s‘avérer délicate : il faut vérifier et mettre à jour la plateforme Java, ajouter l’installation de Treetagger et bien vérifier le paramétrage du raccourci qui doit lancer tXM.bat et TXM.vbs  (voir post précédent)
L’installation de Iramuteq n’a pas posé de problème particulier
Plateformes :
Java et Eclipse pour TXM. Appel des librairies R pour les statistiques et de Treetagger, module de lemmatisation et étiquetage morphosyntaxique. Langage CQL (Corpus Query Language).
Langage Python et R pour Iramuteq.
Interface avec R :
Les librairies R sont préinstallées. Les programmes R sont accessibles et éditables.
Dans les deux logiciels on devrait pouvoir greffer ses fonctions R (librairie psy et fpca)

Préparer un corpus digeste :
Pour TXM :  Placer dans un répertoire-corpus les x textes éléments du corpus, au format .txt. le nom est le numéro identifiant que l’on retrouve dans les métadonnées.
Les métadonnées sont dans un fichier metadata.csv, placé avec les textes :  ce sont les informations structurées (de type base de données) que l’on associe aux textes, par exemple, l’auteur, l’année, le lieu, la source,…. L’identifiant en fait partie et est obligatoire.
J’ai construit mon fichier à l’aide d’Excel et sauvegardé en .csv. les champs sont encadrés par des " et séparés par des virgules (comma en anglais, csv= comma separated values).

Exemple de fichier metadata.csv :
Id,loc,annee,
"0001","deniau_O","1942"
"0002","Hugo","1859"
"0003","Hugoogl1","2011"
"0004","Hugoogl2","2011"
"0005","Hugoogl4","2011"
"0006","Deniau2","1945"
"0007","Deniau3","1945"
"0008","PeB","2014"

C’est tout. Votre corpus est prêt à être chargé dans TXM.

Pour Iramuteq, j’ai importé le format de TXM et Iramuteq a convertit et généré son format (similaire à Alceste) :
Cette fois tous les textes sont placés à la suite, avec leurs métadonnées en debut, dans un fichier corpusxxx.txt :
Exemple : hugo.txt

Les fonctionnalités
On trouve les analyses statistiques descriptives de base dans les deux :
Nombre de textes, occurrences, nombre de formes, nombre d’hapax. Iramuteq documente plus d’infos et génère un graphique de la loi de Zipf.
TXM avec son langage CQL permet une manipulation des corpus avec des requêtes sophistiquées. Création de sous-corpus possible.
Génération et manipulation des index dans les 2 logiciels : on pourra travailler avec au choix, les mots, les lemmes ou les  formes (pos ou part of speech), tris ,filtres, regroupements…
Le retour au texte et la recherche des occurrences est possible dans les deux, avec un plus pour la lisibilité et la manipulation dans TXM.
TXM propose un graphe des spécificités (score de prépondérance ou de faible utilisation d’un mot), ainsi qu’un graph cumulé d’usage d’un mot choisi, sur tout le corpus
Des méthodes de classification hiérarchique descendante sont implémentées dans les deux logiciels.
Les AFC (analyse factorielle et graphes d’analyses en correspondance principale sont confondus) sont paramétrables (choix des dimensions, position des sujets (corpus) ou des mots…
Un plus pour IramuteQ qui propose plusieurs vues avec méthodes d’analyses différentes et la possibilité de vues en 3D, d’un paramètre couleur, d’enregistrer une cinétique et d’afficher les mots de taille proportionnelle à leur occurrence.
TXM permet une recherche des cooccurences.
IramuteQ génère également un nuage de mots.

Les imports et exports
Les corpus sont exportables sous différents formats que je détaillerai plus tard. (Alceste…).  Les imports sont réalisables à partir de nombreux format également.
J’ai pu aisément passer un corpus TXM à Iramuteq qui généré son propre format (proche d’alceste)
TXM et Iramuteq permettent de générer les matrices terme-document. Ce sera utile pour d’autres analyses avec R par exemple.

Conclusion
Deux logiciels libres, faciles à utiliser et ergonomiques,  offrant un choix d’analyses et de graphes assez varié. Ils me semblent complémentaires.


Je parlerai prochainement de mon corpus d’essai et de sa construction, avec quelques illustrations parlantes…


Pierre

Aucun commentaire:

Enregistrer un commentaire