En quête d’amitié. Approches méthodologiques pour l’analyse automatisée d’un corpus électronique

  • Stéfan Sinclair
  • Madeleine Jeay

Résumé

Nous n'avons guère à rappeler que, depuis son fondement il y a quelque vingt-cinq ans, la Sator cherche à conjuguer la recherche littéraire avec les nouvelles technologies aptes à aider à réaliser le travail à la hauteur des ambitions du projet, c'est-à-dire à mieux comprendre et étudier la récurrence narrative dans les textes français du Moyen Âge à la fin du XVIIIe siècle. Diverses tentatives se sont succédé, que l'on pense à Toposator, SatorBase, TopoScan, PBLit, et d'autres initiatives connexes, chacune laissant entrevoir un nouveau monde de possibilités tout en nous laissant sur notre faim.
Qu'est-ce qui distingue alors ce nouveau projet portant le nom Toucher (Textes, Outils, chercheur en réseau)? Très peu, à certains égards: il s'agit toujours d'un groupe de chercheurs à la fois convaincus et circonspects au sujet du potentiel de l'informatique pour enrichir et multiplier les façons d'étudier les phénomènes littéraires. Cela dit, quelques différences essentielles existent, motivées par l'expérience et une réflexion honnête sur l'appui réel que peut apporter l'informatique aux chercheurs individuels et à l'équipe. Le concept du réseau nous a paru propice pour structurer nos objectifs, tant pour les composantes individuelles (les textes, les outils, les chercheurs), que pour le réseau qui peut se dessiner entre les composantes (un véritable réseau de réseau, ou internet). Dès lors, il ne s'agit plus simplement de créer un outil en isolation qu'on espère saura convaincre un utilisateur éventuel, mais plutôt de prendre conscience de l'ensemble des textes disponibles et de réfléchir à quelles sortes d'outils s'insérerait le plus naturellement dans les pratiques actuelles des chercheurs.
Nous présenterons dans cet article les premières balbutiements du projet Toucher. En particulier, nous décrirons notre utilisation de Zotero, un outil bibliographique collaboratif, pour compiler un grand nombre de textes déjà numérisés (en différents formats et états). De là, nous présenterons un outil de balisage topique développé pour le projet qui permet de classifier des occurrences de mots-clés ainsi que les termes contribuant à la classification. Le but de cet outil est de permettre à la machine d'apprendre à reconnaître elle-même des occurrences possibles, ce qui permettrait de constituer une ressource extrêmement puissante: un utilisateur pourrait chercher dans un grand corpus des exemples possibles d'occurrences topiques afin d'enrichir la compréhension de phénomènes locaux ou d'alimenter une réflexion sur des phénomènes plus larges. Ainsi, textes, outils et chercheurs fonctionnent en réseau.
Publiée
2016-08-04