En quête d’amitié. Approches méthodologiques pour l’analyse automatisée d’un corpus électronique
Résumé
Nous n'avons guère à rappeler que, depuis son fondement il y a quelque vingt-cinq ans, la Sator cherche à conjuguer la recherche littéraire avec les nouvelles technologies aptes à aider à réaliser le travail à la hauteur des ambitions du projet, c'est-à-dire à mieux comprendre et étudier la récurrence narrative dans les textes français du Moyen Âge à la fin du XVIIIe siècle. Diverses tentatives se sont succédé, que l'on pense à Toposator, SatorBase, TopoScan, PBLit, et d'autres initiatives connexes, chacune laissant entrevoir un nouveau monde de possibilités tout en nous laissant sur notre faim.Qu'est-ce qui distingue alors ce nouveau projet portant le nom Toucher (Textes, Outils, chercheur en réseau)? Très peu, à certains égards: il s'agit toujours d'un groupe de chercheurs à la fois convaincus et circonspects au sujet du potentiel de l'informatique pour enrichir et multiplier les façons d'étudier les phénomènes littéraires. Cela dit, quelques différences essentielles existent, motivées par l'expérience et une réflexion honnête sur l'appui réel que peut apporter l'informatique aux chercheurs individuels et à l'équipe. Le concept du réseau nous a paru propice pour structurer nos objectifs, tant pour les composantes individuelles (les textes, les outils, les chercheurs), que pour le réseau qui peut se dessiner entre les composantes (un véritable réseau de réseau, ou internet). Dès lors, il ne s'agit plus simplement de créer un outil en isolation qu'on espère saura convaincre un utilisateur éventuel, mais plutôt de prendre conscience de l'ensemble des textes disponibles et de réfléchir à quelles sortes d'outils s'insérerait le plus naturellement dans les pratiques actuelles des chercheurs.
Nous présenterons dans cet article les premières balbutiements du projet Toucher. En particulier, nous décrirons notre utilisation de Zotero, un outil bibliographique collaboratif, pour compiler un grand nombre de textes déjà numérisés (en différents formats et états). De là, nous présenterons un outil de balisage topique développé pour le projet qui permet de classifier des occurrences de mots-clés ainsi que les termes contribuant à la classification. Le but de cet outil est de permettre à la machine d'apprendre à reconnaître elle-même des occurrences possibles, ce qui permettrait de constituer une ressource extrêmement puissante: un utilisateur pourrait chercher dans un grand corpus des exemples possibles d'occurrences topiques afin d'enrichir la compréhension de phénomènes locaux ou d'alimenter une réflexion sur des phénomènes plus larges. Ainsi, textes, outils et chercheurs fonctionnent en réseau.
Publié-e
2016-08-04
Rubrique
Articles
Les auteurs qui publient dans cette revue acceptent les termes suivants :
- Les auteurs conservent le droit d'auteur et accordent à la revue le droit de première publication, l'ouvrage étant alors disponible simultanément, sous la licence Licence d’attribution Creative Commons permettant à d'autres de partager l'ouvrage tout en en reconnaissant la paternité et la publication initiale dans cette revue.
- Les auteurs peuvent conclure des ententes contractuelles additionnelles et séparées pour la diffusion non exclusive de la version imprimée de l'ouvrage par la revue (par ex., le dépôt institutionnel ou la publication dans un livre), accompagné d'une mention reconnaissant sa publication initiale dans cette revue.
- Les auteurs ont le droit et sont encouragés à publier leur ouvrage en ligne (par ex., dans un dépôt institutionnel ou sur le site Web d'une institution) avant et pendant le processus de soumission, car cela peut mener à des échanges fructueux ainsi qu'à un nombre plus important, plus rapidement, de références à l’ouvrage publié (Voir The Effect of Open Access).