Texte des journées Prospéro (Juin 1998)

Juin 1998 Prospéro De l’analyse du discours à la génération d’observatoires sociologiques Francis Chateauraynaud

Document de travail présenté dans le cadre des Journées Prospéro organisées par l'association Doxa, les 17-18-19 juin 1998, Château de La Beuvrière, Saint-Hilaire-de-Court, près de Vierzon (Cher)

Préambule

Loin de proposer une redescription complète des concepts et structures qui sont au cœur de notre “ machine interprétative ”, le texte qui suit examine une série de problèmes qui émergent régulièrement lors des utilisations, des présentations ou des discussions occasionnées par Prospéro . Il s'agit de préparer les échanges et les débats des journées consacrées au logiciel, à son environnement, ses usages, son avenir. On y trouvera ainsi, dans le plus petit désordre possible, une série de mots d’ordre qui forment ce que l’on peut appeler l’ “ esprit ” prospérien - qui, en cherchant à rendre justice aux textes, n’est pas si éloigné du célèbre héros shakespearien -, un ensemble de réponses, partielles et sans doute aussi partiales, à des critiques ou des interrogations courantes, des exemples de réussites ou d’échecs, de nouvelles idées de développement, des perspectives d’utilisation ou de diffusion, et, pour finir, l'énoncé de quelques problèmes déontologiques. Il s’agit donc d’un chantier et non d’un texte terminé. Un document plus définitif sera rédigé à l’issue des journées.

1. Un développement illimité ?

Cela fait déjà plusieurs années que l’on nous pose la question. Elle revient sans cesse, supportée tantôt par un regard inquiet, tantôt par un accent goguenard : “ mais enfin, cela ne va-t-il pas s’arrêter un jour ce programme ? N’est-ce pas bientôt fini ? ” Les sociologues - et leurs collègues anthropologues, philosophes, historiens, économistes, politologues, juristes etc. - n’ont pas pour mission d’inventer des dispositifs techniques : quand ils le font c’est à leurs risques et périls, car ce n’est “ pas dans leur rayon ” comme on dit. Il faut dire qu’ils héritent d’une forte division du travail inscrite au coeur des institutions d’enseignement et de recherche. Aussi ont-ils le choix entre deux attitudes : la mise à distance et l'utilitarisme.

- sans aller nécessairement jusqu'au mépris, la mise à distance peut se nourrir de l’analyse de la genèse des techniques, afin de dévoiler les systèmes de croyance qui les sous-tendent, d’expliciter les concepts qui les rendent opératoires, déployer les réseaux d’acteurs qui les portent ;

- l'utilitarisme conduit plutôt à les faire fonctionner sans trop se poser de questions, à titre d’instruments de documentation ou de preuve banalisés (dont on peut déléguer la maintenance et le développement à des corps spécialisés d’ingénieurs et de techniciens).

Ces deux attitudes ne sont pas contradictoires en ce qu’elles reposent sur un même schème : la pensée ne doit jamais se confondre avec la technique car la fuite en avant “ technicienne ” correspond à un “ déni ” des fondements et des conditions premières de toute connaissance concernant l’humain et, a fortiori, l’humain en société. Ce type d’argument colle mal avec notre projet qui n’oppose pas l’homme et la machine mais s’efforce de plier cette dernière pour accroître le potentiel réflexif et critique du premier . Le sceptique opposera à nouveau le fait qu’il s’agit là de l’idéologie de l’inventeur qui présente toujours ses instruments comme “ libérateurs ” pour mieux construire son emprise sur ses futures victimes. Pour filer la glose déconstructionniste il faut encore ajouter le bouquet final : « de toute façon, la réussite du projet Prospéro se soldera par la mise en place d’une nouvelle technologie de savoir-pouvoir ! »

Les sciences humaines ont contribué à déconstruire à peu près toutes les sortes de valeurs et de croyances. Mais, sur le terrain qui nous intéresse, elles maintiennent encore deux interdits sans lesquels leurs communautés savantes et perspicaces voleraient en éclat. Deux interdits qui imposent de ne pas “ toucher ” aux instruments : ne pas y toucher d’abord pour garder la distance, la fameuse distance sans laquelle l’autonomie de la pensée serait “ condamnée ” ; ne pas y toucher ensuite pour ne pas intervenir dans leur fonctionnement et menacer l’objectivité de leurs procédures et de leurs résultats. Un sociologue qui fabrique un instrument est donc doublement suspect. Pour sortir de cette ornière sans gaspiller inutilement nos efforts dans une quête sans fin de légitimité, il y a semble-t-il deux épreuves majeures qu’il faut parvenir à surmonter : trouver un métalangage de description de ce que produit un traitement prospérien ; réaliser des travaux capables de convaincre des experts sur leur propre terrain et, donc, d’apporter la preuve de la double capacité de vérification et de découverte offerte par Prospéro.

Mais il faut par là-même refuser une double réduction de notre programme de recherches. Si Prospéro est défini comme un simple instrument de "traitement de données" au service des sciences sociales, il doit trouver sa place dans la panoplie des outils disponibles pour ses disciplines. Cela suppose de fixer définitivement les conditions de validité des traitements effectués, le type de données fournies en entrée et le type de résultats obtenus. Il faut dans le même temps obtenir une forme de reconnaissance académique. A défaut de satisfaire à ces contraintes, il continuera d'apparaître comme idiosyncratique, comme le produit d'un petit milieu de chercheurs non représentatifs formant, dans le meilleur des cas, une “ école ” ou un “ courant ”. A vrai dire nous ne sommes pas pressés. Si, à l'inverse, on considère qu’il s’agit d’une aventure proprement informatique, sans autre fin qu’elle même - du type de celles qui étaient menées en Intelligence Artificielle - on sera tenté de le ranger dans une rubrique de "traitement de l'information" : s'il est hors de propos de fabriquer une créature douée d’intelligence ou de simuler une “ compréhension ” automatique du langage, peut-on résumer en quelques formules l'ensemble des fonctionnalités déposées dans le logiciel ? Peut-on assumer devant un large public des expressions, lancées généralement pour plaisanter - mais aussi pour marquer l'absence de catégorie claire et distincte servant à qualifier nos modes de traitement - telles que : "accélérateur d'interprétations", "échantillonneur sémantique", "générateur de mémoire réflexive", "atelier portable d'architexture pragmatique", "ouvre-boîte-noire", "outil de codage flexible", etc. ?

Si l'on s'en tient à ces deux stratégies dominantes de légitimation, on aura du mal à faire entrer prochainement le dispositif dans les catalogues existants. En réalité , ces deux versions ne nous conviennent guère : en partie parce qu’elles réinstaurent un partage contre lequel l’expérience Prospéro s’est constituée. En effet, dans le premier cas le sociologue règne en maître sur la destinée de l’outil - il décide des fins et des cadres d’utilisation, assigne en quelque sorte l’instrument à résidence ; dans le second cas l’informaticien et le modélisateur passent au premier plan, faisant dépendre l’expérience des opportunités fournies par le marché des techniques de développement d’interfaces et d’automatismes intelligents. Non, décidément on ne s’y retrouve pas. D’autant que nous refusons également la construction d'identité par simple opposition : il ne suffira pas de dire par exemple que Prospéro prend le contre-pied d'Alceste . Ce serait en outre donner à ce dernier dispositif une importance qu'il n'a pas : peut-on nous montrer une application d'Alceste qui a ouvert de nouvelles voies de recherche en sociologie ?

Avec à son actif une longue série d’applications concernant la sociologie fondamentale, Prospéro apparaît, pour sa part, comme un instrument critique capable de lier l'exploration de dossiers complexes et l'élaboration de nouveaux modèles ou cadres d'analyse propres, sinon à renouveler les théories en vigueur, du moins à susciter des confrontations et des débats de haut niveau. Les principaux corpus traités à ce jour composent une belle collection : l’étude sur les polémiques occasionnées par les sinistres pamphlets de Louis-Ferdinand Céline , les débats publics sur la "nouvelle question sociale" , les changements survenus dans les principes d'excellence développés par la littérature autour du management , l’étude des courriers adressés à la Fondation Abbé Pierre pour le Logement des défavorisés , le suivi des innombrables alertes, controverses, affaires et crises politques en matière d'environnement et de santé publique , l'étude collective de la polémique engendrée par la révélation du pastiche postmoderne d’Alan Sokal" . Aussi, même si l’on ne parvient pas à résumer notre expérience, à lui trouver un label simple et transportable, à l'entourer de tous les signes extérieurs de neutralité (souvent confondue avec '"objectivité"), il est vital de maintenir le cap : car, les développements du logiciel ont pour but d’accompagner des problématiques de recherche en constante évolution tout en permettant de construire des bases documentaires et des centres de calcul qui nous assurent un minimum d’accumulation. De fait, si l’on choisit cette troisième définition, le développement de Prospéro devrait se poursuivre tant que se poursuivront des recherches qui engagent des corpus de textes ou d'interviews importants. Cela ne veut pas dire, bien entendu, que les utilisateurs se limitent du coup à l’étude de discours et de textes ou n’expérimentent pas d’autres instruments. Mais il est important de souligner la double capacité de Prospéro à construire des mémoires longues et à incorporer des outils analytiques rendus nécessaires par de nouveaux domaines de recherche.

Bien sûr, une autre explication de ce développement permanent tient, plus prosaïquement, à l’évolution constante des systèmes informatiques : un logiciel non maintenu est un logiciel condamné à brève échéance. Pour éviter de s’éloigner des grands standards utilisateurs, il faut maintenir une veille technologique et compiler de nouvelles versions. En choisissant, dès le départ, le MS-DOS comme système d’exploitation en 1990 alors qu’il était possible de passer sous Unix ou sous Mac, on a choisi le standard le plus commun, ce qui, en retour, nous a lié fortement aux stratégies de Microsoft (le passage de Windows 3 à Windows 95 par exemple a nécessité une réécriture d’une partie du programme pour passer du 16 bits au 32 bits...). Il est vrai que le degré d’interdépendance des objets et des formes est aujourd'hui considérable. D'ailleurs, on peut très bien poser notre pseudo-problème d'identité à l'envers : que resterait-il de Prospéro si l’on retirait le réseau électrique, les PC, les processeurs d'Intel, Windows - dont l’interface est désormais aussi confortable que celui d’Apple - les scanners, les Outils de Reconnaissance de Caractères, les modems et Internet ? Pourrait-on y reconnaître une expérience sociologique à part entière ? A quel titre ?

A priori Prospéro a tout pour satisfaire à l’air du temps : ayant grandi aux points de jonction de multiples réseaux et institutions, il peut se prévaloir d’être multi-disciplinaire et d’être à la pointe des nouvelles technologies dont il peut favoriser l’introduction dans de multiples activités (d’étude, de recherche, de formation, de veille, de documentation, d’expertise, de conseil et aussi de critique sociale...). Dans l’imagerie générale de telles innovations obéissent à des lois de développement très précises : elles naissent dans les zones d’ombre du savoir technique, à partir de connexions inédites - bien qu’au fond élémentaires -, connaissent une période de croissance qui les conduit, pas-à-pas et à force d’obstination, vers la lumière, c’est-à-dire vers un enrichissement des connexions qui transportent les premières idées dans une configuration optimale, économiquement viable, connaissent enfin, grâce à un processus de standardisation, une large diffusion qui marque leur pleine maturité socio-technique, puis tombent en désuétude (entrant dans le champ désormais proliférant de l’histoire des sciences et des techniques) . La sagesse pratique inciterait donc à anticiper cette évolution inéluctable, à envisager clairement la configuration porteuse dans laquelle pourra se glisser le nouveau dispositif et à clore le processus de recherche et de développement. Si l'on adopte ce point de vue normatif, on peut très bien interpréter notre progression lente et tortueuse comme une stratégie pour différer le moment de clôture dans l'attente d'une configuration porteuse. Mais ce serait nous accorder beaucoup trop de malice. Car il se peut très bien que cette configuration ne voit jamais le jour, d'autant que Prospéro étant un "instrument de travail dédié à la recherche", il porte à s'interroger sur le statut de l'association de ces différentes entités : tous les "instruments" connaissent aujourd'hui une rapide obsolescence ; le "travail" est, dit-on, en voie de disparition ; quant à la référence à la "recherche" elle est largement devenue, sinon un slogan publicitaire, du moins un thème porteur pour les valorisateurs et les intermédiaires de tous poils. Comme quoi on peut être dans l’air du temps et complètement marginal. Poursuivre notre projet en créant le micro-milieu adéquat qui nous évite d'être englouti dans la masse - la prolifération des "acteurs-auteurs" selon l'expression de Latour et Callon, étant plus manifeste encore que l’accélération chère à Virilio - constitue donc un pari important.
2. Rappel de quelques mots d'ordre fondateurs

Avant d'approfondir quelques-uns des points cruciaux liés au développement et aux utilisations, je voudrais rassembler ici une série de "mots d'ordre" ou de "principes" qui sont constitutifs de l'univers méthodologique créé par et pour le logiciel et qui, me semble-t-il, cadrent assez mal avec les options communément admises par la discipline sociologique en matière de méthodologies.

"Une discipline qui ne construit pas ses instruments est une discipline condamnée"

Certes avec un tel argument je n’y vais pas avec le dos de la cuillère. Je ne veux pas dire par là que Prospéro est l’instrument par excellence de la sociologie, mais qu’il répond à une des premières exigences d'une discipline à prétention scientifique : élaborer les instruments dont elle a besoin pour organiser la rencontre entre des conjectures théoriques et des matériaux empiriques. « Quelle énormité ! va encore s’écrier le sceptique, spécialiste en constructions sociales : la sociologie ne s'est elle pas construite à partir de la statistique qui lui a fourni le socle, l'"assise" dont elle avait besoin pour se constituer comme science autonome ? » Pas de doute : la méthodologie statistique a fortement pesé dans la hiérarchie des preuves en sociologie , à tel point que les stratégies pour relever les autres méthodes ont toujours été vaines ou se sont généralement soldées par l'emprise d'autres disciplines : logique, linguistique, anthropologie, histoire, démographie, philosophie analytique, psychologie comportementale, connexionnisme, sciences cognitives, etc. A l’exception du « questionnaire » - dont on peut d’ailleurs se demander s’il s’agit à proprement parler d’un « outil » et qui a largement été réapproprié par les acteurs les plus divers - il est très difficile de concevoir un instrument de l'intérieur même de la discipline Les outils ne sont des outils que parce qu’ils viennent d’ailleurs. Or, après l'interactionnisme, l'ethnométhodologie, la sociologie des formes de codage social, la sociologie des sciences ou les études sur la cognition sociale, il s'est formé un "contexte" plus favorable dans lequel Prospéro a pu grandir en tirant les leçons des "chocs" répétés entre plusieurs paradigmes.

"Il s’agit de rendre possibles des expériences de pensée autrement impossibles"

Notre problème n'est pas d'"automatiser" des "pratiques" qui auraient pour défaut d'être "manuelles" ou d'être faiblement systématisées, mais de créer une autre scène, pour d'autres types de confrontation entre théories et matériaux, ce qui suppose d'en finir avec un certain nombre d'apories épistémologiques . On entend favoriser des interrogations, des explorations, des tests qui sont difficiles à mettre en œuvre sans instrumentation. Ce faisant, l’utilisateur doit rompre avec l’idée qu’il suffit d’entrer des données et d’attendre que le système produisent des résultats prêts à l’interprétation. Le logiciel accroît le potentiel d’exploration et d’analyse du chercheur sur au moins quatre dimensions : il permet des actes de vérification impossibles à la main (en vertu des coûts de relecture et de relevé, par exemple, des absences ou des connexions inédites) ; il fonctionne comme un dispositif de veille permettant d’attirer l’attention de l’utilisateur sur des propriétés qu’il aurait autrement tendance à négliger ou à ignorer (le système bénéficie d’une indifférence et d’un ensemble d’outils de test et de repérage stabilisés qui évitent les variations du degré d’attention ou de préoccupation propres à l’interprète humain) ; il crée les conditions pour rendre calculables des propriétés qui ne le sont pas a priori en maintenant la visibilité complète des opérations de codage ou de sélection nécessaires ; enfin il assure une mémoire longue des connaissances engendrées et, du même coup, favorise les discussions et les controverses directement sur le matériel lui-même. Il s’ensuit que les arguments selon lesquels “ on a aussi bien fait à la main ” sont de mauvais arguments ou plutôt, du point de vue de notre expérience (par nature collective), ne font pas figure d'arguments et sont, dans le meilleur des cas, fondés sur un malentendu : car, dès lors que l’utilisateur s’engage dans un traitement avec Prospéro, il continue à prendre en charge le travail et ne fait que déléguer un certain nombre d’opérations complexes à la machine. Serait déclaré illicite par exemple un traitement dans lequel aucune lecture des textes, aucun contrôle sur la composition du corpus, aucune réflexion sur ses bordures, aucun retour sur les catégories d’analyse pertinentes, n’aurait été produit par les chercheurs.

"Et d’assumer dans le même mouvement le fait que nos objets sont des objets complexes et non des objets stylisés"

C'est souvent le cas en linguistique, en philosophie analytique ou en intelligence artificielle, et l'on a bien souvent ironisé à propos du "chat (qui) est sur le paillasson" et du "roi de France (qui) est chauve" (sans doute à défaut d'être nu). Si ce genre d'exercice est fondamental pour mettre en place un raisonnement analytique (voir la notion d’ “ exemple bien formé ” marquée du sceau des logiciens), il pose problème dès lors qu'il laisse entendre que tout mode de traitement de formes plus complexes est irrémédiablement “ interprétatif ”, au sens péjoratif - c'est-à-dire entaché de présupposés, de mélanges des genres, d'erreurs et de superstitions . Le micro-positivisme s'est installé durablement dans les nouvelles sciences sociales, via notamment les études sur la "cognition située", diffusant tacitement l'idée que seuls des objets bien circonscrits et directement observables étaient justiciables d'une investigation scientifique, c’est-à-dire d’une vraie “description”. Dès lors que l'on s'attaque à des corpus de textes, la structure ou la forme des objets traités n’est pas donnée et ne correspond pas d’emblée à l’espace de calcul ou de raisonnement du chercheur. Mais cela ne signifie pas pour autant qu’il n’y a pas d’objet, ou qu’il est irrémédiablement idéologique et livré aux élans normatifs des lecteurs.

"Les textes et les corpus de textes sont marqués par une irréductible variabilité"

On ne dit pratiquement jamais deux fois la même chose. Même dans un dossier extrêmement concentré et spécialisé, chaque nouvel énoncé, chaque nouveau texte produit autant de différences que de répétitions et, pour tout dire, produit de la différence dans la répétition. Il faut donc disposer d’un métalangage de description le plus souple possible, permettant de retrouver dans les structures utilisées la capacité expressive des textes eux-mêmes. Chaque texte doit être en quelque sorte assuré d’une bonne “ relation de représentation ”. Loin de faire de la variation un obstacle on peut en faire une ressource et faire de notre dispositif un moyen d’analyser les espaces de variations engendrés par des thèmes, des controverses ou des affaires déployés dans l’espace public - en étendant ce point de vue aux interviews réalisés par les chercheurs puisqu’il s’agit de formules de passage du “ privé ” au “ public ”.

"Le contenu des textes et des discours n’a pas d’existence sans la présence d’un lecteur ou d’un auditeur capable de les interpréter"

La variabilité des formes discursives et la contrainte de “ lecture ” semblent inhiber définitivement tout projet d’analyse automatique que l’on pourrait dire “ positive ” - au sens du positivisme. Car un texte n’est pas un objet, il ne saurait donc être traité comme une “ chose ”. Comme une partition, pour faire sens, il doit être interprété. Un texte est le produit d’une rencontre, plus ou moins différée, entre un auteur et un lecteur, il est par nature dialogique, même si cette rencontre a pour caractéristique de ne pas ressembler à une interaction ou une conversation. Si l’on supprime le lecteur, au nom d’une posture objectivante (type statistique ou morpho-syntaxique) on produit une stylisation ou une mise en forme qui est en réalité une lecture particulière i.e. une lecture objectivante (qui consiste par exemple à compter des occurrences ou des co-occurrences ou à reconnaître des structures linguistiques supposées indépendantes du contexte). Ainsi, en dépit d’efforts répétés, les travaux de statistique textuelle ont très peu contribué à l’innovation et la découverte en sociologie, fonctionnant plutôt comme des opérateurs de vérification de connexions entre des thèmes ou de mise à plat de lexiques. Pourtant ce n’est pas faute d’avoir essayé de coller aux exigences académiques de l’objectivité des procédures (voir l'article de J. Jenny). De ce point de vue Prospéro est le produit d’un renversement puisqu’il a été conçu moins pour développer des algorithmes concurrents que pour remettre au premier plan la question des stratégies interprétatives. C’est pourquoi on ne parlera pas d’ “ analyse des données ”, puisqu'il n’y a pas de “ données ” avec Prospéro mais seulement un rassemblement, une collection, un corpus, une série de textes, de discours ou de scènes qui supposent un collecteur, une décision de rapprochement - on reviendra plus tard sur l’extension de l’instrument comme outil de veille sur des “ séries ” que l’on présente comme “ naturelles ” : dépêches AFP, presse quotidienne, jurisprudence, etc.

"On ne peut modéliser les textes qu'en modélisant l’interprète"

On retrouve ici l’argument de la symétrie. Après l’éthnométhodologie et la poussée des philosophies réflexives, il n’est plus possible de séparer le traitement de “ faits objectifs ” de l’étude des procédures par lesquelles ces faits sont “ conquis ”, “ construits ” et “ constatés ” - pour paraphraser un manuel de sociologie célèbre. Sans refaire ici un topo fait à propos d’objets très différents, on peut dire que Prospéro est une sorte de vérification expérimentale de la "théorie de la prise", si l’on considère qu’il permet l’élaboration graduelle des prises de l’interprétation . Il crée en effet un espace intermédiaire, un jeu de langage pivot, dans lequel l’utilisateur élabore les prises capables de surmonter le dilemme de la description “ froide ” (au sens de la “ cold cognition ” de H.Simon ) à partir de repères objectivés qui ne devraient rien à une lecture particulière, et de l’interprétation (chaude - “ hot cognition ”) à partir d’un investissement intuitif dans les plis du discours qui seul peut faire surgir des significations nouvelles ou inattendues par la mise en rapport d'indices ou de traits secondaires.

"La non-univocité de la preuve empirique"

Traiter des corpus, les décrire, les analyser, les interpréter, suppose de faire cohabiter une diversité d’espaces de calcul. Ce qui compose une "preuve" selon un certain cheminement interprétatif ne l'est plus, ou moins, dans un autre. Cela ne nous conduit pas au relativisme ou au perspectivisme, mais plutôt à une véritable pragmatique de la preuve. On peut en effet faire émerger graduellement les conditions que doivent réunir des informations extraites d’un corpus pour composer des preuves. Les informations doivent pouvoir être isolées (“ extraites ”au sens fort), tout en étant circonstanciées c’est-à-dire rapportées à la fois à des sources précises et à une procédure d’extraction ; elles doivent remplir une attente formulée in abstracto – hors manipulation du logiciel – par l’utilisateur et correspondre aux exigences d’un espace de calcul (ce qui assure la stabilité de la preuve) ; elles doivent enfin convaincre un observateur ou un “ contrôleur ” extérieur. Ce premier ensemble de conditions ne peut se marier sans dommage à la reconnaissance de la complexité et de la pluralité des cheminements possibles que dans la mesure où le procédé de production des preuves est complètement visible et traçable. Il ne suffit pas d’établir par exemple que lorsque l’on scinde un corpus en deux sous-corpus à partir de tel ou tel critère, il se produit une reconfiguration des propriétés observables : il faut déployer le chemin qui a conduit à choisir le critère. On pourrait qualifier notre embarcation ainsi : une coquille positiviste dans un océan constructiviste.

"Le logiciel traite des textes en langage naturel et propose symétriquement des configurations ou des objets qui se laissent facilement décrire en langage naturel"

Dans Prospéro on ne substitue pas un langage artificiel à un langage naturel, on déplace, on réordonne, on qualifie des qualifications, on rapproche des traits et des figures, mais on reste en prise directe avec les textes et leur langage. Par exemple on n’a pas recours à un langage des variables, à un logique propositionnelle ou un calcul de prédicats. Pour répondre aux questions qu’il se pose et interpréter adéquatement les effets de structure renvoyés par le logiciel, l’utilisateur peut assembler diverses fonctions et “ programmer ” lui-même la chaîne des explorations et des inférences pertinentes. Mais la “ programmation ” en question n’a rien d’informatique : il s’agit simplement de planifier les chemins que l’on va emprunter, ce qui a lieu en langage naturel.

“ On peut se défaire de quelques oppositions encombrantes : qualitatif / quantitatif, diachronie / synchronie, événement / structure, micro-analyse / macro-théorie etc. ”

Plutôt que de consolider le partage quantitatif versus qualitatif, on choisit de se placer au milieu, dans les zones de libre-échange entre les effets de structure ou de masse et les effets de sens et de contexte . Un des apports de notre dispositif réside dans sa capacité à lier des outils de micro-analyse et des modes de totalisation pointant sur de longues séries. Il me semble - mais c'est tout un thème de discussion - que "l'analyse de discours" a eu tendance à se concentrer sur des figures localisées et à couper les ponts avec l'étude socio-historique de grandes dossiers ou de longues séries. Comme j'avais essayé de le montrer dans un texte intermédiaire sur le dossier nucléaire à propos du surgissement du "sanglier des Vosges", nous pouvons désormais lier le suivi de transformations historiques à l'analyse des contraintes pragmatiques, sémantiques et configurationnelles assumées par les textes ou les discours .

"Notre théorie du texte est ouverte"

On considère le texte (ou le discours retranscrit) comme un dispositif d’expression pris entre quatre modalités dominantes : un espace de représentation (le texte décrit un état de choses, campe un monde, déploie un univers d’êtres et de relations), un récit (le texte raconte une histoire, organise une intrigue, restitue des transformations), une argumentation (le texte mobilise des procédés pour convaincre, justifier, accuser, défendre ou critiquer, examiner des faits ou des arguments, relativiser ou prophétiser, etc.), un dialogue (le texte instaure une relation dialogique qui peut passer au premier plan comme lorsqu'il se présente sous la forme d'une interview ou d'une conversation retranscrite avec toute une batterie de marques de prise de parole, d’accord sur la poursuite de l’échange ou de tentative de rupture, etc.).

Les objets et les structures manipulés par le logiciel peuvent se distribuer entre ces quatre modes principaux de lecture des textes. Par exemple les Listes d’Entités ou les Collections visent plutôt à rendre compte du type de monde déployé par le texte ; les Catégories de discours, les Modalités, les Jeux de qualités, les Figures ou les Régimes discursifs renvoient plutôt à des formes argumentatives ; les Personnages (êtres fictifs), les Acteurs Principaux (ou actants) ou certains Marqueurs pointent plutôt vers des structures narratives ; le repérage des formes de présence de l'Auteur et du Destinataire renvoit quant à lui au type de rencontre proposée par le texte, etc.

Il suit de ce qui précède que, selon les corpus traités et les problématiques de recherche, les mêmes fonctionnalités ne joueront pas le même rôle. Prospéro est un dispositif ouvert, non seulement parce qu’il permet d’appréhender des formes très diverses de supports et que la conception de son poste de pilotage est évolutive, mais aussi parce qu’il permet de composer des programmes de travail très différents. Or, c’est semble-t-il ces facultés d’adaptation qui font fuir de nombreux chercheurs : car au fond le logiciel convoque très directement la liberté et le désir du chercheur dans un cadre où, généralement, c’est le contraire qui est demandé aux instruments. Cette inquiétude particulière est notamment visible à propos de la question de la clôture du corpus et de l’arrêt de l’analyse.

3. Eléments de réponses à des doutes et critiques légitimes

3.1. Quelles épreuves de pertinence pour les concepts ?

Une critique sérieuse pointe la trop grande incertitude qui pèse sur la validité des “ concepts ” forgés par l’utilisateur. Ne peut-on coder tout et n’importe quoi et faire dire par conséquent ce que l’on veut au logiciel ?

Plusieurs idées ont mûri sur cette épineuse question de l’évaluation des concepts mobilisés par le (les) utilisateur(s) pour traiter son (leur) corpus. Manifestement la seule exigence d’un “ contrôle ” externe, c’est-à-dire d’une présentation des stratégies de codage à un tiers - généralement un collègue - n’est pas suffisante. Cela reporte en effet l’épreuve de validation sur un processus de discussion et d’accord externe aux procédures du logiciel.

Stratagème n°1 - Ancrer les concepts dans les textes. Une première façon de se prémunir contre l’arbitraire réside dans la possibilité d’attestation par le texte ou l’extrait de texte exemplaire : un concept doit pouvoir être attesté par l’existence d’au moins un texte ou extrait de texte qui déploie tout ou partie de son extension. On parlera alors d’un texte prototypique. Tel texte sera prototypique de la “ Logique de marché ” des “ Modes de protestation ” ou de la “ Prophétie de malheur ”, de la présence de l’Etat@, ou encore de la collection des Ecrivains* ou de Savants* etc. Si l’on peut exhiber pour chaque Personnage, Catégorie ou Collection un texte ou un extrait de texte dans lequel il est déployé, on fournit un mode d’attestation de l’ancrage historique des rapprochements effectués par l’utilisateur. En effet les codages ne visent pas à substituer une interprétation extérieure à celle des auteurs étudiés mais à clarifier ou expliciter les logiques, les configurations, les figures, les représentations, les cadres dans lesquels les acteurs-auteurs opèrent, qualifient, agissent, jugent, interprètent, reconstruisent, etc. Objection principale : les concepts peuvent être pertinents pour manifester les absences ou les oublis. Mais on peut contourner l’objection en appliquant le même principe : il suffit de pouvoir exhiber un texte issu d’un autre corpus dans lequel le personnage, la catégorie ou la collection est implantée, permettant ainsi d’appuyer l’attente de présence (“ C’est curieux, aucun texte ne prend appui sur le registre psychanalytique alors que dans la polémique X c’était le cas ! ”).

Stratagème n° 2 - Lutter contre le pli conservateur. On devrait toujours produire pour un même traitement des cadres d’analyse concurrents montrant à la fois l’espace des variations possibles et les régularités, les points fixes. Cette règle de méthode renforce la nécessité d’un travail collectif ou d’une confrontation directe sur les corpus. Toutes les opérations de codage sont réversibles, transparentes et discutables et pourtant on observe une nette tendance à la cristallisation des jeux de catégories. Objection principale : cela demande un important travail de codage et de recodage et augmente le risque de se perdre en ajoutant des combinaisons qui écartent d’une conclusion claire et définitive (ce que cherche généralement un utilisateur lorsqu’il a recourt à une instrumentation). Il n’y a pas de contre-objection évidente...

Stratagème n°3. Recourir à une référence, un standard défini collectivement par les utilisateurs. On doit pouvoir produire collectivement une base de concepts jugée standard (i.e. transportable d’un corpus à l’autre et relativement stable dans le temps) et doter le système de méthodes d’évaluation des transformations ou des variations créées par chaque traitement par référence à ce standard. Objection principale : rien n’est vraiment transportable. Contre-objection : les concepts ne sont peut-être pas transportables sur tous les types de corpus mais il se produit des “ familles ” de corpus pour lesquelles les mêmes concepts gardent leur statut opératoire (on fait plus facilement passer une catégorie du dossier nucléaire à celui de l’amiante ou de l’hépatite B que de Céline aux lettres d’exclus ou de la Question sociale à Sokal...).

3.2. Quelles frontières tracer entre les Etres-Fictifs, les Catégories d’entités et les Collections ?

Avec le tryptique proposé dans le logiciel (Etre-Fictif, Catégorie, Collection), toute une économie du codage est possible dont les bases n’ont pas toujours été comprises : si le codage vise à clarifier ou expliciter le sens visé par les personnes dans leurs textes ou leurs discours, alors la construction de ces concepts doit prendre appui sur des saillances, des traits, des lignes, des appuis offerts par les auteurs eux-mêmes.

- Les Etres-Fictifs ont été créés pour aider à expliciter les procédés courants par lesquels les auteurs d’un corpus relient naturellement des entités autour d’un noyau référentiel relativement stable - ce qui revient à forger une sorte de macro-acteur ou de personnage géant dont les variations de qualification importent autant que la stabilité. C’est parce que tout le monde admet que “François Mitterrand ” et “ Tonton ” pointent vers le même personnage, que “ l’Etat ” ou “ les pouvoirs publics ” renvoient bien au même “ acteur ”, que la création d’Etres-Fictifs peut être fondée. En cas de désaccord, il faut normalement faire jouer plusieurs jeux d’hypothèses et relever les effets produits sur les structures du corpus. En effet, toute stratégie de codage des Etres-Fictifs qui s’éloigne de l’idée focale de “ grands personnages ” communément, doit être compensée par une comparaison systématique de ce qui est obtenu avec et sans les constructions du chercheur.

- Les Catégories d’entités regroupent des éléments qui, sans être interchangeables (cas limite de la synonymie), entrent dans des rapports de connotation de façon à produire un univers de discours cohérent : s’il y a l’un, l’autre n’est pas loin ou le chemin à parcourir de l’un à l’autre est relativement court. De telle manière que l’on passe plus facilement de Freud à Psychanalyse, Inconscient et Divan que de Freud à Wall Street et à Dollars... Les éléments d’une catégorie ne représentent pas un même objet mais se déploient autour de figures prototypiques, d’une série de noyaux lexicaux eux-mêmes générateurs, par différenciation intégrative, de satellites (se raccordant au cœur de la catégorie de manière “ harmonique ”). Ces figures et noyaux peuvent disposer d’une longue histoire - auquel cas ils semblent relativement évidents - ou être précisément en jeu ou en gestation dans le ou les corpus étudiés. Mais, ce qui compte dans la production des catégories c’est avant tout une logique d’opposition : des ensembles de termes tendent à se disjoindre. Il est clair que les catégories, précisément parce qu’elles produisent des rapprochements conceptuels entre des éléments qui peuvent être matériellement séparés (dans le corpus), incorporent la plus grande part de projection de la part de l’utilisateur (celui dont l’épistémologie de base dit qu’il met des lunettes pour “ voir la réalité ”). Mais là encore c’est bien le sens commun que l’on cherche à authentifier ou pour le moins à clarifier. De ce point de vue on va très prochainement installer un module de contrôle de la connectivité interne des catégories (voir infra) : le système pourra souligner le degré auquel le contenu d’une catégorie est lié aux efforts interprétatifs du chercheur ou, à l’inverse, est renforcé par des rencontres répétées observables à travers les corpus. Un autre problème résiduel, non encore clairement assumé dans le logiciel, est celui de la réflexivité des catégories : un texte peut prendre un registre pour objet et non l’utiliser de manière directe et non-réflexive (e.g. parler de la « dénonciation » de X par Y sans dénoncer soi-même). Pour repérer ce genre de phénomène il faut alors utiliser les marqueurs de citation, de discours indirect ou de mise à distance.

- Les Collections ont encore un autre statut et visent plutôt à rendre compte de cette faculté qu’ont les textes et les discours à produire des énumérations en puisant dans des répertoires de noms relevant de différentes classifications – là encore historiquement constituées (la liste des..., les différentes espèces de..., l’ensemble des..., le répertoire des...). On voit bien que la collection des sites nucléaires ne saurait former une catégorie du discours ni un Etre-Fictif. Cela permet de caractériser le type d’appuis utilisés par un texte sans préjuger du mode ni de la “ structure actancielle ” de ce texte.

Une façon d’avancer sur ce délicat problème cognitif de départage entre les pouvoirs de représentation consisterait à soumettre les mêmes textes à des utilisateurs et à leur proposer de répartir les éléments entre les trois instances. Il doit bien y avoir moyen de faire apparaître des contraintes générales : peut-on par exemple construire un personnage que l’on apellerait L-HOMME-POLITIQUE@ dans lequel Léon Blum serait associé à Hitler, Jospin à Le Pen, Juppé à Hue, etc. ? Il s’agit clairement d’une collection précisément parce que la probabilité que l’ensemble des noms soient traités sur le même mode ou comme équivalents dans des séries d’épreuves tend vers zéro.

3.3. L’atomisme foncier du logiciel

Une critique juste a été formulée par Nicolas Dodier à propos de l’atomisme de Prospéro : en effet, l’essentiel du travail de codage semble concerner des mots isolés, ou pour parler plus savamment, des lexèmes. Les catégories ou les collections mais aussi la plupart des structures telles que les listes d’entités, d’acteurs principaux, les réseaux, sont formées, en dernière analyse, de liste de mots, comme si toute représentation devait se ramener à des noyaux lexicaux. Je ne développerai pas ici la première argumentation défensive qui consiste à plaider le caractère inévitable de cet “ atomisme ” pour la réalisation de procédures automatiques : les mots du discours sont des passeurs incontournables. Pour pouvoir traiter des variations de sens il faut bien se donner des points fixes . La critique de Dodier était plus profonde puisqu’elle visait plutôt le fait que le niveau de codage utilisé par les chercheurs qui analysent des documents ou des interviews est généralement plus synthétique : je lis une phrase ou un paragraphe par exemple et je lui associe une catégorie ou une figure, l’attention sur les “ atomes ” du discours étant finalement plus réduite que ne le laisse supposer le logiciel.

Une solution pratique pourrait consister à introduire différents niveaux de codage : mais naturellement, on s’éloignerait d’une possibilité d’émergence de formes, ou plutôt de combinaisons de formes, non anticipées par l’utilisateur. Pour ma part je proposerais plutôt la stratégie suivante : la base de tous les calculs reposera toujours sur un découpage atomiste des éléments du discours, mais le système faisant émerger des configurations, des liens, des ensembles, des nœuds, il s’agira de trouver des moyens de le forcer à caractériser lui-même ces formes émergentes en évitant que l’interprète soit contraint de reparcourir un à un les éléments de chaque liste pour dégager des significations. Il y a là tout un chantier sur les modes d’inférence de niveau supérieur (dans notre architecture) qui est encore à l’état embryonnaire. Mais des idées commencent à poindre. Par exemple le système peut constamment mettre en regard des listes obtenues avec des listes attendues - qu’il peut calculer sur la base d’une norme émergente dans le corpus et utiliser les écarts ou les trous comme autant de marques lui permettant de désigner les ensembles.

L’usage d’une catégorie est marquée par des préférences à l’intérieur du lexique de cette catégorie mais aussi par un certain degré de connectivité des éléments de cette catégorie qui forment des clusters ou des sous-ensembles repérables (la "Sociologie politique" est par exemple plutôt tirée par tel texte vers les "élections", dans tel autre vers la "Constitution", vers tel autre encore vers la question de la "citoyenneté", etc.). On peut réutiliser ici un objet dérivé de la forme réseau que nous employons : le système calcule les liaisons qui se tissent autour des éléments les plus utilisés d’une catégorie et en déduit une sorte de cartographie interne. L’atomisme peut être en quelque sorte “ transcendé ” : quand on aura “ élection ” cela ne sera plus seulement un mot isolé, codé arbitrairement, mais la tête de liste d’une chaîne d’autres mots ou expressions qui tendent à y être associés : "partis politiques", "programmes politiques", "électorat", "scrutin majoritaire", etc. En réalité, la plupart des structures manipulées actuellement par le système peuvent faire l’objet de nouvelles opérations de structuration.

3.4. De l’interne vers l’externe et retour

Une autre critique souvent adressée consiste à faire valoir l'importance des informations “ contextuelles' ou '"structurelles"' externes aux discours et aux textes proprement dits. Or l'idée me semble-t-il n'est pas de renoncer à des informations externes mais d'essayer autant que possible de partir de l'interne, du contenu des textes (parce qu'il est moins facile d'être réducteur quand on chemine dans ce sens que dans l'autre) et de disposer de moyens de traçage ou d'explication de ce qu'il nous faut ajouter de l'"extérieur" pour donner du sens aux observations effectuées. Mais encore faut-il s'entendre sur ce que l'on appelle "interne" et "externe". Il ne faudrait pas récupérer dans notre métalangage une ligne de partage qui a divisé - et divise encore - les linguistes et qui au fond nous concerne assez peu. La notion de "contexte" est par exemple trop vague pour être utilisée dans notre cas. Le contexte peut désigner l'environnement discursif au sein de la phrase, le milieu de production ou de réception associé au texte, l'ensemble des autres textes vers lequel pointe le texte de référence (les "con-textes") ou encore un état du monde supposé qualifiable (“ c'est dans le contexte du mouvement de grève de décembre 1995 que ce texte a été écrit... ”, etc. ). Il faut s'efforcer de caractériser, à l'aide d'outils cohérents (des marqueurs spécifiques par exemple) les formes de référence à des cadres extra ou para textuels et remplir, si besoin est, une série de "champs libres" qui permettent de situer ou de caractériser de l'extérieur des propriétés marquantes faiblement explicitées à l’intérieur des textes.

3.5. Une certaine iconophobie

Prospéro est une maison baroque sans image. Pourtant la tentation a été grande à plusieurs reprises d’élaborer des représentations graphiques : des cercles concentriques pour positionner les acteurs principaux, des graphes de liens pour déployer les réseaux, des objets en trois dimensions pour montrer l’évolution des jeux de catégories en fonction du temps, des modules de conversion pour l’analyse factorielle des correspondances, des formes de "cartes du ciel" - inspirées de l'astrophysique - pour représenter les amas de textes et les centres de gravité composant le corpus, etc. Là encore, les idées ne manquent pas. Mais nous restons provisoirement iconophobes. Si l’on devait résumer l’argument, on dirait que les textes ne sont jamais mieux représentés que par eux mêmes. On n’aura recours à des images que dans la mesure où elles pourront rester locales ou secondes par rapport aux formes de totalisation et de déploiement en langage naturel. Car le problème de l’image tient dans sa capacité à proliférer et à se substituer aux textes .

3.6. Le « perspectivisme » et la difficile clôture de l’analyse

Rassembler les principaux éléments d’un traitement dans une ou plusieurs images qui assurent une totalisation, un point de vue englobant sur le corpus, permet plus facilement de prendre la décision d’arrêter l’analyse. Prospéro ayant été conçu à la fois pour suivre des dossiers à rebondissements et à géométrie variable, et pour permettre une relance permanente de la discussion et de la critique, il semble provoquer, comme en psychanalyse, une fuite en avant et un traitement sans fin. En réalité le chercheur peut assez rapidement dégager les pistes dont il ne s’éloignera pas et caractériser les points de vue les plus opposés ou les plus contrastés qu’il peut prendre sur le corpus. Autrement dit, pour envisager sereinement une fin de l'analyse, il ne faut pas trop tarder à définir l’espace de variations dans lequel on va travailler et à rédiger la liste des questions auxquelles on entend à tout prix répondre. Le fait que l'on puisse travailler en même temps sur Prospéro et sur son traitement de texte favori doit permettre la formulation graduelle des chemins à prendre (ou à ne pas prendre) dans le labyrinthe.

Face à un corpus donné, on peut soit travailler à partir des propriétés émergentes - qui se donnent à voir dans les structures du logiciel - soit se centrer sur des textes que l’on suppose prototypiques. Par exemple on "sait" a priori que tel acteur aura tendance à dénoncer telle ou telle chose et que tel autre aura tendance à la défendre et à dénoncer la dénonciation. Dans ce cas on ouvre les textes correspondants et on produit un modèle conforme à cette opposition. A partir de là on cherche à projeter ce modèle sur le reste du corpus ou on le met en attente...

3.7. Rédiger des textes avec Prospéro

Dans la suite logique de la critique précédente, on a souvent fait état de la difficulté pour passer à la rédaction, à rompre l’état d’emprise provoqué par les possibilités infinies de circulation et de croisement d'informations, de passage du global au local, de création ou de réaménagement de concepts, pour étaler de manière rigoureuse et "scientifique" des résultats tangibles. Pour avancer sur cette épineuse question je propose de distinguer quatre stratégies :

- L’instrument n’apparaît pas (il est à peine cité comme ressort technique). On peut consulter par exemple les deux volumes d’Alertes et Prophéties : ce qui compte c’est la connaissance d’un dossier et les facultés de rapprochement et de vérification qu’a pu faire fonctionner le chercheur.

- Un certain nombre de propriétés sont exhibées dans une partie méthodologique qui est clairement dissociée du texte proprement dit (c’est le cas du rapport Amiante ).

- Le texte est parsemé d’encarts à l’intérieur desquels figurent des objets, des propriétés, des résultats issus directement du logiciel (voir le traitement sur la “ Question sociale ” ou sur les lettres à la fondation Abbé Pierre).

- Le texte est construit comme une promenade, une visite, ou un dialogue (ce qui permet d’exploiter la structure baroque du logiciel) (Céline)

Les principales structures du corpus font émerger les lieux communs du dossier traité. Aussi lorsque le lecteur est supposé connaître ces « lieux communs »l’intérêt d’exhiber les grands tableaux est minimal ; il vaut mieux lui présenter directement des propriétés plus fines ou des traits secondaires servant à illustrer ce qui se tisse – ou se trame – à partir de ces lieux communs.

4. Voies de développement, retours d’expériences et inspirations dérivées

Par le simple fait de mettre en rapport en permanence des questions sociologiques et des problèmes d'instrumentation, on a engendré des voies de recherche inattendues. Je vais prendre ici l'exemple de l'installation d'une fonction qui n'avait pas été prévue dans le nouveau cahier des charges d'octobre 1997 (date à laquelle nous avons repris le développement) : constatant, au fil des traitements, qu'il était matériellement impossible de demander aux utilisateurs d'entrer dans des "collections" l'ensemble des valeurs numériques qu'attribuaient les textes à différentes unités de mesure ("1300 méga-watts", "0,5 fibres d'amiante par litre", "3 millions de chômeurs", "51% des électeurs", "4,5 milliards d'euros", etc.) on a créé un univers spécialisé dans l'examen des tendances et des variations associées, dans chaque corpus, à toute une série d'“ unités de mesure ” dont le répertoire peut être construit - et conservé - pour ainsi dire in abstracto. Cette voie de développement est utile pour traiter des dossiers sur la longue durée (et pas seulement des dossiers marqués par des controverses métrologiques comme la radioactivité, l’amiante ou la pollution atmosphérique) : tous les dossiers ont leur forme de métrologie puisque l'on y établit un nombre de spectateurs ou de participants, un nombre de publications ou d'étudiants, un nombre d’accidents ou d’affaires, un nombre de courriers reçus ou de contacts établis, etc. D'ailleurs l'absence d'unité de mesure dans un corpus - ou, mieux, de quantification des différentes unités de mesure (on parle de chômeurs ou des SDF sans jamais les quantifier) - devient une information intéressante en soi.

Les fonctions déjà installées sur les unités de mesure sont prometteuses à plus d'un titre : d'abord on rend visibles les intervalles de variation dans lesquels opèrent les discours et les textes ; ensuite on peut voir évoluer des mesures (par exemple des normes "admissibles" et des "seuils d'alarme", des "coûts" ou des "effets démographiques", etc.) ; enfin, on peut croiser l'usage des unités de mesure avec tous les autres indices et marques déjà disponibles. Une telle ouverture est rendue possible par la grande plasticité des structures de base du logiciel qui cherchent à coller au plus près des textes sans leur substituer un cadre formel pré-établi.

Dans le même esprit, on a développé un ensemble de fonctionnalités permettant de rassembler toutes les mentions de dates effectuées par les textes, ce qui permet de voir, de façon synthétique, non seulement les dates (en année, mois ou jour) qui sont les plus engagées, mais l'échelle de temps que déploient les textes ainsi que les entités qui tendent à s'associer aux différentes dates. Ce genre d'opération est décisif si l'on veut rendre compte du temps que se donnent les textes - et pas simplement les projeter sur une échelle chronologique posée pour ainsi dire de manière extérieure. D'une façon générale le travail sur le temps constitue désormais un de nos axes de développement les plus importants. En effet, il est central de pouvoir constamment rapporter les objets, les configurations, les présences et les absences aux bonnes échelles de temps . C'est également par des investigations sur les ordres temporels que l'on peut mettre en évidence les "événements" et les "configurations émergentes" au sein des corpus. La difficulté vient de ce qu'il faut à la fois situer le texte dans une chronologie (permettant de déterminer des prédécesseurs et des successeurs) et attraper les formes de temporalité construites par le texte : par exemple un texte parle d'une situation future (« le passage à l'euro ») tout en précédant, chronologiquement, un texte qui lui entreprend de remonter dans le passé (« avant le traité de Maastricht »). Ce genre de figures complexes joue un rôle déterminant dans les controverses, les débats publics et les affaires qui, on le sait, constituent des corpus de choix pour Prospéro.

4.1. Une mathématisation contrôlée

Généralement le développement de programmes prend appui sur un modèle ou un formalisme préalablement construit qui est porté sur informatique dans un second temps, afin de donner lieu à des applications. On entoure l'algorithme d'une série de fonctionnalités assurant, selon l'expression consacrée, son “ implémentation ”. Je me rappelle encore de la remarque d'Andrei Mogoutov, spécialiste des analyses de réseaux, lors d'une discussion, il y a déjà plus de deux ans : "je ne comprends pas quel est l'algorithme de Prospéro ?!". Il faut être clair : il n'y a pas d'algorithme central ; il y en a des centaines et aucun n'est prédominant. L'absence de point de vue mathématique souverain - sur ce plan on se situe bien dans une architecture baroque (si l’on veut jouer avec les mots on peut même parler d’architexture) - ne nous interdit pas de construire des espaces de calcul, en nous bornant à renvoyer en miroir les interprétations de l'utilisateur. Bien au contraire. Prospéro assume la longue chaîne de traductions nécessaires pour rendre calculables des séries textuelles qui ne se présentent jamais a priori comme des bases de données qu'il suffirait de recoder dans un ensemble de champs ou de variables. On ne redira jamais assez qu'un énoncé, le plus simple soit-il, ne peut se ramener ni à un contenu informationnel (un "dit", et partant aussi un "non-dit"), ni à une manière de dire les choses (un mode choisi parmi une multitude de modalités possibles), ni à des propriétés contextuelles relevant de l'énonciation (propriétés qui peuvent varier à l'infini). Ces trois niveaux sont évidemment entremêlés et, portés à l'échelle de corpus de textes, produisent une complexité insurmontable qui contraint fortement toute entreprise de mathématisation. Celle-ci relève moins de la description des textes que du désir d'ordonner, de trancher, de conclure propre à l'utilisateur . Le rôle des formules déposées dans le logiciel est donc de rendre possibles de tels actes sans enfermer pour autant la lecture des textes dans un système formel qui leur est étranger.

La plupart de nos algorithmes ne supposent pas de compétence spécifique de la part de l’utilisateur. Les formes de mathématisation utilisées ne font que prolonger le bons sens. Il n’y a pas de formule secrète ou inaccessible au “ profane ”, et implantée au cœur d’une boîte noire. Les outils développés ressemblent bien plus à des filets aux mailles plus ou moins resserrées, à des lunettes d’astronomie ou des microscopes, à des panneaux indicateurs, des voyants, ou, plus grossièrement encore, des ciseaux, des cordes, des échelles. Il s’agit de prolonger les actes de saisie et de compréhension plutôt que d’opposer un monde de formalismes auto-régulés à un univers d’ “ intuitions ” ou de “ visions subjectives ” reposant sur l’équation personnelle du chercheur. De ce point de vue on peut se reconnaître pleinement dans le projet gadamérien , tout en ayant une vision des textes et de leurs lectures plus proches de la philosophie des plis de Deleuze qui s’est efforcé de penser les modalités de passage de micro-perceptions à des macro-perceptions .

Pour faire comprendre l'économie mathématique de Prospéro, je vais prendre ici le cas de la comparaison automatique de sous-corpus (i.e. de partitions internes d'un corpus). Pour comparer la façon dont se structure la liste des entités de deux sous-corpus composés à partir d'un critère déterminé (par exemple la présence ou l'absence de tel ou tel personnage, la position dominante de telle ou telle catégorie, etc.), on dispose désormais de deux procédures : l’une intitulée “ Variations absolues ”, l’autre “ Variations relatives ”.

La première procédure présente deux intérêts : d’une part elle permet d’obtenir automatiquement des mesures d’écarts de poids lorsque l’on passe d’une partition du corpus à une autre (ce qui évite toute une cuisine arithmétique mal contrôlée quand elle est faite à la main) ; d’autre part elle présente une validité certaine dès lors que les deux sous-corpus représentent un volume de textes comparables .

La seconde procédure est plus “ scientifique ” ou plus robuste mathématiquement dans la mesure où elle ramène les écarts de volumes dans un espace de mesure fondé sur des valeurs relatives. On procède de la manière suivante :

Soit VA le volume de texte formé par le corpus A, corpus qui sert de point de référence à la comparaison, et VB le volume de texte formé par le corpus B, corpus comparé à A. On calcule un indice intitulé r tel que r = VB/VA ; cet indice nous sert ainsi de multiplicateur. On se place en effet dans l’hypothèse d’une linéarité des volumes des corpus et des poids obtenus par les entités (ou n’importe quel objet de manière générale : qualité, marqueur, catégorie, collection, etc.). Par exemple, sous cette hypothèse, une entité A qui obtient un poids global de 100 dans un corpus de 1 mega-octets obtiendraun poids de 200 dans un corpus de 2 mega-octets, de 300 pour 3 mega-octets, de 50 pour un corpus de 500 k-octets, etc.

On calcule sur cette base le poids théorique attendu dans le corpus B pour chaque entité du corpus A en appliquant la formule suivante :

PBth(e) = PA(e) * r

(le poids attendu de l’entité e dans le corpus B est égal au poids observé de e dans le corpus A multiplié par r, coefficient de linéarité).

On calcule ensuite le rapport V entre le poids théorique et le poids observé de e dans B soit :

V(e) = PB(e)/Pth(e)

Pour rendre le résultat plus explicite on le ramène en pourcentage et l’on obtient directement le pourcentage de variation enregistré, soit positivement (augmentation) soit négativement (diminution). Soit la formule :

V%(e) = ((PB(e) - Pth(e))/Pth(e)) * 100

Mais ce n'est pas tout. On se donne également un intervalle qui détermine le seuil minimal de variation à partir duquel le système va calculer aussi bien l’augmentation et la diminution de poids relatif que la stabilité relative de chaque entité. Par exemple on déclare 5% comme valeur permettant de déterminer une relative stabilité à l’intérieur de l’intervalle [-5%, +5%)] - la stabilité idéale restant naturellement 0% de variation.

Par exemple lorsque l’on compare un corpus B à un corpus A (qui sert de base de référence), on peut afficher des listes d’entités qui relèvent de 4 critères différents :

- la liste des entités relativement stables (? 5% ou ? 10% selon l’exigence de l’utilisateur) ;

- la liste des entités dont le poids augmente quand on passe de A à B : les entités sont ordonnées selon l’importance de leur variation (N.B. une entité peut augmenter de plus de 100% du poids obtenu dans le corpus de référence, par exemple une entité e qui passerait d’un poids de 10 à un poids de 100 ...) ;

- la liste des entités dont le poids diminue quand on passe de A à B : les entités sont ordonnées de même selon l’importance de leur variation (contrairement au as précédent une entité ne peut pas diminuer de plus de 100% puisque cela correspond à sa disparition pure et simple) ;

- la liste des entités qui disparaissent quand on passe de A à B. Dans ce cas le poids observé dans B est égal à zéro.

Pour des raisons de symétrie relevant d’une logique mathématique qu’il serait compliqué d’exposer ici, on a créé une fonction de permutation qui permet d’opérer la comparaison dans le sens inverse, c’est-à-dire en prenant le corpus B comme base de référence . Ainsi pour obtenir la liste de ce qui apparaît quand on passe de A dans B, il faut prendre le corpus B comme point de référence et demander le calcul de ce qui disparaît quand on passe de B dans A...

L’interface mise en place dans le logiciel permet en outre de filtrer la liste des éléments à comparer en travaillant par exemple sur les 100 premières entités ou les 150 premières etc. Les résultats obtenus sont directement récupérables sous forme de tableau dans Word ou Excel.

Cet exemple montre comment à partir des éléments de base mis en place dans le logiciel on peut proposer de “ tendre l'épreuve ” pour aller vers une sorte de métrologie textuelle dotée d'une forte capacité d'objectivation.

4.2. Les pistes les plus porteuses émergent souvent de détails ou de traits qu'une démarche statistique ou logico-mathématique standard conduirait à négliger

Les pistes de développement sont innombrables mais des priorités peuvent être définies en accord avec les principaux utilisateurs. Je vais proposer ici une série d’ “ aménagements ” ou de “ créations ”, avec toujours dans l’idée d’avancer petit à petit sur l’ensemble des fronts que l’on a ouverts.

- Il nous faut d’abord soigner l’analyse des interviews. On a d’ores et déjà entrepris de créer des structures spécifiques partant de l’idée (banale) que certains textes n’ont pas d’ “ auteur ” et ne se présentent pas comme un monologue mais retracent des échanges. Les deux limites sont constituées d’un côté par l’interview dans laquelle l’enquêteur parle peu et de l’autre par le débat animé dans lequel ont lieu de multiples prises de parole . Sans toucher aux structures existantes on va ainsi permettre des requêtes et des investigations spécifiques comme par exemple pouvoir isoler les questions ou les réponses (ou les interventions des différents locuteurs), repérer les formes de reprise ou de dérivation qui se mettent en place de locuteur à locuteur, etc.

- L’ouverture d’un espace consacré à des requêtes proches des travaux de l’école d’Oswald Ducrot. L’attention aux “ connecteurs ”, aux “ échelles argumentatives ”, est, on le sait, décisive pour affiner nos analyses. On peut, au moins à titre expérimental, mettre en place un certain nombre de formules - quitte à les ajuster ou les enrichir en coopération avec des spécialistes - pour attraper des figures du type :

Qualité1 mais Qualité2
Qualité1 mais pas Qualité2
trop Qualité1

Sur cette dernière figure il faut noter une propriété formelle intéressante pour nous. L’usage de "trop" change complètement de sens selon l’orientation positive ou négative de la qualité qui suit : si je dis “ il est trop intelligent ” je tends à contrecarrer un jugement favorable en implicitant une contre-performance, au moins virtuelle, de “ l’intelligence ” ; si je dis “ il est trop idiot ” je renforce l’effet négatif du jugement. Même si ces figures sont statistiquement rares dans nos corpus, elles permettent d’améliorer la sensibilité de nos outils aux marques les plus fines de l’argumentation (on a souvent relevé la difficulté à caractériser certains modes, notamment dans les polémiques ou les joutes savantes dans lesquelles les auteurs noient leurs arguments dans des procédés subtils de rhétorique).

On pourra, dans la même veine, repérer les entités, les qualités ou les épreuves qui sont associées à des marqueurs de gradualité (plus ou moins, beaucoup trop, assez peu, etc.). D’autres marqueurs sont aussi décisifs. Je pense par exemple aux marqueurs d’équivalence (“est la même chose que ”, “ équivaut à ”, “ se ramène à ”...) et d’irréduction (“ n’est pas que ”, “ ne peut se réduire à ”, “ ne ressemble en rien au ”...). On pourra alors demander au système d’afficher pour chaque entité la liste des entités avec lesquelles elle est explicitement mise en équivalence (A = B, C, D...) et la liste des entités desquelles elle est explicitement détachée (A ? E, F, G...).

Une fois que l’on a ouvert ce genre de piste, on ne cesse de trouver des thèmes à expérimenter. Pour prendre encore deux exemples, on peut mettre en place un repérage de formes métaphoriques typiques en recherchant les formes suivantes :

comme un X
tel un X
à la manière d’un X
à la façon d’un X

où X est une entité qui n’appartient pas au langage du domaine (du corpus), qui compose en quelque sorte un hapax ou une entité utilisée dans des contextes non standards.

De manière peut être encore plus cruciale, il faudra se pencher sérieusement sur les formes négatives, en commençant par le calcul d’une "norme de négativité" (taux de formes négatives par nombre d’énoncés et par texte) qui permet de repérer les textes qui tendent à affirmer par opposition à ceux qui tendent à contredire, etc... Repérer également les doubles négations etc. Soit un exemple d'usage à la fois simple et compliqué (à formaliser dans notre métalangage) de la négation : On n'en a jamais fini avec l'analyse des formes langagières mais ce n'est pas une raison pour ne pas poursuivre nos travaux !

4.3. Le "nettoyage" comme ressource pour développer de nouvelles salles de travail

L'étude du corpus Sokal nous a convaincu qu'il fallait nettoyer les listes d'entités d'éléments a priori mineurs qui venaient parasiter en permanence nos résultats : les prénoms. Ces derniers étaient en outre source d'artefacts : en effet le fait que Lacan et Derrida aient eu en commun de se prénommer Jacques ne doit pas autoriser le logiciel à engendrer des connexions via cet élément commun aux réseaux des deux personnages. On a donc décidé de dissocier les prénoms des entités et de doter le système d'un algorithme de "réattribution" selon lequel chaque nom propre du corpus peut, éventuellement, disposer d'un prénom. Jusque là, rien de rare. On pourrait presque considérer qu'il s'agit d'un problème de présentation : on rend les prénoms à leurs propriétaires mais on les efface des listes sur lesquelles on entend produire des inférences décisives qu'ils viennent perturber. En réalité, on peut - et il faut - aller beaucoup plus loin et profiter de cette occasion pour doter le système d'une capacité d'exploration et d'analyse supplémentaire. En effet, l'association d'un nom propre et d'un prénom qualifie, de manière assez universelle, ce que l'on appelle les "personnes" ou les "humains". Partant, en associant un prénom à un nom le système identifie par là même une "personne", peut s'efforcer de construire la liste des personnes qui interviennent dans le corpus, analyser leur distribution, etc. De plus on peut lui indiquer un certain nombre de propriétés générales concernant les personnes, propriétés qui peuvent guider des investigations particulières : les personnes peuvent prendre la parole, et donc être en position d'"auteur" dans le corpus, elles peuvent être citées. En outre un certain nombre d'actions et de qualités peuvent leur être attribuées, etc. Par ailleurs on peut s'amuser à sortir le réseau de personnes liées à chaque patronyme. On voit une fois de plus comment s'engendrent les fonctions et les objets de Prospéro : on travaille sur les "trous", les "manques", les "restes", les "interstices" créés par les espaces de calcul précédents.

5. Le produit idéal : l’observatoire portable et permanent

Si l'on admet tout ce qui précède, l'instrument ne peut être détaché sans dommage de son milieu associé selon l'expression de G. Simondon . De fait, la diffusion d'un logiciel sur un marché anonyme ne présente que peu d'intérêt. Dans le meilleur des cas, un certain nombre de nos fonctionnalités finiraient par tomber dans le “ domaine public ” (permettant par exemple d’équiper un peu mieux les “ moteurs de recherche ” sur Internet ou les utilitaires de gestion de textes sur cd-rom). Prospéro repose sur une construction intellectuelle trop complexe pour être accessible à “ tout public ” comme on dit. Il doit par ailleurs rester un foyer d'analyse et d'expertise et c'est pour cette raison que nous optons pour une distribution basée sur l'idée d'observatoire.

L’observatoire tel que nous l’envisageons ici suppose la durée : il se construit sur un domaine - ou à l’intersection de plusieurs domaines - relativement institué, et permet d’en suivre les transformations à partir de marques prises dans le passé, proche ou lointain. L’exemple de ce qui a été fait sur le terrain des risques sanitaires et environnementaux peut servir de cadre pour diriger les futures applications. Si l’on prend le dossier nucléaire, on dispose actuellement de plus de 560 textes courant sur plus de cinquante ans (de 1946 à ces dernières semaines). L’accumulation réalisée - tant en terme de documentation numérisée que de construction de catégories d’analyse - permet désormais de croiser, en continu, des séries longues et de “ nouveaux ” événements en disposant d’une métrologie des tendances et des mises en variation produites par les nouveaux textes. Par exemple l’ “ affaire ” récente des convois nucléaires contaminés de La Hague apparaît comme la réalisation d’une figure jusqu’alors enveloppée dans de multiples argumentaires produits ici et là - si la gare de Valognes et les wagons SNCF étaient déjà présents, c’était sur le “ mode mineur ”. Sans entrer ici dans les détails, notons qu’une des conséquences de la sortie de ce cas est la dénonciation, dans les médias nationaux, d’une politique du secret partagée entre EDF et Cogéma, configuration critique nouvelle puisque jusqu'à présent la Cogéma était seule au centre des critiques sur le retraitement des déchets à La Hague.

On voit sur cet exemple comment l’idée d’observatoire permet de développer une sociologie des transformations configurationnelles par le suivi des modifications ou des reconfigurations qui se produisent dans les jeux d’acteurs, de dispositifs et de ressources argumentatives. Le même type de résultat peut être obtenu sur un dossier comme l’amiante qui va donner lieu très prochainement à l’ouverture de procès dans lesquels l’histoire sera remobilisée par les différents protagonistes : disposant des différentes périodes, on pourra dès lors suivre au fil des épreuves les façons de puiser dans l’histoire et, du même coup, le système nous permettra d’identifier les bifurcations, les retours ou les surgissements.

6. Ombres déontologiques

Au cours de l'hiver 1997-1998 une autre micro-révolution technologique a eu lieu au sein de notre laboratoire : Jean-Pierre Charriau a entrepris d'automatiser la génération de corpus à partir du cd-rom du journal Le Monde (1993-1996). Le résultat ne s'est pas fait attendre : des corpus concernant les thèmes les plus divers se sont mis à proliférer sur nos disques durs (sur l'"affaire du sang contaminé", sur l' « aveu », sur “ l'art contemporain ”, sur les "sectes", etc. ). Face à chaque corpus, Prospéro apparaît comme un instrument très puissant de structuration de connaissances assorti d'un moindre coût pour l'utilisateur. Mais ce type de chaînage ne peut-il produire des effets pervers sur la construction des séries textuelles et attirer par ailleurs des utilisateurs peu scrupuleux en matière de méthode et de règles d'analyse ?

L’instrument idéal du RG est-il le même que celui du lobby industriel ? Dans le monde en réseau qui s'impose à nous, la question des formes de contrôle à distance des personnes, des choses, des groupes et des institutions apparaît de plus en plus centrale. Sans reprendre ici à notre compte le motif des "technologies de savoir-pouvoir" , il est d'ores et déjà nécessaire d'éviter que notre dispositif tombe entre de mauvaises mains. Cette contrainte redouble le principe initial selon lequel il faut toujours un chercheur derrière la machine pour diriger les opérations et garder la maîtrise des significations. L'inquiétude sur la possibilité d'usages machiavéliques (contrôle et surveillance des personnes, court-circuitage des initiatives critiques, évaluation et exclusion des indésirables, construction de rhétoriques suggestives adaptées aux attentes des personnes, prétention à la maîtrise des configurations politiques et sociales, manipulation du passé par la composition de corpus tronqués, usage du logiciel dans de mauvaises querelles idéologiques, etc.) doit nous conduire à réfléchir collectivement aux dispositions qu'il convient de prendre. Elles sont me semble-t-il de deux ordres : d'une part, il faut aller vers une diffusion restreinte du logiciel dotée de systèmes intégrés de protection et de veille sur les usages, assortis d'habilitations pour des équipes de recherche ou des bureaux d'études et de conseil ; d'autre part, il faut développer une éthique de l’interprétation. Sur la diffusion il faudrait mettre en place une sorte de conseil des utilisateurs qui pourrait statuer sur les cas ambigus ou litigieux de mise en service de Prospéro ; sur l’éthique, on pourrait imaginer que toute production de “ résultats ” à prétention scientifique avec le logiciel fasse l’objet d’une présentation en séminaire ou, pour le moins, de la mise en circulation d’un document de travail favorisant la critique et la discussion. Loin de nous ajouter des “ contraintes ”, la concrétisation de ces exigences permettrait d’engendrer un petit milieu et de reconquérir les conditions d’une autonomie intellectuelle dont Prospéro ne serait bien sûr qu’un des prétextes et un des véhicules...

Notes

1 Il y a désormais trop de fonctions dans le logiciel pour que leur description exhaustive ait un sens. Il apparaît en outre que l’absence de guide d’utilisateur pour les versions récentes (le dernier guide intitulé Prospéro - Le livre de magie remonte à septembre 1995) ne pose pas de gros problème technique dans la mesure où s’est développé tout un art de la transmission orale des savoir-faire. Pour l’instant cette absence de mode d’emploi constitue une protection supplémentaire contre les piratages en tous genres.

2 Cela fait longtemps que nous avons digéré les arguments critiques des Dreyfus vis-à-vis de l'intelligence artificiel. Cf. H.L. Dreyfus & S.E. Dreyfus, Mind over Machine - The Power of Human Intuition and Expertise in the Era of the Computer, Basil Blackwell, 1986. C'est sans doute là un des nos défauts : on a traversé de multiples épreuves, fait énormément d'expériences, de lectures, de rencontres depuis 10 ans, mais on a parfois tendance à considérer beaucoup de choses comme allant de soi...

3 Sur la gamme des modèles et des outils disponibles pour traiter les textes et les interviews en sciences sociales voir le survey très utile de J.Jenny, “ Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine – Etat des lieux et essai de classification ”, Bulletin de Méthodologie Sociologique, mars, 1997, p.64-122.

4 F.Chateauraynaud, Une vision noire du monde - Céline, le peuple et la critique d'authenticité, Doxa, juillet 1995.

5 M.-C. Bureau, “ A propos des débats sur la “ nouvelle question sociale ” : un essai d’exploration critique ”, document de travail du centre d’Etudes de l’Emploi, 97/53. L’étude approfondie d’ouvrages marquants de 1995 (Minc, Rosanvallon, Castel) et de leur réception critique, a permis de repérer les configurations et les régimes discursifs dans lesquels sont pensées les questions d’emploi, de chômage, d’exclusion, de protection et de justice sociale. Le corpus réuni et les analyses effectuées peuvent servir désormais de base de référence pour un suivi, sur le long terme, des requalifications de la “ question sociale ” (effet du mouvement de grève de décembre 1995, effet des alternances politiques, effet de l’apparition de mouvements de chômeurs, etc.).

6 L.Boltanski et E.Chiapello, Force de la critique : la formation du nouvel esprit du capitalisme, à paraître fin 1998. A partir de la comparaison de deux corpus de textes déployant les “ qualités attendues ” de la part des dirigeants et des cadres d’entreprise (un corpus pris dans les années 60 et l’autre dans les années 90), les auteurs ont pu mettre en évidence la mise en place d’un nouveau modèle d’excellence organisé autour des notions de “ projet ” et de “ réseau ”.

7 F.Chateauraynaud, Causes de détresse et formes d’appel au secours dans le courrier adressé à l’abbé Pierre ou la Fondation pour le logement des défavorisés, Convention Fondation Abbé Pierre / Doxa, septembre 1996.

8 Prospéro a été mis à contribution dans le cadre de travaux menés en 1996 et 1997 sur les "lanceurs d'alertes" et les "prophètes de malheur". Ces travaux ont donné lieu à la constitution de trois gros corpus, sur le nucléaire, le prion et l'amiante, soit au total plus de 15000 pages de textes et, conjointement, à la production d’un « modèle de transformation » des alertes en affaires publiques. Voir F.Chateauraynaud, C.Hélou, C.Lemieux, D. Torny, Alertes et prophéties - Les risques collectifs entre vigilance, controverse et critique, Rapport CNRS, 2 volumes, décembre 1997

9 Voir l'expérience collective dont les principaux éléments seront rassemblés dans un texte intitulé Le gai savoir des sociologues (sous la direction de M.C. Bureau, F.Chateauraynaud et D.Torny, 1998).

10 Voir M.Callon, J. Law, A. Rip (eds) Mapping the Dynamics of Science and Technology - Sociology of Science in the real World, London, Macmillan, 1986.

11 Voir F.Héran, "L'assise statistique de la sociologie", Economie et statistique, n°168, 1984 ; A.Desrosières, La Politique des grands nombres, Paris, La Découverte, 1993.

12 Pour un répertoire de ce qu’ “ on ne peut pas faire ”, ou de ce qu' “ on ne peut pas ne pas faire ”, voir J.-C. Passeron, Le Raisonnement sociologique - L'espace non-poppérien du raisonnement naturel (Nathan, 1991), ouvrage encensé par la critique académique.

13 Voir D.Sperber, Le savoir des anthropologues (1982).

14 Voir C.Bessy et F.Chateauraynaud, Experts et faussaires - Pour une sociologie de la perception, Paris,Métailié, 1995 ainsi que F.Chateauraynaud, Essai sur le tangible, ronéo, Paris, EHESS, 1996.

15 Voir H.Simon, Reason in Human Affairs, New York, Basic Blackwell, 1983.

16 Dans le cas du corpus nucléaire, lorsque l’on place d’un côté les textes qui font référence à Tchernobyl et de l’autre ceux qui en font l’économie, non seulement toute une série d’acteurs tendent à disparaître (les victimes notamment) mais les jeux de catégories, d’attributions de qualités, les collections, les unités de mesure, etc. changent de profil.

17 Dans l'ouvrage récent de Carl W. Roberts (ed), Text Analysis for the Social Sciences (Lawrence Erlbaum, New Jersey, 1997), est déclarée qualitative toute forme de traitement qui ne peut se ramener à un espace de calcul permettant d'inférer des probabilités : "I suggest the following litmus test for distinguishing quantitative from qualitative analyses : If the method yields data matrices from which probabilistic inferences (i.e. P-values) can legitimately be drawn, the method is quantitative. Otherwise, it is qualitative (...) Qualitative analyses are usually performed not on randomly sampled data but on strategically selected cases studies. Whereas the probabilistic inferences of quantitative analyses yield conclusions about the generalizability of one's findings, the logical inferences of qualitative analyses yield conclusions about the universality of one's theories." Mitchell said of qualitative analysis : "the single case becomes significant only when set against the accumulated experience and knowledge that the analyst brings to it" (in "Case and situation analysis", The Sociological Review, ns 31, 1983, pp. 187-211).

18 Je ne peux qu’évoquer ici la note intermédiaire rédigée dans le cadre des travaux sur les alertes et qui contenait une partie méthodologique (voir “ Jeux d’inférences sous Prospéro ”, juillet 1997). Dans un point intitulé “ Qu'apporte de nouveau le sanglier de Saint-Jean d'Ormont dans le dossier ? ”, il était montré comment le logiciel repérait les procédés de structuration ou de reconfiguration associés à la prise en compte d’un événement dans une série. Lorsque le sanglier surgit comme acteur pour la première fois en février 1997 dans Les Dernières Nouvelles d’Alsace que draine t-il avec lui ? Est-ce l'occasion d'une reconfiguration des jeux d'acteurs (dans un corpus de plus de cinquante ans) ? Une procédure permet d'identifier le texte dans lequel une entité surgit pour la première fois comme acteur principal et de décrire non seulement ce qui est introduit du même coup (s'il y a par exemple une prolifération de nouveaux personnages et thèmes associés à nouvel arrivant : en l’occurrence, outre le nuage de Tchernobyl, la “ chasse ”, la “ viande ”, les “ champignons ” et les “ congélateurs ”), mais le type de configuration qui se constitue et qui tend à se stabiliser autour du nouvel acteur.

19 De nombreuses discussions ont eu lieu dans le cadre du Séminaire “ Approches dynamiques et configurationnelles : objets, méthodes et applications ”, Paris, EHESS, 1996-1997

20 L’atomisme est quand même très relatif : dès le premier niveau de codage - celui des types de base (entité, qualité, marqueur, épreuve, etc.) on fait jouer un rôle décisif aux “ expressions ” (que l’on peut composer maintenant assez rapidement à partir de Caliban). Ensuite, les textes sont décrits par le système comme un jeu complexe d’acteurs principaux, de catégories et de collections émergentes, ce qui revient à un codage automatique non plus des mots ou même des énoncés mais des textes eux-mêmes. Enfin les réseaux fonctionnant sur la base de liens effectifs dans les énoncés, il ne faut pas les lire comme des listes amorphes d’entités mais bien comme des dispositifs relationnels.

21 Comme pour les autres points, il faudrait mettre en place une sous-commission d’utilisateurs chargée d’élaborer le cahier des charges idéal.

22 F.chateauraynaud, D.Torny, Une analyse documentaire et sociologique du dossier de l’amiante (1970-1998), Convention DGS/DOXA, mars 1998.

23 Pour une approche du temps entre phénoménologie et logique modale, voir R.Duval, Temps et vigilance, Paris, Vrin, 1990.

24 Mathématiser suppose une abstraction qui peut être retraduite en terme de sacrifices volontaires (on tient pour négligeables toute une série d’aspects). Notre propos n’est pas de critiquer cette réduction nécessaire mais de retarder - ou plutôt de rendre explicitable et réversible - le choix des réductions opérées en laissant un maximum de jeu entre exploration des textes, codage de registres ou de figures, et visualisation d’effets de structure.

25 Voir H.-G.Gadamer, Langage et vérité, Paris, Gallimard, 1995.

26 G.Deleuze, Le Pli - Leibniz et le baroque, Paris, Minuit, 1988.

27 Pour donner un exemple concret, prenons le dossier de l'amiante. En 1996 paraissent deux ouvrages consacrés à ce dossier, de volume et de structure apparemment très proches : Le livre de R. Lenglet, L'affaire de l'amiante (La découverte) et celui de F. Malye, Amiante - Le dossier de l'air contaminé (le Pré aux Clercs). Le système peut comparer le volume de texte représenté par chacun des ouvrages et, si l'écart est faible, raisonner en "variations absolues". Par exemple, il note que les inspecteurs du travail et les médecins du travail fortement mobilisés dans l'ouvrage de Lenglet connaissent une chute de poids spectaculaire quand on prend celui de Malye dans lequel au contraire le Comité Permanent Amiante et un certain nombre de personnalités politiques occupent une place beaucoup plus forte.

28 Il y a en effet des phénomènes d’asymétrie, pointés par Didier Torny, qui interdisent de tirer toutes les inférences à partir du corpus A comme point de référence.

29 De ce point de vue c’est la pièce de théâtre qui pourra être considérée comme la véritable forme limite.

30 De multiples contacts sont noués avec l’école de Ducrot notamment par l’intermédiaire de Marion Carel (EHESS). Parmi les textes majeurs de Ducrot, citons ici Dire et ne pas dire (Paris, Hermann, 1972), Les échelles argumentatives (Paris, Minuit, 1980, Les mots du discours, (Paris, Minuit, 1981). Il est clair que l’existence de Prospéro et des travaux de fond qu’il suscite ouvre des perspectives d’application à des recherches extraordinairement pointues (sur “ donc ”, “ mais ”, “ trop ”, etc.). Voir M. Carrel, "L'argumentation dans le discours : argumenter n'est pas justifier", Langage et société, n°70, décembre 1994, pp. 61-81. Certaines marques centrales pour nous telles que “ en fait ”, “ en réalité ”, etc. font également l’objet d’investigations. Voir C.Rossari, Les opérations de reformulation : analyse du processus et des marques dans une perspective constrastive français-italien, Berne, Lang, 1997.

31 G.Simondon, Du mode d’existence des objets techniques, Paris, Aubier, 1989.

32 Voir M.Foucault, L'ordre du discours (Paris, Gallimard, 1979) et Surveiller et punir (Paris, Gallimard, 1981).