vos papiers ! - Vacarme

21 juin 2008

Vacarme 44 / pour en finir avec l’évaluation

Évaluer la recherche, après tout, c’est la science même. Mais si son évaluation se réduit à une exigence de performance individuelle et à une traque aux oisifs — ce sont les objectifs à peine voilés des réformes en cours —, elle aura le même résultat que partout où elle s’applique de cette manière : la transformation du chercheur en entrepreneur de soi, et un formidable appauvrissement de son travail. Et si les meilleurs garants de la création scientifique étaient, au contraire, la liberté qu’on lui accorde et les collectifs qu’elle se donne ?

L’évaluation de l’activité scientifique est aujourd’hui le lieu d’une inventivité bureaucratique remarquable. D’un côté, les chercheurs qui exercent à l’université (en langage indigène, les « enseignants-chercheurs ») n’étaient jusqu’à présent évalués (par le Conseil national des universités) qu’à l’occasion des demandes de promotion, soit une fois dans la carrière, tandis que les chercheurs exerçant dans les établissements dits techniques et scientifiques (epst) type cnrs, Inserm, etc., le sont à intervalles réguliers depuis des décennies. Présenter ainsi les choses revient toutefois à taire une autre évaluation, au cœur du métier : celle que produisent les scientifiques eux-mêmes lors des colloques ou dans les revues. Ce sont pourtant les lieux centraux de l’évaluation des producteurs de savoir, significativement ignorés en tant que tels par les réformes de l’évaluation.

En 2006, la loi d’orientation de la recherche a créé une agence d’évaluation (Aeres), dont les membres sont nommés, et qui se superpose aux organes internes, comme le Comité national du cnrs, dont les membres sont pour leur majorité élus par leurs pairs. Ces institutions sont le cœur de la vindicte gouvernementale : électives, elles le seraient dans les deux sens du terme et favoriseraient l’entre-soi — l’évaluation française, ou des copains qui s’évaluent entre eux [1]. Toutefois, personne n’a à ce jour été capable de substituer d’autres principes de légitimité scientifique que celle de l’appréciation portée par les scientifiques eux-mêmes. Si ce n’est la légitimité du Prince (les membres nommés par le ministre), ou une légitimité importée, le plus souvent du champ industriel ou managérial, via ces « personnalités qualifiées » introduites en surnombre dans les lois récentes.

Il faut replacer cette ligne de front propre au champ scientifique dans le contexte plus vaste d’une guerre qui se joue sur deux théâtres plus larges. Le premier est le contrôle par le gouvernement, ou l’industrie et l’entreprise, de l’activité scientifique. C’est souvent ce que cache le vocable « innovation », terme préféré à celui de « recherche » en ce qu’il désigne d’abord la recherche brevetable — c’est-à-dire monnayable à court ou moyen terme. Or les instances d’évaluation, comme le Comité national du cnrs, sont également les instances de co-élaboration des choix scientifiques. Doubler ces instances par une agence externe (dite « autonome ») dont les membres sont nommés asphyxie la capacité de libre détermination scientifique des établissements scientifiques. Le second terrain est celui du culte général rendu à l’indicateur chiffré : culture dite « du résultat » dans toutes les organisations, privées ou publiques, indicateurs de la loi de finances (lolf) pour les politiques publiques, audit de l’action ministérielle ou, en ce qui concerne la science, évaluation standardisée sous forme bibliométrique. Cette évolution est porteuse d’une réforme au long cours de la fonction publique, qui embrasse l’ensemble des agents et pas seulement, bien sûr, ceux de la recherche.

L’un des points cruciaux de l’évaluation est son objet. S’agit-il de sanctionner ? Si oui, s’agit-il de ne sanctionner que négativement ? Autrement dit, de ne destiner le système d’évaluation qu’au repérage des chercheurs à problèmes ? C’est l’un des objectifs à peine dissimulés de la réforme, qui vise en fait les chercheurs à productivité nulle, réputés plus nombreux dans les établissements scientifiques du seul fait que les chercheurs y sont fonctionnaires dès l’âge de 30 ans (cas de figure presque unique au monde). Si l’évaluation poursuit cette fin, il s’agit d’un gâchis considérable. Pour elle-même, d’abord, car a-t-on besoin de commissions pour repérer les chercheurs problématiques ? Pour la science française ensuite, car on peut soutenir qu’en réalité, un taux de « non publiants » (ailleurs, on dirait « oisifs ») de 5 à 10 % est le prix à payer, en l’espèce raisonnable, pour la liberté laissée à l’ensemble des agents de mener leurs recherches librement au sein de collectifs stables — liberté inestimable, quand on sait les dommages de l’instabilité des statuts sur les parcours scientifiques — qui ont d’ailleurs pour effet l’attractivité très forte du cnrs à l’égard des docteurs étrangers (et l’ouverture considérable du cnrs à l’international, puisqu’un cinquième des chercheurs recrutés actuellement sont étrangers).

La perte de sens induite par une évaluation seulement orientée vers la sanction négative nous fait toucher du doigt un deuxième problème : celui de la sanction positive. L’essentiel du travail demandé aux équipes d’évaluation consiste à produire des classements : du classement de revues et supports de publication au classement des chercheurs. Mais produire du classement à partir d’échelles multiples (prise en compte, par exemple pour un universitaire, de ses recherches, de ses enseignements et de sa participation à la vie collective et l’administration de son département) est extrêmement compliqué. On demande alors aux évaluateurs de se rabattre sur des indicateurs quantifiés. Mais au-delà du choix de l’indicateur, se pose le problème de la finalité du classement. En effet, le travail d’évaluation des équipes devrait porter sur les qualités et les défauts, les avancées et les impasses, les espoirs et les fausses pistes des laboratoires. Autrement dit, ce sont moins les agents et les institutions qu’il s’agit d’évaluer, que ce qu’ils produisent et la manière dont ils produisent. Ce qu’ils produisent : décèle-t-on des pistes innovantes dans les activités menées ? Comment ils produisent : travaillent-ils avec les doctorants, avec les ingénieurs et les techniciens, les savoir-faire sont-ils tous valorisés, etc. ?

L’essentiel de l’évaluation doit ou devrait tendre à la production de comportements vertueux, tandis que les efforts visent aujourd’hui à ce qu’elle ne produise que de la sanction (négative, d’abord, positive, parfois). Le risque inhérent est de voir se mettre en place des stratégies de contournement ou de détournement dont on sait les résultats délétères [2] : sur-publication (publier plusieurs fois des résultats quasi-identiques), auto-citation ou citation entre collègues, publication précoce de résultats non stabilisés, auto-génération de bruits de fond artificiels (et négligence des pistes silencieuses mais fructueuses), court-circuitage des lieux d’évaluation non administratifs (les colloques ou séminaires), etc. Tout privilégie ici une science bling-bling, une science caisse-enregistreuse, une science pointeuse, où les bips de citation se substituent à l’examen des avancées et des promesses réelles de l’activité.

Plus grave encore, l’évaluation-sanction exerce des effets sur le contenu même de la production. Ainsi, dans les sciences expérimentales, il s’agit désormais de ne présenter que la face valorisante de l’activité que l’on a menée. On tait ainsi les erreurs, les fausses pistes, les hypothèses non vérifiées. L’essentiel est de montrer que le temps n’a pas été gâché, que l’investissement est resté rentable : un budget, une hypothèse, une validation empirique. Les effets de ces comportements individuels sur le collectif sont coûteux : car à taire systématiquement les fausses pistes ou hypothèses non vérifiées, on ne les signale pas à la communauté, qui du coup peut tout aussi bien les réitérer dans l’ignorance qu’elles sont infructueuses. Une fois encore, l’évaluation qui ne se pose pas la question de sa finalité légitime (aider à produire de la bonne science, produire ainsi des comportements vertueux) engendre des coûts considérables, bien évidemment jamais pris en compte.

Les impasses des systèmes d’évaluation actuellement imposés ne sont jamais aussi visibles que dans la bibliométrie, portée par une logique de production de classements standardisés. La bibliométrie désigne le comptage des citations d’un article par d’autres articles. Elle est l’instrument par lequel les bureaucraties d’évaluation aujourd’hui en compétition évitent le conflit des jugements, et se fondent sur l’objectivité supposée de critères fixés en dehors d’elles [3]. Du coup, on assiste à un alignement des instances d’évaluation : les chercheurs cnrs doivent désormais remplir des « fiches de données individuelles » en 17 points, qui mentionnent le nom du chercheur, le nombre d’ouvrages ou de chapitres scientifiques, le nombre d’articles et de citations référencés sur Web of Science, le taux d’autocitations, le taux de citations par article, le facteur h [4]
, le facteur d’impact moyen de la discipline, son top ten, ses Highly Cited Papers. Que révèle cette standardisation apparente de l’évaluation par la bibliométrie, si ce n’est l’extraordinaire pouvoir d’attraction du nombre, qui a l’immense avantage de conjurer les questions fondamentales de l’évaluation : qui évalue ? comment évaluer ? qu’évaluer ? à quelles fins ?

Un mauvais papier, de par sa capacité fédératrice (même négative), a ainsi plus de chances d’être cité qu’un article innovant, derrière lequel un consensus disciplinaire ne peut, dans un premier temps, se dégager. Les effets les plus dramatiques se repèrent aujourd’hui chez les jeunes chercheurs qui ne disposent pas de postes sécurisés. Ainsi de ces collègues aspirants à un poste — pre-tenure track — aux États-Unis qui, voyant approcher le couperet qui décidera s’ils y accèdent ou non, doivent en quelques années « cracher du papier », c’est-à-dire publier au-delà du raisonnable quitte, bien souvent, à mettre en veilleuse leur éthique scientifique. L’activité même des revues s’en trouve affectée, qui se dotent d’outils publics de mesure « en temps réel » de fréquence de citation ou de téléchargement de leurs papiers. Ainsi, fin mai 2008, le quatrième most-frequently read article de la revue Politics and Society (éditeur Sage, classée dans les indices internationaux) est un article intitulé « Police powers and race riots in Paris », nonobstant le recensement par nos soins d’une vingtaine d’erreurs factuelles — il n’y a pas eu d’élections législatives en France en 1985, non pas trois mais deux morts en 2005, etc. — dont trois dans la présentation de l’article immédiatement disponible sur le site de la revue. Ironie de la bibliométrie : si la communauté ne repère pas ces erreurs, l’article est fréquemment cité ; si elle les repère, il le sera plus encore [5].

De manière générale, des indices élevés peuvent tout à fait masquer des situations de forte stérilité scientifique, de reproduction de l’existant, sur lesquels les collègues s’appuieront d’autant mieux dans leurs propres citations que la production conforte en retour soit leur propre inertie, soit leur innovation. De plus, un excellent indice masque les voies de garage, les voies non ou mal exploitées, les manques des labos en question, sous l’apparence d’une production florissante.

Aujourd’hui, les voies de résistance sont étroites, mais depuis longtemps clairement dessinées. D’abord, l’outil bibliométrique doit être circonscrit et circonstancié : il doit être un des éléments d’appréciation des collectifs, laquelle doit toujours être qualitative. L’évaluation passe par la lecture des contributions, puis la restitution et la délibération autour de leurs mérites scientifiques. Demander au chercheur ou au laboratoire de fournir un ensemble de trois ou quatre publications qu’ils estiment les plus intéressantes, leur demander de montrer en quoi, à leurs yeux, elles le sont, permet d’engager un vrai dialogue sur l’activité scientifique telle qu’elle est menée au sein du collectif — sans négliger, pour autant, le repérage des problèmes ou des chercheurs problématiques. Mais le filtre premier reste le collectif et la finalité première l’activité scientifique.

L’évaluation (au-delà ou sans bibliométrie) doit ensuite être scientifiquement légitime, c’est-à-dire conduite par des chercheurs méritants et innovants. Le panachage de l’élection et de la nomination en est le meilleur garant. L’évaluation de l’individu ne doit être séparée de celle de son unité : ce sont des collectifs qui produisent la science, et l’un ne peut être mené sans l’autre (la loi précise aujourd’hui, à rebours de cela, que l’évaluation des unités est menée par l’Aeres, celle des agents par le cn-cnrs). Enfin, l’évaluation doit être délibérative, publique et ouverte à une procédure d’appel, qui permette au laboratoire ou au chercheur de contester les résultats de cette évaluation. Souligner ces points d’ingénierie bureaucratique de l’évaluation permet de saisir combien le combat engagé pour une évaluation au service de la science et de l’innovation prend aujourd’hui les allures d’une guerre de tranchées ; ce d’autant que le gouvernement refusant de prendre une loi sur ces dispositions, l’essentiel de la réforme de la recherche publique est aujourd’hui soustrait à la discussion parlementaire, c’est-à-dire à l’évaluation par la société elle-même.

Post-scriptum

Georges Debrégeas, physicien au cnrs, est vice-président de Sauvons la recherche. Fabien Jobard, politiste au cnrs, est élu au Comité national, Syndicat national des chercheurs scientifiques.

Notes

[1] On ne peut, faute de place ici, exposer dans le détail les répertoires argumentatifs des partisans de la destruction des organismes existants. On renverra néanmoins le lecteur aux chroniques d’Alain Perez, journaliste aux Échos affecté aux questions scientifiques, qui propose, à défaut d’un journalisme d’information, un journalisme d’anticipation dont la seule mais systématique vertu est de renseigner avec une grande exactitude sur les réformes gouvernementales à venir.

[2] Pour une critique de ces effets au-delà de la seule recherche, voir « Le gouvernement des conduites. L’expérience blairiste du pouvoir », entretien avec Patrick Le Galès et Florence Faucher-King, Vacarme, 38, hiver 2007, p. 57-61.

[3] Une partie d’entre eux est accessible au public comme www.webometrics.info/top1000_r&d.asp ou http://scholar.google.fr. Si la lecture des rangs ou indices est immédiate, celle des modalités de construction des échelles est nettement plus longue, cause de redoublement du pouvoir magique du chiffre.

[4] Le facteur h fonctionne comme un indice synthétique de deux échelles croisées, tel que h = 12 signifie que le chercheur compte douze articles cités douze fois.

[5] Au passage, la publication d’un article scientifique présentant un taux d’erreur démesuré au regard, par exemple, de la page Wikipedia anglophone consacrée au même sujet (les émeutes françaises de 2005), montre à quel point les sciences sociales américaines, loin d’être le lieu de production de cette science internationale tant vantée, sont des sciences éminemment locales. Ne pas faire relire un article sur la France à un chercheur français ou un chercheur travaillant sur la France est une faute scientifique que peu de revues européennes de sciences sociales commettent.