ai-chemistry-instructions-build-molecule
Cette IA lit vos instructions en chimie et trouve la meilleure façon de construire une molécule pour vous
Des chercheurs de l'EPFL ont développé un cadre permettant aux chimistes de décrire leurs besoins en langage clair — et de laisser l'IA parcourir des milliers de voies de synthèse pour trouver la bonne.
2026-05-06 Source:decrypt.co

En bref

  • Synthegy, développé à l'EPFL, utilise des LLM pour classer les voies de synthèse en fonction des objectifs définis par les chimistes, correspondant aux jugements d'experts 71,2 % du temps.
  • Le cadre a été validé auprès de 36 chimistes indépendants sur 368 évaluations.
  • Les expériences ont atteint des taux d'alignement comparables à l'accord entre experts.

Concevoir une molécule à partir de zéro est l'un des problèmes les plus ardus de la chimie. Il ne s'agit pas seulement de savoir quels atomes connecter – il s'agit de connaître le bon ordre des réactions, quand protéger les parties sensibles de la molécule, et comment éviter les impasses qui pourraient ruiner des mois de travail en laboratoire.

Traditionnellement, cette connaissance réside dans l'esprit des chimistes expérimentés. Aujourd'hui, une équipe de l'EPFL souhaite l'intégrer dans un modèle linguistique.

Des chercheurs dirigés par Philippe Schwaller ont publié cette semaine un article dans Matter décrivant Synthegy, un cadre qui utilise des grands modèles linguistiques (LLM) comme moteurs de raisonnement pour la planification de la synthèse chimique. L'idée clé est subtile mais importante : plutôt que de demander à l'IA de générer des molécules, l'équipe utilise l'IA pour évaluer les voies de synthèse que les logiciels traditionnels produisent déjà.

Voici comment cela fonctionne : Un chimiste saisit un objectif en langage clair, quelque chose comme "former le cycle pyrimidine aux premiers stades". Les logiciels de rétrosynthèse existants – qui fonctionnent en décomposant les molécules cibles en morceaux plus simples – génèrent ensuite des dizaines ou des centaines de voies de synthèse possibles.

Synthegy convertit chaque voie en texte et la transmet à un LLM, qui évalue chaque voie en fonction de sa conformité à l'instruction du chimiste. Les meilleures remontent à la surface, accompagnées d'explications écrites.

"Lors de la création d'outils pour les chimistes, l'interface utilisateur est très importante, et les outils précédents s'appuyaient sur des filtres et des règles fastidieux", a déclaré Andres M. Bran, auteur principal de l'étude, dans un communiqué de l'EPFL.

Le système a été validé lors d'une étude en double aveugle impliquant 36 chimistes indépendants qui ont examiné 368 paires de voies. Leurs sélections correspondaient à celles de Synthegy 71,2 % du temps, un chiffre qui est à peu près conforme à la fréquence à laquelle les chimistes experts sont d'accord entre eux. Les chercheurs seniors (professeurs et scientifiques chercheurs) étaient plus souvent d'accord avec Synthegy que les doctorants, ce qui suggère que le système capte les mêmes intuitions stratégiques qui viennent avec l'expérience.

Les chercheurs ont testé plusieurs modèles d'IA, y compris GPT-4o, Claude et DeepSeek-r1. L'IA fait des progrès dans la découverte de médicaments depuis des années, mais la plupart des approches se concentrent sur des modèles étroitement entraînés pour des tâches spécifiques. Synthegy est conçu pour être modulaire – il peut se connecter à n'importe quel moteur de rétrosynthèse en arrière-plan, et à n'importe quel LLM compétent du côté du raisonnement. Gemini-2.5-pro a obtenu le score le plus élevé dans le benchmark, tandis que DeepSeek-r1 semble être une alternative open source solide qui peut fonctionner localement.

Le cadre aborde également un deuxième problème : l'élucidation du mécanisme de réaction. Il s'agit de la question de savoir pourquoi une réaction chimique se produit – quels mouvements d'électrons ont lieu à chaque étape. Synthegy décompose les réactions en mouvements élémentaires et demande au LLM d'évaluer chaque étape candidate pour sa plausibilité chimique. Sur des réactions simples comme les substitutions nucléophiles, les meilleurs modèles ont atteint une précision quasi parfaite.

Les cas d'utilisation potentiels sont vastes. La découverte de médicaments est le plus évident. L'IA a déjà montré des promesses dans la prédiction des résultats des traitements contre le cancer, mais la même approche s'applique partout où les chimistes doivent concevoir de nouveaux matériaux ou optimiser des réactions industrielles. Un détail pratique : l'évaluation de 60 voies candidates avec Synthegy prend environ 12 minutes et coûte environ 2 à 3 $ en frais d'API.

L'article reconnaît les limites actuelles. Les LLM interprètent parfois mal la direction d'une réaction dans sa représentation textuelle, ce qui conduit à des évaluations de faisabilité erronées. Les modèles plus petits ne sont pas plus performants que des suppositions aléatoires. Les voies de plus de 20 étapes sont plus difficiles à suivre de manière cohérente.

Le code et les benchmarks sont accessibles au public sur github.com/schwallergroup/steer.