ai-chemistry-instructions-build-molecule
Deze AI Leest Je Chemie-Instructies en Vindt de Beste Manier om Een Molecuul voor Je te Bouwen
Onderzoekers van EPFL hebben een raamwerk ontwikkeld waarmee chemici in gewone taal kunnen beschrijven wat ze willen—en AI duizenden synthese routes kan doorzoeken om de juiste te vinden.
2026-05-06 Bron:decrypt.co

In het kort

  • Synthegy, ontwikkeld aan EPFL, gebruikt LLM's om syntheseroutes te rangschikken op basis van door chemici gedefinieerde doelen, wat in 71,2% van de gevallen overeenkomt met de oordelen van experts.
  • Het raamwerk werd gevalideerd tegen 36 onafhankelijke chemici in 368 evaluaties.
  • De experimenten bereikten overeenstemmingspercentages die vergelijkbaar zijn met de overeenstemming tussen experts onderling.

Een molecuul helemaal opnieuw ontwerpen is een van de moeilijkste problemen in de chemie. Het gaat niet alleen om het weten welke atomen met elkaar te verbinden – het gaat om het kennen van de juiste volgorde van reacties, wanneer gevoelige delen van het molecuul te beschermen, en hoe doodlopende wegen te vermijden die maandenlang laboratoriumwerk kunnen ruïneren.

Traditioneel leeft die kennis in de hoofden van ervaren chemici. Nu wil een team van EPFL deze in een taalmodel stoppen.

Onderzoekers onder leiding van Philippe Schwaller publiceerden deze week een artikel in Matter, waarin Synthegy wordt beschreven, een raamwerk dat grote taalmodellen (LLM's) gebruikt als redeneringsmachines voor chemische syntheseplanning. Het belangrijkste inzicht is subtiel maar belangrijk: in plaats van AI te vragen moleculen te genereren, gebruikt het team AI om syntheseroutes te evalueren die traditionele software al produceert.

Zo werkt het: Een chemicus typt een doel in gewoon Engels, zoiets als "vorm de pyrimidinering in de vroege stadia." Bestaande retrosynthesesoftware – die werkt door doelmoleculen in eenvoudigere delen te splitsen – genereert vervolgens tientallen of honderden mogelijke syntheseroutes.

Synthegy converteert elke route naar tekst en geeft deze aan een LLM, die elke route beoordeelt op hoe goed deze overeenkomt met de instructie van de chemicus. De beste routes komen bovenaan te staan, met schriftelijke verklaringen waarom.

"Bij het maken van tools voor chemici is de gebruikersinterface erg belangrijk, en eerdere tools vertrouwden op omslachtige filters en regels," zei Andres M. Bran, hoofdauteur van de studie, in een verklaring van EPFL.

Het systeem werd gevalideerd in een dubbelblinde studie waarbij 36 onafhankelijke chemici 368 routeparen beoordeelden. Hun selecties kwamen in 71,2% van de gevallen overeen met die van Synthegy, een percentage dat ruwweg overeenkomt met hoe vaak deskundige chemici het met elkaar eens zijn. Senior onderzoekers (hoogleraren en onderzoekswetenschappers) waren het vaker eens met Synthegy dan promovendi, wat suggereert dat het systeem dezelfde strategische intuïties vastlegt die met ervaring komen.

De onderzoekers testten verschillende AI-modellen, waaronder GPT-4o, Claude en DeepSeek-r1. AI heeft al jarenlang een opmars gemaakt in geneesmiddelenontwikkeling, maar de meeste benaderingen richten zich op nauw getrainde modellen voor specifieke taken. Synthegy is modulair ontworpen – het kan worden aangesloten op elke retrosynthesemotor aan de backend, en op elk capabel LLM aan de redeneringszijde. Gemini-2.5-pro scoorde het hoogst in de benchmark, terwijl DeepSeek-r1 een sterk open-source alternatief lijkt te zijn dat lokaal kan draaien.

Het raamwerk behandelt ook een tweede probleem: het ophelderen van reactiemechanismen. Dit is de vraag waarom een chemische reactie plaatsvindt – welke elektronenbewegingen er bij elke stap plaatsvinden. Synthegy splitst reacties op in elementaire stappen en laat het LLM elke kandidaatstap beoordelen op chemische plausibiliteit. Bij eenvoudige reacties zoals nucleofiele substituties behaalden de beste modellen bijna perfecte nauwkeurigheid.

De potentiële toepassingen zijn breed. Geneesmiddelenontwikkeling is de meest voor de hand liggende. AI heeft al veelbelovend gepresteerd in het voorspellen van uitkomsten van kankerbehandelingen, maar dezelfde benadering is van toepassing overal waar chemici nieuwe materialen moeten ontwerpen of industriële reacties moeten optimaliseren. Een praktisch detail: het evalueren van 60 kandidaatroutes met Synthegy duurt ongeveer 12 minuten en kost ongeveer $2–3 aan API-kosten.

Het artikel erkent de huidige beperkingen. LLM's interpreteren soms de richting van een reactie in hun tekstuele weergave verkeerd, wat leidt tot onjuiste haalbaarheidsoordelen. Kleinere modellen presteren niet beter dan willekeurig raden. Routes langer dan 20 stappen zijn moeilijker coherent te volgen.

De code en benchmarks zijn openbaar beschikbaar op github.com/schwallergroup/steer.