ai-chemistry-instructions-build-molecule
Ta sztuczna inteligencja czyta Twoje instrukcje chemiczne i znajduje najlepszy sposób na zbudowanie molekuły dla Ciebie
Naukowcy z EPFL stworzyli narzędzie, które pozwala chemikom opisać swoje oczekiwania w prostym języku — a sztuczna inteligencja przeszukuje tysiące tras syntezy, aby znaleźć tę właściwą.
2026-05-06 Źródło:decrypt.co

W skrócie

  • Synthegy, opracowany w EPFL, wykorzystuje duże modele językowe (LLM) do rankingu ścieżek syntezy w oparciu o cele zdefiniowane przez chemików, zgadzając się z ocenami ekspertów w 71,2% przypadków.
  • Ramy te zostały zweryfikowane przez 36 niezależnych chemików w 368 ocenach.
  • Eksperymenty wykazały zgodność porównywalną do zgodności między ekspertami.

Projektowanie cząsteczki od podstaw to jedno z najtrudniejszych problemów w chemii. Nie chodzi tylko o to, aby wiedzieć, które atomy połączyć – chodzi o znajomość właściwej kolejności reakcji, o to, kiedy chronić wrażliwe części cząsteczki i jak unikać ślepych zaułków, które mogłyby zrujnować miesiące pracy laboratoryjnej.

Tradycyjnie ta wiedza istniała w umysłach doświadczonych chemików. Teraz zespół z EPFL chce ją umieścić w modelu językowym.

Naukowcy pod kierownictwem Philippe’a Schwallera opublikowali w tym tygodniu w czasopiśmie Matter artykuł opisujący Synthegy, ramy, które wykorzystują duże modele językowe jako silniki rozumowania do planowania syntezy chemicznej. Kluczowa myśl jest subtelna, ale ważna: zamiast prosić AI o generowanie cząsteczek, zespół wykorzystuje AI do oceny ścieżek syntezy, które tradycyjne oprogramowanie już generuje.

Oto jak to działa: Chemik wprowadza cel w prostym języku angielskim, na przykład „utwórz pierścień pirymidynowy na wczesnych etapach”. Istniejące oprogramowanie do retrosyntezy – które działa poprzez rozbijanie docelowych cząsteczek na prostsze elementy – generuje następnie dziesiątki lub setki możliwych ścieżek syntezy.

Synthegy konwertuje każdą ścieżkę na tekst i przekazuje ją do LLM, który ocenia każdą ścieżkę pod kątem zgodności z instrukcją chemika. Najlepsze z nich trafiają na szczyt, wraz z pisemnymi wyjaśnieniami, dlaczego.

„Przy tworzeniu narzędzi dla chemików interfejs użytkownika ma ogromne znaczenie, a poprzednie narzędzia opierały się na uciążliwych filtrach i regułach” – powiedział Andres M. Bran, główny autor badania, w oświadczeniu EPFL.

System został zweryfikowany w podwójnie ślepym badaniu z udziałem 36 niezależnych chemików, którzy ocenili 368 par ścieżek. Ich wybory zgadzały się z Synthegy w 71,2% przypadków, co jest liczbą mniej więcej zgodną z tym, jak często chemicy-eksperci zgadzają się ze sobą. Starsi badacze (profesorowie i naukowcy) częściej zgadzali się z Synthegy niż doktoranci, co sugeruje, że system odzwierciedla te same intuicje strategiczne, które wynikają z doświadczenia.

Badacze przetestowali kilka modeli AI, w tym GPT-4o, Claude i DeepSeek-r1. AI od lat czyni postępy w odkrywaniu leków, ale większość podejść koncentruje się na wąsko wyszkolonych modelach do konkretnych zadań. Synthegy została zaprojektowana modułowo – może współpracować z dowolnym silnikiem retrosyntezy po stronie zaplecza i dowolnym wydajnym LLM po stronie rozumowania. Gemini-2.5-pro uzyskał najwyższe wyniki w testach porównawczych, podczas gdy DeepSeek-r1 wydaje się być silną alternatywą open-source, którą można uruchomić lokalnie.

Ramy te rozwiązują również drugi problem: wyjaśnienie mechanizmu reakcji. Jest to pytanie o to, dlaczego reakcja chemiczna zachodzi – jakie ruchy elektronów mają miejsce na każdym etapie. Synthegy rozkłada reakcje na elementarne kroki i zleca LLM ocenę każdego kandydującego kroku pod kątem chemicznej wiarygodności. W przypadku prostych reakcji, takich jak substytucje nukleofilowe, najlepsze modele osiągnęły niemal doskonałą dokładność.

Potencjalne zastosowania są szerokie. Odkrywanie leków jest oczywistym przykładem. AI już wcześniej wykazywała obiecujące wyniki w przewidywaniu wyników leczenia raka, ale to samo podejście ma zastosowanie wszędzie tam, gdzie chemicy muszą projektować nowe materiały lub optymalizować reakcje przemysłowe. Jedna praktyczna uwaga: ocena 60 kandydujących ścieżek za pomocą Synthegy zajmuje około 12 minut i kosztuje około 2–3 dolarów opłat API.

Artykuł uznaje obecne ograniczenia. LLM czasami błędnie interpretują kierunek reakcji w jej tekstowej reprezentacji, co prowadzi do błędnych ocen wykonalności. Mniejsze modele nie osiągają lepszych wyników niż losowe zgadywanie. Ścieżki dłuższe niż 20 kroków są trudniejsze do spójnego śledzenia.

Kod i testy porównawcze są publicznie dostępne pod adresem github.com/schwallergroup/steer.