Strona głównaCentrum wiadomości LBank
Prawnicy AI są już lepsi od profesorów prawa w rozumowaniu — mówią profesorowie prawa
ai-lawyers-better-law-professors-reasoning-stanford
Prawnicy AI są już lepsi od profesorów prawa w rozumowaniu — mówią profesorowie prawa
Badacze odkryli, że profesorowie preferowali odpowiedzi generowane przez AI, niż te napisane przez ich kolegów, co rodzi pytania o rolę AI w kształceniu profesjonalnym.
2026-06-03 Źródło:decrypt.co

W skrócie

  • Profesorowie prawa preferowali odpowiedzi z zakresu prawa umów generowane przez AI w około 75% przypadków, w porównaniu do tych napisanych przez innych profesorów.
  • Odpowiedzi AI były rzadziej oznaczane jako szkodliwe niż odpowiedzi napisane przez profesorów.
  • Naukowcy stwierdzili, że wyniki pokazują, iż duże modele językowe mogą spełniać standardy zawodowe.

Profesorowie prawa preferowali odpowiedzi generowane przez sztuczną inteligencję (AI) niż te napisane przez innych profesorów, wynika z niedawnego badania przeprowadzonego przez Uniwersytet Stanforda, które analizowało, jak duże modele językowe radzą sobie z zadaniami z zakresu rozumowania prawnego.

W badaniu, 16 profesorów z 14 amerykańskich wydziałów prawa – w tym ze Stanforda, Yale, Uniwersytetu Nowojorskiego, Uniwersytetu w Chicago, Georgetown, UCLA i Uniwersytetu Wirginii – stworzyło 40 pytań z zakresu prawa umów, obejmujących doktrynę prawną, orzecznictwo, hipotetyczne scenariusze i kwestie polityczne. Naukowcy uznali to za idealny sposób na przetestowanie możliwości nowoczesnej AI.

„Duże modele językowe (LLM) są coraz częściej promowane jako korepetytorzy edukacyjni, jednak większość ocen skupia się na dziedzinach z jedną obiektywną prawdą” – napisali badacze. „Wiele dyscyplin opiera się jednak na osądzie: rozumowaniu, ważeniu niejednoznaczności i dochodzeniu do możliwych do obrony wniosków. Prawo stanowi tutaj ostrą próbę.”

W 2918 ślepych porównaniach profesorowie wybierali odpowiedź, którą woleliby przekazać studentowi. Google Gemini 2.5 Pro wygrał 75,92% swoich pojedynków z ludzkimi instruktorami, podczas gdy NotebookLM giganta technologicznego zwyciężył w 74,75% przypadków, co oznacza, że odpowiedzi generowane przez AI były preferowane nad ludzkimi w około trzech czwartych przypadków.

Według badaczy, aby ustalić, czy wyniki odzwierciedlały szerszy konsensus zawodowy, naukowcy przeanalizowali, jak często profesorowie zgadzali się podczas oceny tych samych par odpowiedzi.

„Zaobserwowana zgodność przekroczyła poziom oczekiwany, gdyby oceny były całkowicie idiosynkratyczne, co wskazuje, że sukces LLM odzwierciedla zgodność ze wspólnymi kryteriami dyscyplinarnymi” – napisali.

Badanie wykazało, że modele AI przewyższały również ludzkich instruktorów w wielu kategoriach, w tym w pytaniach dotyczących przypomnienia sobie orzecznictwa, kodeksów lub doktryny, hipotetycznych scenariuszy oraz dyskusji politycznych.

„Aby zbadać, czy jakakolwiek przewaga LLM mogła być napędzana przez powierzchowny styl pisania, a nie przez treść merytoryczną, dodatkowo opracowaliśmy zestaw cech leksykalno-syntaktycznych — długość odpowiedzi, organizację strukturalną, niuanse rozumowania, kotwice prawne, ton pewności, klarowność i wsparcie pedagogiczne — i sprawdziliśmy, w jakim stopniu mogły one wyjaśnić wzorzec preferencji” – stwierdzono w badaniu.

Odpowiedzi generowane przez AI były również rzadziej oznaczane jako szkodliwe niż te napisane przez profesorów, przy czym Gemini odnotował wskaźnik szkodliwości 3,41%, a NotebookLM 3,64%, w porównaniu do 12,06% dla ludzkich instruktorów. W oddzielnej analizie dodatkowych modeli, Claude Opus 4.7 firmy Anthropic zajął pierwsze miejsce, za nim ChatGPT 5.4 firmy OpenAI i Gemini 2.5 Pro, podczas gdy każdy oceniany model AI przewyższał średnio ludzkich instruktorów.

Badacze ostrzegli, że badanie nie mierzyło, czy odpowiedzi pasowały do indywidualnych preferencji dydaktycznych każdego profesora, pozostawiając otwartą możliwość, że odpowiedzi generowane przez AI były postrzegane jako ogólnie akceptowalne, a nie dostosowane do podejścia konkretnego instruktora.

„Chociaż odpowiedzi LLM są generalnie preferowane nad tymi od ludzkich instruktorów, nasze środowisko oceny nie pozwala nam bezpośrednio zmierzyć, w jakim stopniu preferencje instruktorów są spełnione” – stwierdzono w badaniu. „Jest przynajmniej teoretycznie możliwe, że LLM, choć generalnie dostarczają mocniejszych odpowiedzi, nadal generują odpowiedzi, które są postrzegane jedynie jako „wystarczająco dobre”.”

Badanie pojawia się w momencie, gdy sądy, kancelarie prawne i wydziały prawa coraz częściej zmagają się z kwestią, jak sztuczna inteligencja powinna być wykorzystywana w zawodach prawniczych.

W marcu Sąd Najwyższy w Los Angeles rozpoczął testowanie narzędzi AI, aby pomóc sędziom w zarządzaniu rosnącą liczbą spraw, podczas gdy wydziały prawa wprowadzają programy szkoleniowe z zakresu AI.

„Potencjalne korzyści z tych nowych technologii jako multiplikatora siły w praktyce prawa po prostu nie mogą być ignorowane” – powiedział wcześniej dziekan John P. Anderson z Mississippi College School of Law w wywiadzie dla Decrypt. „Niezależnie od tego, czy nasi studenci planują zostać prawnikami procesowymi, czy transakcyjnymi, ich przyszli pracodawcy będą oczekiwać znajomości tych narzędzi AI. Chcemy, aby kancelarie zatrudniające naszych studentów były pewne, że każdy absolwent MC Law jest kompetentny w technologiach AI.”

Jednocześnie jednak kancelarie prawne nadal borykają się z przypadkami podważanymi przez halucynacje i inne błędy generowane przez AI. W kwietniu kancelaria prawna Sullivan & Cromwell przyznała przed amerykańskim sądem upadłościowym, że niedawne pismo w głośnej sprawie zawierało fałszywe cytaty wygenerowane przez AI.