stepfun-stepaudio-voice-ai-tops-benchmarks
StepFun's Voice AI Overtrof Elke Benchmark. Het Hoort Ook Je Zuchten
Het Shanghaise lab dat LLM's bouwt die boven hun gewicht boksen, heeft diezelfde energie nu ingezet voor spraak – en de resultaten zijn niet te negeren.
2026-05-26 Bron:decrypt.co

Kort samengevat

  • StepAudio 2.5 Realtime is een end-to-end realtime spraakmodel met volledig aanpasbare persona's in het Chinees en Engels.
  • StepFun claimt de eerste plaats in alle vijf de geteste voice AI-benchmarks in april 2026, waarmee het GPT Realtime 1.5 en Gemini Live verslaat.
  • Het model is getraind op een miljoenen dataset van persona's en afgestemd met rollenspel-specifieke RLHF om een veelvoorkomende tekortkoming in de meeste voice AI-systemen te verhelpen: in karakter blijven onder druk.

Het in Shanghai gevestigde AI-lab StepFun heeft deze week StepAudio 2.5 Realtime uitgebracht. Dit is een end-to-end realtime spraakmodel – geluid gaat erin, geluid komt eruit, zonder tekstconversie tussendoor. Het ondersteunt Chinees en Engels en, afgaande op de benchmarks, lijkt het behoorlijk goed te zijn.

Het lab staat vooral bekend om het bouwen van tekst-LLM's die veel grotere systemen overtreffen. Step 3.5 Flash, een model met 196 miljard parameters, behaalde eerder dit jaar de hoogste score op vier redeneringsbenchmarks tegenover rivalen met biljoen parameters. (Parameters bepalen de breedte van de kennis van een AI-model en vertalen zich over het algemeen in betere prestaties.)

Het spraakwerk volgt hetzelfde stramien en wil rollenspellen 'cool' maken, vooral bij langere sessies.

Het karakterprobleem

AI-personasystemen hebben een specifieke tekortkoming: OOC, oftewel 'out-of-character' gedrag – het model wijkt af van de toegewezen persoonlijkheid onder tegendruk. Dit komt gênant vaak voor en is een inherente fout in alle AI-modellen. Ze vergeten gewoon dingen naarmate je meer met ze interageert.

StepFun stelt dit te hebben opgelost met rollenspel-specifieke RLHF – reinforcement learning op basis van menselijke feedback, specifiek toegepast op personastabiliteit, niet alleen op algemene kwaliteit. De trainingsdata beginnen met meer dan 10.000 door mensen gecreëerde persona-seeds, algoritmisch uitgebreid tot een miljoenen-schaal featurematrix.

Het idee: genoeg variatie in de trainingsdata zodat zelfs bizarre, uitzonderlijke gesprekken het model niet van zijn karakter doen afwijken.

De technisch interessantere claim is paralinguïstisch begrip – het model leest non-verbale akoestische signalen zoals spraaksnelheid, emotionele toon en leeftijd uit de audio zelf, voordat het een reactie formuleert.

Op de benchmark voor paralinguïstisch begrip – een objectieve test die de perceptie van akoestische kenmerken zoals emotie en spreeksnelheid meet, gescoord van 0-100 – behaalde StepAudio 82,18. GPT Realtime 1.5 scoorde 80,46, Gemini Live 58,05 en DouBao Realtime kwam uit op 16,09.

De benchmark voor menselijke evaluatie – echte gebruikers die via een mobiele app met het model spraken, beoordeeld door menselijke beoordelaars op een schaal van 0-100 – kwam uit op 80,41 voor StepAudio, tegenover 68,01 voor GPT Realtime 1.5 en 67,16 voor Gemini Live. De algemene dialoogkwaliteit, objectief getest via API op dezelfde schaal van 0-100, kwam uit op 86,36 versus 81,60 voor GPT.

Dit zijn StepFun's eigen benchmarks. Trek je eigen conclusies. Maar de verschillen op het gebied van paralinguïstiek en gesproken vraag- en antwoordsessies zijn groot genoeg om moeilijk te negeren.

De StepFun Context

StepFun werd in april 2023 opgericht door Jiang Daxin, die 16 jaar bij Microsoft werkte en projecten als Bing, Cortana en Azure cognitive services leidde. Het is een van China's zogenaamde 'AI Tiger'-startups en heeft tot op heden ongeveer $1,7 miljard opgehaald.

OpenAI's geavanceerde spraakmodus werd eind 2024 gelanceerd en zette de standaard die iedereen nastreeft. StepFun meet zich nu direct daartegen – en claimt een overwinning.

De lancering omvat een vlaggenschip AI-persona genaamd Xiao Yue, die StepFun beschrijft als een 'metgezel op zielsniveau', ontworpen om aan te voelen als het sturen van een bericht naar een vriend, en niet als het bevragen van software. Meningen, stopwoordjes, emotionele grenzen – volledig configureerbaar.

Ontwikkelaars kunnen hun eigen persona's bouwen via de API. Volledige documentatie is te vinden op platform.stepfun.com, en het model is nu live.