Nvidia-Forscher haben PersonaPlex-7B-v1 vorgestellt, ein neues Sprachmodell, das auf natürliche, nahtlose und Echtzeit-Sprachinteraktionen abzielt. Dieses im Full-Duplex-Verfahren entwickelte Modell unterscheidet sich von klassischen Sprachassistenten-Architekturen durch die Fähigkeit, während des Sprechens gleichzeitig zuzuhören. PersonaPlex überzeugt besonders in Szenarien, die einen natürlichen Dialogfluss, präzise Persona-Steuerung und geringe Latenz erfordern.
Alles in einem Modell
Traditionelle Sprachassistenten nutzen eine mehrstufige Struktur, bestehend aus ASR (Spracherkennung), einem Sprachmodell für die Antwortgenerierung und TTS (Text-to-Speech) für die Sprachausgabe. Dieser Ansatz verursacht bei jedem Schritt Verzögerungen und unterstützt wesentliche Merkmale menschlicher Kommunikation wie gleichzeitiges Sprechen, Unterbrechungen oder natürliches Feedback nur unzureichend.
PersonaPlex eliminiert diese mehrschichtige Kette und realisiert sowohl das Sprachverständnis als auch die Sprachproduktion simultan innerhalb eines einzigen Transformer-Modells. Das Modell arbeitet auf einem kontinuierlichen, mit einem neuronalen Codec kodierten Audiostrom und erzeugt Text- sowie Audio-Token gleichzeitig in autoregressiver Form. Während die Stimme des Nutzers sofort verarbeitet wird, kann das Modell seine eigene Rede parallel fortsetzen. Dies ermöglicht Unterbrechungen, Überlappungen und kontextgerechtes Feedback.
PersonaPlex nutzt eine Struktur aus zwei parallelen Strömen: einer verfolgt die Stimme des Nutzers, der andere die Rede und den Text des KI-Agenten. Da beide Ströme denselben Modellzustand teilen, kann das System beim Sprechen weiter zuhören und seine Antwort sofort anpassen, wenn der Nutzer dazwischengeht.
7 Milliarden Parameter Architektur
PersonaPlex-7B-v1 verfügt über insgesamt 7 Milliarden Parameter und basiert auf der Moshi-Netzwerkarchitektur. Das Modell kann Audio sowohl eingangs- als auch ausgangsseitig mit 24 kHz verarbeiten. Die Sprachmodell-Basis bildet Nvidias Helium-Modell. Helium stellt sicher, dass das Modell nicht nur auf Trainingsszenarien beschränkt bleibt, sondern auch in neuen und unerwarteten Situationen semantische Konsistenz bewahrt.
Darüber hinaus wurde das Training von PersonaPlex in einer einzigen Phase durchgeführt und basiert auf einer ausgewogenen Mischung aus echten Gesprächen und synthetischen Dialogen. Die Realdaten bestehen aus 7.303 Telefongesprächen des Fisher English Corpus, was etwa 1.217 Stunden Sprache entspricht. Diese Gespräche wurden mittels GPT-OSS-120B nachträglich mit Persona- und Kontextvorgaben etikettiert. Dieser Datensatz verleiht dem Modell Elemente, die mit TTS schwer zu erzeugen sind, wie natürliche Pausen, Fülllaute und emotionale Reaktionen. Auf der synthetischen Seite stehen 39.322 Assistenten-Dialoge (ca. 410 Stunden) und 105.410 Kundenservice-Dialoge (ca. 1.840 Stunden). Die Texte wurden von Qwen3-32B und GPT-OSS-120B generiert, während die Sprachausgabe über Chatterbox TTS erfolgte. PersonaPlex-7B-v1 wurde unter der MIT-Lizenz für den Code und der Nvidia Open Model License für die Modellgewichte veröffentlicht.





