ByteDance und Alibaba Cloud haben neue KI-Systeme zur Bildgenerierung angekündigt, die als direkte Konkurrenten zum Nano Banana Pro Modell von Google positioniert sind. ByteDance hat das Modell Seedream 5.0 in China über Jimeng und auf dem globalen Markt über CapCut in den Beta-Test geschickt, während Alibaba Cloud Qwen-Image-2.0 über die Qwen-Plattformen zugänglich gemacht hat. Beide Modelle vereinen Text-zu-Bild-Generierung und fortgeschrittene Bearbeitungsfunktionen unter einem Dach.
Hier sind die Funktionen der neuen KI-gestützten Bildbearbeitungswerkzeuge Seedream 5.0 und Qwen-Image-2.0:
Während das Seedream 5.0 Modell von ByteDance auf der unternehmenseigenen Infrastruktur aufbaut, basiert Alibaba Qwen-Image-2.0 auf der multimodalen Architektur von Qwen. Google Nano Banana Pro hingegen wurde von Google DeepMind entwickelt und läuft auf der Gemini 3 Pro Image Engine. Obwohl diese drei Modelle aus unterschiedlichen Technologie-Ökosystemen stammen, konzentrieren sie sich alle auf die Text-zu-Bild-Produktion und fortschrittliche Bearbeitungsfunktionen.
Das Seedream 5.0 Modell von ByteDance konzentriert sich auf die Erstellung hochdetaillierter Bilder mit Unterstützung für 2K- und 4K-Auflösungen. Das Unternehmen gibt an, dass die Fähigkeit des Modells, komplexe Befehle zu verstehen und logische Schlussfolgerungen zu ziehen, im Vergleich zu früheren Generationen verbessert wurde. Nutzer können nur bestimmte Teile eines erstellten Bildes ändern und dabei die restliche Struktur beibehalten. So können beispielsweise nach der Erstellung einer verschneiten Nachtszene nur die Lichter ein- oder ausgeschaltet werden, ohne dass die gesamte Szene neu generiert werden muss.
Das Qwen-Image-2.0 Modell von Alibaba Cloud integriert Bilderstellung und -bearbeitung in einem einzigen System. Die Unterstützung von Befehlslängen bis zu 1.000 Token ermöglicht detaillierte Szenenbeschreibungen. Dies ist besonders wichtig für die Wahrung der kontextuellen Konsistenz in Designs mit vielen Charakteren oder Ebenen. Qwen-Image-2.0 kann nativ Ausgaben in einer Auflösung von 2048×2048 Pixeln, also 2K, erzeugen.
Google Nano Banana Pro sticht als ein von Google DeepMind entwickeltes Modell hervor, das auf der Gemini 3 Pro Image Infrastruktur basiert. Das System bietet Unterstützung für Ausgaben bis zu 4K-Auflösung und zeichnet sich durch fortschrittliche mehrsprachige Texterstellung sowie integrierte Bearbeitungswerkzeuge aus. Obwohl kein offizielles Token-Limit bekannt gegeben wurde, wird betont, dass die prompt-basierten Produktionsfähigkeiten auf einem fortgeschrittenen Niveau liegen. Es zeigt sich, dass alle drei Modelle eine hohe Auflösung unterstützen, es jedoch Unterschiede in Bereichen wie der Verarbeitung langer Befehle und der Typografie-Leistung gibt.
Auch bei der Texterstellung gibt es bemerkenswerte Unterschiede. Seedream 5.0 kann lesbaren Text innerhalb von Bildern erstellen. Qwen-Image-2.0 hingegen glänzt durch eine starke Performance insbesondere bei der Erstellung von chinesischen Texten und komplexer Kalligrafie. Für Google Nano Banana Pro wird angegeben, dass es eine fortschrittliche Infrastruktur für die mehrsprachige Texterstellung bietet.
Dieser Start von ByteDance ist auch deshalb bemerkenswert, weil er kurz nach der Vorstellung des KI-Videomodells Seedance 2.0 erfolgt. Während Seedance 2.0 sich auf realistische KI-Videos konzentriert, ist Seedream 5.0 im Bereich der Bildgenerierung und -bearbeitung angesiedelt. In Bezug auf die Zugänglichkeit befindet sich Seedream 5.0 in der Beta-Phase über Jimeng und CapCut, während Qwen-Image-2.0 über die Qwen-Plattformen genutzt werden kann. Die Verfügbarkeit von Nano Banana Pro über Gemini-Anwendungen und Google-Tools bietet einen Vorteil bei der Integration in das Ökosystem.





