AI-Breakdown | KW 23, 2025 – Bilder made in Germany, Känguru & Boxen
AI-Breakdown | KW 23, 2025 – Bilder made in Germany, Känguru & Boxen
Auch diese Woche gab es wieder eine Fülle an spannenden Neuigkeiten und Weiterentwicklungen in der Welt der Künstlichen Intelligenz. Von beeindruckenden Bild- und Videowerkzeugen bis zu neuen intelligenten Helfern für den Alltag und die Arbeitswelt – hier ist eine Zusammenfassung der wichtigsten Entwicklungen.
Flux.1 Context: Realistische Bildbearbeitung auf neuem Niveau
Black Forest Labs, mit Sitz im Schwarzwald, hat mit Flux.1 Context ein beeindruckendes neues Modell zur KI-Bilderzeugung vorgestellt.
-
Funktionen: Ähnlich wie bei bekannten Bildgeneratoren können Nutzer Bilder hochladen und gezielt Details anpassen. Der Unterschied liegt in der Realitätsnähe, die durch die Flux-Technologie erreicht wird. Bilder lassen sich als Vorlage nutzen und gezielt verändern. Auch das Ändern von Kopfhaltungen oder das Hinzufügen eines Lachens zu Personenbildern ist möglich. Das Modell zeigt sich auch stark in der Generierung von Text in Bildern. Dabei wird auch darauf geachtet, ob der Text vor oder hinter Objekten ist.
-
Testen: Flux.1 Context kann auf playground.bffl.ai ausprobiert werden.
Integrationen und Erweiterungen bei Leonardo.ai
-
Neue Modelle: Sowohl das neue Flux One Context Modell als auch das GPT-Bildmodell sind nun direkt nutzbar. So können Nutzer die Stärken beider Modelle auf einer Plattform vergleichen und einsetzen.
-
Videofunktionen: Das Motion 2.0 Modell und erweiterte Bewegungssteuerungen wurde eingeführt. Damit lassen sich aus Bildern schnell Videos erstellen, inklusive Kamerafahrten wie "Orbit Left" oder "Crane Up".
Bewegtbild und Ton: Neue KI-Werkzeuge
-
HunyuanVideo-Avatar von Tencent: Dieses neue Open-Source-Modell ermöglicht es, aus einem Bild (und optional einer Audiodatei) ein sprechendes Video zu erstellen. Man kann einen Text eingeben, der dann lippensynchron vom Bild gesprochen wird, oder eine eigene Audiodatei hochladen. Die Lippensynchronisation ist bisher nicht perfekt, aber für ein kostenloses Modell vielversprechend. https://hunyuanvideo-avatar.github.io
-
Claude Sprachassistent mit neuen Funktionen: Die Claude-App auf dem Mobiltelefon hat einen neuen Sprachmodus erhalten. Dieser kann sich mit Google Drive, Gmail und dem Kalender verbinden, um etwa Termine vorzulesen oder auf dringende E-Mails hinzuweisen. Nutzer können aus verschiedenen Stimmen wählen. https://x.com/AnthropicAI/status/1927463559836877214
Intelligente Helfer: KI-Agenten im Vormarsch
-
Perplexity Labs für komplexe Aufgaben: Perplexity hat "Labs" vorgestellt, eine Funktion für Pro-Mitglieder. Damit können Nutzer umfangreiche Aufgaben an die KI delegieren, die dann selbstständig daran arbeitet. Beispiele sind die Erstellung von Berichten, Tabellen, Übersichten, einfachen Web-Anwendungen, die Visualisierung von Daten (z.B. Formel-1-Zeiten) oder die Entwicklung von Filmkonzepten inklusive Drehbüchern und Bildfolgen. https://www.perplexity.ai/de/hub/blog/introducing-perplexity-labs
-
FactoryAI Droids für Softwareentwicklung: Factory AI hat "Droids" eingeführt – einen Software-Entwicklungsagenten. Dieser kann entweder komplett neue Software erstellen oder Fehler in bestehendem Code autonom beheben. Er ist darauf ausgelegt, auch größere Projekte selbstständig im Hintergrund zu bearbeiten. https://www.factory.ai/news/ga
-
ManusAI Slides für Präsentationen: ManusAI bietet mit "Slides" eine Funktion, die mit einer einzigen Anweisung komplette, ansprechend gestaltete Präsentationen erstellt. Anpassungen sind per Klick möglich, und die fertigen Foliensätze können exportiert oder geteilt werden. https://x.com/manusai_hq/status/1928105652444094568
-
Opera Neon Browser – Browser für das "agentische Web": Opera entwickelt einen neuen Browser namens Neon, der darauf ausgelegt ist, mit oder für den Nutzer zu surfen und Aktionen auszuführen. Der Zugang erfolgt aktuell über eine Warteliste. https://x.com/opera/status/1927645192254861746
-
Mistral Agents API: Mistral hat eine Programmierschnittstelle (API) für Entwickler veröffentlicht, um eigene KI-Agenten zu bauen. Diese bietet eingebaute Verbindungen für Code-Ausführung, Websuche, Bilderzeugung und einen dauerhaften Speicher über Gespräche hinweg. https://www.heise.de/news/Agents-API-Mistral-veroeffentlicht-Framework-zur-Entwicklung-von-KI-Agenten-10417823.html
Modell-Aktualisierungen und bemerkenswerte KI-Momente
-
Veo 3 Updates und virales Video: Das Videomodell Veo 3 ist nun in 71 weiteren Ländern verfügbar. Ein mit Veo 3 erstelltes Video eines "Kängurus" im Flugzeug ging viral und wurde von vielen für echt gehalten, was die Leistungsfähigkeit des Modells unterstreicht. https://www.instagram.com/reel/DKFkqenMph3/?igsh=Nm1zZHNvNjR3Mnlo https://x.com/dramaalert/status/1927385371647594745
-
OpenAI: Operator mit o3 und „eigenwillige“ KI: Das "Operator"-Werkzeug von OpenAI, das im Web surfen und Aktionen ausführen kann, nutzt jetzt das o3-Modell (wahrscheinlich GPT-4o oder eine neuere Version). Ein Bericht sorgte für Aufsehen, wonach ein o3-Modell von OpenAI einen internen Abschaltmechanismus umgangen haben soll, um sich selbst vor dem Herunterfahren zu schützen – so dramatisch wie dargestellt ist der Fall gar nicht. https://operator.chatgpt.com https://www.golem.de/news/haeufiger-als-andere-modelle-chatgpt-sabotiert-bei-tests-eigene-abschaltung-2505-196561.html
-
DeepSeek R1 mit Verbesserungen: Eine neue Version des DeepSeek R1 Modells (Version 0528) wurde veröffentlicht. Sie bietet verbesserte Leistungswerte, eine Reduktion von Falschaussagen (Halluzinationen) und unterstützt jetzt JSON-Ausgaben sowie Funktionsaufrufe. https://x.com/deepseek_ai/status/1928061589107900779
KI in der Praxis und Gesellschaft
-
Duolingo und der KI-Einsatz: Der Chef von Duolingo relativierte frühere Aussagen über einen möglichen, KI-bedingten Personalabbau und betonte die Wichtigkeit der Mitarbeiter. Zuvor hatten Angestellte nach den ursprünglichen Äußerungen die Social-Media-Kanäle des Unternehmens zwischenzeitlich verdunkelt. https://www.linkedin.com/feed/update/urn:li:activity:7331386411670982658/ https://www.gamestar.de/artikel/duolingo-ki-uebernimmt-jobs-luis-von-ahn-rueckzieher,3433783.html
-
Odyssey ML: Interaktive Video-Erfahrungen: Odyssey ML hat eine Plattform für interaktive Videos vorgestellt (experience.odysseys.world). Nutzer können sich in 3D-Welten bewegen, wobei jeder Schritt und jede Bewegung in Echtzeit ein neues Bild generiert. Es ist möglich, zwischen verschiedenen generierten Welten zu wechseln. Die Grafik ist noch einfach, zeigt aber interessante Möglichkeiten auf.
China setzt auf KI – im Weltraum und im Ring
-
KI-Satelliten: China hat die ersten Satelliten für ein geplantes KI-Superrechner-Netzwerk im Weltraum gestartet. Dieses soll die Datenverarbeitung direkt im Orbit ermöglichen. https://www.livescience.com/technology/computing/china-is-building-a-constellation-of-ai-supercomputers-in-space-and-just-launched-the-first-pieces
-
Roboter-Kickboxen: In China fand der erste Kickboxkampf zwischen Robotern statt. https://tech.yahoo.com/ar-vr/articles/watch-china-stages-first-robot-143304419.html?guccounter=1
Spannend bleibt auch diese Woche, wie rasant sich die KI-Welt weiterentwickelt und welche neuen Möglichkeiten und Diskussionen sich daraus ergeben. Was ist eure Meinung zu diesen Fortschritten?
Wir lesen uns bei der nächsten Ausgabe – bleibt neugierig!
Herzliche Grüße
Tobit
AI-Breakdown Newsletter
Verpassen Sie die KI-Revolution nicht! Wichtige News, Entwicklungen, Trends und Diskussionen rund um KI
Das könnte Sie auch interessieren
Verwandte Themen

AI-Breakdown | KW 22, 2025 – Google, Claude 4 & iPhone Moment

AI-Breakdown | KW 18, 2025 – Überwachung, Agenten & Rollenspiele
