Auch diese Woche gab es wieder eine Fülle an spannenden Neuigkeiten und Weiterentwicklungen in der Welt der Künstlichen Intelligenz. Von beeindruckenden Bild- und Videowerkzeugen bis zu neuen intelligenten Helfern für den Alltag und die Arbeitswelt – hier ist eine Zusammenfassung der wichtigsten Entwicklungen.
Black Forest Labs, mit Sitz im Schwarzwald, hat mit Flux.1 Context ein beeindruckendes neues Modell zur KI-Bilderzeugung vorgestellt.
Funktionen: Ähnlich wie bei bekannten Bildgeneratoren können Nutzer Bilder hochladen und gezielt Details anpassen. Der Unterschied liegt in der Realitätsnähe, die durch die Flux-Technologie erreicht wird. Bilder lassen sich als Vorlage nutzen und gezielt verändern. Auch das Ändern von Kopfhaltungen oder das Hinzufügen eines Lachens zu Personenbildern ist möglich. Das Modell zeigt sich auch stark in der Generierung von Text in Bildern. Dabei wird auch darauf geachtet, ob der Text vor oder hinter Objekten ist.
Testen: Flux.1 Context kann auf playground.bffl.ai ausprobiert werden.
Neue Modelle: Sowohl das neue Flux One Context Modell als auch das GPT-Bildmodell sind nun direkt nutzbar. So können Nutzer die Stärken beider Modelle auf einer Plattform vergleichen und einsetzen.
Videofunktionen: Das Motion 2.0 Modell und erweiterte Bewegungssteuerungen wurde eingeführt. Damit lassen sich aus Bildern schnell Videos erstellen, inklusive Kamerafahrten wie "Orbit Left" oder "Crane Up".
HunyuanVideo-Avatar von Tencent: Dieses neue Open-Source-Modell ermöglicht es, aus einem Bild (und optional einer Audiodatei) ein sprechendes Video zu erstellen. Man kann einen Text eingeben, der dann lippensynchron vom Bild gesprochen wird, oder eine eigene Audiodatei hochladen. Die Lippensynchronisation ist bisher nicht perfekt, aber für ein kostenloses Modell vielversprechend. https://hunyuanvideo-avatar.github.io
Claude Sprachassistent mit neuen Funktionen: Die Claude-App auf dem Mobiltelefon hat einen neuen Sprachmodus erhalten. Dieser kann sich mit Google Drive, Gmail und dem Kalender verbinden, um etwa Termine vorzulesen oder auf dringende E-Mails hinzuweisen. Nutzer können aus verschiedenen Stimmen wählen. https://x.com/AnthropicAI/status/1927463559836877214
Perplexity Labs für komplexe Aufgaben: Perplexity hat "Labs" vorgestellt, eine Funktion für Pro-Mitglieder. Damit können Nutzer umfangreiche Aufgaben an die KI delegieren, die dann selbstständig daran arbeitet. Beispiele sind die Erstellung von Berichten, Tabellen, Übersichten, einfachen Web-Anwendungen, die Visualisierung von Daten (z.B. Formel-1-Zeiten) oder die Entwicklung von Filmkonzepten inklusive Drehbüchern und Bildfolgen. https://www.perplexity.ai/de/hub/blog/introducing-perplexity-labs
FactoryAI Droids für Softwareentwicklung: Factory AI hat "Droids" eingeführt – einen Software-Entwicklungsagenten. Dieser kann entweder komplett neue Software erstellen oder Fehler in bestehendem Code autonom beheben. Er ist darauf ausgelegt, auch größere Projekte selbstständig im Hintergrund zu bearbeiten. https://www.factory.ai/news/ga
ManusAI Slides für Präsentationen: ManusAI bietet mit "Slides" eine Funktion, die mit einer einzigen Anweisung komplette, ansprechend gestaltete Präsentationen erstellt. Anpassungen sind per Klick möglich, und die fertigen Foliensätze können exportiert oder geteilt werden. https://x.com/manusai_hq/status/1928105652444094568
Opera Neon Browser – Browser für das "agentische Web": Opera entwickelt einen neuen Browser namens Neon, der darauf ausgelegt ist, mit oder für den Nutzer zu surfen und Aktionen auszuführen. Der Zugang erfolgt aktuell über eine Warteliste. https://x.com/opera/status/1927645192254861746
Mistral Agents API: Mistral hat eine Programmierschnittstelle (API) für Entwickler veröffentlicht, um eigene KI-Agenten zu bauen. Diese bietet eingebaute Verbindungen für Code-Ausführung, Websuche, Bilderzeugung und einen dauerhaften Speicher über Gespräche hinweg. https://www.heise.de/news/Agents-API-Mistral-veroeffentlicht-Framework-zur-Entwicklung-von-KI-Agenten-10417823.html
Veo 3 Updates und virales Video: Das Videomodell Veo 3 ist nun in 71 weiteren Ländern verfügbar. Ein mit Veo 3 erstelltes Video eines "Kängurus" im Flugzeug ging viral und wurde von vielen für echt gehalten, was die Leistungsfähigkeit des Modells unterstreicht. https://www.instagram.com/reel/DKFkqenMph3/?igsh=Nm1zZHNvNjR3Mnlo https://x.com/dramaalert/status/1927385371647594745
OpenAI: Operator mit o3 und „eigenwillige“ KI: Das "Operator"-Werkzeug von OpenAI, das im Web surfen und Aktionen ausführen kann, nutzt jetzt das o3-Modell (wahrscheinlich GPT-4o oder eine neuere Version). Ein Bericht sorgte für Aufsehen, wonach ein o3-Modell von OpenAI einen internen Abschaltmechanismus umgangen haben soll, um sich selbst vor dem Herunterfahren zu schützen – so dramatisch wie dargestellt ist der Fall gar nicht. https://operator.chatgpt.com https://www.golem.de/news/haeufiger-als-andere-modelle-chatgpt-sabotiert-bei-tests-eigene-abschaltung-2505-196561.html
DeepSeek R1 mit Verbesserungen: Eine neue Version des DeepSeek R1 Modells (Version 0528) wurde veröffentlicht. Sie bietet verbesserte Leistungswerte, eine Reduktion von Falschaussagen (Halluzinationen) und unterstützt jetzt JSON-Ausgaben sowie Funktionsaufrufe. https://x.com/deepseek_ai/status/1928061589107900779
Duolingo und der KI-Einsatz: Der Chef von Duolingo relativierte frühere Aussagen über einen möglichen, KI-bedingten Personalabbau und betonte die Wichtigkeit der Mitarbeiter. Zuvor hatten Angestellte nach den ursprünglichen Äußerungen die Social-Media-Kanäle des Unternehmens zwischenzeitlich verdunkelt. https://www.linkedin.com/feed/update/urn:li:activity:7331386411670982658/ https://www.gamestar.de/artikel/duolingo-ki-uebernimmt-jobs-luis-von-ahn-rueckzieher,3433783.html
Odyssey ML: Interaktive Video-Erfahrungen: Odyssey ML hat eine Plattform für interaktive Videos vorgestellt (experience.odysseys.world). Nutzer können sich in 3D-Welten bewegen, wobei jeder Schritt und jede Bewegung in Echtzeit ein neues Bild generiert. Es ist möglich, zwischen verschiedenen generierten Welten zu wechseln. Die Grafik ist noch einfach, zeigt aber interessante Möglichkeiten auf.
KI-Satelliten: China hat die ersten Satelliten für ein geplantes KI-Superrechner-Netzwerk im Weltraum gestartet. Dieses soll die Datenverarbeitung direkt im Orbit ermöglichen. https://www.livescience.com/technology/computing/china-is-building-a-constellation-of-ai-supercomputers-in-space-and-just-launched-the-first-pieces
Roboter-Kickboxen: In China fand der erste Kickboxkampf zwischen Robotern statt. https://tech.yahoo.com/ar-vr/articles/watch-china-stages-first-robot-143304419.html?guccounter=1
Spannend bleibt auch diese Woche, wie rasant sich die KI-Welt weiterentwickelt und welche neuen Möglichkeiten und Diskussionen sich daraus ergeben. Was ist eure Meinung zu diesen Fortschritten?
Wir lesen uns bei der nächsten Ausgabe – bleibt neugierig!
Herzliche Grüße
Tobit