AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos
AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos
auch diese Woche war wieder reich an spannenden Neuigkeiten aus der Welt der KI. Von OpenAIs neuen Kostenplänen für KI-Agenten über Googles Fortschritte bei generativen Bildern bis zu erstaunlichen Projekten, die menschliche Neuronen mit Computerchips verschmelzen: Hier kommt eure kompakte Zusammenfassung.
OpenAIs neue „Agenten“-Pläne: 20.000 US-Dollar pro Monat?
Laut The Information erwägt OpenAI neue KI-Agenten‐Modelle, die in verschiedenen „Leistungsstufen“ angeboten werden könnten:
-
High-End (PhD-Level Research Agent) für rund 20.000 US-Dollar/Monat
-
Mid-Tier (Softwareentwicklung) um 10.000 US-Dollar/Monat
-
Low-End (Research Assistant) für etwa 2.000–5.000 US-Dollar/Monat
Die Idee dahinter: KI-Agenten, die mehr (autonome) Arbeit erledigen als der bisherige ChatGPT-Standard. Allerdings steht in den Raum, dass man für 20.000 US-Dollar/Monat auch sehr gute menschliche Experten engagieren könnte. Es bleibt spannend, wie sich das Preismodell etabliert.
https://www.theinformation.com/articles/openai-plots-charging-20-000-a-month-for-phd-level-agents
GPT-4.5 für ChatGPT Plus-Abonnenten
Nutzer*innen der kostenpflichtigen Plus-Version (20 US-Dollar/Monat) haben jetzt Zugriff auf GPT-4.5.
-
Erster Eindruck: Zunächst wirkte GPT-4.5 etwas unspektakulär. Aber insbesondere für kreative Schreibaufgaben, Zusammenfassungen und Gliederungen zeigt sich die neue Version inzwischen von ihrer starken Seite.
-
Nicht ideal für komplexe Rechenaufgaben: Für intensives Reasoning oder Programmierprobleme sollte man GPT-4 klassisch weiter nutzen.
https://x.com/sama/status/1897348424984617215
ChatGPT kann direkt Code editieren (macOS App)
OpenAIs macOS-App kann nun direkt in einer IDE (z. B. Visual Studio Code) Code verändern. Nach einer Generierung lassen sich die Änderungen mit einem Klick ins Projekt übernehmen. Das beschleunigt den Arbeitsablauf und zeigt, wie eng KI und Softwareentwicklung zusammenwachsen.
https://x.com/OpenAIDevs/status/1897700857833193955
Google: Neue „AI Mode“-Suche, Shopping-Features & mehr
Google AI Search
-
Funktionen: Ähnlich wie bei Perplexity oder Bing Chat werden Web-Ergebnisse zusammengefasst und mit Quellen versehen.
-
Zugang: Bald über Google One Premium (20 US-Dollar/Monat) oder Google Labs. Viele warten allerdings noch auf Freischaltung.
https://blog.google/products/search/ai-mode-search/
Virtuelles Try-On & KI-Shopping
-
KI-generierte Kleiderideen und Make-up „Anprobe“ direkt in Google Shopping. Aus generierten Beispielbildern schlägt Google ähnliche Kleidungsstücke oder Kosmetikprodukte vor.
https://blog.google/products/shopping/ai-vision-match-ar-beauty-virtual-try-on/
Google Sheets
-
Neue KI-Funktionen zur Datenanalyse: Korrelationen erkennen, Ausreißer finden, Diagramme vorschlagen. Insbesondere für Business-Nutzer von Workspace ein Schritt nach vorn.
https://blog.google/feed/workspace-feature-drop-ai-sheets/
Bild-/Video-Erkennung in Google Mobile
-
Google Lens auf Steroiden: Kamera freigeben, Frage stellen – KI erkennt Objekte im Live-Bild. Geplant erst einmal für Android, vorerst Google One Premium vorbehalten.
Scam-Detector im Messenger
-
Google warnt bei potenziellen Betrugs-SMS („falsche Nummer“, „falscher Termin“ etc.). Eine willkommene Neuerung, da solche Phishing-Nachrichten stark zunehmen.
https://www.theverge.com/news/623632/google-messages-pixel-android-updates-scam-detection
Google Labs: „Whisk Animate“
-
Aus Bildern (mit z. B. Google Whisk erzeugt) können jetzt bewegte Animationen werden – genaue Release-Termine fehlen, es heißt aber „bald verfügbar“.
https://x.com/labsdotgoogle/status/1897376700666626233
DuckDuckGo & Opera setzen auf KI-Suche
DuckDuckGo
-
Bietet unter duck.ai anonyme KI-Chats an (GPT 40, Claude etc.). Keine Speicherung und kein Training auf Nutzerdaten.
-
Auch AI-Assisted Answers direkt in den Suchergebnissen.
https://spreadprivacy.com/ai-feature-upgrade/
Opera
-
Neues Feature namens „Browser Operator“ in der Pipeline: Ein KI-Assistent, der Webseiten durchsucht und z. B. Produkte in den Warenkorb legt, Flüge heraussucht etc. Veröffentlichung: „bald“, genaues Datum noch unbekannt.
https://blogs.opera.com/news/2025/03/opera-browser-operator-ai-agentics/
Microsoft: Copilot-UI & mehr
Copilot erhielt ein UI-Update in Windows 11, wirkt nun aufgeräumter und besser in die Seitenleiste integriert. Außerdem arbeitet Microsoft an tieferen Integrationen, um z. B. E-Mail-Verwaltung, Office-Dokumente und Websuchen zusammenzubringen.
https://www.theverge.com/news/623889/microsoft-copilot-app-windows-native
Alibaba, Perplexity & Grok
Qwen QwQ-32B (Alibaba)
-
Neues Modell mit „nur“ 32 Milliarden Parametern, das im mathematisch-logischen Bereich (AIM24-Benchmark) auf Augenhöhe mit deutlich größeren Konkurrenzmodellen (DeepSeek R1) liegen soll.
-
Spannend für alle, die ein performantes, kleineres Modell suchen.
https://x.com/Alibaba_Qwen/status/1897361654763151544
Perplexity Voice Mode auf Mac
-
Wer Perplexity auch als Desktop-App auf macOS nutzt, kann jetzt per Spracheingabe Fragen stellen (Kombination aus Chat- und Voice-Assistent).
https://x.com/perplexity_ai/status/1897359263888236859
Grok Voice Mode (kostenlos für iOS)
-
Grok (Elon Musks xAI-Produkt) bietet indessen für alle iOS-Nutzer kostenlosen Zugang zur Sprachfunktion. Vorher war eine X-Premium-Plus-Mitgliedschaft notwendig.
https://x.com/ebbyamir/status/1897118801231249818
KI-Sprache & Audio: Neue Tools
Sesame AI
-
Fast wie im Film „Her“: Sehr menschlich klingende Stimmen, natürliche Pausen und Betonungen.
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
Podcastle
-
Wettbewerber zu Elevenlabs: Über 450 KI-Stimmen verfügbar; Möglichkeit, eigene Stimme zu trainieren.
-
Erste Tests klingen noch etwas „roboterhaft“, aber das Unternehmen verspricht schnelle Verbesserungen.
Call Center: KI glättet Akzente
-
Der größte Callcenter-Betreiber Teleperformance nutzt „Accent Translation“, um Mitarbeiter*innen aus Indien akustisch „neutraler“ klingen zu lassen.
-
Fluch und Segen zugleich: Bessere Verständlichkeit vs. möglicher Missbrauch (z. B. für Scam).
Video- & Bildmodelle: Tencent, Hedra & Tavus
Tencent: HunyuanVideo i2V
-
Open-Source-Modell zur KI-Videoerzeugung mit recht eindrucksvollen Beispielen (Tiere in Fantasie-Outfits, Pixar-artige Mini-Filme).
-
GitHub – keine öffentliche Demo bekannt, aber Early-Access-Clips sind vielversprechend.
https://x.com/TXhunyuan/status/1897558826519556325
Hedra Character-3
-
Neue Generation eines „Omnimodalen“ KI-Modells für Video, Bild und Audio.
-
Stimmen bisher nicht perfekt, aber die 3D-Figuren (inkl. Bewegung & Mimik) zeigen Potenzial.
https://x.com/hedra_labs/status/1897699010632466469
Tavus: Conversational Video
-
Setzt auf drei Modelle (Phoenix 3, Raven 0, Sparrow 0) für Gesichtserkennung, Mimik und Kontextverstehen in Echtzeit-Video.
-
Erste Live-Demo wirkt noch etwas roboterhaft, aber das KI-Video führt weitestgehend ein echtes Gespräch und reagiert auf sichtbare Objekte.
https://x.com/heytavus/status/1897700315182543021
KI spielt Super Mario & Co.
Ein kurioser Benchmark: KI muss das klassische 2D-Super-Mario-Spiel meistern – in Echtzeit mit Sprüngen, Gegnern usw.
-
Claude 3.7 schnitt am besten ab. GPT-4 & Co. reagierten teils zu langsam oder blieben an Hindernissen hängen. Spannende Entwicklung, die zeigt, wie Modelle mit schneller Bild- und Situationsverarbeitung umgehen können.
https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/
Apple: Neue Chips und „AI-fähige“ Hardware
-
M3 Ultra: Bis zu 512 GB an Unified Memory – das reicht für Lokales Laden riesiger Sprachmodelle (Apple spricht von „KI mit 600+ Mrd. Parametern“ auf einem Gerät).
-
Neue MacBook- und iPad-Generationen mit Fokus auf „Apple Intelligence“ – zeigt, dass Apple immer tiefer ins KI-Geschäft einsteigt, um Hard- & Software zu optimieren.
https://www.apple.com/newsroom/2025/03/apple-reveals-m3-ultra-taking-apple-silicon-to-a-new-extreme/
Mistral OCR & Windsurf Wave 4 (Codium)
Mistral OCR
-
Optical Character Recognition in Top-Qualität: Noch weniger Fehler bei Texten aus Bildern, PDFs usw.
-
Gerade für automatisierte Dokumentenverarbeitung ein Schritt nach vorn.
https://mistral.ai/news/mistral-ocr
Windsurf Wave 4 & MCP
-
Codium verbessert seine Code-KI. Wichtiges Stichwort: Model Context Protocol (MCP), ein Standard, damit LLMs Tools und APIs leichter einbinden können – ein Trend, der derzeit in der Developer-Community heiß diskutiert wird.
https://codeium.com/blog/windsurf-wave-4
Hybrid-KI: menschliche Neuronen und Silizium
Cortical Labs hat mit CL1 einen neuartigen Bio-Computer vorgestellt, der echte menschliche Gehirnzellen mit klassischer Hardware verbindet.
-
Anwendungen: Medizinische Forschung, Tests für neurologische Erkrankungen (z. B. Alzheimer), da das System komplexere Gehirnprozesse abbildet als reine Siliziumchips.
-
Skurril: Diese hybriden Zellen haben sogar das Spiel Pong gelernt.
https://newatlas.com/brain/cortical-bioengineered-intelligence/
Fazit
Von hochpreisigen KI-Agenten über Browser-Operatoren bis hin zur Verschmelzung menschlicher Neuronen mit Computerchips – das Feld der künstlichen Intelligenz entwickelt sich immer rasanter. Wohin es mit Modellen wie GPT-4.5 oder Qwen QwQ-32B geht, bleibt spannend – besonders, wenn Hardware (Apple, Cortical Labs) jetzt konsequent auf KI-Berechnungen ausgelegt wird.
Was denkt ihr? Ist ein Abo für 20.000 Dollar/Monat realistisch? Würdet ihr lieber in menschliches Expertenwissen investieren oder in eine KI, die (theoretisch) 24/7 forscht und programmiert?
Lasst es mich wissen, kommentiert gerne – und bis zur nächsten Ausgabe des KI-Newsletters!
Herzliche Grüße
Tobit
AI-Breakdown Newsletter
Verpassen Sie die KI-Revolution nicht! Wichtige News, Entwicklungen, Trends und Diskussionen rund um KI
Das könnte Sie auch interessieren
Verwandte Themen

AI-Breakdown | KW 10, 2025 – Claude 3.7, GPT-4.5 & Agenten

AI-Breakdown | KW 9, 2025 – Grok 3, zensiert & selbstlernend
