AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos

5 min lesen

März 2025

11:15

AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos

auch diese Woche war wieder reich an spannenden Neuigkeiten aus der Welt der KI. Von OpenAIs neuen Kostenplänen für KI-Agenten über Googles Fortschritte bei generativen Bildern bis zu erstaunlichen Projekten, die menschliche Neuronen mit Computerchips verschmelzen: Hier kommt eure kompakte Zusammenfassung.

OpenAIs neue „Agenten“-Pläne: 20.000 US-Dollar pro Monat?

Laut The Information erwägt OpenAI neue KI-Agenten‐Modelle, die in verschiedenen „Leistungsstufen“ angeboten werden könnten:

High-End (PhD-Level Research Agent) für rund 20.000 US-Dollar/Monat
Mid-Tier (Softwareentwicklung) um 10.000 US-Dollar/Monat
Low-End (Research Assistant) für etwa 2.000–5.000 US-Dollar/Monat

Die Idee dahinter: KI-Agenten, die mehr (autonome) Arbeit erledigen als der bisherige ChatGPT-Standard. Allerdings steht in den Raum, dass man für 20.000 US-Dollar/Monat auch sehr gute menschliche Experten engagieren könnte. Es bleibt spannend, wie sich das Preismodell etabliert.

https://www.theinformation.com/articles/openai-plots-charging-20-000-a-month-for-phd-level-agents

GPT-4.5 für ChatGPT Plus-Abonnenten

Nutzer*innen der kostenpflichtigen Plus-Version (20 US-Dollar/Monat) haben jetzt Zugriff auf GPT-4.5.

Erster Eindruck: Zunächst wirkte GPT-4.5 etwas unspektakulär. Aber insbesondere für kreative Schreibaufgaben, Zusammenfassungen und Gliederungen zeigt sich die neue Version inzwischen von ihrer starken Seite.
Nicht ideal für komplexe Rechenaufgaben: Für intensives Reasoning oder Programmierprobleme sollte man GPT-4 klassisch weiter nutzen.

https://x.com/sama/status/1897348424984617215

ChatGPT kann direkt Code editieren (macOS App)

OpenAIs macOS-App kann nun direkt in einer IDE (z. B. Visual Studio Code) Code verändern. Nach einer Generierung lassen sich die Änderungen mit einem Klick ins Projekt übernehmen. Das beschleunigt den Arbeitsablauf und zeigt, wie eng KI und Softwareentwicklung zusammenwachsen.

https://x.com/OpenAIDevs/status/1897700857833193955

Google: Neue „AI Mode“-Suche, Shopping-Features & mehr

Google AI Search

Funktionen: Ähnlich wie bei Perplexity oder Bing Chat werden Web-Ergebnisse zusammengefasst und mit Quellen versehen.
Zugang: Bald über Google One Premium (20 US-Dollar/Monat) oder Google Labs. Viele warten allerdings noch auf Freischaltung.

https://blog.google/products/search/ai-mode-search/

Virtuelles Try-On & KI-Shopping

KI-generierte Kleiderideen und Make-up „Anprobe“ direkt in Google Shopping. Aus generierten Beispielbildern schlägt Google ähnliche Kleidungsstücke oder Kosmetikprodukte vor.

https://blog.google/products/shopping/ai-vision-match-ar-beauty-virtual-try-on/

Google Sheets

Neue KI-Funktionen zur Datenanalyse: Korrelationen erkennen, Ausreißer finden, Diagramme vorschlagen. Insbesondere für Business-Nutzer von Workspace ein Schritt nach vorn.

https://blog.google/feed/workspace-feature-drop-ai-sheets/

Bild-/Video-Erkennung in Google Mobile

Google Lens auf Steroiden: Kamera freigeben, Frage stellen – KI erkennt Objekte im Live-Bild. Geplant erst einmal für Android, vorerst Google One Premium vorbehalten.

https://techcrunch.com/2025/03/03/googles-gemini-now-lets-you-ask-questions-using-videos-or-whats-on-your-screen/

Scam-Detector im Messenger

Google warnt bei potenziellen Betrugs-SMS („falsche Nummer“, „falscher Termin“ etc.). Eine willkommene Neuerung, da solche Phishing-Nachrichten stark zunehmen.

https://www.theverge.com/news/623632/google-messages-pixel-android-updates-scam-detection

Google Labs: „Whisk Animate“

Aus Bildern (mit z. B. Google Whisk erzeugt) können jetzt bewegte Animationen werden – genaue Release-Termine fehlen, es heißt aber „bald verfügbar“.

https://x.com/labsdotgoogle/status/1897376700666626233

DuckDuckGo & Opera setzen auf KI-Suche

DuckDuckGo

Bietet unter duck.ai anonyme KI-Chats an (GPT 40, Claude etc.). Keine Speicherung und kein Training auf Nutzerdaten.
Auch AI-Assisted Answers direkt in den Suchergebnissen.

https://spreadprivacy.com/ai-feature-upgrade/

Opera

Neues Feature namens „Browser Operator“ in der Pipeline: Ein KI-Assistent, der Webseiten durchsucht und z. B. Produkte in den Warenkorb legt, Flüge heraussucht etc. Veröffentlichung: „bald“, genaues Datum noch unbekannt.

https://blogs.opera.com/news/2025/03/opera-browser-operator-ai-agentics/

Microsoft: Copilot-UI & mehr

Copilot erhielt ein UI-Update in Windows 11, wirkt nun aufgeräumter und besser in die Seitenleiste integriert. Außerdem arbeitet Microsoft an tieferen Integrationen, um z. B. E-Mail-Verwaltung, Office-Dokumente und Websuchen zusammenzubringen.

https://www.theverge.com/news/623889/microsoft-copilot-app-windows-native

Alibaba, Perplexity & Grok

Qwen QwQ-32B (Alibaba)

Neues Modell mit „nur“ 32 Milliarden Parametern, das im mathematisch-logischen Bereich (AIM24-Benchmark) auf Augenhöhe mit deutlich größeren Konkurrenzmodellen (DeepSeek R1) liegen soll.
Spannend für alle, die ein performantes, kleineres Modell suchen.

https://x.com/Alibaba_Qwen/status/1897361654763151544

Perplexity Voice Mode auf Mac

Wer Perplexity auch als Desktop-App auf macOS nutzt, kann jetzt per Spracheingabe Fragen stellen (Kombination aus Chat- und Voice-Assistent).

https://x.com/perplexity_ai/status/1897359263888236859

Grok Voice Mode (kostenlos für iOS)

Grok (Elon Musks xAI-Produkt) bietet indessen für alle iOS-Nutzer kostenlosen Zugang zur Sprachfunktion. Vorher war eine X-Premium-Plus-Mitgliedschaft notwendig.

https://x.com/ebbyamir/status/1897118801231249818

KI-Sprache & Audio: Neue Tools

Sesame AI

Fast wie im Film „Her“: Sehr menschlich klingende Stimmen, natürliche Pausen und Betonungen.

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

Podcastle

Wettbewerber zu Elevenlabs: Über 450 KI-Stimmen verfügbar; Möglichkeit, eigene Stimme zu trainieren.
Erste Tests klingen noch etwas „roboterhaft“, aber das Unternehmen verspricht schnelle Verbesserungen.

https://techcrunch.com/2025/03/03/podcasting-platform-podcastle-launches-a-text-to-speech-model-with-more-than-450-ai-voices/

Call Center: KI glättet Akzente

Der größte Callcenter-Betreiber Teleperformance nutzt „Accent Translation“, um Mitarbeiter*innen aus Indien akustisch „neutraler“ klingen zu lassen.
Fluch und Segen zugleich: Bessere Verständlichkeit vs. möglicher Missbrauch (z. B. für Scam).

https://www.bloomberg.com/news/articles/2025-02-27/teleperformance-uses-ai-to-neutralize-workers-indian-accents?embedded-checkout=true

Video- & Bildmodelle: Tencent, Hedra & Tavus

Tencent: HunyuanVideo i2V

Open-Source-Modell zur KI-Videoerzeugung mit recht eindrucksvollen Beispielen (Tiere in Fantasie-Outfits, Pixar-artige Mini-Filme).
GitHub – keine öffentliche Demo bekannt, aber Early-Access-Clips sind vielversprechend.

https://x.com/TXhunyuan/status/1897558826519556325

Hedra Character-3

Neue Generation eines „Omnimodalen“ KI-Modells für Video, Bild und Audio.
Stimmen bisher nicht perfekt, aber die 3D-Figuren (inkl. Bewegung & Mimik) zeigen Potenzial.

https://x.com/hedra_labs/status/1897699010632466469

Tavus: Conversational Video

Setzt auf drei Modelle (Phoenix 3, Raven 0, Sparrow 0) für Gesichtserkennung, Mimik und Kontextverstehen in Echtzeit-Video.
Erste Live-Demo wirkt noch etwas roboterhaft, aber das KI-Video führt weitestgehend ein echtes Gespräch und reagiert auf sichtbare Objekte.

https://x.com/heytavus/status/1897700315182543021

KI spielt Super Mario & Co.

Ein kurioser Benchmark: KI muss das klassische 2D-Super-Mario-Spiel meistern – in Echtzeit mit Sprüngen, Gegnern usw.

Claude 3.7 schnitt am besten ab. GPT-4 & Co. reagierten teils zu langsam oder blieben an Hindernissen hängen. Spannende Entwicklung, die zeigt, wie Modelle mit schneller Bild- und Situationsverarbeitung umgehen können.

https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/

Apple: Neue Chips und „AI-fähige“ Hardware

M3 Ultra: Bis zu 512 GB an Unified Memory – das reicht für Lokales Laden riesiger Sprachmodelle (Apple spricht von „KI mit 600+ Mrd. Parametern“ auf einem Gerät).
Neue MacBook- und iPad-Generationen mit Fokus auf „Apple Intelligence“ – zeigt, dass Apple immer tiefer ins KI-Geschäft einsteigt, um Hard- & Software zu optimieren.

https://www.apple.com/newsroom/2025/03/apple-reveals-m3-ultra-taking-apple-silicon-to-a-new-extreme/

Mistral OCR & Windsurf Wave 4 (Codium)

Mistral OCR

Optical Character Recognition in Top-Qualität: Noch weniger Fehler bei Texten aus Bildern, PDFs usw.
Gerade für automatisierte Dokumentenverarbeitung ein Schritt nach vorn.

https://mistral.ai/news/mistral-ocr

Windsurf Wave 4 & MCP

Codium verbessert seine Code-KI. Wichtiges Stichwort: Model Context Protocol (MCP), ein Standard, damit LLMs Tools und APIs leichter einbinden können – ein Trend, der derzeit in der Developer-Community heiß diskutiert wird.

https://codeium.com/blog/windsurf-wave-4

Hybrid-KI: menschliche Neuronen und Silizium

Cortical Labs hat mit CL1 einen neuartigen Bio-Computer vorgestellt, der echte menschliche Gehirnzellen mit klassischer Hardware verbindet.

Anwendungen: Medizinische Forschung, Tests für neurologische Erkrankungen (z. B. Alzheimer), da das System komplexere Gehirnprozesse abbildet als reine Siliziumchips.
Skurril: Diese hybriden Zellen haben sogar das Spiel Pong gelernt.

https://newatlas.com/brain/cortical-bioengineered-intelligence/

Fazit

Von hochpreisigen KI-Agenten über Browser-Operatoren bis hin zur Verschmelzung menschlicher Neuronen mit Computerchips – das Feld der künstlichen Intelligenz entwickelt sich immer rasanter. Wohin es mit Modellen wie GPT-4.5 oder Qwen QwQ-32B geht, bleibt spannend – besonders, wenn Hardware (Apple, Cortical Labs) jetzt konsequent auf KI-Berechnungen ausgelegt wird.

Was denkt ihr? Ist ein Abo für 20.000 Dollar/Monat realistisch? Würdet ihr lieber in menschliches Expertenwissen investieren oder in eine KI, die (theoretisch) 24/7 forscht und programmiert?

Lasst es mich wissen, kommentiert gerne – und bis zur nächsten Ausgabe des KI-Newsletters!

Herzliche Grüße

Tobit

Themen: KI Neuigkeiten

Vorheriger Artikel

← AI-Breakdown | KW 10, 2025 – Claude 3.7, GPT-4.5 & Agenten

Nächster Artikel

AI-Breakdown | KW 12, 2025 – Ethik, Agenten & China →

AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos

AI-Breakdown | KW 11, 2025 – 20.000$, Stimmenvielfalt & Videos

OpenAIs neue „Agenten“-Pläne: 20.000 US-Dollar pro Monat?

GPT-4.5 für ChatGPT Plus-Abonnenten

ChatGPT kann direkt Code editieren (macOS App)

Google: Neue „AI Mode“-Suche, Shopping-Features & mehr

Google AI Search

Virtuelles Try-On & KI-Shopping

Google Sheets

Bild-/Video-Erkennung in Google Mobile

Scam-Detector im Messenger

Google Labs: „Whisk Animate“

DuckDuckGo & Opera setzen auf KI-Suche

DuckDuckGo

Opera

Microsoft: Copilot-UI & mehr

Alibaba, Perplexity & Grok

Qwen QwQ-32B (Alibaba)

Perplexity Voice Mode auf Mac

Grok Voice Mode (kostenlos für iOS)

KI-Sprache & Audio: Neue Tools

Sesame AI

Podcastle

Call Center: KI glättet Akzente

Video- & Bildmodelle: Tencent, Hedra & Tavus

Tencent: HunyuanVideo i2V

Hedra Character-3

Tavus: Conversational Video

KI spielt Super Mario & Co.

Apple: Neue Chips und „AI-fähige“ Hardware

Mistral OCR & Windsurf Wave 4 (Codium)

Mistral OCR

Windsurf Wave 4 & MCP

Hybrid-KI: menschliche Neuronen und Silizium

Fazit

AI-Breakdown Newsletter

Das könnte Sie auch interessieren

AI Breakdown | KW 2, 2025 – Aktenberge, Verspätungen & 2025

AI-Breakdown | KW 25, 2025 – 15 Milliarden, 10 Stunden und 2030

AI Breakdown | KW 50, 2024 – 200$, Sora, Untertitel und das Wetter

KI Social Media Playbook

Verpassen Sie die KI-Revolution nicht!