auch diese Woche war wieder viel Bewegung in der KI-Welt – von neuen Modellen bei OpenAI und Google bis zu innovativen Bild- und Video-Generierung-Features. Hier kommt ein kompaktes Update für alle, die stets am Puls der AI-Zeit bleiben möchten.
Erweiterte Funktionen: ChatGPT (Plus/Pro) kann jetzt Bilder nicht nur erzeugen, sondern auch bestehende Bilder per Textanweisung verändern (Hintergrund entfernen, Text einfügen, Stil ändern u. v. m.).
Mehr Kreativität: Besonders beliebt sind die Experimente im „Studio-Ghibli-Stil“ oder im Look bekannter Cartoons und Games.
UI-Vorteil: Statt komplizierter Software reicht ein einfacher Chat mit textbasierten Anweisungen. Damit „fühlt“ es sich an, als würdet ihr mit einer menschlichen Grafikerin sprechen. https://openai.com/index/introducing-4o-image-generation/ https://www.theverge.com/news/636948/openai-chatgpt-image-generation-gpt-4o
1-Million-Token-Kontext: Google hat sein bisher leistungsstärkstes Modell vorgestellt, das bis zu 1 Mio. Tokens (ca. 750.000 Wörter) gleichzeitig verarbeiten kann.
Beeindruckende Geschwindigkeit: Trotz des großen Kontextfensters reagiert Gemini 2.5 sehr flott.
Kostenloser Test: Über AI Studio von Google könnt ihr das Modell frei ausprobieren – ideal, um riesige Texte oder ganze Bücher auf einmal analysieren zu lassen. https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/ https://x.com/OfficialLoganK/status/1904925675892728179
Ketten von Gedanken (Chain-of-Thought): In Microsoft 365 Copilot integriert. Ihr könnt unstrukturierte Daten (z. B. Excel-Tabellen) hochladen und per Chat analysieren lassen.
Agent-Flows für Unternehmen: Mit dem Copilot Studio können Teams eigene KI-Agents aufbauen, die interne Datenquellen anzapfen und komplexe Business-Fragen beantworten. https://www.microsoft.com/en-us/microsoft-365/blog/2025/03/25/introducing-researcher-and-analyst-in-microsoft-365-copilot/
Verbesserungen bei GPT-4o: Noch bessere Befolgung mehrteiliger Anweisungen und höheres technisches & kreatives Verständnis. https://x.com/OpenAI/status/1905331956856050135
MCP-Standard: OpenAI unterstützt nun das von Anthropic eingeführte „Model Context Protocol“ – einheitliche Schnittstelle, damit KI-Modelle einfacher mit Tools/Apps interagieren können. https://techcrunch.com/2025/03/26/openai-adopts-rival-anthropics-standard-for-connecting-ai-models-to-data/
Google Meet: Neue Meeting-Zusammenfassung mit direkten Verlinkungen zum passenden Teil des Transkripts. https://blog.google/products/workspace/workspace-feature-drop-gemini-google-meet/
Google Maps: Screenshots (z. B. mit Ortsnamen) werden erkannt, sodass Maps sie in eure Reiseplanung einbindet. https://www.engadget.com/gaming/nintendo/google-can-save-locations-you-screenshot-in-maps-to-help-with-travel-planning-170144012.html
TxGemma: Offenes Modell für schnellere Wirkstoff- und Medikamentenforschung, basierend auf DeepMind-Technologien. https://developers.googleblog.com/en/introducing-txgemma-open-models-improving-therapeutics-development/
Anthropic & Claude: Spekulation über 500k-Token-Kontextfenster für Claude 3.7. https://www.testingcatalog.com/anthropic-may-soon-launch-claude-3-7-sonnet-with-500k-token-context-window/
Grok in Telegram: xAI’s Grok-Chatbot kann jetzt direkt in Telegram genutzt werden (erfordert Telegram- und X-Premium). https://www.socialmediatoday.com/news/x-formerly-twitter-integrates-grok-ai-chatbot-telegram/743652/
Perplexity: Neue Such-Kategorien (z. B. Bildersuche, Reisen, Shopping) in der Web-App – Google-Style-Suche direkt in Perplexity. https://x.com/perplexity_ai/status/1904566323201687848
Deep Seek V3 Update: „R1“-Modell von Deep Seek war bereits in aller Munde. Das zugrunde liegende V3 soll jetzt noch schneller und besser sein – sogar auf Apples M3 Ultra soll es lokal laufen. https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/
Alibaba: Zwei neue Modelle: „Qwen 2.5 VL“ (visuelle Erkennung und Sprachverstehen kombiniert) und „QvQ Max“ für bildgestütztes Reasoning. Beide sind quelloffen verfügbar. https://x.com/Alibaba_Qwen/status/1904227859616641534 https://qwenlm.github.io/blog/qvq-max-preview/
Reve AI: Modell mit Top-Bewertungen (Bildgenerierung & Editing). Vergleichbar mit ChatGPTs Vision-Modul, nur ohne den großen Hype. https://x.com/reveimage/status/1904211082870456824 https://venturebeat.com/ai/the-new-best-ai-image-generation-model-is-here-say-hello-to-reve-image-1-0/
Idiogram 3.0: Spezialisiert auf korrekte Texte in Bildern (Plakate, Schilder, Infografiken). Kostenlos nutzbar. https://x.com/ideogram_ai/status/1904927717281456188
Luma AI & Pika Labs: Verbesserte Sortierungen, höhere Auflösung und Sound liefern die neuensten Updates https://x.com/LumaLabsAI/status/1904928323441959348 https://x.com/pika_labs/status/1905364208167874852
Earth AI: Identifiziert mithilfe von KI bislang unentdeckte Mineralien-Lagerstätten (z. B. für Kupfer, Kobalt, Gold). Spannende reale Use Cases abseits von Chatbots und Bilderzeugung! https://techcrunch.com/2025/03/25/earth-ais-algorithms-found-critical-minerals-in-places-everyone-else-ignored/
Immer mehr KI-Modelle ermöglichen komplexe Analysen, generieren Bilder/Videos und agieren dabei wie menschliche Experten.
Gleichzeitig entstehen riesige Kontextfenster (Gemini 2.5, Claude). Für Nutzer bedeutet das: mehr Freiheit, größere Datensätze und weniger Schritt-für-Schritt-Zerlegung.
Teilt gern eure Gedanken: Nutzt ihr bereits KI zum Bearbeiten von Bildern oder Videos? Habt ihr Erfahrungen mit großen Kontextfenstern oder den neuen Microsoft- bzw. Google-Features? Schreibt mir eure Eindrücke und Fragen – und bleibt wie immer neugierig!
Bis zur nächsten Ausgabe,
Herzliche Grüße Tobit
PS: Welche Aprilscherze habt ihr bis jetzt entdeckt?