AI & Creativity – #3: What a Year in AI

von Dennis Oswald - Dezember 19, 2023

Was für ein Jahr für die Künstliche Intelligenz! Erst am 30. November 2022 erlebten wir den so oft zitierten "iPhone-Moment der KI" (manche würden sagen, den "Oppenheimer-Moment") mit der Veröffentlichung von ChatGPT-3. Innerhalb eines Jahres legte OpenAI mit neuen Modellen und einem Update nach, die Einführung von GPTs. Ganz zu schweigen von Sam Altmans verrückter Woche im November, die einen Einblick insichtlich KI und Macht gewährt.

Die vergangenen 1-2 Jahre waren für mich eine unerwartete und anhaltende wilde Fahrt. Seit dem ersten Blog-Beitrag am Oktober 2022 hatte ich die Gelegenheit, KI weiter zu erkunden und regelmäßig darüber zu schreiben, sowie darüber zu sprechen. Als Designer hielt ich kleine Präsentationen, Webinare, Vorträge und Reden auf Konferenzen (WSC23, Boye23) zum Thema "KI & Kreativität", um über die Möglichkeiten und Herausforderungen zu informieren, die die KI für unsere Arbeit und unser Leben mit sich bringen wird.

Der Veröffentlichungsrhythmus neuer KI-Tools, -Modelle und -Neuheiten wird immer schneller. Und, das könnte sogar erst der Anfang sein. Werfen wir einen Blick auf einige aktuelle Ereignisse:

Sich selbst im Bereich der Künstlichen Intelligenz weiterzubilden ist wichtiger denn je. KI-Tools können helfen die Effizenz zu steigern und somit für ihre Arbeit und Karriere ein Vorteil sein.
Die "etablierten" KI-Tools wie ChatGPT, Midjourney, Runway usw. haben sich weiterentwickelt und ihre Funktionen erweitert, z. B. Motion Brush.
Die nächste Generation von KI-Tools bietet neue Interaktionsmöglichkeiten und gibt Ihnen mehr Kontrolle über die Ergebnisse.
Neue KI-Anwendungen zur Generierung von Texten, Klängen, Bildern und Videos mischen den Wettbewerb, z. B. Heygen, Pika, Lyria, Krea.AI.

1. “KI wird Sie nicht ersetzen, aber eine Person, die KI einsetzt, schon.”

Dieses zitierte Mantra in der Überschrift findet sich in endlosen Variationen in unzähligen Quellen wieder. Kurz gesagt lautet die Aussage (oder die Hoffnung), dass die KI "Aufgaben" und nicht komplette "Arbeitsplätze" übernehmen wird - vorerst... wie Sam Altman ermutigend und entmutigend zugleich meint.

important point here: these systems are much better at doing tasks than jobs.

and giving people better tools to do their work faster often leads to qualitative changes in what they can do.

(of course, over the long run, we expect these systems will be able to do all of some of… https://t.co/ZAGkGjLST3
— Sam Altman (@sama) September 29, 2023

Es wird erwartet, dass sich KI auf die eine oder andere Weise stark auf alle unsere Arbeitsplätze auswirken wird (siehe WEF Future of Job Report 2023). So sollen mit KI Aufgaben schneller und effizienter gelöst werden, wie die Ergebnisse eines Arbeitsexperiments mit 758 Beratern in 18 Aufgabenbereichen der Boston Consulting Group mit der Harvard Business School aufzeigt:

"Bei jeder einzelnen von 18 realistischen Beratungsaufgaben, die im Grenzbereich der KI-Fähigkeiten lagen, waren Berater, die KI einsetzten, signifikant produktiver (sie erledigten im Durchschnitt 12,2 % mehr Aufgaben und erledigten die Aufgaben 25,1 % schneller) und produzierten signifikant hochwertigere Ergebnisse (mehr als 40 % höhere Qualität im Vergleich zu einer Kontrollgruppe)."

Harvard Business School Working Paper, No. 24-103, September 2023

KI-Tools werden Ihre Fähigkeiten und Ihre Karriere unabhängig von Ihrem Beruf verbessern. Deshalb sollten wir alle die grundlegenden Konzepte, Begriffe und Prozesse verstehen. So können wir darüber diskutieren, wie eine zukünftige "menschenzentrierte KI" aussehen sollte, bei der wir Menschen durch KI befähigen besser zu werden und nicht durch KI komplett ersetzen.

Hier einige “nicht-technischen” (kostenlosen) Online-Kurse oder Wissensquellen als Einstieg in das spannende Thema künstliche, bzw. generative Intelligenz:

DeepLearningAI

Ich bin ein grosser Fan von Andrew Ng. Seine Fähigkeit, komplexe Dinge verständlich und einfach zu erklären, ist eine Gabe.

AI for Everyone – Obwohl dieser Kurs vor Chat-GPT veröffentlicht wurde, erklärt er sehr gut die allgemeinen Konzepte der KI und ihre Möglichkeiten und Auswirkungen auf die Gesellschaft.
Generative AI for Everyone – Dieser aktuelle Kurs konzentriert sich auf generative KI, was kann und was nicht. Er bietet einen Überblick über Werkzeuge und deren Anwendung für die Arbeit und den Alltag.

AI Transformation Playbook

Landing AI bietet ein KI-Transformations-Playbook zum kostenlosen Download an, das helfen kann, Ihr Unternehmen mit KI zu transformieren, und skizziert dafür fünf Schritte:

Pilotprojekte durchführen, um ein Momentum zu kreieren.
Aufbau eines internen KI-Team
Breit angelegte KI-Schulungen anbieten
Entwicklung einer KI-Strategie
Entwicklung interner und externer Kommunikation

Google: Introduction to Generative AI

Google Cloud Skills Boost bietet einen kostenlosen Einsteigerkurs "Einführung in die generative KI" an, für den man ein Zertifikat erhalten kann.

People + AI Guidebook by PAIR

Diese Sammlung von Methoden, Best Practices und Beispielen für die Gestaltung mit KI basiert auf Erkenntnissen von Google-Mitarbeitenden, Branchenexperten und akademischer Forschung. Medium.com bietet ein zusammenfassendes Update über das Guidebook an.

Linkedin & Learning

Nutzen Sie ihren Linkedin-Stream, um sich über aktuelle Entwicklungen im Bereich zu informieren. Zudem Linkedin Learning auch eine Reihe von Kursen zu KI an, wie z.B.:

Diese Auflistung ist natürlich nicht abschliessend, aber die Kernaussage bleibt: Machen Sie sich für Ihre Arbeit, Ihre Karriere und Ihren Alltag mit KI vertraut!

Ich selbst suche immer nach kleinen Nebenprojekten die Freude bereiten, um mit neuen Themen (wie KI) anzufangen, auszuprobieren und zu lernen. Aus einem einfachen Grund, wenn man sich im spielerischen "Offenen Modus" befindet, hat man keine Angst vor Fehlern, dem Scheitern - in diesem Zusammenhang bitte schauen Sie sich John Cleese über Kreativität im Management an. Hier meine Empfehlung um sich mit dem Thema vertraut zu machen:

2. Updates and new tools and features are all over the place

Die führenden Firmen wie OpenAI, Microsoft, Meta, Google und Adobe haben alle den nächsten Schritt getan, um KI in ihre Ökosysteme und Anwendungen zu implementieren. Auch auf der Anwendungsebene gab es eine Menge Verbesserungen, innerhalb der "etablierten" Tools:

ChatGPT and GPTs

Am Montagabend, dem 5. November, nur ein paar Stunden vor meinem Vortrag auf der Boye Konferenz in Aarhus über UX & AI am nächsten Morgen, gab OpenAI ein wichtiges Update in ihrer ersten Entwicklerkonferenz bekannt, und ich war gezwungen rasch ein paar Folien zu aktualisieren. Zusammengefasst kündigten Sie folgendes an:

Ein neues Modell (schneller und billiger) und Entwicklerprodukte (Assistant API, Code-Interpreter)
Anpassbare Versionen von ChatGPT, so genannte GPTs, können für bestimmte Aufgaben auf benutzerdefinierten Daten trainiert werden.

Bei Netgen haben wir begonnen, mit Ideen zu GPT zu experimentieren, z. B. haben wir einen virtuellen, internen Teamkollegen namens "Net.Genius" aufgesetzt. Wir haben ihm einige grundlegende Kenntnisse (nichts Vertrauliches!) über unsere Dienstleistungen, unsere Teams und die Dinge, die wir mögen und tun, vermittelt. Auf dieser Grundlage könnte ein Chat mit "Net.Genius" helfen, die Kollegin, den Kollegen mit einer gesuchten Fähigkeiten zu finden, eine passende Auswahl von Cases für eine Präsentation zu finden oder einfach bei Übersetzungen ins Kroatische helfen, um "Happy Birthday" zu sagen.

Diese spezialisierten GPTs sind relativ einfach aufzusetzen und könnten ein wertvoller Sparringspartner bei vielen Aufgaben sein – vom Planen und Organisieren über das Schreiben oder Visualisieren bis hin zum Unterrichten oder Analysieren. Zumal OpenAI plant, einen GPT-Store einzuführen, in dem man seinen Bot anbieten (und damit Geld verdienen) kann, ähnlich wie im Apple App Store. Nur wenige Stunden nach der Veröffentlichung begannen die Leute, ihre Ideen zu entwickeln. Hier sind drei der ersten Beispiele:

Midjourney

Wenn es um die Visualisierung von Ideen und die Erstellung von Bildern geht, ist mein Tool der Wahl weiterhin Moment Midjourney.

Die Entwicklung in der Bilderzeugung in Midjourney (und anderen Werkzeugen, mehr dazu später) ist immer noch beeindruckend, wie diese Versionsübersicht der gleichen zwei Prompts (von v1 (Februar 2022) bis v5.2 (Juni 2023)) aufzeigt:

Noch beeindruckender, ein noch weiterer Schritt zurück von Jacques Alomo (Anmerkung: inzwischen kann man sogar auf 4096x4096px skalieren)

Daher freue ich mich bereits auf die Möglichkeiten der angekündigten Version 6 (Ende Dezember) und die neue Midjourney WebUI (kein Discord mehr), genannt "Midjourney Alpha." Im Moment kann man darauf leider nur zugreifen, wenn man mehr als 10.000 Bilder generiert hat. David Blum war so nett und stellte Screenshots zur Verfügung:

Runway

Runway ist ein fantastisches Werkzeug, um Bewegung in die Visualisierung von Konzepten zu bringen. Die Qualität und die Möglichkeiten, die Ergebnisse zu steuern, haben sich im letzten Jahr verbessert, wie man in Demovideos oder beim Runway Filmpreis gen:48 sehen kann.

Der neue "Motion Brush" ist ein grossartiges Werkzeug und haucht Visualisierungen Leben ein. Wenn Sie mehr über die Möglichkeiten von Runway erfahren möchten, schauen Sie sich die Runway Academy Erklärvideos an.

3. Bessere Kontrolle über die Prompt-Ergebnisse

Ein Trend bei allen Werkzeugen ist die bessere Kontrolle des Nutzers über die Eingabeaufforderung, insbesondere bei der Erstellung von Bildern oder Videos.

Stable Diffusion – ControlNet

ControlNet ermöglicht es Stable Diffusion Eingaben zu verarbeiten (Scribbles, Edge Maps, Pose Key Points, Tiefenkarten, Segmentierungskarten, etc.), die den Bilderzeugungsprozess steuern, was zu einer verbesserten Kontrolle über das generierte Ergebnis führt.

Im September 2023 teilte MrUgleh einen Workflow auf reddit, der mit seinen optischen Täuschungen ein neues Genre in der KI-Kunst entstehen liess.

Out now, The Original Spiral Town and Checkered Village. Posters, Canvas, Phone Case, Clock?!?!https://t.co/ksu4Rd1rDz

Keep your eyes out for altered, more aesthetic versions. Fixed windows, people, etc. Can't buy from Printify? Here are the blown-up copies. pic.twitter.com/puCeA1eQ39
— MrUgleh (@MrUgleh) September 22, 2023

Fasziniert von dieser neuen Art von Bildern, probierte ich "Illusion Diffusion", eine Web-GUI auf Hugginface.co, aus. Ich gab Form des Schweizer Kreuzes als Vorlage ein, um eine fiktive Schweizer Tourismus-Kampagne mit dem Namen "imagine {switzerland}" zu gestalten.

Animate Anyone

Diese Kontrolle ist nicht auf statische Bilder beschränkt, sondern hat ihren Weg auch in die Animation gefunden. Animate Anyone ermöglicht eine konsistente und kontrollierbare Bild-zu-Video-Synthese für Charakteranimation. Das Tool kann Videos von beliebigen Personen auf Basis eines einzigen statischen Bild erzeugen.

Real-time Reference

Andere KI-Tools, u.a. Leonardo.ai oder Krea.ai bieten weitere Möglichkeit an, zwischen Eingabe und Ausgabe zu steuern, wie z.B. Live Canvas oder Real-time Generation.

⚡ Leonardo Real Time Canvas

Have you already tested it? It's mind blowing! 🤯 pic.twitter.com/KHlBZmrJTq
— Javi Lopez ⛩️ (@javilopen) December 5, 2023

Um wieder von statischen Bildern zu Videos zu springen - Pika.art soll "Der ChatGPT-Moment für Video" sein, was die Kreativität bei der Erzeugung von Bewegung und der Bearbeitung von Videos durch Eingabeaufforderungen anbelangt.

Offen gesagt, gibt es keinen Grund, warum es bei zweidimensionalen Aufgaben bleiben sollte. Das Experiment aus dem Jahr 2022 des KI-Künstlers Sean Simon zeigt das Potenzial auf, wie Echtzeit-Eingaben die Zukunft von beispielsweise Architektur oder Ingenieurwesen verändern könnten.

Die künstliche Intelligenz wird immer leistungsfähiger. Sie wird schon bald dazu beitragen, die Lücke zwischen der realen Welt und der erweiterten bzw. virtuellen Realität zu schliessen, indem sie aus fast allem - Text, Ton, Skizzen, Bildern oder Scans - schnell 3D-Objekte erzeugt. Kombiniert mit einem intelligenten “Wearable” wie der neuen Brille von Meta & Ray-Ban oder, wenn man eine Preisstufe höher gehen möchte, mit der Apples Vision, könnten wir uns dem Punkt nähern, an dem diese Virtualität in unser tägliches Leben eintritt. - Einige Tool-Beispiele hat Grit Wolany (AI-Scout an der ZHdK) mit mir geteilt:

Blockade Labs: Erzeugt unendliche 360-Grad Welten über Texteingaben. z.B. "Nebliger lila Regenwald mit bunter Fauna und Glühwürmchen."

Genie: eine 3D-Fundamentmodell-Recherchevorschau von Luma, die auf Discord für Text-zu-3D oder kleinere Objekte läuft - z. B. "ein Fantasiebaum".

Luma.ai:

Luma zielt auf eine einfache 3D-Generierung über NeRFs oder Text-to-3D ab. Durch einfachen Texteingabe können 3D-Modelle erzeugt werden - z.B. ein Besuch im Museum.

So, das war's für dieses Mal. Viel Spass beim Erkunden der Links und der erwähnten KI-Tools.

Ich wünsche Ihnen allen “Fröhliche W-AI-nachten” und ein Frohes neues Jahr!

Stipendien 360°

von Dmytro Melnyk - Dezember 1, 2023