Prompt Generations #2: “L’origine e la storia di una rivoluzione: OpenAI”

di Ennio Bianco.

Prompt Generations #2: "L'origine e la storia di una rivoluzione: OpenAI"

Leggi anche: Prompt Generations #1: “L’Intelligenza Artificiale libera l’immaginazione” | Prompt Generations #2: “L’origine e la storia di una rivoluzione: Open AI” | Prompt Generations #3: “E’ Arte o non è Arte, è Arte o non è Arte, …” | Prompt Generations – Exhibition in Virtual Gallery 3d

Il merito di aver aperto la strada alla generazione di immagini sfruttando le potenzialità dell’Intelligenza Artificiale, un vera e propria rivoluzione, è senz’altro da attribuire ad un’organizzazione non a scopo di lucro fondata nel dicembre 2015 da Elon Musk, Sam Altman, e altri investitori: OpenAI. Questa organizzazione “si occupa di ricerca sull’intelligenza artificiale con lo scopo di promuovere e sviluppare un’intelligenza artificiale amichevole in modo che l’umanità possa trarne beneficio.” (Wikipedia).

Verso la fine di maggio del 2020 un gruppo di 31 ingegneri e ricercatori di OpenAI ha descritto lo sviluppo di GPT-3 come un “Modello linguistico all’avanguardia” di terza generazione in grado di produrre un testo simile al linguaggio naturale umano e ne annuncia il lancio. GPT-3 è alimentato da 175 miliardi di informazioni. Circa un mese dopo, alcune persone hanno potuto richiedere l’accesso alla versione beta di GPT-3, per aiutare OpenAI a “esplorare i punti di forza e i limiti” di questa nuova tecnologia.

Nel gennaio del 2021 viene annunciato DALL-E (una crasi fra i nomi di Salvador Dalí e del robot della Pixar WALL-E). DALL-E, un Modello di transformer che crea immagini da descrizioni testuali, utilizza una versione di 12 miliardi di parametri di GPT-3 per interpretare gli input del linguaggio naturale e generare corrispondenti immagini. Qualche mese dopo viene annunciato DALL-E 2, il successore di DALL-E, progettato per generare immagini più realistiche e risoluzioni più elevate che “possono combinare concetti, attributi e stili”. I primi risultati provocano grande stupore, ma l’accesso alla versione beta di DALL-E 2 è riservato a poche persone ammesse alla sperimentazione.

DALL-E 2

Il 28 settembre del 2022 finalmente DALL-E 2 di OpenAI diventa utilizzabile senza doversi iscrivere nelle liste d’attesa. Fra le funzionalità più apprezzate da parte degli utenti ve ne sono due molto importanti: l’inpainting e l’outpainting . L’inpainting è la possibilità di apportare delle modifiche all’interno di una immagine generata. L’outpainting è la possibilità di estendere con la propria creatività i confini originali dell’immagine, aggiungendo elementi visivi nello stesso stile o portando la composizione in nuove direzioni, e ciò semplicemente utilizzando una descrizione in linguaggio naturale.

Nel frattempo, il mondo della ricerca che si occupa di applicazioni text-to-image non è rimasto a guardare, anzi sono successe molte cose. Vediamone alcune:

Nel maggio 2022 il Team Brain di Google Research presenta Imagen, un modello text-to-image con un grado di fotorealismo senza precedenti grazie ad un profondo livello di comprensione del linguaggio. Tuttavia, l’accesso alla versione beta di Imagen resta anch’esso contingentato, ufficialmente per proteggere la società da cause legali derivanti da un uso improprio dello strumento, pensiamo per esempio alla pericolosità dei deepfake.

Nel luglio 2022 Midjourney, un laboratorio di ricerca indipendente, che produce un programma di intelligenza artificiale proprietario in grado di creare immagini da descrizioni testuali, quindi simili a DALL-E di OpenAI e Stable Diffusion, annuncia che la propria versione è aperta a tutti.

Midjourney

Secondo David Holz fondatore e CEO di Midjourney, una start-up di San Francisco, esso si caratterizza per l’enfatizzazione dell’estetica pittorica nelle immagini. Quindi intende rivolgersi soprattutto ad artisti professionisti. Il suo successo è stato subito planetario, non solo perché permette anche a principianti di sviluppare in pochi minuti la loro creatività immaginativa, ma soprattutto è dovuto a vari motivi, il primo dei quali al fatto che gli accessi ai due principali modelli text-to-image,DALL-E 2 di Open AI e Imagen di Google, erano contingentati.

Ma non solo a questo. Per operare con la versione beta di Midjourney, c’è bisogno di un account Discord, una piattaforma di messaggistica istantanea che permette l’invio dei prompt al modello Midjourney. Le domande che tutti si pongono appena entrati per la prima volta sono: “perché dover passare per Discord?”, “perché entrare in una piattaforma dove tutte le creazioni sono condivise, in altre parole tutti i prompt sono copiabili?” e infine “perché alcuni prompt vengono rifiutati?”.

La prima domanda trova una sua spiegazione nella strategia produttiva di Midjourney, che con questa scelta non ha dovuto creare una propria interfaccia utente, ma semplicemente una applicazione limitata., risparmiando così un’enorme quantità di tempo a programmatori, consentendo loro di concentrare gli sforzi sul miglioramento della generazione delle immagini.

La condivisione delle creazioni, che apparentemente sembra un grosso limite, ogni creativo è geloso dei propri risultati, in realtà ha fatto la fortuna di Midjourney, perché è stato straordinariamente utile per aumentare l’esperienza e il coinvolgimento degli utenti. Le persone hanno imparato dagli altri in tempo reale e ciò ha consentito loro di raggiungere formidabili risultati in breve tempo. Forse è presto per affermarlo, ma sta diventando un anti-tweeter, un social network di nuovo tipo.

Per rispondere alla terza domanda occorre dire che Discord opera anche come censore, sempre per il solito motivo: la potenza di elaborazione dei modelli text-to-image permette la creazione di deepfake e quindi può generare seri problemi legali all’azienda.

In conclusione una volta creato un account su Discord, si potrà accedere a Midjourney selezionando “Join the Beta”.

Il 5 settembre 2022 viene annunciato il rilascio pubblico della versione open di Stable Diffusion di Stability.ai. Il Modello si basa sul lavoro del team di CompVis della Ludwig Maximilian University di Monaco e della società Runway e il supporto tecnico di Hugging Face. Il codice del modello di Stable Diffusion viene rilasciato in versione open, quindi, può essere modificato e può essere eseguito anche sulla maggior parte dei computer di casa purché dotati di una GPU (Graphics Processing Unit). In alternativa si può utilizzare Colaboratory, o “Colab“, un prodotto di Google Research che consente a chiunque di eseguire dei programmi, senza richiedere alcuna configurazione, fornendo al contempo l’accesso gratuito alle risorse di elaborazione, comprese le GPU.

Questa ampia gamma di possibilità ha permesso il diffondersi di molte versioni riconducibili a Stable Diffusion; quindi oltre a quella “ufficiale” denominata Dream Studio, troviamo anche quella distribuita su web da Hugging Face, poi Dezgo, NightCafè, Canva, Mage, Runway, e molte altre.

Un dettaglio non di poco conto, Mage, consente a chiunque di generare contenuti NSFW (Not safe for work) direttamente all’interno del browser, in altre parole nessuna censura rispetto a contenuti sessualmente espliciti, volgari o potenzialmente offensivi.
Ennio Bianco

PIANO DI LETTURA
Prompt Generations #1: “L’Intelligenza Artificiale libera l’immaginazione”
Prompt Generations #2: “L’origine e la storia di una rivoluzione: Open AI”
Prompt Generations #3: “E’ Arte o non è Arte, è Arte o non è Arte, …”

LA MOSTRA
Prompt Generations – Mostra virtuale interattiva 3d
A cura di Ennio Bianco, Pier Giorgio De Pinto
Opere di Vladimir Alexeev aka Merzmensch (DE), Alan Bogana (CH), Julian Bonequi (MX), Marco Cadioli (IT), Mattia Casalegno (IT), Pier Giorgio De Pinto (CH/IT), Dogan Erdal (TR), Marc Librescu (USA), Patrick Lichty (USA), Sabrina Rattè (CA)