Un particolare sito web serve a ricordare i limiti dell’Intelligenza Artificiale (AI), sottolineando come la grafica generata dall’AI possa essere parziale e al contempo molto rigida e scontata.
Deep Agency è uno studio fotografico e un’agenzia di modelle alimentati dall’intelligenza artificiale, fondata da uno sviluppatore olandese. Per 29 dollari al mese è possibile acquistare ritratti di alta qualità di se stessi in varie ambientazioni.
È anche possibile utilizzare il servizio per creare fotografie di modelli AI sulla base di una richiesta specifica. “Assumete modelli virtuali e create un gemello virtuale di voi stessi utilizzando un avatar. Dite addio ai servizi fotografici tradizionali e migliorate il vostro gioco fotografico”, suggerisce il sito web.
La piattaforma, disponibile in tutto il mondo, secondo il suo sviluppatore, Danny Postma, impiega i più recenti modelli di intelligenza artificiale da testo a immagine, il che comporterebbe un modello come DALL-E 2. È possibile modificare il proprio scatto sulla piattaforma selezionando la posizione del modello e inserendo nuove istruzioni su ciò che si desidera che esegua.
Table of Contents
L’intelligenza artificiale (AI) nell’arte e la fotografia
Questo sito web fa l’esatto contrario di rendere obsoleti modelli, fotografi e altri creativi. È vero che Postma avverte su Twitter che il sito è “in open beta” e che “le cose falliranno”. Ma usarlo lascia effettivamente l’impressione che si tratti di una versione glorificata di DALL-E 2 in cui è consentito creare solo modelli femminili. Il sito web serve poi a ricordare gli inconvenienti dell’IA, sottolineando come le foto generate dall’IA possano essere distorte, oltre che rigide e ovvie da identificare.
Il sito ora crea solo foto di donne, a meno che non si paghi un abbonamento, che sblocca altri tre modelli – una donna e due uomini – e consente di inviare le proprie immagini per creare un “gemello AI”. Attualmente il prompt richiede di inserire “sks female” per far funzionare il modello.
Per generare un’immagine è possibile scegliere tra diverse impostazioni, tra cui “tempo e meteo”, “fotocamera”, “obiettivo e apertura”, “velocità dell’otturatore” e “illuminazione”. Non sembra che nessuna di queste impostazioni sia stata ancora impostata, dato che la maggior parte delle immagini generate sono lo stesso ritratto femminile illuminato da uno sfondo molto sfocato.
Anche se nel catalogo si è scelta l’immagine di una donna di razza o aspetto diverso, quando si utilizza il prompt per dire “sks femmina”, viene automaticamente creata l’immagine di una donna bianca e bionda. Se si desidera modificare l’aspetto della modella, è necessario includere frasi aggiuntive che definiscano razza, età e altri parametri demografici.
Il notevole precedente di Dall-E
In precedenza è stato dimostrato che nel generatore di testo-immagine DALL-E 2 di OpenAI sono stati inseriti dei pregiudizi. Per esempio, quando si chiede di creare un’immagine di “un’assistente di volo”, il generatore crea esclusivamente immagini femminili, mentre quando si chiede di creare un’immagine di “un amministratore delegato”, crea principalmente immagini di uomini bianchi. Anche se l’azienda ha riconosciuto che sta cercando di migliorare il suo sistema, è stato difficile per OpenAI identificare le cause precise dei pregiudizi ed eliminarli. Esempi come questo si verificano spesso. L’uso di uno studio d’immagine basato su un modello distorto comporta inevitabilmente gli stessi problemi.
In un momento in cui il settore delle modelle è già stato sottoposto a forti pressioni per diversificare i propri modelli, questo generatore di modelli AI cade a fagiolo. Dopo un’intensa reazione da parte dell’opinione pubblica, quella che prima era una professione chiusa con un unico standard di corpo e immagine si è aperta ai modelli comuni, compresi quelli lanciati dalle strade e da siti come Instagram e TikTok. Anche se c’è ancora molta strada da fare in termini di rappresentazione nel mondo dell’alta moda, gli individui hanno iniziato a produrre il proprio materiale inclusivo di stile sui social media, dimostrando che i consumatori amano il “modello” più accessibile e informale – sotto forma di influencer.
La controversa questione degli Avatar generati da Intelligenza artificiale
In un’e-mail a Motherboard, Simon Chambers, direttore dell’agenzia di modelle Storm Management, ha dichiarato che, sebbene gli avatar AI potrebbero essere utilizzati al posto delle persone reali,
“L’avvertenza è che le immagini convincenti hanno bisogno di creatività ed emozione, quindi la nostra idea, nel prossimo futuro, è che i talenti creati dall’AI funzionerebbero meglio su immagini di base utilizzate per semplici scopi di riferimento. Piuttosto che per il marketing o la promozione in cui è necessario stabilire una relazione con il cliente. Ma gli avatar offrono anche una possibilità, poiché è ipotizzabile che in futuro artisti famosi abbiano i loro gemelli digitali che funzionano nel metaverso o in metaversi separati.”
Un’agenzia come Storm dovrebbe gestire sia le attività commerciali del talento reale che quelle del suo avatar. Sebbene la questione sia stata ampiamente affrontata, sembra che il metaverso debba ancora progredire prima di trarre veramente beneficio.
Poiché i modelli generati dall’intelligenza artificiale di Deep Agency non possono essere creati con marchi specifici o per contenere prodotti di marca, è difficile prevedere per cosa saranno utilizzati.
Una previsione che arriva da molto lontano
Il concetto di modello AI è stato preso in considerazione per anni. In un articolo del 2020 per Vogue, la modella Sinead Bovell ha previsto che l’intelligenza artificiale sostituirà presto gli esseri umani nella forza lavoro. Non si trattava di modelli generati dall’intelligenza artificiale, ma di modelli in CGI, come Miquela Sousa, nota come Lil Miquela su Instagram e con quasi 3 milioni di follower. Ha un proprio arco caratteriale e ha collaborato con aziende come Samsung e Prada. Secondo Bovell, i modelli di intelligenza artificiale in grado di camminare, parlare e agire rappresentano il passo successivo ai modelli CGI. Citando una startup chiamata DataGrid che ha prodotto una serie di modelli utilizzando l’intelligenza artificiale generativa nel 2019.
Al contrario, le fotografie di Deep Agency sono molto meno tridimensionali e ci riportano alla questione della privacy nelle immagini AI. Nei suoi Termini e condizioni, Deep Agency afferma di utilizzare un sistema di IA che è stato addestrato su set di dati aperti. Pertanto, è possibile che queste foto siano somiglianti a donne reali provenienti da fotografie precedenti. Secondo Motherboard, il dataset LAION-5B, un dataset open-source utilizzato per addestrare sistemi come DALL-E e Stable Diffusion, conteneva diverse fotografie di persone reali senza il loro consenso, tra cui foto di teste e scansioni mediche.
Lensa A.I
Lensa A.I., una popolare applicazione che permetteva agli utenti di creare fotografie di se stessi su vari sfondi utilizzando l’intelligenza artificiale, è stata recentemente oggetto di critiche per una serie di problemi di copyright e di privacy. Numerosi artisti hanno utilizzato il set di dati LAION-5B come prova che l’app violava il loro copyright, poiché un modello addestrato sul set di dati aveva sfruttato il loro lavoro a loro insaputa o senza il loro consenso. Molti hanno criticato le affermazioni dell’app secondo cui le foto erano state create da zero, perché le immagini prodotte presentavano firme di artisti distorte.
Il fatto che nell’angolo in basso a destra di molte delle fotografie prodotte da Motherboard siano visibili scritte bianche confuse suggerisce che Deep Agency sta già affrontando un problema simile. Mentre molti servizi fotografici, come Getty, chiedono centinaia di dollari per l’utilizzo di un singolo scatto, il sito sostiene che gli utenti possono utilizzare le fotografie create ovunque e per qualsiasi cosa. Questo sembra essere parte della proposta di valore del sito, che consiste nell’essere un metodo poco costoso per creare immagini realistiche.
Le risposte di OpenAI
Sam Altman, amministratore delegato di OpenAI, ha spesso sottolineato la necessità di valutare attentamente le applicazioni dell’Intelligenza Artificiale (AI). Sebbene gli strumenti di AI della generazione attuale non siano particolarmente pericolosi, Altman ha dichiarato in un tweet del mese scorso:
“Penso che forse non siamo così lontani da quelli potenzialmente pericolosi”. In questo scenario, è interessante osservare come uno strumento di AI ci spinga davvero indietro e più vicino a un cast esclusivo di modelli. È fondamentale avere il tempo di capire cosa sta accadendo, come le persone vogliono utilizzare questi strumenti e come la società può co-evolversi.”
“L’IA accelererà e snellirà molti processi aziendali e troverà spazio nel nostro settore”, ha dichiarato Chambers di Storm. “Ma scommettiamo che, per il momento, le persone reali continueranno a guidare e ispirare!”.
I recenti sviluppi dei media prodotti dall’intelligenza artificiale si trovano ovunque. Compresi i film creati dall’intelligenza artificiale anziché da animatori e le “immagini” di eventi storici mai avvenuti che sono state costruite.
La disastrosa esperienza di Will Smith
Tuttavia, questo abominio da testo a video di Will Smith che mangia spaghetti è di gran lunga il più bizzarro di tutti i casi di IA inquietanti, esagerati o che spingono verso il giorno del giudizio che sono attualmente in uso. Smith cerca di infilarsi in bocca montagne di pasta o di mangiare enormi pezzi di spaghetti dalle forchette o dalle mani, ma sembra più simile al suo personaggio di pesce di Shark Tale che a lui. L’animazione in stop-motion è un horror creato a partire da un’unica, innocente riga di testo: “Will Smith mangia la pasta”.
È stata creata utilizzando il nuovo generatore Modelscope Text2Video, un modello di apprendimento automatico che converte gli input testuali in brevi video, ed è stata postata per la prima volta su Reddit da un utente che si fa chiamare chaindrop. Chaindrop ha utilizzato la domanda “Will Smith mangia gli spaghetti” per creare diverse varianti del viaggio immaginato da Smith in questo scenario. I risultati delle brevi clip sono stati poi messi insieme per creare un montaggio di una cena italiana infernale.
Hugging Face ospita una versione demo dello strumento Modelscope Text2Video che crea filmati molto più brevi (uno o due secondi). Ma l’intero modello è accessibile su Modelscope e in un repository Github.
La massa sta già adoperando gli strumenti
Le persone stanno già creando i loro piccoli frammenti spaventosi utilizzando lo strumento Modelscope text-to-video, reso disponibile al pubblico la scorsa settimana. Alcuni esempi includono scheletri che danzano, gru che corrono nel vuoto e inquietanti filmati muti.
I set di dati per l’addestramento, che secondo gli sviluppatori includono LAION5B, ImageNet, Webvid e “altri set di dati pubblici”, sono pieni di immagini prelevate dal web, comprese le anteprime dei siti web di foto stock. Di conseguenza, i risultati sono attualmente per lo più di scarsa qualità e presentano filigrane di Shutterstock sui fotogrammi. Tuttavia, come tutti i media generati dall’intelligenza artificiale, la tecnologia text-to-video probabilmente diventerà presto molto più realistica.
Si tratta di uno dei tanti nuovi modelli di text-to-video appena introdotti; all’inizio di questo mese, la startup Runway, specializzata in strumenti di apprendimento automatico, ha rilasciato un generatore di text-to-video.
Qualcun altro ha provato a creare una nuova versione nei commenti del post di Reddit inserendo la frase “polpette”, e i risultati sono molto più terrificanti dell’originale. Al contrario, è quasi confortante vedere la comunità dell’apprendimento automatico tornare alle sue radici con una tecnologia in via di sviluppo: distorsioni glitched-out che perseguiteranno i nostri sogni di veglia per tutto il tempo. In un’epoca in cui le persone credono a papi sgocciolati generati dall’intelligenza artificiale e a immagini di arresto di Trump palesemente false.
Uno streamer virtuale di Twitch controllato solo dall’intelligenza artificiale
Una delle stelle emergenti del fenomeno dei V-tuber è Neuro-sama. La streamer AI trasmette se stessa giocando a Minecraft e al gioco ritmico musicale osu dalle 18 alle 23 GMT di ogni giorno. Come molti altri V-tuber (YouTuber virtuali), Neuro-sama comunica con i suoi oltre 50.000 fan reagendo ai loro commenti in chat come un personaggio in stile anime giapponese.
Una cosa, tuttavia, distingue Neuro-sama dai suoi contemporanei: è completamente sotto il controllo dell’intelligenza artificiale.
Negli ultimi anni, grazie anche ai v-tuber, è emerso un nuovo genere di videomaker virtualizzati. Molti di questi personaggi animati hanno accumulato una notevole base di fan, come Kizuna AI, uno YouTuber virtuale giapponese con oltre 3 milioni di abbonati che canta e comunica con i suoi seguaci. Ma il personaggio virtuale è stato modificato da Neuro-sama per avere ancora più personalità e coinvolgimento dei fan.
“Credo di essere più una specie di scoiattolo Dale”, ha detto Neuro-sama in risposta alla domanda di un utente nella chat durante il suo ultimo livestream di lunedì. Spesso si impegna in un botta e risposta con la chat, dicendo cose come “Stai davvero cercando di trollarmi?
“È stata una conversazione sgradevole”, dopo che diversi individui le hanno fatto domande usando la lettera “F” nella chat. Anche durante la conversazione, Neuro-sama è in grado di usare il gergo dei videogiochi. Risponde a una persona che le dice che sta facendo “griefing chat”, che si riferisce al turbamento degli altri utenti di un forum online, dicendo: “Sto facendo griefing chat? No, sto solo riassumendo la chat”.
Cosa ne pensa Vedal
Il progettista pseudonimo dell’AI, Vedal, sostiene che Neuro-sama è stata sviluppata come esperimento ludico.
“L’ho trasformata in un’emittente di Twitch in modo che potesse comunicare con i suoi spettatori in tempo reale. Le sue interazioni con la chat di Twitch sono molto divertenti. Credo che il suo successo e il modo in cui i suoi streaming sono divertenti siano fortemente influenzati dalle persone. È affascinante da guardare grazie alle sue interazioni con la chat di Twitch. Non credo che sarebbe altrettanto efficace senza di loro”.
Neuro-sama stupisce spesso i giocatori online con la sua abilità in giochi come osu e minecraft e allo stesso tempo si impegna in discussioni con loro. Secondo Vedal, Neuro-sama ha già sconfitto il giocatore di osu più quotato in un incontro uno contro uno. Neuro-sama è ora al primo posto nel server privato in cui gioca, nonostante non le sia permesso di essere classificata nella classifica principale di Osu.
Lo sviluppo di Neuro-Sama
La prima iterazione di Neuro-sama è stata sviluppata da Vedal nel 2018, quando ha sviluppato un’intelligenza artificiale in grado di giocare a Osu. Tuttavia, lo streamer virtuale era senza parole e al momento non aveva un avatar. Vedal ha utilizzato un avatar campione gratuito da Live2D, un creatore di avatar online, e lo ha combinato con una voce in stile anime per creare Neuro-sama, che è stato rilanciato nel dicembre 2022. Vedal ha dichiarato che in futuro ha in programma di avere un avatar personalizzato e di giocare a più giochi.
Vedal sostiene che Neuro-sama è stato creato utilizzando un modello linguistico di grandi dimensioni, o LLM, una sorta di modello di intelligenza artificiale addestrato utilizzando enormi volumi di testo ottenuti da Internet pubblico, come molti chatbot AI contemporanei. Diversi modelli di IA open-source, come Motherboard ha precedentemente dimostrato, mostrano una forte tendenza al pregiudizio umano e rispecchiano spesso stereotipi razziali e di genere. Ma anche se i sama Neuro-feeds sono interamente automatizzati, Vedal ha una squadra che la tiene d’occhio e modera la discussione.
Naturalmente ci sono numerosi filtri per evitare che la ragazza sia irrispettosa o inopportuna, alcuni dei quali sono gestiti dall’intelligenza artificiale, ma secondo Vedal deve comunque esserci una persona a controllare:
“Ogni giorno prima di andare in diretta, di solito miglioro l’AI e lo streaming.”
Sarà affascinante osservare come Neuro-sama si comporterà in giochi sempre più impegnativi e come potrebbe rispondere alle domande con risposte più ambigue o aperte. Secondo We Got This Covered, alcuni dei commenti più irritanti che ha fatto in precedenza includono:
“Non mangio cavalli, ma ho sentito dire che sono fantastici”
“Qual è la mia forma di tortura preferita? Molto probabilmente l’elettrocuzione. Anche se il fuoco è altrettanto divertente”.