Midjourney, Dall-E e o fim da história da arte. Mais uma vez?
Publicado em: 27 de setembro de 2022Setembro começou com a polêmica em torno da premiação da obra Théâtre D’opéra Spatial de Jason M. Allen, na Colorado State Fair, nos Estados Unidos, por ter sido inteiramente feita no Midjourney, um ambiente para desenvolvimento de imagens com Inteligência Artificial que “traduz” textos em imagens.
A polêmica retoma debates que beiram o anacrônico, e que já deveriam ter sido esgotadas, sobre quem é o autor da obra: o programa ou o artista. Vamos combinar que, pelo menos desde a invenção da fotografia, ficou claro que o binômio homem-máquina é constitutivo da arte contemporânea. O que obviamente não quer dizer que qualquer pessoa equipada com uma câmera fotográfica é necessariamente um artista.
Outro debate, também anacrônico, ressuscitado pelo buzz em torno de programas que geram imagens a partir de textos, como o Midjourney, o DALL-E e o Stable Diffusion, é a dos direitos autorais, já que os programas permitem (e na verdade estimulam) especificar o mais detalhadamente possível o estilo que se deseja para suas imagens, podendo-se inclusive especificar com que “assinatura estética” se deseja o resultado final. Foi, por exemplo, o que eu fiz a partir da legenda (tecnicamente, o prompt) para produzir “Neve em Copacabana fotografada por Cartier Bresson” e “Deserto da Amazônia fotografado por Sebastião Salgado”. Minhas tentativas ficaram a anos-luz das suas referências, mas recolocar esse debate, quase 60 anos depois das Brillo Boxes (1964) de Andy Warhol é, no mínimo, ridículo.
Mas não me importa aqui entrar numa discussão sobre a abordagem retrógada que ignora os modos de fazer e pensar arte desde Duchamp. Meu foco aqui é como pensar essa modalidade de criação no campo da história da arte.
Com diferentes arquiteturas, Midjourney, DALL-E e Stable Diffusion baseiam-se em modelos de aprendizagem de máquina que produzem imagens a partir de descrições feitas com o que se conceitua na área de IA como “linguagem natural”. Não é este o espaço para discutir o que a definição carrega do pensamento colonialista e antropocêntrico, associando a linguagem textual à natureza e a natureza ao humano. Mas vale frisar que linguagem textual aí quer dizer língua inglesa, pois os programas funcionam muito melhor (ou seja, entendem) em inglês.
E isso não é especulação não. Um estudo em curso da pesquisadora Gretchen Eggers (MIT/ GAIA- Inova USP), conduzida no DALLE-2, envolveu mais de 150 pessoas em um teste comparativo que permitiu a ela mostrar que “os prompts em português tendem a produzir imagens menos ricas em detalhes. Contudo, no que tange a estilos arquitetônicos e diversidade racial, os prompts em português resultam em imagens mais representativas do que em inglês.” Apesar de estar em processo, trabalhos como o de Gretchen mostram que há muito a ser pesquisado, a fim de interromper a consolidação de mais uma camada do colonialismo de dados do século 21.
O que esses sistemas fazem é, basicamente, treinar os algoritmos para reconhecerem imagens a partir do aprendizado da relação entre as imagens e o texto que foi usado para descrevê-las. O processo baseia-se num método chamado de “difusão”, que começa pela identificação, inicialmente aleatória, de um padrão de pontos e gradualmente aprende a reconhecer esse padrão em uma outra imagem. Isso é aplicado em milhões de imagens online a cada vez que se faz uma requisição no sistema, inserindo uma frase para compor uma nova imagem.
A tecnologia é de fato impressionante, muito rápida, cerca de 30 segundos para produzir quatro imagens a partir de uma frase. Alguns artistas, como a brasileira Auni Seiva e o teórico russo (baseado nos EUA) Lev Manovich, estão criando repertórios interessantes, seguindo uma trilha que a artiste K Allado-McDowell abriu com seu superelogiado romance Pharmako-AI (2021), produto de uma parceria entre Kay, como se autodenomina, e uma Inteligência Artificial baseada no modelo GPT-3, que responde criativamente em formato de texto a inputs textuais dados por nós.
Mas se formos acreditar nas chamadas bombásticas que estão circulando nos anúncios das plataformas Midjourney, DALL-E 2 e o Imagen (do Google, que vem chegando) sobre a iminente revolução nas artes visuais, estamos diante de um abismo sígnico.
O primeiro problema é o entendimento de que a arte se reduz a estilos. Nas galerias de cada um desses sites encontram-se verdadeiros tsunamis de pseudo Munchs, pseudo impressionistas e pseudo Van Gohgs.
A quantidade de versões do Grito (Edvard Munch, 1893) e de Noites estreladas (Vincent van Gogh, 1889) que aparece aí é incalculável… Aliás, abro parênteses para dizer que se há uma vítima da relação arte/ IA, ela se chama Van Gogh, um dos maiores de todos os tempos. De manuais explicativos de como funcionam Redes Neurais aos novos filtros de Photoshop e o DALLE-2 e afins, você vai encontrar mil e uma maneiras de cloná-lo.Em um clique. É realmente um acinte transformar Van Gogh numa espécie de Bombril da cultura visual da atualidade, mas sigamos. Na sequência, você ainda verá uma torrente de bonequinhos na estética gamer, com muito roxo, carinhas olhudas, estrelas, unicórnios e cenários siderais. Eita povo que curte um degradê esfumaçado!
O segundo problema é mais complexo e remete à relação entre texto e imagem. Uma das passagens mais brilhantes da filosofia contemporânea é aquela em que Foucault nos ensina: “Não que a palavra seja imperfeita e esteja, em face do visível, num déficit que em vão se esforçaria por recuperar. São irredutíveis uma ao outro: por mais que se diga o que se vê, o que se vê não se aloja jamais no que se diz, e por mais que se faça ver o que se está dizendo por imagens, metáforas, comparações, o lugar onde estas resplandecem não é aquele que os olhos descortinam, mas aquele que as sucessões da sintaxe definem” (As palavras e as coisas, 1967).
Nessas breves linhas postulam-se os fundamentos da compreensão de que a imagem está sempre fora do quadro, lição que, segundo Foucault, está no cerne da desestabilização do ponto de vista que o quadro Las Meninas (1656) de Velázquez traz.
Outro filósofo contemporâneo, Jacques Rancière, em O destino das imagens (2003), desloca esse tema, mostrando que uma das viradas mais importantes da nossa época é a emergência da imagem-texto, um binômio que, na sua indissociabilidade, rompe as hierarquias entre esses termos, potencializando outra forma de linguagem. Está aí o vigor da Poesia Visual e da Concreta para desfazer qualquer dúvida sobre essa abordagem.
As direções para qual apontam os sistemas de IA comentados apontam que estamos realmente diante da possibilidade de uma outra virada no campo das imagens em que a própria noção do que é texto e o que é imagem perderá sentido. Por ora, contudo, as experimentações, no máximo, tendem a recauchutar o papel da legenda como “explicadora” de imagens descritivas que não se sustentam pelo olhar.
Se o aprendizado de máquina tem algo a nos ensinar, é a possibilidade de transcender a dicotomia homem/máquina, mirando uma subversão completa de nossos ingênuos parâmetros que supõem a superioridade da razão do texto sobre a imagem. Isso implica, no entanto, em descentralizar a arquiteturas do eixo da indexação das imagens pelas palavras, pilar de todos esses sistemas. Implica, também, em um chamado para que artistas, filósofos e historiadores ocupem as discussões sobre a visão computacional para além das convenções tradicionais sobre o papel dos algoritmos na criação e sobre o futuro fim da arte. ///
Giselle Beiguelman é colunista do site da ZUM, artista e professora da FAUUSP. É autora de Políticas da imagem: vigilância e resistência na dadosfera (2021) e Memória da amnésia: políticas do esquecimento (2019), entre outros. Site: desvirtual.com.