Colunistas

Um prompt na tela e uma ideia na cabeça

Giselle Beiguelman Publicado em: 29 de fevereiro de 2024

Prompt: A câmera gira em torno de uma grande pilha de televisões vintage, todas mostrando programas diferentes – filmes de ficção científica dos anos 50, filmes de terror, noticiários, estática, um sitcom dos anos 70, etc, ambientados dentro de uma grande galeria de um museu em Nova York.

O anúncio do Sora, novo modelo da OpenAi que permite criar vídeos de até 60 segundos a partir de textos, indica que transformações substanciais na produção audiovisual estão a caminho. Importante frisar que essa não é a primeira incursão das empresas de tecnologia nesse campo. O Google também está testando esse tipo de tecnologia text-to-video, com o Lumiere; e a Runway, outra empresa da área, oferece comercialmente esse serviço há no mínimo seis meses.

Apesar de tão curtos, como os pré-históricos GIFs animados da aurora da internet, a precisão dos vídeos que vêm sendo liberados pela OpenAi e o terremoto que a empresa causa com a eficiência de seus aplicativos, como o ChatGPT, colocaram o assunto definitivamente na pauta do dia. Há todo um debate sobre como são treinados esses modelos, que necessitam de milhões de dados para seu desenvolvimento. Mas vou deixar essa discussão de direitos autorais para os juristas. Não menos relevantes também são as discussões sobre seu impacto no mercado de trabalho e dos profissionais que poderão eventualmente ser substituídos por IAs mais baratas que humanos. Essa é sem dúvida uma pauta fundamental, mas que no momento não trago para esta coluna. O foco agora é: o que modelos de inteligência artificial, do tipo do Sora, anunciam no contexto da cultura visual da atualidade.

Mais do que ser a novidade da hora, um produto como o Sora é relevante porque impacta profundamente nossas concepções de audiovisual e marca uma virada tecnológica nada desprezível. Diferentemente das imagens estáticas, como as que são produzidas em plataformas como o Midjourney, DALLE e Stable Diffusion, cujos resultados se esgotam em um quadro único, o vídeo, assim como o cinema, deve levar em consideração a conexão entre os frames.

Os braços, nos vídeos do Sora, se deformam aleatoriamente porque eles não são nem objetos 3D (*Blender*) nem partes do ambiente (*Unity*). Alguns programadores intuem que o Sora opere por meio de nuvens de ponto.

Dito de maneira formal: se não houver uma transição bem encadeada entre os quadros mais próximos, não é possível criar filmes, ainda que cada imagem individual seja de boa qualidade. Esse é o gargalo tecnológico enfrentado pelas empresas desenvolvedoras, além do consumo de banda de transmissão de dados e o perfil de servidores demandados para processar tanta informação com rapidez e qualidade. Está claro que vem vindo uma era de concentração de poder em algumas big techs, muito mais problemática do que as redes sociais trouxeram. Os problemas de continuidade, ainda presentes no Sora, devem ser superados em breve, pois investimentos parecem não faltar no universo platinado da tecnologia digital.

Contudo, há algo mais complexo que a questão da continuidade na dinâmica das imagens em movimento e que atravessa a história da cultura visual desde o século 19: o modo como a indústria oscila entre máquinas de percepção, máquinas de visão e máquinas de descrição do movimento. Essa oscilação, numa perspectiva de arqueologia das mídias, remonta a duas vertentes investigativas centrais, que desembocaram na invenção do cinema.

Prompt: Filmagem histórica da Califórnia durante a corrida do ouro.

Por um lado, as pesquisas sobre fisiologia e psicologia experimental, notadamente a Gestalt, acerca da persistência retiniana. E, por outro, a busca por máquinas para a simulação visual de movimento. Essas motivações se desdobraram, conforme chamou a atenção o artista e teórico austríaco Peter Weibel (1944-2023), em uma abordagem do cinema como a arte das máquinas de visão – daí a definição de “câmera-olho” (Kinoglaz), pelo cineasta soviético Dziga Vertov (1896-1954). Na outra ponta, isso levou também às máquinas de simulação do movimento, herdeiras dos estudos pioneiros de Étienne-Jules Marey e Eadweard Muybridge. Nascidos e falecidos nos mesmos anos (1830-1904), seus estudos deram a tônica para a interpretação posterior do cinema como motion-pictures (literalmente, fotos em movimento), em detrimento da experimentação com simuladores de visão (máquinas de percepção).

Prompt: Arqueólogos descobrem uma cadeira de plástico genérica no deserto, escavando e limpando-a com muito cuidado. Problemas: Neste exemplo, o Sora falha em modelar a cadeira como um objeto rígido, levando a interações físicas imprecisas.

O advento do text-do-video, a partir do Sora, nos coloca de volta nessa encruzilhada de possibilidades que o entretenimento de massa do século passado nos roubou. Mas vai além, pois modelos como o Sora abrem caminhos ainda não trilhados. Entre esses, por exemplo, a necessidade de revisitar a máxima de Glauber Rocha: “uma câmera na mão e uma ideia na cabeça” como “um prompt na tela e uma ideia na cabeça”. A mutação não é só retórica, mas incide especialmente no tipo de relação que temos com as imagens e no papel das matrizes verbais e textuais na sua elaboração, algo que estamos vivendo desde o lançamento do Midjourney e do DALLE-2.

Verdade seja dita, esse tópico tem ocupado os semioticistas e mestres da poesia concreta e visual há décadas. O artista Julio Plaza (1937-2003) definiu, nessa direção, o conceito de tradução intersemiótica, resultado de sua tese de doutorado no programa de Comunicação e Semiótica da PUC-SP, onde foi orientado pela Professora Lucia Santaella e aluno de Haroldo de Campos. O principal de sua tese, publicada em livro pela editora Perspectiva em 1987, é que a tradução é um processo que não se dá apenas entre línguas, mas entre linguagens, como do texto à música, da música ao cinema, da palavra à imagem.

Prompt: Um jovem de cerca de 20 anos sentado em uma nuvem no céu, lendo um livro.

Isso nos mostra que o audiovisual baseado em comandos de texto pode ser uma revolução muito mais profunda que o virtuosismo técnico implicado no desenvolvimento dos novos modelos de IA aponta. Contudo, pode implicar um certo achatamento de nossas concepções de imagens, caso essa abertura intersemiótica não se confirme, redundando num processo de massificação de imagens puramente ilustrativas, que apenas pretendem dar forma visual a textos descritivos.Ainda é cedo para dizer qual será a direção que o audiovisual tomará a partir dessa guinada histórica. Mas uma coisa é certa. Se eu tivesse que dar um conselho para como se preparar para essa revolução, eu diria: voltem a estudar semiótica. Talvez essa seja a única disciplina capaz de dar conta do paradoxo que mobiliza nosso fascínio pela imagem audiovisual e sua “indizível dimensão”, como a descreveu o poeta Vinicius de Moraes, num lindo poema dedicado ao cineasta Sergei Eisenstein. ///

Giselle Beiguelman é colunista do site da ZUM, artista e professora da FAUUSP. É autora de Políticas da imagem: vigilância e resistência na dadosfera (2021) e Memória da amnésia: políticas do esquecimento (2019), entre outros. Site: desvirtual.com.

Tags: IA, Inteligência artificial, Sora, Texto para vídeo

Leia também