De acordo com informações internas analisadas pelo site 404 Media, em breve, a OpenAI e o criador de imagens Midjourney planejam pagar para treinar seus modelos de inteligência artificial utilizando conteúdo público do Tumblr.
A mídia informou que um acordo está prestes a ser concluído entre a empresa-mãe Tumblr Automattic e os dois grandes players de inteligência artificial. No entanto, não foi detalhado quais dados seriam vendidos para cada empresa. Além disso, o acordo envolve a venda de dados do WordPress.com, que também pertence à Automattic.
Em 27 de fevereiro, foram divulgadas publicações nos blogs da equipe do Tumblr e WordPress.com explicando como o conteúdo dos usuários é utilizado no treinamento de IA. Entretanto, não foi comunicado aos usuários que a Automattic estava em processo de negociação para vender esses dados.
Confira as informações essenciais sobre como a venda pode impactar o seu conteúdo no Tumblr.
Que tipo de produto ou serviço a Automattic planeja comercializar?
A mídia informou que os documentos analisados não detalharam quais tipos de informações seriam comercializados para cada empresa. Não está claro se este acordo terá impacto somente nas postagens futuras do Tumblr ou se também abrangerá o conteúdo passado. As empresas de inteligência artificial foram alvo de críticas por utilizarem de forma excessiva conteúdo “publicamente disponível” para treinar seus modelos, uma vez que grande parte do conteúdo online está protegido por direitos autorais.
De acordo com um artigo de suporte no site da OpenAI, “ChatGPT e outros serviços foram criados utilizando informações disponíveis publicamente na internet, além de outras fontes”. A OpenAI aparentemente coletou e utilizou conteúdo previamente disponível no Tumblr. Com isso em mente, o acordo atual pode ser visto como uma forma de reconhecimento por parte da OpenAI e do Midjourney, pois concordaram em pagar pelo uso de todo o conteúdo futuro do Tumblr.
A Automattic não respondeu aos pedidos de comentários da 404 Media sobre o acordo, mas publicou uma declaração intitulada “Protegendo a Escolha do Usuário”, na qual afirmou: “Estamos bloqueando automaticamente grandes rastreadores de plataformas de IA – incluindo os das principais empresas de tecnologia – e atualizamos nossas listas à medida que novos são lançados”. Não está claro quando o site começou a bloquear os rastreadores, o que é relevante considerando que o OpenAI tem treinado seu algoritmo em conteúdo público por vários anos.
Qual é a maneira adequada de escrever a frase “Como posso sair”?
Para manter seu conteúdo do Tumblr privado e impedir que seja compartilhado por terceiros, é necessário ativar a opção “Prevenir compartilhamento com terceiros” nas configurações de cada blog que você administra. Essa ação deve ser realizada em um navegador da web, não no aplicativo do Tumblr. Essas instruções foram incluídas no artigo de suporte do Tumblr sobre privacidade do usuário.
Se no passado você decidiu desencorajar que seu blog fosse pesquisado, a nova opção de “prevenir o compartilhamento por terceiros” estará ativada automaticamente.
E se você optar por esquecer a configuração agora, em vez de fazê-lo em três meses? A 404 Media relatou que, em um documento acessado em 23 de fevereiro, um funcionário do Tumblr levantou essa questão, perguntando se os parceiros de dados da empresa seriam notificados e removeriam os dados de um usuário que escolhesse não compartilhar informações com terceiros.
Paráfrase: O diretor de IA da Automattic, Andrew Spittle, afirmou que irão informar regularmente os parceiros atuais sobre qualquer indivíduo que tenha optado por excluir seu conteúdo. Ele deseja que seja um processo contínuo, no qual solicitam a exclusão do conteúdo passado com base nas preferências atuais, pedindo que seja removido de qualquer treinamento futuro. Spittle acredita que os parceiros concordarão com isso, com base nas conversas mantidas até o momento.
A forma correta da pergunta seria: “Isso é algo comum?”
Parece que se tornará cada vez mais comum. A OpenAI está obtendo licenças de notícias da Associated Press e está em conversas para fazer o mesmo com a CNN, Time e Fox. O Reddit está colaborando com o Google para gerar receitas a partir de seu banco de dados de conteúdo.
A Automattic inevitavelmente começaria a comercializar seus próprios dados, dado o histórico de prejuízos do Tumblr, que nunca foi lucrativo em seus 17 anos de existência, mesmo sob a gestão da Automattic. Em novembro, a TechCrunch relatou que recursos do site foram redirecionados para apoiar outros projetos dentro da Automattic.
O texto trata do site Tumblr.