OpenAI fecha acordo para treinar IA em dados do Reddit
OpenAI e Reddit têm chegou a um acordo para permitir que a OpenAI treine seus modelos generativos de IA nos dados do Reddit.
Em um postagem no blog no site de relações com a imprensa da OpenAI, a OpenAI disse que, por meio de uma parceria recém-formada com o Reddit, obterá acesso a “conteúdo estruturado e exclusivo em tempo real” – por exemplo, postagens e respostas – do Reddit, permitindo que suas ferramentas e modelos “ entender e mostrar melhor” o conteúdo do Reddit. O conteúdo do Reddit será incorporado ao ChatGPT, a plataforma de chatbot baseada em IA da OpenAI, e a OpenAI trabalhará com o Reddit para trazer novos “recursos alimentados por IA” não especificados para usuários e moderadores do Reddit.
OpenAI também se tornará um parceiro de publicidade do Reddit.
“O Reddit se baseará na plataforma de modelos de IA da OpenAI para dar vida à sua visão poderosa”, escreveu a OpenAI no post. “O uso de LLMs, ML e IA permite que o Reddit melhore a experiência do usuário para todos.”
A OpenAI tem vários acordos de licenciamento semelhantes com provedores de conteúdo, desde bibliotecas de mídia até editores de notícias. Mas o ângulo incomum deste caso é que Sam Altman, CEO da OpenAI, tem um Participação de 8,7% no Reddittornando-o o terceiro maior acionista, e já foi membro do conselho de administração da empresa.
Em uma tentativa de evitar o escrutínio, a OpenAI diz em seu comunicado à imprensa que, embora Altman continue sendo acionista do Reddit, a parceria “foi liderada pelo COO da OpenAI (Brad Lightcap)” e “aprovada pelo conselho de administração independente (da OpenAI)”. (Observarei aqui que Altman ele mesmo é membro do conselho da OpenAI.)
O Reddit tornou os acordos de licenciamento de dados uma parte cada vez mais central de sua estratégia de crescimento à medida que navega no mercado como uma empresa pública.
Em seu prospecto de IPO, Reddit revelado que possui acordos contratuais para licenciar seus dados para clientes, incluindo o Google no valor combinado de mais de US$ 200 milhões. E, no seu primeiro relatório de lucros como empresa pública, o Reddit relatou um aumento de 450% ano após ano nas receitas não publicitárias, atribuível principalmente a esses acordos.
As ações do Reddit subiram 11% nas negociações estendidas após o anúncio do acordo OpenAI.
“O paradoxo que vejo é que, à medida que mais conteúdo na Internet é escrito por máquinas, há uma valorização crescente do conteúdo proveniente de pessoas reais”, disse Steve Huffman, CEO do Reddit, durante a teleconferência de resultados da empresa em março. “E temos quase duas décadas de conversas autênticas.”
A plataforma Reddit – que tem mais de 1 bilhão de postagens e mais de 16 bilhões de comentários, números que crescem a cada dia graças às suas centenas de milhões de usuários ativos semanais – é uma mina de ouro para empresas de IA generativa, cujos modelos aprendem com exemplos de conteúdo para gerar novos conteúdo, como texto e imagens.
Mas a empresa pode enfrentar resistência de usuários preocupados com a forma como está monetizando seus dados.
É instrutivo dar uma olhada no Stack Overflow, o fórum de perguntas e respostas para desenvolvedores de software, que recentemente assinou um acordo com a OpenAI para fornecer dados para o treinamento do modelo deste último. Em protesto, alguns usuários excluíram as respostas mais bem avaliadas às perguntas da comunidade. Mas o Stack Overflow restaurou as postagens excluídas e baniu esses usuários, alegando que eles não estavam em conformidade com os termos de serviço.
O Reddit já expressou seu descontentamento com uma tentativa de permitir aos usuários do Reddit maior controle sobre seus próprios dados.
Velho, uma startup construída no blockchain, está tentando lançar um “DAO” (Organização Autônoma Digital) de dados para permitir que os usuários do Reddit reúnam seus dados e decidam juntos como esses dados combinados serão usados (ou vendidos). O Reddit baniu o subreddit de Vana dedicado à discussão sobre o DAO, em comunicado ao TechCrunch, e acusou a empresa de “explorar” seus controles de exportação de dados.