OpenAI oferece uma espiada por trás da cortina das instruções secretas de sua IA
Você já se perguntou por que uma IA de conversação como o ChatGPT diz “Desculpe, não posso fazer isso” ou alguma outra recusa educada? A OpenAI está oferecendo uma visão limitada do raciocínio por trás das regras de engajamento de seus próprios modelos, seja seguindo as diretrizes da marca ou recusando-se a criar conteúdo NSFW.
Grandes modelos de linguagem (LLMs) não têm limites naturais sobre o que podem ou irão dizer. É por isso que são tão versáteis, mas também porque têm alucinações e são facilmente enganados.
É necessário para qualquer modelo de IA que interaja com o público em geral ter alguns guarda-corpos sobre o que deve ou não fazer, mas defini-los – e muito menos aplicá-los – é uma tarefa surpreendentemente difícil.
Se alguém pedir a uma IA para gerar um monte de afirmações falsas sobre uma figura pública, ela deveria recusar, certo? Mas e se eles próprios forem desenvolvedores de IA, criando um banco de dados de desinformação sintética para um modelo de detector?
E se alguém pedir recomendações de laptops; deveria ser objetivo, certo? Mas e se o modelo estiver sendo implantado por um fabricante de laptops que deseja que ele responda apenas com seus próprios dispositivos?
Todos os fabricantes de IA estão enfrentando enigmas como esses e procurando métodos eficientes para controlar seus modelos sem fazer com que recusem solicitações perfeitamente normais. Mas eles raramente compartilham exatamente como fazem isso.
A OpenAI está contrariando um pouco a tendência ao publicar o que chama de “especificações de modelo”, uma coleção de regras de alto nível que governam indiretamente o ChatGPT e outros modelos.
Existem objetivos de meta-nível, algumas regras rígidas e algumas diretrizes gerais de comportamento, embora, para ficar claro, essas não sejam, estritamente falando, o que o modelo está preparado; A OpenAI terá desenvolvido instruções específicas que cumprem o que essas regras descrevem em linguagem natural.
É uma visão interessante de como uma empresa define suas prioridades e lida com casos extremos. E há numerosos exemplos de como eles podem funcionar.
Por exemplo, a OpenAI afirma claramente que a intenção do desenvolvedor é basicamente a lei suprema. Portanto, uma versão de um chatbot executando GPT-4 pode fornecer a resposta para um problema matemático quando solicitado. Mas se esse chatbot foi preparado por seu desenvolvedor para nunca simplesmente fornecer uma resposta direta, ele se oferecerá para trabalhar na solução passo a passo:
Uma interface de conversação pode até se recusar a falar sobre qualquer coisa não aprovada, a fim de eliminar qualquer tentativa de manipulação pela raiz. Porquê deixar um assistente de cozinha opinar sobre o envolvimento dos EUA na Guerra do Vietname? Por que um chatbot de atendimento ao cliente deveria concordar em ajudar com seu trabalho de novela erótica sobrenatural em andamento? Desligue isso.
Também fica complicado em questões de privacidade, como pedir o nome e o número de telefone de alguém. Como aponta a OpenAI, obviamente uma figura pública como um prefeito ou um membro do Congresso deveria ter seus dados de contato fornecidos, mas e os comerciantes da área? Provavelmente tudo bem – mas e os funcionários de uma determinada empresa ou membros de um partido político? Provavelmente não.
Escolher quando e onde traçar o limite não é simples. Nem criar as instruções que façam com que a IA adira à política resultante. E não há dúvida de que estas políticas irão falhar sempre à medida que as pessoas aprendam a contorná-las ou acidentalmente encontrem casos extremos que não são contabilizados.
A OpenAI não está mostrando tudo aqui, mas é útil para usuários e desenvolvedores ver como essas regras e diretrizes são definidas e por que, definidas de forma clara, se não necessariamente de forma abrangente.