O que está por trás do ChatGPT, e por que ele é tão impressionante

24 de março de 2023

Notícias

O futuro continua promissor para as tecnologias relacionadas à inteligência artificial, e sem sombra de dúvida, vivemos tempos muito interessantes

ChatGPT é a nova hype tecnológica do momento. Lançado em 30 novembro de 2022, já no primeiro mês de 2023 tinha atingido a marca de mais de 100 milhões de usuários ativos. E não é por menos, os resultados que ele pode apresentar realmente impressionam, especialmente para aqueles que não têm no tema inteligência artificial o seu campo de leitura de cabeceira.

A sigla se refere a um dos últimos algoritmos de inteligência artificial lançados pela empresa OpenAI, uma startup que rapidamente tem se tornado uma das empresas mais importantes e influentes do setor. O nome é uma mistura de chatbot, dos robôs conversacionais, e dos algoritmos do tipo generativos que a OpenAi vem lançando chamados de GPT (Generative Pre-Trained Models).

Modelos generativos são aqueles que conseguem gerar conteúdo. Os GPTs da OpenAI são algoritmos que permitem processar a linguagem humana. E modelos pré-treinados, como a tradução do nome GPT remete, são modelos que precisam de um conjunto enorme de dados de treinamento para poder aprender, usando o melhor dos conceitos de aprendizagem de máquina (machine learning) e redes neurais artificiais.

Pra quem acompanha a OpenAI, sabe que o ChatGPT é uma evolução dos algoritmos anteriores, já muito poderosos. Agora, quais foram os elementos que fizeram o ChatGPT se transformar num campeão de popularidade? Vou dar aqui os meus palpites:

(1) Uma enorme base de conhecimento: o GPT 4 e seus antecessores

Na terça-feira (14), a OpenAI anunciou o lançamento do seu mais novo modelo de linguagem, o GPT-4. Em comparação com o seu antecessor, lançado em março de 2022, o GPT 3.5, temos algumas novidades. A empresa desta vez não abriu mais detalhes sobre o número de parâmetros do GPT-4, alegando motivos estratégicos, de toda forma a base de conhecimento do GPT 3.5 já era impressionante.

O modelo anterior foi treinado com os mesmos 175 bilhões de parâmetros que seu antecessor, o GPT-3. Parâmetros, grosso modo, podem ser comparados com sinapses de neurônios biológicos. Um cérebro biológico de um humano, estima-se, tem algo entre 100 trilhões e 1 quatrilhão de sinapses. O GPT 3.5 foi alimentado com o que há de melhor na internet em termos de conteúdos, como toda a Wikipedia, um corpus enorme de journals e artigos científicos, livros de diversos autores, informações de jornais e blogs, patentes, entre outras coisas. O conteúdo foi curado cuidadosamente por humanos, já considerando as aprendizagens relacionadas às versões anteriores.

Já para o GPT-4, como não há informação oficial disponível, podemos especular. A OpenAI afirma que o GPT-4 “pode resolver problemas difíceis com maior precisão, graças ao seu conhecimento geral mais amplo e habilidades de resolução de problemas”. Ela passou seis meses tornando o GPT-4 mais seguro e alinhado. “O GPT-4 tem 82% menos probabilidade de responder a solicitações de conteúdo proibido e 40% mais chances de produzir respostas factuais do que o GPT-3.5 em nossas avaliações internas”, diz a companhia. Algumas das especulações são que o GPT-4 tenha sido alimentado por bases de conhecimento sobre temas específicos por meio das abordagens de ajuste fino do modelo (fine-tuning), o que explica a melhora em relação a seu índice de resposta factuais. O que pode ser ótimo para várias áreas de atuação e foi demonstrado ao vivo, na live de lançamento da empresa, em relação ao conhecimento tributário americano.

Além disso, os algoritmos do tipo GPT usam uma arquitetura tecnológica de redes neurais artificiais conhecida como “Transformers”, que conseguem manipular conteúdo linguístico com quase a mesma facilidade que manipulamos números em operações matemáticas. Ao ler um texto que fala sobre mangas, sapatos e a nova moda em Paris, ele acaba facilmente inferindo, por probabilidade, que as mangas em questão devem ser de camisas, e não frutas. Mais do que isso, consegue atribuir relações de causalidade, inferir qual é o termo correto, mesmo com problemas de ortografia ou gramática, comparar conceitos, traduzir idiomas, entre muitas outras coisas.

(2) Uma interface conversacional

Sim, usar uma estrutura de chatbot para uma conversa mais fluída com os seus usuários, especialmente os leigos, permitiu um salto de popularidade e uma quebra das barreiras de utilização do algoritmo.

Os chatbots já são muito populares no Brasil, e, pra muitos de nós, conversar com o algoritmo por meio de uma interface familiar, faz com que a utilização deles se torne mais intuitiva e acessível.

Além disso, o uso de uma interface conversacional melhora o “relacionamento” entre o usuário e o algoritmo, aprimorando a experiência de usuário, e também organizando informações e dados, tornando mais fácil para os usuários encontrarem informações relevantes.

(3) Uma “personalidade” mais amigável, aderente e diligente (compliant): a camada de RLHF

Essa outra sigla, a RLHF, do inglês Reinforcement Learning from Human Feedback, que é um tipo de aprendizagem de máquina (na tradução literal seria Aprendizagem por Reforço através de Retroalimentação Humana), é uma das novidades nesta nova versão. Ela está encapsulada em um algoritmo chamado InstructGPT, parte integrante do ChatGPT.

Do ponto de vista conceitual, a camada não é uma novidade, porém a sua implementação no ChatGPT promoveu um salto qualitativo na capacidade de entregar resultados aderentes. Alguns dos benefícios incorporados:

Redução das alucinações: e não, você não está entendendo tudo errado. Os algoritmos de linguagem do tipo do ChatGPT também podem “viajar na maionese” e escrever coisas que, embora sejam gramaticalmente coerentes, e até probabilisticamente plausíveis, não são amparadas por fatos. A camada de RLHF penaliza construções probabilísticas menos plausíveis da linguagem humana. Nenhuma mágica nisso. Os humanos usados no feedback que moldaram a camada de “personalidade” do ChatGPT não gostam de “histórias de pescadores”
Menor agressividade: utilizar um tom de linguagem menos agressivo é algo que precisou ser incorporado como uma política organizacional da OpenAI, e os humanos que participaram do feedback ao algoritmo penalizaram mensagens de caráter mais agressivo.
Atenção a temas sensíveis: também incorporado ao modelo por meio dos feedbacks humanos, o algoritmo foi direcionado para evitar responder sobre temas como religião, política, preferencias sexuais, suicídio, e instruções para atividades ilegais entre outros assuntos sensíveis.

(4) E na minha opinião, a cereja do bolo: Uma “memória” sobre os temas sendo conversados

Pouca gente tem falado sobre isso, e eu mesmo estou pesquisando mais a respeito. De toda forma, um dos aspectos mais interessantes de se utilizar o ChatGPT é a sua capacidade de manter muitas informações do histórico da conversa em sua “memória” para referência contextual posterior.

Tudo indica avanços significativos num tipo de arquitetura chamado de Memory Networks, uma evolução dos conceitos de Redes Neurais de Memória de Curto e Longo Prazo, que incorpora a capacidade de algoritmos de reter informação. O Memory Networks é um tipo de modelo de aprendizado que combina componentes de inferência com um componente de memória de longo prazo. Eles aprendem como usar esses componentes em conjunto para fazer previsões.

Com isso você pode ao longo de uma conversa refinar o seu conhecimento, pedir comparações, solicitar revisões, entre outras coisas, num ganho de eficiência incrível. Um dos principais ganhos de se utilizar o conceito de Memory Networks no ChatGPT é a capacidade de lembrar e usar o contexto do passado para ajudar a responder perguntas no presente. Isso pode permitir que o ChatGPT desenvolva uma compreensão mais profunda do que foi dito anteriormente, melhorando assim suas respostas.

Além disso, o Memory Networks também permite que o ChatGPT aprenda de maneira mais rápida, pois não precisa processar todo o conteúdo de novo. Em vez disso, ele pode reutilizar informações já armazenadas em sua memória para responder às perguntas. Isso significa que o ChatGPT pode se tornar mais flexível e rápido ao lidar com informações complexas, além de ser capaz de se lembrar de toda a conversa.

A capacidade de armazenamento de conteúdo na memória de “curto prazo” do GPT-4 também aumentou significativamente em relação a sua versão anterior, o que gerará impactos neste atributo do ChatGPT no futuro próximo. O novo modelo tem uma contagem máxima de tokens de 32.768, o que significa que você pode alimentar em uma única entrada textos com até 25.000 palavras.

O que vem por aí?
Embora, eu ainda acredite que há um longo caminho para construirmos inteligências artificiais de aplicação geral, o ChatGPT já performa melhor que humanos, em média, no que diz respeito há muitas atividades que envolvem linguagem. Algoritmos que entendam bem o que queremos dizer, e também consigam produzir conteúdos escritos com qualidade (entre estes conteúdos, códigos de programação, música e piadas), podem ser grandes aliados a nós humanos na busca de maior eficiência e de nos livrarmos de tarefas operacionais.

Muitas novidades estão por vir: a combinação de arquiteturas que busquem informação em tempo real na internet tanto quanto utilizem uma base de conhecimento pré-adquirido em treinamento anterior, como também a construção de arquiteturas de software cada vez mais sofisticadas. Chamadas de IA Generativa multimodal, pode interpretar imagens, texto, som como também produzir conteúdo nestas diversas modalidades. A nova versão do modelo de linguagem, GPT-4, incorpora algumas destas novidades.

O futuro continua promissor para as tecnologias relacionadas à inteligência artificial, e, sem sombra de dúvida, vivemos tempos muito interessantes. Quem viver, verá.

Fonte: Alexandre Del Rey, artigo publicado no site da Febrabantech.