A empresa chinesa de inteligência artificial (IA) DeepSeek está causando grande impacto no cenário tecnológico global com o lançamento de modelos de IA extremamente eficientes, capazes de competir com produtos de ponta de empresas americanas como OpenAI e Anthropic. Fundada em 2023, a DeepSeek alcançou resultados notáveis com investimentos e poder computacional consideravelmente menores em comparação com seus concorrentes.
O modelo de “raciocínio” R1, lançado recentemente, gerou entusiasmo entre pesquisadores e investidores, além de respostas de grandes empresas do setor de IA. Posteriormente, em 28 de janeiro, a DeepSeek apresentou um novo modelo capaz de trabalhar com imagens e textos. Mas o que a DeepSeek fez de tão revolucionário e como ela conseguiu?
O que a DeepSeek alcançou
Em dezembro, a DeepSeek lançou o modelo V3, um modelo de linguagem grande e poderoso, com desempenho comparável ao GPT-4o da OpenAI e ao Claude 3.5 da Anthropic. Embora esses modelos apresentem erros e, às vezes, inventem informações, eles podem realizar tarefas como responder perguntas, escrever redações e gerar código de computador. Em alguns testes de resolução de problemas e raciocínio matemático, eles superam a média humana.
O treinamento do modelo V3 custou cerca de US$ 5,58 milhões, um valor significativamente menor do que o desenvolvimento do GPT-4, que ultrapassou os US$ 100 milhões. A DeepSeek também afirma ter treinado o V3 usando aproximadamente 2.000 chips de computador especializados, especificamente GPUs H800 da NVIDIA, enquanto outras empresas podem ter usado até 16.000 chips H100, mais potentes.
Em 20 de janeiro, a DeepSeek lançou o modelo R1, focado em “raciocínio”, que busca resolver problemas complexos passo a passo. Este modelo é uma versão aprimorada do V3, utilizando uma técnica de aprendizado por reforço. O R1 apresenta um desempenho comparável ao o1 da OpenAI, lançado no ano anterior.
A empresa também empregou a mesma técnica para criar versões de “raciocínio” de modelos de código aberto menores, que podem ser executados em computadores pessoais. Esses lançamentos aumentaram o interesse na DeepSeek, impulsionando a popularidade do seu aplicativo de chatbot baseado no V3 e causando uma queda acentuada nos preços das ações de tecnologia, à medida que investidores reavaliam o setor de IA. A NVIDIA, por exemplo, perdeu aproximadamente US$ 600 bilhões em valor de mercado.
Como a DeepSeek obteve esses resultados
Os avanços da DeepSeek estão relacionados à obtenção de maior eficiência, alcançando bons resultados com menos recursos. Os desenvolvedores da empresa foram pioneiros em duas técnicas que podem ser adotadas por outros pesquisadores de IA:
A primeira técnica envolve um conceito matemático chamado “esparsidade”. Modelos de IA possuem muitos parâmetros que determinam suas respostas, mas apenas uma pequena parte desses parâmetros é usada para cada entrada. A DeepSeek desenvolveu uma nova técnica para prever quais parâmetros serão necessários e treinar apenas esses parâmetros, reduzindo significativamente a necessidade de treinamento.
A segunda técnica se relaciona ao armazenamento de informações na memória do computador. A DeepSeek encontrou uma maneira eficaz de compactar os dados relevantes, facilitando o armazenamento e o acesso rápido.
O impacto e o futuro da DeepSeek
Os modelos e técnicas da DeepSeek foram liberados sob a licença MIT, o que significa que qualquer pessoa pode baixá-los e modificá-los. Isso pode ser uma má notícia para algumas empresas de IA, mas é uma excelente notícia para a comunidade de pesquisa em IA, que poderá experimentar e desenvolver de forma mais fácil.
Atualmente, muita pesquisa em IA exige acesso a recursos computacionais enormes, limitando as possibilidades de pesquisadores em universidades e outros locais fora de grandes empresas de tecnologia. Com modelos e técnicas mais eficientes, essa situação pode mudar, permitindo que mais pessoas inovem e pesquisem nessa área. Além disso, o acesso à IA pode se tornar mais barato, com modelos sendo executados nos próprios dispositivos dos usuários, como laptops e celulares, em vez de na nuvem, por meio de assinaturas.
No entanto, para pesquisadores que já têm muitos recursos, a maior eficiência pode ter um impacto menor. Ainda não está claro se a abordagem da DeepSeek ajudará a criar modelos com desempenho geral melhor, ou apenas modelos mais eficientes. Para mais detalhes sobre o modelo V3, você pode consultar o artigo científico disponibilizado aqui. Para o modelo R1, acesse este link.
A ascensão da DeepSeek AI desafia o domínio tecnológico dos EUA e divide opiniões, demonstrando como empresas chinesas estão investindo no setor de IA.
Quer receber as principais notícias do Portal N10 no seu WhatsApp? Clique aqui e entre no nosso canal oficial.