A Mistral, uma startup francesa de inteligência artificial, lançou o Pixtral 12B, seu primeiro modelo multimodal, que possui a capacidade de processar texto e imagens. Com 12 bilhões de parâmetros e cerca de 24 GB de tamanho, o Pixtral 12B é baseado no modelo Nemo 12B, também desenvolvido pela Mistral.
Este modelo permite a manipulação de imagens em diversos tamanhos e formatos, incluindo URLs e imagens codificadas. Entre suas funções, estão a legenda de imagens e a contagem de objetos, similar aos modelos Claude da Anthropic e GPT-4 da OpenAI.
Os desenvolvedores podem fazer o download do Pixtral 12B no GitHub e na plataforma “Hugging Face” sob a licença Apache 2.0, que permite o uso sem restrições. Em breve, o modelo estará disponível para testes nas plataformas de chatbot e API da Mistral, Le Chat e Le Plateforme, conforme anunciado por Sophia Yang, chefe de relações com desenvolvedores.
A Mistral, no entanto, não revelou os dados de imagem utilizados para o treinamento do novo modelo. É comum que modelos de IA sejam alimentados com dados de grandes volumes disponíveis na web, que podem ser protegidos por direitos autorais. Embora alguns fornecedores aleguem que o “uso justo” justifica a extração desses dados, disputas legais têm sido frequentes.
O lançamento do Pixtral 12B segue uma rodada de financiamento de US$ 645 milhões liderada pela General Catalyst, que avaliou a Mistral em US$ 6 bilhões. Com pouco mais de um ano de operação e uma participação da Microsoft, a Mistral busca se firmar como uma alternativa europeia à OpenAI.