top of page
Buscar

Meta lança Llama 3.2 acessível a todos

  • Foto do escritor: Pier Luigi Ricchetti
    Pier Luigi Ricchetti
  • 26 de set. de 2024
  • 3 min de leitura
Fonte: ai.meta.com

A Meta acaba de lançar o Llama 3.2, uma evolução significativa no campo da inteligência artificial (IA) generativa. Esta nova versão inclui modelos de visão de médio e grande porte (11B e 90B de parâmetros) e modelos leves de texto (1B e 3B), projetados para serem executados em dispositivos de borda e móveis. Esses modelos oferecem novas oportunidades para desenvolvedores que desejam criar soluções inovadoras, mesmo sem acesso a recursos computacionais de alta performance.


Essa atualização surge em um contexto de rápido crescimento do ecossistema Llama. Apenas um ano e meio após o lançamento da primeira versão, o Llama se tornou referência em inovação responsável e eficiência de custos, além de se destacar por sua abertura e capacidade de modificação. O Llama 3.2 continua a tradição, trazendo modelos pré-treinados e ajustados por instruções que podem ser personalizados para uma ampla gama de aplicações.


Modelos de Visão e Texto Avançados


Os modelos de visão 11B e 90B introduzem novas capacidades de raciocínio visual, permitindo tarefas como a compreensão de documentos complexos (incluindo gráficos e tabelas), legendagem de imagens e identificação de objetos em cenas visuais com base em descrições em linguagem natural. Esses modelos são particularmente úteis em contextos como a análise de gráficos empresariais e a navegação em mapas, oferecendo respostas rápidas e precisas a perguntas como "Qual foi o melhor mês de vendas do ano passado?" ou "Quando essa trilha de caminhada se torna mais íngreme?".


Já os modelos leves de texto (1B e 3B) são ideais para tarefas como geração de texto multilíngue e chamadas de ferramentas, permitindo que desenvolvedores criem aplicativos on-device que respeitam a privacidade do usuário. Por exemplo, um desses aplicativos poderia resumir mensagens recebidas e agendar reuniões sem que os dados saiam do dispositivo, garantindo total controle sobre a privacidade.


Avaliação de Performance e Benchmarks


Em termos de performance, o Llama 3.2 mostrou-se altamente competitivo. Em tarefas de compreensão de imagem e raciocínio visual, os modelos superaram competidores de ponta, como o Claude 3 Haiku e o GPT4o-mini. Já o modelo 3B de texto ultrapassou modelos como o Gemma 2 2.6B e o Phi 3.5-mini em tarefas como seguimento de instruções, sumarização e reescrita de prompts.


Essa performance foi testada em mais de 150 conjuntos de benchmarks, abrangendo uma ampla gama de idiomas e cenários de uso. A imagem a seguir apresenta detalhes sobre os benchmarks que avaliam a capacidade de entendimento visual do Llama 3.2 em comparação com outros modelos do mercado:




Arquitetura e Desenvolvimento


Para possibilitar as novas capacidades de visão, o Llama 3.2 introduz uma arquitetura completamente nova, integrando pesos adaptadores que conectam um codificador de imagem pré-treinado ao modelo de linguagem. Isso permite que o Llama entenda representações visuais e linguísticas simultaneamente, fazendo com que os modelos 11B e 90B sejam uma substituição direta aos modelos de texto, mas com uma capacidade superior em tarefas visuais.


Além disso, o processo de treinamento seguiu várias etapas, desde a pré-treinagem dos modelos de texto Llama 3.1, até a adição de adaptadores de imagem e encoders, utilizando grandes volumes de dados de pares (imagem e texto). O treinamento final inclui ajustes com dados de alta qualidade e otimização para garantir que o modelo seja útil e seguro ao mesmo tempo.


Llama Stack e o Ecossistema de Parceiros


Outro destaque desta atualização é o Llama Stack, que simplifica a integração e implantação dos modelos Llama em diferentes ambientes, como dispositivos locais, nuvem e até mesmo em sistemas on-premise. Isso facilita o uso de aplicações de geração aumentada por recuperação (RAG) e outras ferramentas com segurança integrada.


A Meta colaborou com grandes players da indústria, como AWS, Databricks, Dell, Intel, Microsoft Azure, NVIDIA e Oracle Cloud, para garantir que o Llama 3.2 esteja disponível desde o primeiro dia para desenvolvimento e implementação. O suporte também inclui hardware on-device, com parcerias com Qualcomm, MediaTek e Arm, oferecendo amplo alcance para diferentes tipos de dispositivos.


Com o lançamento do Llama 3.2, a Meta reforça seu compromisso com a inovação aberta e responsável. Os desenvolvedores agora têm à disposição modelos que podem ser personalizados e ajustados para atender a diversas necessidades, desde a análise visual até a geração de texto, tudo com foco em eficiência e privacidade.


Os modelos já estão disponíveis para download no site oficial da Llama e também no Hugging Face, prontos para serem implementados em uma vasta gama de plataformas e dispositivos. Com essa atualização, a Meta espera capacitar ainda mais a comunidade de desenvolvedores a criar aplicações que realmente façam a diferença no dia a dia das pessoas.




 
 
 

Comentários


Receba nossas atualizações

Obrigado pelo envio!

  • Ícone do Facebook Branco
  • Ícone do Twitter Branco

© 2024 por Diário IA

bottom of page