Meta lança Llama 3.2 acessível a todos

Pier Luigi Ricchetti
26 de set. de 2024
3 min de leitura

A Meta acaba de lançar o Llama 3.2, uma evolução significativa no campo da inteligência artificial (IA) generativa. Esta nova versão inclui modelos de visão de médio e grande porte (11B e 90B de parâmetros) e modelos leves de texto (1B e 3B), projetados para serem executados em dispositivos de borda e móveis. Esses modelos oferecem novas oportunidades para desenvolvedores que desejam criar soluções inovadoras, mesmo sem acesso a recursos computacionais de alta performance.

Essa atualização surge em um contexto de rápido crescimento do ecossistema Llama. Apenas um ano e meio após o lançamento da primeira versão, o Llama se tornou referência em inovação responsável e eficiência de custos, além de se destacar por sua abertura e capacidade de modificação. O Llama 3.2 continua a tradição, trazendo modelos pré-treinados e ajustados por instruções que podem ser personalizados para uma ampla gama de aplicações.

Modelos de Visão e Texto Avançados

Os modelos de visão 11B e 90B introduzem novas capacidades de raciocínio visual, permitindo tarefas como a compreensão de documentos complexos (incluindo gráficos e tabelas), legendagem de imagens e identificação de objetos em cenas visuais com base em descrições em linguagem natural. Esses modelos são particularmente úteis em contextos como a análise de gráficos empresariais e a navegação em mapas, oferecendo respostas rápidas e precisas a perguntas como "Qual foi o melhor mês de vendas do ano passado?" ou "Quando essa trilha de caminhada se torna mais íngreme?".

Já os modelos leves de texto (1B e 3B) são ideais para tarefas como geração de texto multilíngue e chamadas de ferramentas, permitindo que desenvolvedores criem aplicativos on-device que respeitam a privacidade do usuário. Por exemplo, um desses aplicativos poderia resumir mensagens recebidas e agendar reuniões sem que os dados saiam do dispositivo, garantindo total controle sobre a privacidade.

Avaliação de Performance e Benchmarks

Em termos de performance, o Llama 3.2 mostrou-se altamente competitivo. Em tarefas de compreensão de imagem e raciocínio visual, os modelos superaram competidores de ponta, como o Claude 3 Haiku e o GPT4o-mini. Já o modelo 3B de texto ultrapassou modelos como o Gemma 2 2.6B e o Phi 3.5-mini em tarefas como seguimento de instruções, sumarização e reescrita de prompts.

Essa performance foi testada em mais de 150 conjuntos de benchmarks, abrangendo uma ampla gama de idiomas e cenários de uso. A imagem a seguir apresenta detalhes sobre os benchmarks que avaliam a capacidade de entendimento visual do Llama 3.2 em comparação com outros modelos do mercado:

Arquitetura e Desenvolvimento

Para possibilitar as novas capacidades de visão, o Llama 3.2 introduz uma arquitetura completamente nova, integrando pesos adaptadores que conectam um codificador de imagem pré-treinado ao modelo de linguagem. Isso permite que o Llama entenda representações visuais e linguísticas simultaneamente, fazendo com que os modelos 11B e 90B sejam uma substituição direta aos modelos de texto, mas com uma capacidade superior em tarefas visuais.

Além disso, o processo de treinamento seguiu várias etapas, desde a pré-treinagem dos modelos de texto Llama 3.1, até a adição de adaptadores de imagem e encoders, utilizando grandes volumes de dados de pares (imagem e texto). O treinamento final inclui ajustes com dados de alta qualidade e otimização para garantir que o modelo seja útil e seguro ao mesmo tempo.

Llama Stack e o Ecossistema de Parceiros

Outro destaque desta atualização é o Llama Stack, que simplifica a integração e implantação dos modelos Llama em diferentes ambientes, como dispositivos locais, nuvem e até mesmo em sistemas on-premise. Isso facilita o uso de aplicações de geração aumentada por recuperação (RAG) e outras ferramentas com segurança integrada.

A Meta colaborou com grandes players da indústria, como AWS, Databricks, Dell, Intel, Microsoft Azure, NVIDIA e Oracle Cloud, para garantir que o Llama 3.2 esteja disponível desde o primeiro dia para desenvolvimento e implementação. O suporte também inclui hardware on-device, com parcerias com Qualcomm, MediaTek e Arm, oferecendo amplo alcance para diferentes tipos de dispositivos.

Com o lançamento do Llama 3.2, a Meta reforça seu compromisso com a inovação aberta e responsável. Os desenvolvedores agora têm à disposição modelos que podem ser personalizados e ajustados para atender a diversas necessidades, desde a análise visual até a geração de texto, tudo com foco em eficiência e privacidade.

Os modelos já estão disponíveis para download no site oficial da Llama e também no Hugging Face, prontos para serem implementados em uma vasta gama de plataformas e dispositivos. Com essa atualização, a Meta espera capacitar ainda mais a comunidade de desenvolvedores a criar aplicações que realmente façam a diferença no dia a dia das pessoas.

Fonte: https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

Meta lança Llama 3.2 acessível a todos

Modelos de Visão e Texto Avançados

Avaliação de Performance e Benchmarks

Arquitetura e Desenvolvimento

Llama Stack e o Ecossistema de Parceiros

Posts recentes

Comentários

Voltar ao Topo

Receba nossas atualizações