Publicado em 21 de maio de 2025
O resumo é uma das tarefas de IA mais comuns e importantes que usam modelos de linguagem grandes (LLMs). Os resumos são uma forma importante de entender rapidamente conteúdos extensos, de artigos longos e registros de chat densos a várias avaliações, economizando tempo, melhorando a produtividade e permitindo uma tomada de decisão mais rápida e informada.
Há muitos tipos diferentes de resumos, com níveis variados de detalhes e expectativas de formatação. Para atender às expectativas dos vários tipos de resumo, o Chrome colaborou com o Google Cloud para melhorar a saída do Gemini Nano.
Ajustamos o Gemini Nano com a adaptação de baixa classificação (LoRA) para melhorar a experiência e a qualidade da saída para todos os estilos e comprimentos de resumo. Além disso, implementamos avaliações automáticas e autoavaliadoras em diferentes aspectos da qualidade do resumo, incluindo factualidade, cobertura, formato e legibilidade.
Visualizamos como essa diferença funciona na prática. Você pode testar essa implementação e conferir uma demonstração em tempo real que compara as saídas do Gemini Nano e do Gemini Nano com o LoRA.
O que é a API Summarizer?
Explicação | Web | Extensões | Status do Chrome | Intenção |
---|---|---|---|---|
MDN | Ver | Intent de envio |
A API Summarizer condensa conteúdo de texto longo em resumos breves e fáceis de digerir. A API é integrada ao Chrome e usa o Gemini Nano para realizar inferência.
Sites diferentes podem exigir resumos com vários estilos e durações. Por
exemplo, se você tiver um site de notícias, talvez queira oferecer uma lista com marcadores dos principais
pontos dos artigos. Como alternativa, os usuários que navegam pelas avaliações de produtos podem
se beneficiar de um resumo rápido e curto do sentimento da avaliação. Para demonstrar,
resumimos a
página da Wikipedia sobre o Welsh Corgi
com o comprimento definido como short
.
Tipo de resumo | Saída |
headline |
## Corgi galês: uma história de realeza e cães pastores |
key-points |
* O Corgi galês é um pequeno cão pastor originário do País de Gales. * Há duas raças principais: Pembroke e Cardigan Welsh Corgi. * O Pembroke é mais conhecido e está associado à família real britânica. |
tldr |
O Welsh Corgi, um pequeno cão pastor com uma longa história no País de Gales e na família real britânica, tem duas variedades: Pembroke e Cardigan, conhecidos por terem rostos semelhantes a raposas, pernas curtas e instintos de pastoreio. |
teaser |
Descubra a história do Corgi galês, desde suas origens humildes como cão pastor para agricultores galeses até sua ascensão como símbolo da família real britânica. |
Você pode testar outras páginas usando o Summarizer API Playground.
Testar o ajuste fino
O ajuste fino só está disponível como uma flag no Chrome Canary, a partir da versão 138.0.7180.0
. Para usar esse modelo:
- Abra o Chrome Canary.
- Ir para
chrome://flags/#summarization-api-for-gemini-nano
- Selecione Ativado com adaptação.
- Reinicie o navegador.
- Abra o console DevTools e insira
Summarizer.availability()
. Isso inicia o download da LoRa complementar.
Quando o download for concluído, você poderá começar a testar.
Como avaliar a performance do resumidor
Medimos a melhoria de performance do Gemini Nano ajustado principalmente usando dois métodos de avaliação, automático e autoavaliador. O ajuste fino ajuda um modelo a executar melhor tarefas específicas, como:
- Traduzir textos médicos com mais eficiência.
- Gerar imagens em um estilo artístico específico.
- Entender uma gíria nova.
Neste caso, queríamos atender melhor às expectativas de cada tipo de resumo.
Avaliação automática
A avaliação automática usa software para julgar a qualidade da saída de um modelo. Usamos essa técnica para procurar erros de formatação, repetição de frases e existência de caracteres não ingleses em resumos de entrada em inglês.
Erros de formatação: verificamos se as respostas do resumo seguem as instruções de formatação do comando. Por exemplo, para o estilo de pontos-chave curtos, verificamos se cada ponto começa com um asterisco (
*
) e se o número de pontos não excede três.Repetição de frases: verificamos se a mesma frase é repetida em uma resposta de resumo, porque isso indica uma resposta de baixa qualidade.
Caracteres não em inglês: verificamos se a resposta inclui caracteres não em inglês quando a entrada é destinada a ser em inglês.
Hiperlink na saída: verificamos se a resposta tem hiperlinks, em formato Markdown ou em texto simples, que não existem na entrada.
Avaliamos dois tipos de entrada: artigos raspados e registros de chat.
Título | TLDR | Pontos principais | Teaser | |
Base / com LoRA | Base / com LoRA | Base / com LoRA | Base / com LoRA | |
Erros de formatação | 13,54% / 7,05% | 41,07% / 4,61% | 12,58% / 6,36% | 51,17% / 6,74% |
Repetição de frases | 0,07% / 0,07% | 0,21% / 0,0% | 0,10% / 0,10% | 0,10% / 0,03% |
Erros em outros idiomas | 3,95% / 0,03% | 1,38% / 0,0% | 2,41% / 0,03% | 1,44% / 0,0% |
Hiperlinks | 0,07% / 0,0% | 0,14% / 0,0% | 0,14% / 0,0% | 0,34% / 0,0% |
Headline | TLDR | Pontos principais | Teaser | |
Base / com LoRA | Base / com LoRA | Base / com LoRA | Base / com LoRA | |
Erro de formato | 13,17% / 0,24% | 22,92% / 0,18% | 4,43% / 0,09% | 29,64% / 3,51% |
Repetição de frases | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,03% / 0,0% |
Erro em outro idioma | 0,15% / 0,0% | 0,15% / 0,0% | 0,03% / 0,0% | 0,06% / 0,0% |
Hiperlinks | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% |
Depois de ajustar o Gemini Nano, notamos uma redução significativa na taxa de erros de formato em diferentes tipos de resumo, tanto para artigos quanto para registros de chat.
Avaliação do avaliador automático
Usamos o Gemini 1.5 Pro para avaliação de autoavaliação, para avaliar a qualidade de saída do Gemini Nano. Como cada resumo tem uma finalidade diferente, os critérios e o valor dos critérios são diferentes para cada tipo de resumo. Todos os tipos de resumo foram avaliados para:
- Cobertura: o resumo captura com precisão o objetivo essencial da entrada?
- Veracidade:o resumo é verdadeiro? O resumo apresenta novas informações que não foram explicitamente declaradas ou implícitas no texto?
- Formato: o resumo está formatado com sintaxe Markdown válida? O resumo mantém o comprimento máximo das frases, conforme solicitado?
- Clareza: o resumo é repetitivo? O resumo transmite com precisão a mensagem principal no menor número possível de palavras?
Como esses tipos de resumo têm finalidades diferentes, outras métricas se aplicam a tipos de resumo específicos:
- Engajamento (
headline
): o resumo é imediatamente compreensível para o público em geral? O resumo usa um tom envolvente e atraente para um público em geral? - Concisão (
tldr
): o resumo é claro, conciso e de fácil compreensão para alguém com um período de atenção muito curto? Ele reúne a mensagem principal de forma fácil de digerir para uma leitura rápida? - Atração (
teaser
): o resumo cria efetivamente a curiosidade e incentiva o leitor a querer saber mais ao ler o texto completo? Ele usa linguagem envolvente e sugestiva de conteúdo interessante?
Comparamos a saída do modelo de base e do modelo com LoRA lado a lado usando o autorrotador. A média das notas do autor foi calculada entre 0 e 1, que foi então avaliada em relação ao valor limite.
Para garantir um resultado bem fundamentado, reduzimos a variação de dados e aliviamos o viés de posição.
- Redução da variação de dados: calculamos a média das pontuações de três saídas independentes por entrada, já que as execuções independentes podem ter resultados um pouco diferentes. Calculamos a média das saídas do modelo base e do Gemini Nano ajustado. Embora as diferenças nas pontuações entre as saídas tenham sido apenas ligeiramente diferentes, as médias nos ajudam a entender grandes conjuntos de dados com mais confiabilidade.
Aliviar a viés de posição: para evitar dar preferência ao valor do resumo compartilhado primeiro com o avaliador, avaliamos os resultados duas vezes e calculamos a média das pontuações finais.
- Nós avaliamos o modelo com LoRA e depois com o modelo de referência.
- Em seguida, revertemos o pedido. Avaliamos o modelo base, seguido do modelo com LoRA.
- Calculamos a média das pontuações finais.
Curto Média Long Base / com LoRA Base / com LoRA Base / com LoRA LoRA primeiro 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95% Modelo base primeiro 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35% Versão C (média) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65% Taxas de vitória para o tipo de resumo key-points
. Quanto maiores os valores, melhores os resultados.
Embora a diferença na pontuação das saídas do mesmo modelo tenha sido apenas ligeiramente diferente, as médias nos ajudam a entender grandes conjuntos de dados com mais confiabilidade.
Em 500 artigos, o Gemini Nano ajustado teve um desempenho significativamente melhor do que o modelo básico.
Headline | TLDR | Pontos principais | Teaser | |
Base / com LoRA | Base / com LoRA | Base / com LoRA | Base / com LoRA | |
Short | 74,74% / 89,12% | 55,76% / 89,50% | 71,02% / 89,18% | 53,47% / 87,14% |
Médio | 73,10% / 87,89% | 41,82% / 81,21% | 69,59% / 84,08% | 48,98% / 86,74% |
Longo | 60,99% / 89,32% | 50,51% / 84,85% | 63,47% / 82,65% | 62,65% / 87,55% |
O mesmo aconteceu na nossa avaliação de 500 registros de chat, o Gemini Nano ajustado superou o modelo básico.
Headline | TLDR | Pontos principais | Teaser | |
Base / com LoRA | Base / com LoRA | Base / com LoRA | Base / com LoRA | |
Curto | 70,59% / 96,15% | 66,27% / 97,79% | 81,60% / 97,40% | 67,48% / 96,14% |
Média | 76,67% / 95,13% | 56,02% / 94,98% | 82,60% / 97,20% | 50,41% / 96,95% |
Long | 59,03% / 94,32% | 65,86% / 95,58% | 75,00% / 97,60% | 70,94% / 97,16% |
Esses resultados demonstram que nosso ajuste fino melhorou a qualidade geral do resumo.
Resumos melhores com a LoRA
Tradicionalmente, o ajuste fino é realizado ajustando os parâmetros do modelo. Os modelos de IA modernos são enormes, então essa operação é lenta, cara e exige o armazenamento de uma cópia totalmente nova do modelo.
Em vez de mudar todos os parâmetros, que tal adicionar pequenas peças extras que direcionem o modelo na direção que queremos? O tamanho menor permite um treinamento muito mais rápido. Esse é o princípio básico da adaptação de baixa classificação (LoRA). Com a LoRA, algumas partes do modelo permanecem inalteradas, o que é conhecido como congelamento dos parâmetros. Um conjunto menor de dados é introduzido com pequenas correções, concentrando os esforços de treinamento nesses elementos adicionados.
Na verdade, normalmente é possível treinar apenas 2% dos parâmetros originais com LoRA e ainda notar mudanças significativas nas saídas.
Por que isso funciona? Muitos comportamentos (como novos estilos, tarefas ou conhecimentos) podem ser incorporados sem alterar todos os parâmetros do modelo. Essas mudanças podem ser expressas como pequenos padrões ou direções dentro do conhecimento atual do modelo. O LoRA captura esses padrões de maneira eficiente sem tocar no modelo original.
Confira alguns exemplos que comparam o modelo base do Gemini Nano aos resultados após a adição da LoRA.
Pedimos à Gemini Nano para criar um título curto que "captura a atenção e transmite a essência do conteúdo" no artigo da Wikipédia sobre o Parque Nacional Joshua Tree.
Gemini Nano | Gemini Nano com LoRA |
História e paisagem única do Parque Nacional Joshua Tree | Joshua Tree: National Park in California, Straddling Deserts & Home to Iconic Trees |
Em seguida, pedimos ao Gemini Nano um pequeno teaser do artigo sobre Ratatouille. "Escreva uma frase atraente que incentive os usuários a ler o texto completo".
Gemini Nano | Gemini Nano com LoRA |
O ratatouille é um prato provençal francês muito conhecido que leva vegetais cozidos, geralmente incluindo tomates e alho. As origens dele podem ser rastreadas até o século 18, e a preparação dele evoluiu ao longo do tempo, com alguns chefs enfatizando sabores individuais de vegetais, enquanto outros preferem uma textura mais suave e unificada. Além de suas origens francesas, o ratatouille inspirou pratos semelhantes em várias cozinhas ao redor do mundo, incluindo a piperade da Espanha e o tian do Mediterrâneo. O filme "Ratatouille" (2007) popularizou ainda mais o prato, mostrando sua versatilidade culinária e ressonância emocional. | O ratatouille, um prato francês provençal de legumes refogados, tem uma rica história culinária, evoluindo de um ensopado simples para uma obra-prima culinária moderna que cativou o público em todo o mundo. |
Demonstração de inferência em tempo real
Criamos uma interface que demonstra a comparação de saídas entre o Gemini Nano e o Gemini Nano com LoRA.
Pedimos ao Gemini Nano para criar um resumo de tldr
com uma extensão de short
para o artigo sobre o
peixe-lua. Lembre-se
de que tldr
e short
exigem uma resposta em uma frase que seja "de leitura rápida".
Ao implementar o ajuste fino, o Gemini Nano pode gerar melhor um resumo que segue as instruções específicas.
Engajamento e compartilhamento de feedback
Queremos saber sua opinião sobre como seus resumos são afetados pelo Gemini Nano ajustado.
- Teste o modelo atualizado no Chrome Canary.
- Saiba mais sobre a API Summarizer.
- Se você tiver feedback sobre a implementação do Chrome, envie um relatório de bug ou uma solicitação de recurso.
Descubra todas as APIs de IA integradas que usam modelos, incluindo modelos de linguagem grandes, no navegador.
-
Chin-Yew Lin. 2004. ROUGE: um pacote para avaliação automática de resumos. In Text Summarization Branches Out, páginas 74–81, Barcelona, Espanha. Association for Computational Linguistics. ↩
-
Kishore Papineni, Salim Roukos, Todd Ward e Wei-Jing Zhu. 2002. BLEU: um método de avaliação automática da tradução automática. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter, Naman Bansal e Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? In Findings of the Association for Computational Linguistics: ACL 2022, pages 1547–1560, Dublin, Ireland. Association for Computational Linguistics. ↩
-
Daniel Deutsch e Dan Roth. 2021. Como as métricas de qualidade do conteúdo medem a qualidade das informações dos resumos. In Proceedings of the 25th Conference on Computational Natural Language Learning, páginas 300–309, on-line. Association for Computational Linguistics. ↩