Улучшение Gemini Nano: предоставление более качественных сводок с помощью LoRA

Опубликовано: 21 мая 2025 г.

Резюмирование является одной из наиболее распространенных и важных задач ИИ с использованием больших языковых моделей (LLM). Резюме предлагают критически важный способ быстрого понимания обширного контента — от длинных статей и плотных чат-логов до многочисленных обзоров — экономя время, повышая производительность и позволяя быстрее и более обоснованно принимать решения.

Существует множество различных типов резюме с различными уровнями детализации и ожиданиями по форматированию. Чтобы соответствовать ожиданиям различных типов резюме, Chrome сотрудничал с Google Cloud для улучшения вывода Gemini Nano.

Мы доработали Gemini Nano с помощью адаптации низкого ранга (LoRA) для улучшения опыта и качества вывода для всех стилей и длин резюме. Кроме того, мы внедрили автоматические и авторейтеровские оценки по различным аспектам качества резюме, включая фактологию, охват, формат и читабельность.

Мы визуализировали, как эта разница выглядит на практике. Вы можете поэкспериментировать с этой реализацией и посмотреть на демонстрацию в реальном времени , которая сравнивает выходные данные Gemini Nano и Gemini Nano с LoRA.

Что такое API Summarizer?

Объяснитель Веб Расширения Статус Хрома Намерение
МДН За флагом Chrome 138 бета За флагом Chrome 138 бета Вид Намерение отправить

API Summarizer сжимает длинный текстовый контент в краткие, легко усваиваемые сводки. API встроен в Chrome и использует Gemini Nano для выполнения вывода.

Разные сайты могут требовать резюме с различными стилями и длинами . Например, если вы новостной сайт, вы можете предложить маркированный список ключевых моментов в своих статьях. В качестве альтернативы пользователи, просматривающие обзоры продуктов, могут извлечь пользу из быстрого и краткого резюме настроения обзора. Для демонстрации мы резюмировали страницу Википедии о вельш-корги с длиной, установленной на short .

Тип резюме Выход
headline ## Вельш-корги: история королевской семьи и пастушьих собак
key-points * Вельш-корги — небольшая пастушья собака, выведенная в Уэльсе.
* Существует две основные породы: вельш-корги пемброк и кардиган.
* Пембрук более популярен и ассоциируется с британской королевской семьей.
tldr Вельш-корги — небольшая пастушья собака с долгой историей в Уэльсе и британской королевской семье. Существует две разновидности: пемброк и кардиган, обе известные своими лисьими мордочками, короткими ногами и пастушьими инстинктами.
teaser Откройте для себя историю вельш-корги — от скромного происхождения в качестве пастушьей собаки для валлийских фермеров до ее становления как символа британской королевской семьи.

Вы можете поэкспериментировать с другими страницами, используя Summarizer API Playground .

Экспериментируйте с тонкой настройкой

Тонкая настройка доступна только в виде флага в Chrome Canary , начиная с версии 138.0.7180.0 . Чтобы использовать эту модель:

  1. Откройте Chrome Canary .
  2. Перейдите по chrome://flags/#summarization-api-for-gemini-nano
  3. Выберите Включено с адаптацией .
  4. Перезапустите браузер.
  5. Откройте DevTools Console и введите Summarizer.availability() . Это запустит загрузку дополнительного LoRA.

После завершения загрузки вы можете начать экспериментировать.

Оценка работы резюмирующего

Мы измерили улучшение производительности тонко настроенного Gemini Nano, в первую очередь, используя два метода оценки: автоматический и авторейтер . Тонкая настройка помогает модели лучше выполнять определенные задачи, такие как:

  • Улучшайте перевод медицинских текстов.
  • Создавайте изображения в определенном художественном стиле.
  • Поймите новый сленг.

В данном случае мы хотели лучше соответствовать ожиданиям каждого типа резюме.

Автоматическая оценка

Автоматическая оценка использует программное обеспечение для оценки качества выходных данных модели. Мы использовали эту технику для поиска ошибок форматирования, повторения предложений и наличия неанглийских символов в резюме английского ввода.

  • Ошибки форматирования : Мы проверяем, соответствуют ли ответы-резюме инструкциям по форматированию подсказки. Например, для стиля кратких ключевых точек мы проверяем, начинается ли каждый пункт списка со звездочки ( * ) и не превышает ли количество пунктов списка 3.

  • Повторение предложений : мы проверяем, повторяется ли одно и то же предложение в одном кратком ответе, так как это указывает на некачественный ответ.

  • Неанглийские символы : мы проверяем, содержит ли ответ неанглийские символы, когда предполагается ввод на английском языке.

  • Гиперссылка в выходных данных : мы проверяем, есть ли в ответе гиперссылки в формате Markdown или в виде обычного текста, которых нет во входных данных.

Мы оценили два стиля ввода: извлеченные статьи и логи чатов.

Заголовок TLDR Ключевые моменты Тизер
База / С LoRA База / С LoRA База / С LoRA База / С LoRA
Ошибки формата 13,54% / 7,05% 41,07% / 4,61% 12,58% / 6,36% 51,17% / 6,74%
Повторение предложения 0,07% / 0,07% 0,21% / 0,0% 0,10% / 0,10% 0,10% / 0,03%
Ошибки, не относящиеся к английскому языку 3,95% / 0,03% 1,38% / 0,0% 2,41% / 0,03% 1,44% / 0,0%
Гиперссылки 0,07% / 0,0% 0,14% / 0,0% 0,14% / 0,0% 0,34% / 0,0%
Автоматическая оценка 970 статей по различным типам резюме.
Заголовок TLDR Ключевые моменты Тизер
База / С LoRA База / С LoRA База / С LoRA База / С LoRA
Ошибка формата 13,17% / 0,24% 22,92% / 0,18% 4,43% / 0,09% 29,64% / 3,51%
Повторение предложения 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,03% / 0,0%
Неанглийская ошибка 0,15% / 0,0% 0,15% / 0,0% 0,03% / 0,0% 0,06% / 0,0%
Гиперссылки 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0%
Автоматическая оценка 1091 образца записей чата.

После тонкой настройки Gemini Nano мы увидели значительное снижение количества ошибок форматирования в различных типах резюме, как для статей, так и для журналов чатов.

Оценка авторарейтера

Мы использовали Gemini 1.5 Pro для оценки авторейтером , чтобы оценить качество вывода Gemini Nano. Поскольку каждое резюме имеет разное назначение, критерии и их значение различались для разных типов резюме. Все типы резюме оценивались по следующим параметрам:

  • Охват : точно ли резюме отражает основную цель ввода?
  • Фактичность: Правдиво ли резюме? Вводит ли резюме новую информацию, которая не была явно указана или подразумевалась в тексте?
  • Формат : Отформатировано ли резюме с допустимым синтаксисом Markdown? Соблюдается ли в резюме максимальная длина предложений, как запрашивается?
  • Ясность : Повторяется ли резюме? Точно ли оно передает основную идею в наименьшем количестве слов?

Поскольку эти типы сводок имеют разные цели, к определенным типам сводок применяются дополнительные показатели:

  • Вовлеченность: ( headline ): Является ли резюме сразу понятным для широкой аудитории? Использует ли резюме тон, который является увлекательным и привлекательным для широкой аудитории?
  • Краткость ( tldr ): Является ли резюме ясным, лаконичным и понятным для человека с очень коротким объемом внимания? Эффективно ли оно извлекает основную идею в легко усваиваемую форму для быстрого прочтения?
  • Заманчивость ( teaser ): эффективно ли резюме создает интригу и побуждает ли читателя узнать больше, прочитав полный текст? Использует ли он язык, который увлекает и предполагает интересное содержание?

Мы сравнили результаты базовой модели и модели с LoRA бок о бок, используя авторейтер. Оценки авторейтера были усреднены между 0 и 1, которые затем были оценены по пороговому значению.

Чтобы обеспечить обоснованный результат, мы уменьшили дисперсию данных и смягчили позиционное смещение.

  • Сокращение дисперсии данных : мы усреднили оценки трех независимых выходов на вход, поскольку независимые запуски могут иметь немного разные результаты. Мы усреднили результаты как для базовой модели, так и для настроенной Gemini Nano. Хотя различия в оценках по выходам были лишь немного разными, средние значения помогают нам более надежно понимать большие наборы данных.
  • Устранение позиционной предвзятости : чтобы не отдавать предпочтение значению резюме, предоставленному оценщику первым, мы оценивали результаты дважды, а затем усредняли окончательные баллы.

    1. Мы оценили модель с помощью LoRA, затем базовую модель.
    2. Затем мы изменили порядок. Мы оценили базовую модель, а затем модель с LoRA.
    3. Мы усреднили итоговые баллы.
    Короткий Середина Длинный
    База / С LoRA База / С LoRA База / С LoRA
    LoRA первый 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95%
    Сначала базовая модель 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35%
    Версия C (средняя) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65%
    Коэффициенты побед для типа сводки key-points . Более высокие значения — лучшие результаты.

Хотя разница в оценках результатов одной и той же модели была незначительной, средние значения помогают нам более надежно понимать большие наборы данных.

В 500 статьях доработанный Gemini Nano показал себя значительно лучше базовой модели.

Заголовок TLDR Ключевые моменты Тизер
База / С LoRA База / С LoRA База / С LoRA База / С LoRA
Короткий 74,74% / 89,12% 55,76% / 89,50% 71,02% / 89,18% 53,47% / 87,14%
Середина 73,10% / 87,89% 41,82% / 81,21% 69,59% / 84,08% 48,98% / 86,74%
Длинный 60,99% / 89,32% 50,51% / 84,85% 63,47% / 82,65% 62,65% / 87,55%
Autorarer winrate по 500 статьям в разных типах резюме и длины. Более высокие числа указывают на лучшие результаты.

То же самое произошло и при оценке 500 журналов чатов: настроенный Gemini Nano превзошел базовую модель.

Заголовок TLDR Ключевые моменты Тизер
База / С LoRA База / С LoRA База / С LoRA База / С LoRA
Короткий 70,59% / 96,15% 66,27% / 97,79% 81,60% / 97,40% 67,48% / 96,14%
Середина 76,67% / 95,13% 56,02% / 94,98% 82,60% / 97,20% 50,41% / 96,95%
Длинный 59,03% / 94,32% 65,86% / 95,58% 75,00% / 97,60% 70,94% / 97,16%
Autorater winrate по 500 чатлогам с разными типами резюме и длины. Более высокие числа указывают на лучшие результаты.

Эти результаты показывают, что наша тонкая настройка улучшила общее качество сводки.

Лучшие сводки с LoRA

Традиционно тонкая настройка выполняется путем корректировки параметров модели. Современные модели ИИ огромны , поэтому эта операция медленная, дорогая и требует хранения совершенно новой копии модели.

Вместо того, чтобы менять все параметры, что если мы добавим крошечные дополнительные части, которые направляют модель в нужном нам направлении? Их меньший размер обеспечивает гораздо более быстрое обучение. Это основной принцип адаптации низкого ранга (LoRA) . С LoRA определенные части модели остаются неизменными, что часто называют заморозкой параметров. Затем вводится меньший набор данных с небольшими исправлениями, сосредотачивая усилия по обучению на этих добавленных частях.

Фактически, обычно вы можете обучить всего 2% исходных параметров с помощью LoRA и все равно увидеть существенные изменения в результатах.

Почему это работает? Многие модели поведения (например, новые стили, задачи или знания) можно включить, не изменяя каждый параметр модели. Эти изменения можно выразить в виде небольших шаблонов или направлений в рамках существующих знаний модели. LoRA эффективно фиксирует эти шаблоны, не затрагивая исходную модель.

Взгляните на несколько примеров, сравнивающих базовую модель Gemini Nano с результатами после добавления LoRA.

Мы попросили Gemini Nano создать короткий заголовок, который «привлекает внимание и передает суть содержания» для статьи Википедии о национальном парке Джошуа-Три .

Близнецы Нано Gemini Nano с LoRA
Уникальный ландшафт и история национального парка Джошуа-Три Джошуа-Три: национальный парк в Калифорнии, простирающийся через пустыни и дом культовых деревьев

Далее мы попросили Gemini Nano написать короткий тизер для статьи о Рататуе . «Напишите одно заманчивое предложение, которое побудит пользователей прочитать полный текст».

Близнецы Нано Gemini Nano с LoRA
Рататуй — любимое французское провансальское блюдо с тушеными овощами, часто с помидорами и чесноком. Его происхождение можно проследить до 18 века, и его приготовление развивалось с течением времени, некоторые повара подчеркивали отдельные овощные вкусы, в то время как другие предпочитали более гладкую, более однородную текстуру. Помимо своего французского происхождения, рататуй вдохновил на создание похожих блюд в различных кухнях мира, включая пипераде из Испании и тиан из Средиземноморья. Фильм «Рататуй» (2007) еще больше популяризировал блюдо, продемонстрировав его кулинарную универсальность и эмоциональный резонанс. Рататуй, французское провансальское блюдо из тушеных овощей, имеет богатую кулинарную историю, превратившись из простого рагу в современный кулинарный шедевр, покоривший публику по всему миру.

Демонстрация вывода в реальном времени

Мы создали интерфейс, демонстрирующий сравнение выходных данных Gemini Nano и Gemini Nano с LoRA.

Мы попросили Gemini Nano создать краткое изложение tldr с short длиной для статьи Ocean Sunfish . Помните, что tldr и short требуют ответа в 1 предложение, которое является «быстрым чтением».

Посмотрите в режиме реального времени, сколько времени заняло создание результатов, и ознакомьтесь с выводом.

Благодаря тонкой настройке Gemini Nano может лучше генерировать сводку, которая следует конкретным инструкциям.

Привлекайте и делитесь отзывами

Мы с нетерпением ждем ваших отзывов о том, как доработанный Gemini Nano повлиял на ваши сводки.

Откройте для себя все встроенные API ИИ , которые используют модели, включая большие языковые модели, в браузере.


  1. Chin-Yew Lin. 2004. ROUGE: Пакет для автоматической оценки резюме . В Text Summarization Branches Out, страницы 74–81, Барселона, Испания. Ассоциация компьютерной лингвистики.

  2. Кишор Папинени, Салим Рукос, Тодд Уорд и Вэй-Цзин Чжу. 2002. BLEU: метод автоматической оценки машинного перевода. В трудах 40-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL '02).

  3. Мусуми Актер, Наман Бансал и Шубхра Канти Кармакер. 2022. Пересмотр автоматической оценки задачи извлекающего реферирования: можем ли мы сделать лучше, чем ROUGE?. В результатах Ассоциации компьютерной лингвистики: ACL 2022, страницы 1547–1560, Дублин, Ирландия. Ассоциация компьютерной лингвистики.

  4. Daniel Deutsch и Dan Roth. 2021. Understanding the Extent to which Content Quality Metrics Measure the Information Quality of Summaries. В трудах 25-й конференции по компьютерному обучению естественному языку, страницы 300–309, онлайн. Ассоциация компьютерной лингвистики.