Llama-2 становится лучше

Llama-2 становится лучше

Лама-2 становится лучше. Мы представляем серию LLM с длинным контекстом, которые поддерживают эффективные контекстные окна размером до 32 768 токенов. Наши серии моделей создаются посредством непрерывного предварительного обучения на основе LLAMA 2 с более длинными обучающими последовательностями и на наборе данных, в котором длинные тексты подвергаются повышенной дискретизации. Мы проводим обширную оценку языкового моделирования, задач синтетического контекстного исследования и широкого спектра исследовательских тестов.

В исследовательских тестах наши модели демонстрируют стабильные улучшения в большинстве обычных задач и значительные улучшения в задачах с длинным контекстом по сравнению с LLAMA 2. Примечательно, что благодаря экономичной процедуре настройки инструкций, которая не требует данных длинных инструкций, аннотированных человеком, вариант 70B может уже превосходит  gpt-3.5-turbo-16k по общей производительности в ряде долгоконтекстных задач. Наряду с этими результатами мы даем углубленный анализ отдельных компонентов нашего метода.

Мы углубимся в кодировку позиций LLAMA и обсудим ее ограничения при моделировании длинных зависимостей. Мы также изучаем влияние различных вариантов дизайна на процесс предварительного обучения, включая сочетание данных и программу обучения длин последовательностей. Наши эксперименты по удалению показывают, что наличие большого количества длинных текстов в наборе данных предварительного обучения не является ключом к достижению высокой производительности,  и  мы эмпирически убедиться, что непрерывное предварительное обучение в длинном контексте более эффективно и столь же эффективно по сравнению с предварительным обучением с нуля с длинными последовательностями.

Like this post? Please share to your friends:
Llama 2
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: