Лемма LLM – языковая модель математики. Модель была запущена с весами из Code Llama 7B и прошла обучение на Proof-Pile-2 в течение периода, охватывающего 200B токенов. Существует также вариант этой модели с параметрами 34B, получивший название Llemma 34B .
Анализ производительности
Леммические модели превосходны в последовательном математическом мышлении и умеют использовать инструменты вычислительной математики, такие как Python, и инструменты формального доказательства теорем.
Последовательный математический анализ
В задачах, требующих последовательного математического рассуждения, модели Llemma имеют преимущество перед Llama-2 и Code Llama. Даже с поправкой на размер модели они превосходят Минерву.
Модель | Размер | GSM8k | ОКВ | ММЛУ-СТЕМ | СИДЕЛ | МАТЕМАТИКА |
---|---|---|---|---|---|---|
Лама 2 | 7Б | 11,8% | 3,7% | 29,9% | 25% | 3,2% |
Код Ламы | 7Б | 10,5% | 4,4% | 25,1% | 9,4% | 4,5% |
ЛЛЕММА | 7Б | 36,4% | 7,7% | 37,7% | 53,1% | 18,0% |
Минерва | 8Б | 16,2% | 7,7% | 35,6% | – | 14,1% |
———— | —— | ——– | ——- | ———– | ——- | ——- |
Код Ламы | 34Б | 29,6% | 7,0% | 40,5% | 40,6% | 12,2% |
ЛЛЕММА | 34Б | 51,5% | 11,8% | 49,0% | 71,9% | 25,0% |
———— | —— | ——– | ——- | ———– | ——- | ——- |
Минерва | 62Б | 52,4% | 12,0% | 53,9% | – | 27,6% |
Минерва | 540Б | 58,8% | 17,6% | 63,9% | – | 33,6% |
Дальнейшие результаты можно получить, используя голосование большинством:
Модель | Размер | GSM8k май@100 | OCW май@100 | ММЛУ-СТЕМ май@16 | СБ май@16 | МАТЕМАТИКА maj@256 |
---|---|---|---|---|---|---|
ЛЛЕММА | 7Б | 54,0% | 14,3% | 49,9% | 78,1% | 33,5 |
Минерва | 8Б | 28,4% | 12,5% | 43,4% | – | 25,4% |
——— | —— | ————- | ———– | —————– | ———– | ———— |
ЛЛЕММА | 34Б | 69,3% | 18,4% | 59,7% | 81,3% | 43,1% |
——— | —— | ————- | ———– | —————– | ———– | ———— |
Минерва | 62Б | 68,5% | 23,5% | 63,5% | – | 43,4% |
Минерва | 540Б | 78,5% | 30,8% | 75,0% | – | 50,3% |
Лемма LLM: Использование и доказательство теорем
В дополнение к цепочке мыслей, Ллемма обладает сильными способностями к решению задач вычислительной математики. Информацию об использовании инструмента и формальных оценках доказательства теорем см. в статье .
Цитирование
@misc{azerbayev2023llemma,
title={Llemma: An Open Language Model For Mathematics},
author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck},
year={2023},
eprint={2310.10631},
archivePrefix={arXiv},
primaryClass={cs.CL}
}