Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим

Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим
18:00, 10 Апр.

Лаборатории искусственного интеллекта, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели ИИ, способные последовательно анализировать проблемы, превосходят свои нерассуждающие аналоги в определенных областях, таких как физика.

Хотя это утверждение в целом верно, высокие затраты на бенчмаркинг моделей рассуждений затрудняют независимую проверку этих заявлений. Согласно данным компании Artificial Analysis, стороннего тестировщика ИИ, оценка модели рассуждений o1 от OpenAI в рамках семи популярных бенчмарков — MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 — обошлась в 2767,05 долларов США.

Для сравнения, тестирование гибридной модели Claude 3.

7 Sonnet от Anthropic на том же наборе тестов стоило 1485,35 долларов США, а оценка модели o3-mini-high от OpenAI составила 344,59 долларов США. Некоторые модели рассуждений дешевле для бенчмаркинга.

Например, оценка o1-mini от OpenAI обошлась в 141,22 доллара США. Однако в среднем такие модели остаются дорогими. В общей сложности Artificial Analysis потратила около 5200 долларов на оценку примерно дюжины моделей рассуждений — почти вдвое больше суммы расходов на анализ более 80 нерассуждающих моделей (2400 долларов).

Нерассуждающая модель GPT-4o от OpenAI, выпущенная в мае 2024 года, была оценена всего в 108,85 долларов США.

В то же время Claude 3.6 Sonnet — предшественник Claude 3.7 Sonnet — обошелся в 81,41 доллара. Соучредитель Artificial Analysis Джордж Кэмерон сообщил TechCrunch о планах организации увеличить бюджет на бенчмаркинг по мере появления новых моделей рассуждений.

«Мы проводим сотни оценок ежемесячно и выделяем значительные средства на эти цели», — отметил Кэмерон. «С увеличением частоты выпуска новых моделей мы планируем увеличить и наши расходы».

Artificial Analysis не единственная компания, сталкивающаяся с растущими затратами на бенчмаркинг ИИ. Росс Тейлор, генеральный директор стартапа General Reasoning, недавно потратил 580 долларов на оценку Claude 3.

7 Sonnet по примерно 3700 уникальным подсказкам. Он оценивает стоимость одного прогонного теста MMLU Pro — набора вопросов для оценки языковых навыков модели — более чем в 1800 долларов. «Мы вступаем в эпоху, когда лаборатории сообщают о своих результатах по бенчмаркам на основе значительных вычислительных ресурсов; однако академические ресурсы значительно меньше», — отметил Тейлор в недавнем посте на X (ранее Twitter).

«В результате никто не сможет воспроизвести эти результаты».

Почему же тестирование моделей рассуждений обходится так дорого? Основная причина заключается в том, что они генерируют огромное количество токенов. Токены представляют собой фрагменты текста; например, слово «fantastic» может быть разбито на слоги «fan», «tas» и «tic».

По данным Artificial Analysis, модель o1 от OpenAI сгенерировала более 44 миллионов токенов во время тестирования — это примерно восемь раз больше по сравнению с GPT-4o.

Большинство компаний ИИ взимают плату за использование своих моделей на основе количества токенов; поэтому затраты могут быстро возрасти. Современные бенчмарки также требуют большого количества токенов из-за сложных многошаговых задач.

Жан-Станислас Денейн, старший научный сотрудник Epoch AI (разрабатывающей собственные бенчмарки), объяснил: «Сегодняшние бенчмарки более сложные [хотя] общее количество вопросов уменьшилось».

Они часто направлены на оценку способности моделей выполнять реальные задачи: писать и исполнять код или осуществлять поиск информации в интернете. Денейн добавил, что самые дорогие модели со временем становятся еще дороже за токен.

Например, модель Claude 3 Opus от Anthropic была самой дорогой при своем запуске в мае 2024 года с ценой $70 за миллион выходных токенов. Модели GPT-4.5 и o1-pro от OpenAI (выпущенные ранее в этом году) стоят $150 и $600 за миллион выходных токенов соответственно.

«Хотя стоимость достижения определенного уровня производительности значительно снизилась благодаря улучшению моделей», — отметил Денейн, — «если вы хотите оценить лучшие и самые крупные модели на данный момент времени, вам все равно придется заплатить больше».

Многие лаборатории ИИ (включая OpenAI) предоставляют организациям для бенчмаркинга бесплатный или субсидируемый доступ к своим моделям для тестирования.

Однако некоторые эксперты считают это практикой искажения результатов; даже без доказательств манипуляций само предположение о влиянии лаборатории может подорвать доверие к результатам оценки.

«С научной точки зрения», — задается вопросом Тейлор в своем посте на X: «если вы публикуете результаты, которые невозможно воспроизвести с той же моделью — является ли это вообще наукой? Было ли это когда-либо наукой?».

Рубрика: Технологии. Читать весь текст на itzine.ru.