Резюме
- Gemini 2.5 Pro представляет первую полноценную модель «цепочки мыслей» от Google.
- Сообщается, что новая модель от Google демонстрирует превосходные результаты в задачах рассуждения, кодирования и решения проблем.
- Gemini 2.5 теперь доступна для экспериментального использования пользователями Gemini Advanced.
Прошло не так много времени с тех пор, как Google выпустила семейство моделей Gemini 2.0, но компания уже движется вперед с тем, что будет дальше. Google только что анонсировала семейство Gemini 2.5, начав с Gemini 2.5 Pro. Кажется, это поспешно, но мы это допустим.
Google только что объявила о выпуске Gemini 2.5, новейшего поколения моделей искусственного интеллекта. Первоначальный выпуск включает экспериментальную версию Gemini 2.5 Pro, которую компания позиционирует как значительное улучшение возможностей рассуждений и кодирования ИИ по сравнению с Gemini 2.0 и даже по сравнению с конкурирующими моделями.
Важно отметить, что Gemini 2.5 — это первая полноценная модель «цепочки мыслей» от Google, что означает, что она выполняет многошаговое мышление и проверяет точность своих ответов перед их фактическим выводом. Gemini 2.0 уже поддерживала это с моделью 2.0 Flash Thinking (которая также является экспериментальной), но Gemini 2.5 вообще недоступна в версии без цепочки мыслей. Иногда ответы на запросы будут занимать больше времени, но ответы будут более точными, и, будем надеяться, у нас также будет меньше галлюцинаций — как оказалось, это все еще огромная проблема с ИИ, даже с учетом того, насколько продвинутыми стали большие языковые модели.
Google заявляет, что здесь выигрыш поколений выглядит довольно хорошо. Компания утверждает, что в областях, требующих продвинутого мышления, Gemini 2.5 Pro показывает довольно хорошие результаты в таких бенчмарках, как GPQA (Graduate-Level Google-Proof Q&A) и AIME 2025 (American Invitational Mathematics Examination challenges). Кроме того, сообщается, что он набрал 18.8% на Humanity’s Last Exam, сложном наборе данных, разработанном экспертами по предметной области, при тестировании без использования внешних инструментов. Модель также дебютировала на верхней позиции в таблице лидеров LMArena, платформы, которая ранжирует модели ИИ на основе оценок человеческих предпочтений, обогнав недавно выпущенные модели, такие как OpenAI GPT 4.5 или xAI Grok 3.
Google утверждает, что Gemini 2.5 Pro отлично справляется с созданием веб-приложений, агентного кода (кода, предназначенного для автономного выполнения задач), преобразованием кода и редактированием. В тесте SWE-Bench Verified, который оценивает навыки агентного кодирования, Gemini 2.5 Pro набрал 63.8% при использовании пользовательской настройки агента. Чтобы еще больше продемонстрировать свои возможности, компания даже заявила, что модель способна генерировать исполняемый код для видеоигры из однострочного приглашения. Я попробовал сделать именно это на прошлой неделе, когда была выпущена новая функция Canvas, и это было отстойно, поэтому мне нужно будет снова попробовать это с новой моделью, чтобы убедиться, что это правда.
Gemini 2.0 впервые был публично выпущен в конце января, так что не прошло и двух полных месяцев с момента выпуска этого конкретного семейства моделей. В качестве забавного замечания, Google также полностью удалил экспериментальную версию Gemini 2.0 Pro и заменил ее на Gemini 2.5, так что если только стабильная версия этой модели не появится в ближайшее время, технически можно сказать, что у недолговечного семейства Gemini 2.0 вообще не было стабильной «продвинутой» модели. Да, мы сделали это быстро. Поскольку все хотят претендовать на трон ИИ для себя, а конкуренция растет, компании, выпускающие модели в быстрой последовательности, вероятно, станут все более распространенным явлением.
В настоящее время модель доступна в экспериментальной стадии для пользователей Gemini Advanced, поэтому, если у вас есть подписка, вы можете попробовать ее прямо сейчас. Если вы ее еще не видите, может потребоваться еще несколько дней, чтобы она появилась. Мы не уверены, когда мы увидим ее стабильной или когда мы увидим меньшую модель Gemini 2.5 Flash для бесплатных пользователей.
Источник: Google