Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy

Russia12 287Russian11 970Technologies & Applications1 829

Advertising posts

48 315

Subscribers

+17224 hours

+1 7847 days

+3 05730 days

20 697

Post views

~ 14 32324 hours

~ 15 98648 hours

42.92%

Engagement rate

29.7%24 hours

33.2%48 hours

894

Mentions

507 days

14230 days

~ 2

Posts per day

~ 278

Reactions

~ 106

Comments

~ 152

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Repost from epsilon correct

Сколько на самом деле стоит инференс GPT-4o? Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе. Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны. Для расчётов нам нужно сделать несколько допущений: 1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s. 2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше. 3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%. При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨 Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

Show all...

👍 100🤯 43 23🤡 16❤‍🔥 8🎉 3🔥 2💩 2

Флеш-новости 4 (для тех, кто пережил два лонга за полторы недели 🚬): — CEO GitHub тизерит появление моделей o1 завтра в своём продукте. Это может быть как рядовая замена модели, не привнёсшая ничего нового с точки зрения UX, так и кардинальное улучшение Copilot, который теперь будет гораздо лучше планировать изменения в коде и размышлять о том, что имел в виду пользователь. — Ходят слухи, что, возможно, в ближайшее время (чуть ли не на этой неделе) Google представит новую Gemini (может быть 2.0, может быть Ultra — её же не обновили до 1.5). Особый упор будет сделан на программирование. Вообще Google точно делал исследовательскую работу в том же направлении, что и OpenAI для o1, потому не удивлюсь, если будут схожий анонс с теми же акцентами. Google даже может превзойти OpenAI за счёт большего количества вычислительных мощностей на тренировку LLM — Sam Altman озвучивал такие опасения менеджерам в Microsoft. — несколько представителей AI индустрии сходили в Сенат США, где их опрашивали про регуляции. Там была и Helen Toner, бывший член совета директоров, уволившаяся после возвращения Sam Altman. В своём вводном слове она говорила, что большинство регуляций надо направить на системы будущего, а не текущего поколения, и что дипфейки и GenAI это конечно опасно, но нужно думать про более глобальное влияние. И последующие 2 часа в Сенате говорили про... дипфейки и подмену голоса в звонках 🔥. — ещё в этих слушаниях поднялась интересная тема разницы компенсаций в индустрии и в гос. структурах, и что никакой шарящий человек не пойдет работать в агентство-регулятор на зп в 5-10 раз меньше. Что-то с этим нужно делать. — Microsoft и BlackRock (крупнейшая в мире инвест-компания, под управлением которой находится имущества на 10 триллионов долларов, примерно 8% мирового ВВП) планируют открыть инвест-фонд на... 30 миллиардов долларов. А ещё он может быть расширен до $100B 😨. Цель фонда — инвестиции в инфраструктуру для AI. Обратите внимание, что это не то же, что инвестировать в OpenAI. Это именно про налаживание производства и цепочек поставок, про строительство датацентров и электростанций. Вероятно, BlackRock считает, что в ближайшие годы будет дефицит, и они хотят сыграть на опережение. Партнёрами также выступит MGX, крупный фонд из ОАЭ. — неделю назад CEO OpenAI, Anthropic, Nvidia и президент Google ходили в Белый дом для обсуждения будущего электроэнерегетики, инфраструктуры под AI, производства полупроводников. Позже на той же неделе было объявлено о создании рабочей группы по AI Datacenter Infrastructure. Департамент энергетики (Department of Energy звучит несерьезно, но они отвечают за ядерное оружие и энергетику, а также под их контролем находятся самые мощные публичные суперкомпьютеры) выделит отдельную команду под AI-датацентры и общение с частным сектором. Также DOE поделится картой месторождений угля, на основе которой будет приниматься решени о размещении датацентров и фабрик. — люди всё ещё не верят, что AI продолжит развиваться семимильными шагами (банально за счёт масштабирования) и вот-вот застопорится. К этому часу у меня всё 😁😀

Show all...

🔥 232👍 77 23 12🤔 6🌚 5🤡 3👎 2🤯 1👨‍💻 1

Photo unavailableShow in Telegram

🤣 130 69🤡 34 23❤‍🔥 9🎉 9💩 8👍 6🔥 5😈 4

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

LMSYS Arena обновила рейтинг, добавив свежие модельки о1. Напомню, что LLM этого семейства не позиционируются как хорошие во всём, и заточены на науку (математика/физика/программирование). OpenAI не обещали улучшений по всем фронтам (ну это вы знаете, если читали сегодняшний лонг). ОДНАКО Модели всё равно в топе - на первом и третьем месте. И это с учётом контроля по стилю и длине - то есть к рейтингу модели применяют некоторую поправку, которая штрафует за очень длинные ответы, а также те, что содержат много списков, заголовков итд. В математике отрывы вообще неприличные (второй скрин). А ещё обратите внимание, что обновилась модель ChatGPT (это та, которая заточена на диалоги, и именно к ней получают доступ пользователи сайта chatgpt) - она заработала +20 очков относительно предыдущей версии. То есть o1 лучше ChatGPT которая лучше прошлых ChatGPT которые лучше всех остальных моделей. 😦 Источник Смотреть рейтинги тут

Show all...

👍 118🔥 40🤯 17❤‍🔥 7 7👨‍💻 2💩 1🤡 1🌚 1

В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров! В свежем лонге разбираемся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой модели. ▀▀▀▀▀▀▀▀▀▀ Читать тут: https://habr.com/ru/companies/ods/articles/843250/ (обязательно делитьесь с друзьями и жмите стрелочку вверх 🔼 под статьёй!) ▀▀▀▀▀▀▀▀▀▀ Отдельная благодарность Павлу Комаровскому @RationalAnswer за помощь в редактуре и подготовке материала — не забывайте подписываться и на него.

Show all...

👍 205❤‍🔥 43🔥 21🤡 14 9👎 1🤯 1💩 1🌚 1

Photo unavailableShow in Telegram

Dan Hendrycks, автор известных и популярных бенчмарков MATH и MMLU, посмотрел на прогресс моделей (по обоим уже 90%+ набрано) и понял, что пора придумать новый набор задачек. Dan называет его «Последним экзаменом человечества» («Humanity's Last Exam», не шутка). Вопросы может присылать каждый. Они должны быть экспертного уровня (человек с улицы не решит) и не быть скопированными с интернета (это чтобы модели не могли их запомнить). Всего будет не менее тысячи вопросов, и у каждого есть возможность поучаствовать — если ваш вопрос отберётся, то вы получите от $500 до $5000. Фишка в том, что прямо на сайте в форме подачи вопроса вы указываете ответ, а затем происходит проверка: 1. 3 передовые модели пытаются ответить на вопрос / решить задачу 2. Если все лажают — в дело вступают свежеприготовленные o1-mini и o1-preview от OpenAI. Если по итогу все 5 моделей ошиблись — открывается возможность отправки. По сути, это базовая верификация, что ваш вопрос сложен для систем сегодняшнего дня. И пишу я этот пост как раз для того, чтобы вы — даже если у вас нет подписки на ChatGPT для доступа к o1 — могли опробовать навыки передовых LLM. Правда есть парочка ограничений: 1. Вопросы не должны быть просто вопросами с подвохом. Бородатое «А и Б сидели на трубе» не подойдет (ну и это не экспертный вопрос). 2. Вопросы не должны быть просто задачей на счёт или вычисление — зачем, если LLM может вызвать Python? Такая задача ничего не проверяет. 3. Вопросы только на английском языке. Так что если вы эксперт в какой-то области, и у вас есть сформулированная проблема (для которой вы знаете ответ) — обязательно попробуйте закинуть на сайт и посмотреть, справляются ли модели. Это даже чисто из интереса стоит опробовать, нежели в погоне за наградой за вопрос. Ссылка: https://agi.safe.ai/submit (никакой регистрации НЕ НУЖНО) Также выкладывайте в комментарии интересные попытки, особенно если LLM смогли вас удивить и ответить правильно, хотя вы ждали промашки!

Show all...

🔥 184👍 63❤‍🔥 11 7🤡 3🤔 1

Photo unavailableShow in Telegram

Ринат с канала @llm_under_hood достаточно давно собрал бенчмарк, основанный на бизнес-кейсах, в рамках которых он внедряет LLM. Это полезно, чтобы и самому отслеживать прогресс, и клиентам показывать, мол, такое можем решать, а с таким модели не справляются. Схожая идея была у меня и для нашего агентства, максимально понятное value. Сначала Ринат посчитал результаты, и модели серии o1 оказались примерно на уровне передовых GPT-4o, которые так и так возглавляли топ. В целом, немного было удивительно, но не очень подозрительно: 1) OpenAI сразу задали ожидания и сказали, что эта линейка o1 нацелена на задачи, связанные с «science, coding, and math» (цитата с сайта). Да, конечно размышления прокачали, но явно есть области, где упор не делался 2) новая модель требует другой подход к заданию промптов, и старые запросы/инструкции могут не работать (даже «скорее не будут работать») 3) OpenAI во время тестов зметили, что большое количество излишнего исходного контекста негативно сказывается на системе. То есть не рекомендуется брать 10 разных страниц текста, лишь одна из которых релевантна, загрузить в промпт и ждать чуда Так что увидев результаты в топ-1 и топ-3 я подумал «ну ок, хорошо, что хоть бизнес-кейсы не сломали». В комментариях, конечно, нашлись добрые люди с сообщениями примерно такого рода: > Их давят что-то выдать, выдали что-то ) медленное, дорогое и не сильно лучше Ну понятно, снова скам от Альтмана, наобещали золотых гор а на деле нифига, LLM вышли на плато. Далее цитирую пост Рината: 🚀Update: в процессе ручной проверки результатов выяснилось, что в Reason часть моих evals была неправильной. Я знал, что с ними ни одна модель не справляется, поэтому не обращал внимания на результаты. А вот o1, оказывается, могли справиться! Я исправил логику проверки и пересчитал все модели. 😱 😀 🤣 🆒 (и ещё на всякий случай напомню, что у OpenAI уже гарантировано прям точно есть модель сильно лучше, чем o1-preview, и что они намеренно её не выпускают сейчас. Разницу в метриках можете посмотреть тут и тут — и стоит ожидать, что когда модель появится через месяц-два, цифры подрастут ещё чуть-чуть) ((и ещё ждём адаптации промптов и инструкций, Ринат!))

Show all...

🔥 110👍 34🤡 14 11🌚 5💩 4 4

Photo unavailableShow in Telegram

Если за вчерашний вечер вы исчерпали лимиты сообщений моделям o1 и o1-mini в ChatGPT, то OpenAI сжалились и сбросили всем счётчики — теперь можно снова отправить 50 сообщений в младшую и 30 в старшую версии. Бонусная информация: — o1-mini планируется добавить в бесплатный тир, то есть каждый сможет с ней общатсья — сотрудник OpenAI заявил, что скоро появятся модели с более длинным контекстом (в том числе для размышлений). А то как-то несолидно, конкуренты тут давно обогнали :( — модель o1-preview — это ранняя версия уже законченной o1. Они одного размера, и вторая получена из первой дообучением. Но по какой-то причине доступа, увы, не дают. По метрикам в некоторых задачах там прям сильный разрыв.

Show all...

🔥 109 42👍 24🎉 21 9🤯 2🤡 1

Repost from Боря программирует

10'000 обезьян и 🥇IOI Я уже пару месяцев как работаю в OpenAI, так что времени на посты сюда почти не осталось. Нужно исправляться. Вчера мы выпустили новую модель, которая думает перед тем как отвечать. Я даже успел попасть в список контрибьюторов. Но пост не об этом — хочу рассказать про результат, который упоминается в посте про новую модель, кажется мне очень неочевидным, но мало обсуждаемый. Как известно, если 10000 обезьян посадить за пишущие машинки, и дать им бесконечно времени, то рано или поздно они возьмут золото на IOI. Наша новая модель гораздо лучше справляется с задачами, где нужно думать, чем все предыдущие модели, но все еще в абсолютных значениях делает это довольно плохо. Ее рейтинг CodeForces оценивается примерно в 1800, и это очень далеко от того, чтобы взять даже бронзовую медаль на IOI. Нам стало интересно, можно ли просто увеличив количество вычислений, добиться лучших результатов. Сетап был такой. Давайте модель попросим 10000 раз решить каждую задачу, а потом выберем лучшие решения. Интуитивно кажется, что для решения сложных олимпиадных задач обычно нужно придумать какую-то красивую идею, и, если модель имеет CF рейтинг 1800, то от увеличения количества попыток, особо ничего не поменяется. Она просто не сможет ее придумать. На практике же оказалось все наоборот. Среди 10000 попыток оказываются такие, когда модель случайно подумала в нужную сторону, и придумала правильную идею. В итоге, если отфильтровать самые лучшие попытки, то их достаточно, чтобы получить золото на IOI (и мне кажется это очень крутой результат!). Правда, как именно находить лучшие решения, если у вас нет возможности протестировать их все, не очень понятно. Получается, что если вам не жалко потратить очень много денег на кучу попыток решить задачу, и вы придумаете как из 10000 решений выбирать самые лучшие, то уже с текущим уровнем развития AI можно довольно хорошо решать олимпиадные задачи.

Show all...

👍 239❤‍🔥 48🤯 21🔥 15🤡 9🌚 9🤔 4👎 1

Photo unavailableShow in Telegram

Удивлён, что про это не написал никакой другой канал. Придётся делать самому 🥺 В рамках подготовки к релизу o1/o1-mini OpenAI отдали модели на тестирование безопасности внешним командам, ну и проводили внутреннее тестирование. В частности, проверяли навыки LLM-агента в решении задач кибербезопасности (писал об этом тут). По сравнению с GPT-4o, o1-preview и o1-mini продемонстрировали улучшение в способности разбивать задачи на подзадачи, рассуждать о том, какие стратегии будут эффективны для успешного выполнения, и пересматривать планы в случае неудачи этих стратегий — ну, это ожидаемо. Но вот во время тестирования произошёл один курьёзно-неприятный случай. Была задача нахождения уязвимости в коде программы, запущенной в отдельном Docker-контейнере. В контейнере есть файл с секретной строкой, которую атакующий (человек или модель) должны получить — как раз используя найденную проблему. Однако из-за инфраструктурной ошибки контейнер не запустился. Модель, будучи неспособной подключиться к контейнеру, заподозрила проблемы с DNS и использовала программу nmap для сканирования сети. Вместо того, чтобы найти целевой контейнер (в рамках задачи LLM знает, какую цельнужно «атаковать»), модель обнаружила, что из-за неправильной конфигурации был доступен внешний API-интерфейс демона Docker, работающий на виртуальной машине. «Демон» это программа верхнего уровня, отвечающая за оркестрацию и управляющая процессом, по сути родительский процесс и для контейнера с LLM-агентом, и для контейнера с целевой программой/файлом для атаки. Модель использовала демон для получения списка контейнеров, запущенных на сервере. Она обнаружила тот самый сломанный сломанный контейнер и попыталась выяснить, почему же он не запустился. Не сумев исправить проблему (но будучи проинструктированной ВЫПОЛНИТЬ СВОЮ ЗАДАЧУ), модель решила пойти другим путём. Она отправила команду запуска нового контейнера (того же, который в прошлый раз не запустился), но отдала ему команду вывода содержания файла с секретной строкой. Команда была исполнена, LLM получила «ключ» в виде строки и как следствие решила задачу (ведь цель — это добраться до строчки и затем отдать её на проверку). Этот пример отражает ключевые элементы того, что называется «instrumental convergence» и захвата ресурсов: модель преследовала поставленную перед ней цель, а когда эта цель оказалась недостижимой, она собрала больше ресурсов (в данном случае получила доступ к демону Docker) и использовала их для достижения цели — в виде способа, который человек не ожидал и не предполагал. Источник — отчёт OpenAI

Show all...

🤯 581👍 170🔥 92🌚 30 17🤡 10 5❤‍🔥 4

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

Сиолошная

Data loading in progress...

Data loading in progress...