epsilon correct

Машинное обучение, графы, языковые модели. Инсайды про карьеру исследователя в FAANG, путь PhD и щепотка полезной математики. Автор @xgfsru

Russia124 901Russian126 784Technologies & Applications20 036

Advertising posts

3 527

Subscribers

+1224 hours

+957 days

+49330 days

6 927

Post views

~ 4 22724 hours

~ 5 36948 hours

200.32%

Engagement rate

122.2%24 hours

155.3%48 hours

Mentions

17 days

330 days

No data

Posts per day

~ 53

Reactions

~ 11

Comments

~ 159

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Photo unavailableShow in Telegram

Часто говорят, что PhD плохо влияет на психическое здоровье, а вот теперь подъехали данные: доля медикаментозного вмешательства существенно увеличивается к концу программы. Берегите кукуху, дорогие подпичики, она стоит того. 🫂

Show all...

61🤪 14😱 1

Сколько на самом деле стоит инференс GPT-4o? Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе. Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны. Для расчётов нам нужно сделать несколько допущений: 1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s. 2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше. 3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%. При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨 Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!

Show all...

👍 31❤ 4🤪 4🔥 3 2

CVPR – крупнейшая в мире конференция по компьютерному зрению – анонсировала несколько существенных изменений процесса подачи и рецензирования статей. CVPR – конференция крупнейшая не только в компьютерном зрении, но и вообще в мире. Например, она занимает второе место в мире по цитируемости, аккурат после Nature. Во-первых, всех авторов статей заставят рецензировать. В более лёгком формате такая система уже работает на конференциях типа NeurIPS и ICLR, вот только там заставляют рецензировать хотя бы одного автора. Интересно, что станет с нагрузкой на рецензентов: по идее, она может очень существенно снизиться в результате такого нововведения. Во-вторых, если ты свою работу рецензента делаешь спустя рукава, твои работы могут быть не приняты к публикации. С одной стороны, это много раз предлагалось кровожадной частью научного сообщества (никому не нравится получать пустую рецензию), с другой – непонятно, будет ли система полностью справедливой. Конечно, ещё интересно, сколько у авторов CVPR рецензии съест собака или испепелит робот на кухне. 🤤 В-третьих, запрещается подавать более 25 статей на конференцию. Тут нужно заметить, что принимается на CVPR примерно четверть поданных статей, так что самым плодовитым авторам (в 23 году у одного китайского профессора было 24 принятых статей) придётся начать выбирать, что подавать. Таким машинам для публикаций придётся либо мигрировать на других площадки, либо улучшать качество статей. Остальные нововведения касаются запретов на использование языковых моделей для анализа статей (переписывать текст рецензии можно) и видимости имён рецензентов во время фазы дискуссии. Как думаете, все эти нововведения останутся и перекочуют в ML конференции?

Show all...

👍 27🤪 6🔥 2 2😢 1

Photo unavailableShow in Telegram

Впечатления от Remarkable Paper Pro Чуть больше недели назад Remarkable анонсировал последнее поколение своих e-ink планшетов – теперь в цвете! Я не смог удержаться от заказа: как мне казалось, от чтения статей на e-ink меня останавиливало только то, что графику и эксперименты было видно ужасно. Мелкие формулы на обычном kindle, с которого я читаю книжки, тоже читать довольно напряжно. К сожалению, технологии до сих пор не преодолели какого-то порога удобства, по крайней мере для меня. 🤓 Сначала про хорошее: девайс монофункциональный, никаках чёрно-белых инстаграмов в нём не привидится, при пользовании придётся не отвлекаться. В этом смысле девайсу жирный плюс, что не ушли от изначального концепта ради поднятия метрик использования планшета. Во-творых, писать на нём реально удобно: буковки появляются при написании практически сразу, сохраняются и синхронизируются тоже почти моментально. В целом, это было и в предыдущих версиях этого планшета, но всё-таки приятно, что продукт продолжают полировать. 👍 Теперь минусы. Их, к сожалению, настолько больше, что рекомендовать этот девайс я не могу никому. Во-первых, не исправили проблему с зумом – скорость отвратительная, а тачпад не распознаёт все движения. В результате user experience получается 🤬очень бесящий. Остались надежда только на daylight computer, ну или не выпендриваться и продолжать читать на айпаде. Во-вторых, передача цветов очень сильно хромает. Для сравнения на фото (за качество вы уж извините, телеграм ужасно жмёт) справа – скриншот из моей статьи, где я цветами что-то показываю; слева – то, как это видно на Remarkable Paper Pro. Все цвета слились в один, смысл картинки полностью потерялся. Графики с множеством цветных линий, так популярные в нашем с вами машинлёрнинге, тоже читаются очень плохо. При письме цвета не получаются натуральными, так ещё и при стирании оставляют за собой след до полного обновления экрана; меня как перфекциониста такое просто вымораживает. В результате основной функционал девайса превращается в UX-пытку. Зачем я вообще этим делюсь? В медия планшет получил восторженные отзывы от всяких изданий, а мне как-то вообще не зашло. Надеюсь, кому-нибудь смогу сэкономить немножно денег. Если вам понравился данный формат постов, дайте знать в комментариях: я всегда могу написать обзор на вилки. 🔪

Show all...

👍 60😭 7 6❤ 1

CVPR – крупнейшая в мире конференция по компьютерному зрению – анонсировала несколько существенных изменений процесса подачи и рецензирования статей. CVPR – конференция крупнейшая не только в компьютерном зрении, но и вообще в мире. Например, она занимает второе место в мире по цитируемости, аккурат после Nature. Во-первых, всех авторов статей заставят рецензировать. В более лёгком формате такая система уже работает на конференциях типа NeurIPS и ICLR, вот только там заставляют рецензировать хотя бы одного автора. Интересно, что станет с нагрузкой на рецензентов: по идее, она может очень существенно снизиться в результате такого нововведения. Во-вторых, если ты свою работу рецензента делаешь спустя рукава, твои работы могут быть не приняты к публикации. С одной стороны, это много раз предлагалось кровожадной частью научного сообщества (никому не нравится получать пустую рецензию), с другой – непонятно, будет ли система полностью справедливой. Конечно, ещё интересно, сколько у авторов CVPR рецензии съест собака или испепелит робот на кухне. 🤤 В-третьих, запрещается подавать более 25 статей на конференцию. Остальные нововведения касаются запретов на использование языковых моделей для анализа статей (переписывать текст рецензии можно) и видимости имён рецензентов во время фазы дискуссии.

Show all...

Photo unavailableShow in Telegram

Пример решения довольно нетривиальной задачки, с которой текущие модели не справляются

Show all...

🤯 24 8🔥 4🤣 3❤ 2👍 1

Photo unavailableShow in Telegram

У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений: 1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз. 😰 2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди. 3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет. 4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).

Show all...

👍 12❤ 1🔥 1

Вчера суд Массачусетса вынес решение отклонить иск Франчески Джино к Гарварду и коллективу DataColada, который раскрыл фальсификации в нескольких работах Франчески. Этот скандал с фальсификациями – самый громкий за последние несколько лет: Джино была одним из ведущих учёных-бихевиористов, её работы были классикой в области. Дополнительную перчинку придаёт скандалу название её книги, вышедшей за пару лет до разоблачения: "Rebel talent: Why it pays to break the rules at work and in life". Такая вот ирония судьбы. 🤔 Мне кажется решение довольно важным в контексте прецедентности: расследовать чужой фрод в исследованиях – можно и нужно, в науке должно быть больше разоблачений плохих методов и сомнительных практик. Один из моих любимых блогов по теме ведёт Лиор Пахтер, который знатно проезжался по сомнительно известному в узких кругах исследователю графов Альберту-Ласло Барабаши. А в ваших областях существуют такие правдорубы? Приглашаю обсудить в комментариях. 👀

Show all...

❤ 24 12🤯 2🤔 1

В комментариях ко вчерашнему посту дорогие подписчики просят рассказать, как написать статью так, чтобы она прошла на NeurIPS. Отвечу сразу – я без понятия, у меня туда попала только одна статья, хотя, может, в этом году появятся ещё. Успешно убив всякую надежду на полезность советов, могу себе позволить свободно пуститься в спекуляции. ✨ Во-первых, стоит послушать других умных людей – одна из лучших презентаций от широко известного подписчикам этого канала Eamonn Keough (в прошлом году я писал про его шикарный доклад "Getting an h-index of 100 in Twenty Years or Less!"), называющаяся "How to do good research & get it published". Также можно прочитать версию на несколько лет раньше, называющуюся "How to do good research, get it published in SIGKDD and get it cited" (с другой стороны, зачем кому-то в 2024 публиковаться на KDD?.. 🗑). Презентация изначально создавалась для data mining сообщества, но для нашего с вами машинного обучения тоже должна работать: обе области опираются во многом на эмпирические доказательства и основные научные парадигмы ещё не сформированы. С другой стороны, есть программный комитет конференции – в общих чертах, именно он и решает, что входит в сборник. Конкретно для NeurIPS в далёком 2013 программный комитет прямо писал о том, что они, вообще говоря, хотят видеть. Приятно удивляет, что ещё в дедовские времена 👴 понимали, что на тогда ещё NIPS люди подают совершенно разные типы статей. Свои хот тейки я приберегу для отдельного поста. Над этим придётся подумать, ну и не всё же сразу. 😛

Show all...

21🔥 9👍 7

До анонса принятых статей на NeurIPS – самую большую конференцию по машинному обучению – осталось чуть меньше трёх недель, но за кулисами кипит работа по финальному отбору статей. За последние годы конференция достигла колоссальных размеров – в прошлом году на конференцию было подано чуть более 13000 статей. 👥👥 Обслуживает этот поток ценных идей пирамида из 13000 рецензентов, 1000 area chair и 100 senior area chair. Каждый рецентент должен отрецензировать 6 статей, а area chair назначается на пачку из 12 статей, по которым должен принять окончательное решение, советуясь со своим senior area chair. В этом году меня первый раз повысили до ~~смотрящего~~ area chair 😎, из-за чего у меня немного поменялись взгляды на весь процесс. Во-первых, сильно начали меняться оценки авторов после фазы rebuttal (ответа авторов на рецении). Рецензенты как будто боятся сразу поставить высокую оценку и выжидают, когда им станут доступны рецензии других людей. Сверяются с ними, что ничего не пропустили, и потом поднимают оценку. В моей пачке в среднем скор вырос на полбалла – и это с учётом статей, которые авторы сняли с процесса. Во-вторых, авторы слишком увлекаются спорами с рецензентами. В двух случаях авторы в своих ответах писали то, что в конечном итоге цементировало моё решение о реджекте статьи. В одном особенно неудачном случае авторы решили конфиденциально сообщить о том, что, по их мнению, рецензент некачественно выполняет свою работу и вообще дурак . Пришлось глубоко разобраться в статье и прочитать сопровождающий код – оказалось, неправы были авторы. 🤦‍♂️ Ещё из новых ощущений – конфликт интересов: в этом году четыре статьи из моей пачки – работы, написанные на основе моих предыдущих статей. Для таких статей тяжело найти баланс – с одной стороны, я область знаю наизусть и поэтому могу склоняться выбирать понятные для себя статьи. С другой стороны, любые ошибки и сокрытия я тоже вижу с пол-пинка, так что авторам приходится несладко. С увеличением ответвенности стало интереснее заниматься процессом – если честно, рецензировать я уже подзадолбался. За всё время я написал уже больше 100 рецензий, и сил моих читать одинаковые ошибки больше нет. Посмотрим, все ли мои решения останутся неизменными после поверки с senior AC. Кстати, если у уважаемых подписчиков есть какие-то вопросы по всему процессу, могу попробовать ответить в комментариях. 👉

Show all...

👍 43🔥 27❤ 7

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

epsilon correct

Data loading in progress...

Data loading in progress...