Ebout Data Science | Дима Савелко

@eboutdatascience

Ebout Data Science by @ditengm

مشاركات الإعلانات

665

المشتركون

+124 ساعات

+47 أيام

+8830 أيام

778

عرض المشاهدات

~ 27024 ساعات

~ 29548 ساعات

117.52%

معدل المشاركة

40.8%24 ساعات

44.6%48 ساعات

الإشارات

لا توجد بيانات7 أيام

لا توجد بيانات30 أيام

لا توجد بيانات

المشاركات في اليوم

~ 20

ردود

~ 2

تعليقات

~ 9

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

Дайджест ресурсов или как стать гуру в LLM, устройстве тензорах и DL парадигм

1️⃣ LLM 🗯 На YouTube от 3Blue1Brown вышла понятная и короткая серия лекций LLM. В них рассказывают всю базу про их устройство, наглядно визуализируя основные механизмы. ➡️ Что такое GPT ➡️ Визуализация в трансформеров ➡️ Как работает механизм внимания, где ИИ хранит воспоминания Вследствие этого обновил RoadMap по уничтожению LLM 2️⃣ Устройство PyTorch 👩‍💻 ➡️ Доклад инженера из Facebook AI Research Эдварда Янга, который состоит из двух частей. Первая - рассматриваются различные типы данных, используемые в PyTorch, и особенности их внутренней реализации, вторая - раскрываются принципы написания собственного ядра на базе PyTorch. ➡️The Tensor Cookbook - книга с математической базой по тензорам, там есть как и жёсткий матан, так и для людей с личной жизнью. Для людей, которые знают, что такое личная жизнь, то вам подойдут главы:

1.

Introduction

(определения, важные теоремы и общие понятия) 10.

Machine Learning Applications

(про то, как тензоры работают в привычной нам среде, оптимизацию лоссов и атеншен) 12.

Tensorgrad

(более глубоко про производные, градиенты и операции над тензорами)

3️⃣ DL-парадигмы Ребята c Reddit пару выпустили книгу "Illustrated book to learn about Transformers & LLMs" с объяснением главных DL-парадигм в картинках. Там рассказывается про: - База нейросетей: (перцептроны, backprop, dropout и тд) - Эмбеддинги, токенизация, word2vec, RNN, LSTM, GRU - Трансформеры: BERT, GTP, T5, self-attention, Encoder`ы, Decoder`ы и рекомендации по ускорению вычисления - LLM: SFT, RLHF, промпт-инжиниринг - бонусом рассказ про классические задачи: машинный перевод, sentiment extraction и RAG ‼️ Ещё больше материалов находится тут, также чекайте закреп, там много полезных ссылок, например RoadMap по уничтожению LLM‼️

إظهار الكل...

🔥 13🍌 6🍾 2❤‍🔥 1👍 1❤ 1

Photo unavailableShow in Telegram

Как не обкакаться при старте ML-проекта (Часть 2/2)

Очень часто в компаниях так бывает, что команды делают ML-продукт ради ML-продукта, не понимая того, что хотел заказчик, и зачем модель в целом нужна бизнесу. Обычно это происходит из-за того, что разработчики и заказчики не слышат друг друга И тут встаёт вопрос: А как определить проблему так, чтобы обе стороны максимально понимали друг друга? 👀 Алгоритм для того, чтобы наконец-то начать понимать и слышать друг друга: Алгоритм похож на перевёрнутую пирамиду, которая начинается с понимания самых примитивных вещей и заканчивается более глубинными понятиями 1️⃣ Общая формулировка 💡 В самом начале мы формулируем проблему, формулировка которой будет понятна любому руководителю уровня C (СTO, CEO, ...). Например: "В нашем приложении есть мошенники, которые пытаются атаковать наших пользователей. Если определять мошенников, то мы сможем обеспечить более надёжную безопасность приложения." 2️⃣ Задаём уточняющие вопросы 🔔 Это нужно, чтобы погрузиться в детали и конкретные проблемы, которые может решить наша система, также нужно стараться найти несоответствия в ответах и противоречия, так как это наш самый главный враг. Например: "Что такое мошенник?", "Как он вредит?", "Вредит ли он вообще?"... 3️⃣ Задавать более узкоспециализированные вопросы 💪 Погружаемся ещё глубже и вычленяем подробную информацию и технические детали по имплементации решения. Например: "Как мы технические определяем, что это мошенник?" Итог 🎲 Перед написанием кода уточните с помощью данного алгоритма следующее: - что вы хотите в целом делать - зачем вы хотите делать - что означают сущности, с которыми вы будете работать И всеми возможными способами мучайте бизнес, чтобы расставить все точки над И. Лучше потратить несколько дней на эти вопросы, нежели 3 месяца обучать модель и выкинуть её в окно (P.S. Джейсон Стейтем) 💪 Материалы взяты из книги Валерия Бабушкина 😯

إظهار الكل...

🍌 9👍 7🌭 2❤ 1

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Как не обкакаться при старте ML-проекта (Часть 1/2)

Пространство проблем и пространство решений ❓

Когда к вам приходит бизнес и говорит "Нам нужна система рекомендаций!", то вы не должны бежать и, сломя голову, искать новые алгоритмы для решения задачи. Вы должны выдохнуть и спросить: - Зачем она нам нужна? - Как именно система рекомендаций будет приносить нам деньги? - Что мы будем рекомендовать? - Какую проблему она решает? После ответа на данные вопросы может возникнуть такая ситуация, когда ML-алгоритм совершенно не нужен, достаточно всего лишь какого-нибудь алгоритма или эвристики, что значительно сокращает время на разработку 🍑 Перед разработкой любой ML-системы мы задаём вопрос из пространства проблем - определяется вопросами "Что?" и "Зачем?", а затем переходим в пространство решений - определяется вопросом "Как?" - средства реализации проблемы 🚶‍♀️ Пример из жизни 🤵‍♂️ Мы пилили проект по генерации коротких роликов на основе текста. Мы не залезли в пространство проблем, и как итог мы потратили кучу времени и денег, чтобы переделать проект под новые требования. Не было уточнений множества деталей и как итог, бизнес ожидал одно, а рзрабы делали совершенно другое Итог 💪 Во время проектирования ML-системы задавайтесь вопросом "Что?" и "Зачем?", а уже после "Как?" Материалы взяты из книги Валерия Бабушкина 😯

إظهار الكل...

👍 17🍌 4

Что такое HR-скринниг, и как наиболее эффективно его проходить?

HR-скринниг - это диалог с HR`ом компании. Цель данного этапа понять - подходите ли вы друг другу или нет, и стоит ли тебя впускать на следующей этап собеседования. Возможно, ваш опыт нерелевантен, или вам не нравятся условия компании. Сначала вас вводят в курс дела и обсуждают следующие темы 📞 - Рассказ о компании - Частично погружают в задачи - Условия найма: удалёнка/зп - Команда - Бонусы После этого задают вопросы именно тебе, чтобы понять насколько ты релевантен компании 🎧 - Опыт, просят рассказать кратко, а могут попросить более подробный рассказ - ЗП - Почему ушли с прошлой работы ? - Почему ищете новую работу ? - По каким критериям выбираете новую работу? - Могут дать какой-нибудь блиц на дурочка, состоящий из ТОП-20 ВОПРОСОВ ПО КЛАССИК МЛ 2024 ГОДА 😊 Как наиболее эффективно его проходить? 💪 Самое главное: Дай чёткий ответ себе на вопросы сверху❗️ 1. Про опыт стоит говорить так 💪 "В компании A я работал над задачей рекомендации. Бизнес-задача заключалась в том, чтобы сделать систему рекомендаций, так как это бы привлекло новых пользователей и повысило удержание на несколько процентов. Эту задачу я порешал с помощью B технологий и увеличил метрики на C процентов." - и так про каждую компанию нужно сделать рассказ, где вы работали. 2. Про заработную плату 🍑 Кратко: не говорить вилку первым, а сделать упор на том, что вы будете принимать решение о ЗП после всех полученных офферов. Более подробно читай в моём посте, в котором я рассказываю как торговаться на собесах 📈 3. Причины ухода с прошлой работы 💻 Тут у каждого своя причина: бюрократия, безопасники, долгие процессы, не те ожидания, маленькая зп и тд... 4. Причины поиска новой работы 🙈 Опять же у каждого своя причины: новые задачи, быстрые процессы, больше зп и тд... 5. Критерии выбора новой работы 🍔 У каждого могут быт свои критерии выбора: первое - деньги, второе - задачи, третье - люди и атмосфера и тд... Итог 🧖‍♂️ Стоит просто расслабиться и с улыбкой провести скринниг. После пары собесов вы поймёте, что это однотипный этап, который вы будете щёлкать, как орешки.

إظهار الكل...

🍌 7👍 5🥰 4👏 1

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Как я запрещал галюны в ЛЛМ Последние 3 месяца в Точке я работал над тем, чтобы сделать модель, которая будет определять есть ли галюны в генерации ЛЛМ или нет. Данную модель мы назвали Автовалидатор 🎧 Зачем он нужен? 1️⃣ Компания может потерять клиента, который столкнулся с сумасшедшей ЛЛМкой, которая рассказывает ему про пиво "чёрный русский" при запросе "как оформить ИП в Точке?". При потере клиента теряется потенциальная прибыль 🍑 2️⃣ Понимая, где LLM ошибается, мы можем обучить её на своих же ошибках. А значит лучшее качество модели, а значит лучшее удержание клиентов 🕺 Как работает модель? Начну с того, что при запросе пользователя в БД ищется контекст по запросу, который должен стать основой для ответа ЛЛМ. После поиска генерируется ответ ЛЛМ по контексту - обычный RAG 👁 Автовалидатор состоит из 3 главных частей 🥳 1️⃣ Модель, которая проверяет насколько ответ LLM соответствует контексту, который в неё подали 2️⃣ Модель, которая проверяет насколько ответ LLM соответствует вопросу, который ей задали 3️⃣ Модель, которая проверяет насколько ответ LLM токсичный, политкорректный, матюковый Как мы делали эти модели? 1️⃣ Занились жёсткиим ресёрчем, прочитав N-ое кол-во статей и посмотрев, какой метод будет для нас самым релевантным. 2️⃣ Поняли, что для первой модели подойдёт задача NER, а для второй и третьей задача классификации 😊 3️⃣ Жёстко начали делать бейзлайны и пилить тренировочные данные и тестовую выборку. Тренировочный датасет состоял ПОЛНОСТЬЮ из синты, которая генерирорвалась gpt-4o. А тестовый датасет - это проверенный асессорами кусочек от тренировочного датасета 🤪 4️⃣ Обучили Точковский e5 на данных, затестили и кайфуем. Получили хорошие скоры для небольшого количество данных, ROC-AUC ~ 0.85 5️⃣ Засунули их ONNX и будет процесс деплоя Полезный итог для вас 👅 1️⃣ Всегда делайте КАЧЕСТВЕННУЮ ТЕСТОВУЮ ВЫБОРКУ, чтобы сравнивать разные версии моделей между собой 2️⃣ Проверяйте данные собственными ручками абсолютно всегда: после синты, после асессоров, после чего угодно. 3️⃣ Давайте составлять промпты для генерации синты промпт-инженерам, если есть такие люди в компании. Дело в том, что качество синты напрямую зависит от качества промпта, а с созданием качественного промпта может справиться не каждый ДС.

إظهار الكل...

🔥 15🍌 4👍 2❤ 1😁 1🤡 1🌭 1

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

А шо поботать то ?

Краткий сборник того, что может вам пригодится для изучения ML / DL / NLP / CV Machine Learning 💪 1️⃣ ML Cheatsheet Documentation - Классный конспект по классическому ML, он строгий, с формулами, с пояснениями, поэтому классно совмещать с этим конспектом по ML - с краткой, выжимкой, иллюстрациями и просто кайфовый. Два конспекта, которые прям на все сто помогут вам подготовиться к собесу Deep Learning 💪 1️⃣ Имлпементация моделей на торче - очень классная вещь, особенно полезна, когда вы хотите понять, как работает модель изнутри 2️⃣ Визуализация архитектур и можно поиграться с ними в гугл таблице - помогает, чтобы вникнуть в неизвестные для вас архитектуры 3️⃣ The Little Book of Deep Learning by François Fleuret - База про весь DL с визуализацией, полезно для подготовки к собесам по DL. 4️⃣ Understanding Optimization of Deep Learning - База про оптимизацию, не новичкам, а бывалым ребятам NLP 🔫 1️⃣ GPT from Scratch - Андрюха Карпатый сделал гайд о том, как с нуля сделать GPT архитектуру 2️⃣ Transformer, explained in detail - Игорь Котенков круто объяснил то, как работают трансофрмеры. Кстати если, хочешь заботать Трансформеры/LLM вот мой гайд 3️⃣ Полная история GPT - Игорь Котенков рассказал про историю развития GPT-семейста 4️⃣ База по NLP от Lena Voita - Очень хороший курс для тех, кто хочет вкатиться в NLP 5️⃣ NLP Курс от Андрея Карпатого (База) - Ожидается МЕГАКУРС от Андрюхи Карпатова, который раскроет все необходимые темы в LLM 🌟 CV 🧺 1️⃣ Жёсткий курс от Мичигансково университита по CV - Для тех, кто хочет глубоко вкатиться в CV ‼️ Ещё больше материалов находится тут, также чекайте закреп, там много полезных ссылок ‼️

إظهار الكل...

❤ 14🍌 6❤‍🔥 2🔥 2🥰 2⚡ 1🤯 1

Photo unavailableShow in Telegram

Как мы построили сервис по поиску видео контента с помощью текста

🙈

Мы командой решили написать новую статью на Habr про то, как мы создали сервис по поиску видео контента с помощью картинки - задача Text2Video Retrieval. Грубо говоря, пользователь вводит текст «собака гуляет на берегу моря», и сервис с помощью магии ИИ должен найти видео, где показано, как собака гуляет на берегу моря 🤩 Кратая суть решения состоит в том, что 💪 1️⃣ Мы собрали в БД короткие ролики 2️⃣ Описали скрины из роликов с помощью vision-language model, а QWEN-VL 3️⃣ Пользователь вводит текст «морской пейзаж при закате». 4️⃣ Encoder превращает этот текст в вектор. 5️⃣ Сервис сравнивает этот вектор с векторами из базы данных с помощью ANN. 6️⃣ Пользователь получает релевантные видео текстовому запросу. Статья написана простыми словами, с множеством картинками с пояснениями, поэтому она мега понятная для новичков, и её может почитать даже человек не в IT 🥇 Итог: Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх. Мне важно от вас услышать фидбек и рекомендации по написанию других статей.

إظهار الكل...

👍 15🍌 7🔥 4👏 2⚡ 1

01:14

Video unavailableShow in Telegram

Математика и ML в Кубике Рубика 🎲

Грубо говоря, вам нужно собрать пазл типа Кубик Рубика, но не с помощью программных алгоритмов, а с помощью алгоритмов машинного обучения и математики. Глобальная задача проетка - применить машинное обучение к теории групп Краткая суть задачи может быть описана несколькими способами 🙈 1️⃣ Нахождение пути на графе от вершины А до вершины Б, но размер графа 10^20-10^50 - обычные методы не применимы. Задача близка к прошедшему конкурсу Каггл Санта 2023. 2️⃣ Математически - разложение элемента группы по образующим. Математические пакеты, которые частично могут решать эту задачу - GAP, SAGE. Минимальное требование 👁 Вы знакомы с Питоном, и у вас есть несколько часов свободного времени в неделю. (Альтернативно - можно не знать Питон, но хорошо знать теорию групп - в идеале GAP, SAGE). Цель проекта 📞 Написание статьи в хорошем журнале, участники - соавторы. Другим бонусом будет являться - приобретение навыков по современным методам нейронных сетей, Reinforcement Learning и т.д. Почему вы должны принять участие 👍 Это отличная возможность получить уникальный опыт и стать более конкурентно способным на собеседованиях в DS. Написанная статья или готовое решение может стать значительным фактором при отборе кандидатов, так как в отличие от многих кандидатов ваша активность показывает, что вы действительно болеете Data Scientизмом и можете решать нестандартные задачи и писать статьи. Также это отличная возможность понетворкаться) Если Вам интересно участие 💪 Напишите @alexander_v_c (Александр Червов, к.ф.-м.н. мехмат МГУ, 25 лет math&DS, Kaggle, Scholar, Linkedin). Чат для обсуждений: тут . Вводный доклад тут. Пояснения по RL части тут.

إظهار الكل...

IMG_2740.MP45.32 MB

❤ 7🔥 5🍌 3👍 2❤‍🔥 1

Почему ты теряешь деньги и время на вкат в Data Science При вкате в Data Science ребята допускают кучу ошибок на своём пути, например: 1️⃣ Я не знаю какую область мне выбрать? 🎮 2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸 3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ? 🙈 4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели. Как менторство может помочь именно тебе? Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора. 1️⃣ Экономия времени и денег. Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑 2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором. Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞 3️⃣ Сообщество единомышленников У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲 4️⃣ Кукухология. Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪 Итог: Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство ✋ Вот видео, в котором я рассказываю про себя и свои услуги.

إظهار الكل...

Дмитрий Савелко - менторство, или как я смогу сэкономить тебе деньги и время ?

tg - @ngmdite

🍌 12❤ 2😁 2💩 2🤡 2⚡ 1👍 1🔥 1🥰 1

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Наша первая статья на Habr`е Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время" 👨‍🔬 В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом 😁 Для нашей ЦА мы хотели подсветить следующие темы: 1️⃣ Плюсы-минусы собственной обученной нейронки над API решением 🤪 2️⃣ Как и где собрать данные, с помощью каких методов их можно предобратотать, и как проверить их качество 😐 3️⃣ Поговорили про интерфейс сервиса, каким его можно было бы представить, показали пару примеров 🙂 4️⃣ Рассказали про как работают диффузионные модели 🥰 5️⃣ Про важность baseline модели, на собственном примере показали, что не всегда порой нужно бежать и обучать модели 👅 6️⃣ Подсветили несколько аспектов использования ИИ: авторское право, поддержка, данные... 🤪 И вот что я понял во время её написания: - Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально 💪 - Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье. 😊 Итог: Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение 🥇

إظهار الكل...

👍 15❤ 4🔥 3🍌 2🍾 2

اختر خطة مختلفة

تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

Ebout Data Science | Дима Савелко

جاري تحميل البيانات...

جاري تحميل البيانات...