Data Science 🧑‍💻

Самое большое сообщество Data Science на русском языке. — обучающие материалы — последние новости из мира DS — обзоры компаний, подборки вакансий и многое другое 💬 Общий чат по DS: @datascience_ru_chat Админ: @anothertechrock

إظهار المزيد

Network:Python Books. Книги по питону روسيا271 964الروسية278 025التكنولوجيات والتطبيقات39 913

مشاركات الإعلانات

1 012

المشتركون

-224 ساعات

-57 أيام

-930 أيام

لا توجد بيانات

عرض المشاهدات

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

لا توجد بيانات

معدل المشاركة

لا توجد بيانات24 ساعات

لا توجد بيانات48 ساعات

الإشارات

لا توجد بيانات7 أيام

لا توجد بيانات30 أيام

لا توجد بيانات

المشاركات في اليوم

لا توجد بيانات

ردود

لا توجد بيانات

تعليقات

لا توجد بيانات

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

إظهار الكل...

👍 1🥰 1

Photo unavailableShow in Telegram

Яндекс разработал и опубликовал библиотеку YaFSDP — собственное решение для ускорения обучения больших языковых моделей. При обучении LLM возникает проблема сложности вычислений и коммуникаций GPU в кластере. Большие расчёты должны синхронизироваться на разных видеокартах, а для этого сами устройства должны обмениваться информацией, чтобы не считать два раза одно и то же. Если GPU делают это неэффективно, то они теряют до 30% недоутилизированной мощности. Библиотека YaFSDP позволяет ускорить обучение больших языковых моделей до 25%. С её помощью можно тратить меньше времени на обучение и расходовать меньше ресурсов графических процессоров (GPU). Подробнее о том, как менялись подходы к оптимизации ресурсов можно прочитать в статье на «Хабре».

إظهار الكل...

👍 1

ClickHouse: полезные лайфхаки ClickHouse - это колоночная СУБД для OLAP (online-analytical processing). Большинство аналитиков, которых я знаю, в восторге от ClickHouse, хотя его администрирование имеет свои нюансы и подводные камни. В этой статье я расскажу, что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики, а также поделюсь tips & tricks из моего опыта. Поехали. Читать статью

إظهار الكل...

ClickHouse: полезные лайфхаки

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство...

Photo unavailableShow in Telegram

Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3 YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения. Особенность таких Lite-моделей заключается в более высокой скорости ответов, что позволяет решать простые задачи бизнеса буквально в режиме реального времени. Поэтому нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат: например, бот-консультант на сайте, система подсказок для операторов колл-центров или суммаризатор результатов деловых встреч. ✈️ По данным замеров, YandexGPT 3 Lite стала ещё быстрее и точнее — и она уже доступна в режиме release candidate на облачной платформе Yandex Cloud. То есть клиенты могут протестировать её и плавно внедрить в свои продукты через API уже в ближайшее время. Одним из ключевых этапов обучения модели стало выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре - детали реализации Alignment и RL.

إظهار الكل...

MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов MLOps — это ответвление от DevOps, ряд практик и инструментов, характерных для ML-сферы. По ссылке гайд, рассказывающий о том, что это такое и зачем это нужно.

إظهار الكل...

MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов

Когда впервые сталкиваешься с понятием MLOps, нет абсолютно никакого понимания, а зачем это вообще нужно. В разного рода выступлениях, посвященных этой теме, рассказывают о важности воспроизводимости...

Photo unavailableShow in Telegram

Как использовать нейросети в обучении с подкреплением? В чем недостатки классических алгоритмов и как нейросети помогают их решить? Узнайте на открытом практическом уроке от OTUS, где мы разберем: - как реализовать алгоритм Q-learning на базе нейросети и что нам это даст; - различные виды функции потерь и реализацию для алгоритма DQN (Deep Q-learning); - дополнительные условия архитектуры нейросети, моделирующей поведение агента в алгоритме DQN. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. Встречаемся 13 июня в 20:00 мск в рамках курса «Reinforcement Learning». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить бесплатный урок: https://vk.cc/cxzwhc Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

إظهار الكل...

00:04

Video unavailableShow in Telegram

VRT: A Video Restoration Transformer Github: https://github.com/jingyunliang/vrt Paper: https://arxiv.org/abs/2201.12288

إظهار الكل...

ezgif-2-20df3d937b.mp44.92 KB

🔥 2

Photo unavailableShow in Telegram

Интересуетесь современными моделями прогнозирования временных рядов? Присоединяйтесь к открытому вебинару 11 июня в 20:00 мск и узнайте все о современных моделях прогнозирования типа TimesNet и TimeGPT! Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд и преподаватель. На занятии вы познакомитесь с основными принципами использования трансформерных моделей в прогнозировании временных рядов и даже попробуете обучить свою модель на их основе. Не упустите возможность узнать о последних тенденциях в этой области и применить их на практике! Занятие посвящено старту курса «Machine Learning. Advanced». Все участники вебинара получат специальную цену на обучение! Записывайтесь сейчас, а мы потом напомним. Участие бесплатно: https://vk.cc/cxywbU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

إظهار الكل...

Data Scientist (Pricing) в Lamoda Tech Мы в поиске Data Scientist в команду Pricing. Чем предстоит заниматься: — Развивать систему динамического ценообразования; — Заниматься построением системы конкурентного ценообразования (матчинг), включающей в себя как модели DL (NLP/CV), так и классический ML; — Использовать модели эластичности в других бизнес продуктах: ранжировании, пополнении стока, промо (купоны) и персональном ценообразовании; — Предлагать новые инициативы, связанные с развитием data-driven подхода в отделе коммерции. Стэк технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch. Почему у нас классно: — Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации; — Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах; — У нас представлен полный жизненный цикл разработки data-driven продуктов с применением ML — от идеи и генерации гипотез до запуска АБ тестов. В части разработки онлайн-сервисов и деплоя моделей нам помогает команда инженеров. Мы ожидаем: — Опыт в области анализа данных и машинного обучения (от 2 лет); — Опыт работы с SQL, Hadoop, Hive, Spark; — Владение Python, Linux, методами работы с большими данными; — Опыт работы как минимум с 2 ML библиотеками: Scikit-learn, CatBoost/XGBoost, PyTorch, Spark ML; — Знания теории вероятностей и математической статистики; — Знания в области машинного обучения, прогнозного моделирования и методов статистического анализа; — Знание алгоритмов и структур данных; — Высшее образование в области прикладной математики, информационных технологий, информатики и т.п; • Английский язык на уровне технического чтения. Как мы работаем: — Пишем на Python 3.6+ и PySpark 3.0; — Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру; — Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов; — Используем Airflow для управления ML-пайплайнами и запуском их по расписанию; — В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач; — Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов; — В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты. Откликнуться: https://budu.jobs/vacancy/b26cd0da-148a-431f-a0df-d24cafb78907?vlid=b1f069d6-12ed-408d-9d2b-2fec08c8e2ac

إظهار الكل...

Photo unavailableShow in Telegram

📈7 ключевых книг по визуализации данных Способность аналитика эффективно обрабатывать и представлять данные становится критически важной. Визуализация не просто улучшает понимание сложных наборов данных, но и помогает в принятии обоснованных бизнес-решений. В статье на vc.ru (на русском) и Medium (на английском) Азиз Абдрахимов, Product Analytics Lead из QIC digital hub, делится своим топом ключевых книг, которые должны быть в арсенале каждого аналитика.

إظهار الكل...

👍 5

اختر خطة مختلفة

تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

Data Science 🧑‍💻

جاري تحميل البيانات...

جاري تحميل البيانات...