Data Science by ODS.ai 🦜
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @haarrp
Show more51 590
Subscribers
+1424 hours
+197 days
-3830 days
- Subscribers
- Post coverage
- ER - engagement ratio
Data loading in progress...
Subscriber growth rate
Data loading in progress...
Repost from Machinelearning
🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .
PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.
PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:
🟢ID-кодер перенесен из структуры MLP в структуру Transformer;
🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;
🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;
🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;
🟢запуск bf16 на RTX 3090-4090 возможен с параметром
--aggressive_offload
, но генерация будет выполняться очень, очень, очень медленно.
В PuLID for FLUX есть два критически важных гиперпараметра:
timestep to start inserting ID
. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.
true CFG scale
. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.
Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.
Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:
🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.
⚠️ Важно!
🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;
🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1
▶️Установка и запуск GradioUI:
# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID
# create conda env
conda create --name pulid python=3.10
# activate env
conda activate pulid
# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt
# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt
# Run Gradio UI
python app.py
📌Лицензирование : Apache 2.0 License.
🟡Arxiv
🟡Demo
🟡Google Collab
🖥Github
@ai_machinelearning_big_data
#AI #ML #FLUX #GenAI #PuLID327073175-9bdd0c8a-99e8-4eab-ab9e-39bf796cc6b8.mp48.02 MB
👍 13🔥 5❤ 4
Repost from Machinelearning
Photo unavailableShow in Telegram
🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .
PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.
PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:
🟢ID-кодер перенесен из структуры MLP в структуру Transformer;
🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;
🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;
🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;
🟢запуск bf16 на RTX 3090-4090 возможен с параметром
--aggressive_offload
, но генерация будет выполняться очень, очень, очень медленно.
В PuLID for FLUX есть два критически важных гиперпараметра:
timestep to start inserting ID
. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.
true CFG scale
. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.
Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.
Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:
🟠собственная реализация сообщества ComfyUI;
🟠diffusers-based implementation.
⚠️ Важно!
🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;
🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1
▶️Установка и запуск GradioUI:
# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID
# create conda env
conda create --name pulid python=3.10
# activate env
conda activate pulid
# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt
# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt
# Run Gradio UI
python app.py
📌Лицензирование : Apache 2.0 License.
🟡Arxiv
🟡Demo
🟡Google Collab
🖥Github
@ai_machinelearning_big_data
#AI #ML #FLUX #GenAI #PuLIDPhoto unavailableShow in Telegram
This open-source RAG tool for chatting with your documents is Trending at Number-1 in Github from the past few days
🔍 Open-source RAG UI for document QA
🛠️ Supports local LLMs and API providers
📊 Hybrid RAG pipeline with full-text & vector retrieval
🖼️ Multi-modal QA with figures & tables support
📄 Advanced citations with in-browser PDF preview
🧠 Complex reasoning with question decomposition
⚙️ Configurable settings UI
🔧 Extensible Gradio-based architecture
Key features:
🌐 Host your own RAG web UI with multi-user login
🤖 Organize LLM & embedding models (local & API)
🔎 Hybrid retrieval + re-ranking for quality
📚 Multi-modal parsing and QA across documents
💡 Detailed citations with relevance scores
🧩 Question decomposition for complex queries
🎛️ Adjustable retrieval & generation settings
🔌 Customizable UI and indexing strategies
#rag #ml
▪ Github
@opendatascience
👍 15❤ 7🔥 4
Photo unavailableShow in Telegram
Курсы от Центрального университета для тех, кто уже многое видел в ML, DL и ИИ для углубленной прокачки навыков!
Университет открыл курсы дополнительного образования с интенсивной программой уровня второго курса магистратуры и большим количеством практики. Обучение проходит по вечерам или по субботам, занятия можно посещать как оффлайн в московском кампусе, так и онлайн.
Выбирайте от одного до четырех курсов из списка:
– Рекомендательные системы;
– компьютерное зрение;
– обработка естественного языка;
– прогнозирование временных рядов.
Подробнее о курсах и университете здесь.
Реклама, АНО ВО «Центральный университет», ИНН 7743418023
🤡 16❤ 4👍 2👀 1
Photo unavailableShow in Telegram
76-page survey paper on Prompting Techniques ✨
Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities.
📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates.
📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories:
1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt
2) Zero-Shot - prompting without exemplars
3) Thought Generation - prompting the LLM to articulate reasoning
4) Decomposition - breaking down complex problems
5) Ensembling - using multiple prompts and aggregating outputs
6) Self-Criticism - having the LLM critique its own outputs
📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection.
📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities.
📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed.
📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented.
https://arxiv.org/abs/2406.06608
@opendatascience
👍 12🔥 3❤ 2
Repost from Рекомендательная [RecSys Channel]
Photo unavailableShow in Telegram
Законы масштабирования в больших моделях последовательных рекомендаций
Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да.
Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной.
В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем:
— Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита.
— Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже.
Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров.
Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты.
@RecSysChannel
Разбор подготовил ❣ Артем Матвеев
👍 6🔥 2❤ 1
00:20
Video unavailableShow in Telegram
🔥Introducing MLR-Copilot: autonomous machine learning research with LLM agents, which
→ generate research ideas
→ implement experiments
→ execute implementation with human feedback
📑Paper https://arxiv.org/abs/2408.14033
🔨Code https://github.com/du-nlp-lab/MLR-Copilot
🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot
@opendatascience
231125267.mp41.41 KB
👍 9❤ 5🔥 2
Repost from Machinelearning
🌟 Microsoft Research AutoGen Studio: Low-Code интерфейс для быстрого прототипирования агентов LLM.
Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.
AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.
AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.
Возможности :
🟢Создание / настройка агентов (пока поддерживаются 2 рабочих процесса агентов на основе UserProxyAgent и AssistantAgent), изменение их конфигурации (например, навыки, температура, модель, системные сообщения агента, модель и т.д.) и объединение их в рабочие процессы;
🟢Чат с агентами по рабочим процессам и определение для них задач;
🟢Просмотр сообщений агента и выходных файлов в пользовательском интерфейсе после запуска агента;
🟢Поддержка сложных рабочих процессов агентов (например, групповой чат и последовательные рабочие процессы);
🟢Улучшение качества работы пользователей (например, потоковая передача промежуточных ответов LLM, лучшее обобщение ответов агентов и т. д.);
🟢AutoGen Studio использует SQLModel (Pydantic + SQLAlchemy). Это обеспечивает связь между сущностями (навыки, модели, агенты и рабочие процессы связаны через таблицы ассоциаций) и поддерживает несколько диалектов бэкенда базы данных, которые есть в SQLAlchemy (SQLite, PostgreSQL, MySQL, Oracle, Microsoft SQL Server).
Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.
⚠️ Примечания от разработчика:
🟠AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов. 🟠AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом. 🟠Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.📌Лицензирование : CC-BY-NC-SA-4.0 License & MIT License 🟡Страница проекта 🟡Документация 🟡Arxiv 🟡Сообщество в Discord 🖥Github [ Stars: 30.2K | Issues: 493 | Forks: 4.4K] @ai_machinelearning_big_data #AI #AgentsWorkflow #MLTool #Microsoft #LLM
👍 8🔥 4❤ 2
Photo unavailableShow in Telegram
An open source UI to train your own Flux LoRA just landed on Hugging Face 🚀 Also, probably the easiest and cheapest (local training also supported).
https://huggingface.co/spaces/autotrain-projects/train-flux-lora-ease
#Flux #LoRA
@opendatascience
❤ 6🔥 3👍 1
Repost from Yandex for Developers
👀 ICML 2024 глазами ML-лидов Яндекса
The International Conference on Machine Learning — одна из крупнейших международных конференций по машинному обучению.
➡️ В этом году её посетила делегация из 46 яндексоидов. Недавно впечатлениями делился наш коллега Владислав Офицеров, а теперь о своих наблюдениях рассказывают CTO Поиска Алексей Гусаков и ML Brand Director Пётр Ермаков — листайте карточки!
⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке
Подписывайтесь:
💬 @Yandex4Developers
🔥 11🤡 5👍 4🤷♂ 1🌚 1
Choose a Different Plan
Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.