Data Science by ODS.ai 🦜

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
00:11
Video unavailableShow in Telegram

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX . PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции. PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev: 🟢ID-кодер перенесен из структуры MLP в структуру Transformer; 🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT; 🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален; 🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU; 🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно. В PuLID for FLUX есть два критически важных гиперпараметра: timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4. true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса. Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG. Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI: 🟠собственная реализация сообщества ComfyUI; 🟠diffusers-based implementation. ⚠️ Важно! 🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении; 🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1 ▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🟡Demo 🟡Google Collab 🖥Github @ai_machinelearning_big_data #AI #ML #FLUX #GenAI #PuLID

Show all...

327073175-9bdd0c8a-99e8-4eab-ab9e-39bf796cc6b8.mp48.02 MB

👍 13🔥 5❤ 4

Repost from Machinelearning

Photo unavailableShow in Telegram

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX . PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции. PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev: 🟢ID-кодер перенесен из структуры MLP в структуру Transformer; 🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT; 🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален; 🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU; 🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно. В PuLID for FLUX есть два критически важных гиперпараметра: timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4. true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса. Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG. Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI: 🟠собственная реализация сообщества ComfyUI; 🟠diffusers-based implementation. ⚠️ Важно! 🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении; 🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1 ▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License. 🟡Arxiv 🟡Demo 🟡Google Collab 🖥Github @ai_machinelearning_big_data #AI #ML #FLUX #GenAI #PuLID

Show all...

Photo unavailableShow in Telegram

This open-source RAG tool for chatting with your documents is Trending at Number-1 in Github from the past few days 🔍 Open-source RAG UI for document QA 🛠️ Supports local LLMs and API providers 📊 Hybrid RAG pipeline with full-text & vector retrieval 🖼️ Multi-modal QA with figures & tables support 📄 Advanced citations with in-browser PDF preview 🧠 Complex reasoning with question decomposition ⚙️ Configurable settings UI 🔧 Extensible Gradio-based architecture Key features: 🌐 Host your own RAG web UI with multi-user login 🤖 Organize LLM & embedding models (local & API) 🔎 Hybrid retrieval + re-ranking for quality 📚 Multi-modal parsing and QA across documents 💡 Detailed citations with relevance scores 🧩 Question decomposition for complex queries 🎛️ Adjustable retrieval & generation settings 🔌 Customizable UI and indexing strategies #rag #ml ▪ Github @opendatascience

Show all...

👍 15❤ 7🔥 4

Photo unavailableShow in Telegram

Курсы от Центрального университета для тех, кто уже многое видел в ML, DL и ИИ для углубленной прокачки навыков! Университет открыл курсы дополнительного образования с интенсивной программой уровня второго курса магистратуры и большим количеством практики. Обучение проходит по вечерам или по субботам, занятия можно посещать как оффлайн в московском кампусе, так и онлайн. Выбирайте от одного до четырех курсов из списка: – Рекомендательные системы; – компьютерное зрение; – обработка естественного языка; – прогнозирование временных рядов. Подробнее о курсах и университете здесь. Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Show all...

🤡 16❤ 4👍 2👀 1

Photo unavailableShow in Telegram

76-page survey paper on Prompting Techniques ✨ Explores structured understanding and taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. 📌 The paper focuses on discrete prefix prompts rather than cloze prompts, because prefix prompts are widely used with modern LLM architectures like decoder-only models. It excludes soft prompts and techniques using gradient-based updates. 📌 The paper identifies 58 text-based prompting techniques broken into 6 major categories: 1) In-Context Learning (ICL) - learning from exemplars/instructions in the prompt 2) Zero-Shot - prompting without exemplars 3) Thought Generation - prompting the LLM to articulate reasoning 4) Decomposition - breaking down complex problems 5) Ensembling - using multiple prompts and aggregating outputs 6) Self-Criticism - having the LLM critique its own outputs 📌 For ICL, it discusses key design decisions like exemplar quantity, ordering, label quality, format, and similarity that critically influence output quality. It also covers ICL techniques like K-Nearest Neighbor exemplar selection. 📌 Extends the taxonomy to multilingual prompts, discussing techniques like translate-first prompting and cross-lingual ICL. It also covers multimodal prompts spanning image, audio, video, segmentation, and 3D modalities. 📌 More complex techniques like agents that access external tools, code generation, and retrieval augmented generation are also taxonomized. Evaluation techniques using LLMs are discussed. 📌 Prompting issues like security (prompt hacking), overconfidence, biases, and ambiguity are highlighted. Two case studies - benchmarking techniques on MMLU and an entrapment detection prompt engineering exercise - are presented. https://arxiv.org/abs/2406.06608 @opendatascience

Show all...

👍 12🔥 3❤ 2

Photo unavailableShow in Telegram

Законы масштабирования в больших моделях последовательных рекомендаций Авторы из WeChat и Tencent разбирались, работают ли законы масштабирования нейросетей для рекомендательных систем. Главный вопрос — есть ли улучшение качества рекомендаций при увеличении количества обучаемых параметров? Короткий ответ — да. Известно, что рост количества параметров моделей иногда коррелирует с улучшением качества решаемых задач. Больше всего работ посвящено законам масштабирования в языковых моделях. В них определяется эмпирическая зависимость функции потерь на отложенной выборке от характеристик обучения. Обычно рассматривают параметры энкодеров и/или декодеров. Для NLP зависимость в логарифмических координатах получается линейной. В работе об SR авторы масштабировали декодер трансформера и вносили изменения в стратегии обучения, чтобы получить закон масштабирования для рекомендательных систем: — Для слоёв в начале последовательности декодер-блоков применяли больший dropout-rate, а для слоёв на вершине — меньший, что позволило избежать оверфита. — Сначала обучались с Adam до полной сходимости, а потом брали чекпоинты, с которых продолжали обучение при помощи SGD, потому что несмотря на лучшую сходимость, итоговый минимум у Adam получался хуже. Историю взаимодействий форматировали как хронологическую последовательность ID айтемов. То есть задача решалась так же, как в случае с языковыми моделями. Исследователи не брали другую информацию (например, текст айтема), так как хотели изучить работу закона с т. з. поведения пользователя. Модели увеличивали до 0,8B параметров, сравнивая эффекты в разных диапазонах размеров. Оказалось, закон масштабирования работает для SR-моделей даже в сценариях с ограниченным количеством данных. Авторы показали преимущество больших моделей и на сложных задачах рекомендаций: cold start, long tail, определяли траектории пользователей и смотрели, что происходит при мультидоменном трансфере — во всех случаях масштабирование улучшало результаты. @RecSysChannel Разбор подготовил ❣ Артем Матвеев

Show all...

👍 6🔥 2❤ 1

00:20

Video unavailableShow in Telegram

🔥Introducing MLR-Copilot: autonomous machine learning research with LLM agents, which → generate research ideas → implement experiments → execute implementation with human feedback 📑Paper https://arxiv.org/abs/2408.14033 🔨Code https://github.com/du-nlp-lab/MLR-Copilot 🤗Demo https://huggingface.co/spaces/du-lab/MLR-Copilot @opendatascience

Show all...

231125267.mp41.41 KB

👍 9❤ 5🔥 2

Repost from Machinelearning

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

🌟 Microsoft Research AutoGen Studio: Low-Code интерфейс для быстрого прототипирования агентов LLM. Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов. AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML. AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop. AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды : vLLM, Ollama, LM Studio. Возможности : 🟢Создание / настройка агентов (пока поддерживаются 2 рабочих процесса агентов на основе UserProxyAgent и AssistantAgent), изменение их конфигурации (например, навыки, температура, модель, системные сообщения агента, модель и т.д.) и объединение их в рабочие процессы; 🟢Чат с агентами по рабочим процессам и определение для них задач; 🟢Просмотр сообщений агента и выходных файлов в пользовательском интерфейсе после запуска агента; 🟢Поддержка сложных рабочих процессов агентов (например, групповой чат и последовательные рабочие процессы); 🟢Улучшение качества работы пользователей (например, потоковая передача промежуточных ответов LLM, лучшее обобщение ответов агентов и т. д.); 🟢AutoGen Studio использует SQLModel (Pydantic + SQLAlchemy). Это обеспечивает связь между сущностями (навыки, модели, агенты и рабочие процессы связаны через таблицы ассоциаций) и поддерживает несколько диалектов бэкенда базы данных, которые есть в SQLAlchemy (SQLite, PostgreSQL, MySQL, Oracle, Microsoft SQL Server). Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github. ⚠️ Примечания от разработчика:

🟠AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов. 🟠AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом. 🟠Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.

📌Лицензирование : CC-BY-NC-SA-4.0 License & MIT License 🟡Страница проекта 🟡Документация 🟡Arxiv 🟡Сообщество в Discord 🖥Github [ Stars: 30.2K | Issues: 493 | Forks: 4.4K] @ai_machinelearning_big_data #AI #AgentsWorkflow #MLTool #Microsoft #LLM

Show all...

👍 8🔥 4❤ 2

Photo unavailableShow in Telegram

An open source UI to train your own Flux LoRA just landed on Hugging Face 🚀 Also, probably the easiest and cheapest (local training also supported). https://huggingface.co/spaces/autotrain-projects/train-flux-lora-ease #Flux #LoRA @opendatascience

Show all...

❤ 6🔥 3👍 1

Repost from Yandex for Developers

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

👀 ICML 2024 глазами ML-лидов Яндекса The International Conference on Machine Learning — одна из крупнейших международных конференций по машинному обучению. ➡️ В этом году её посетила делегация из 46 яндексоидов. Недавно впечатлениями делился наш коллега Владислав Офицеров, а теперь о своих наблюдениях рассказывают CTO Поиска Алексей Гусаков и ML Brand Director Пётр Ермаков — листайте карточки! ⭐️ Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке Подписывайтесь: 💬 @Yandex4Developers

Show all...

🔥 11🤡 5👍 4🤷‍♂ 1🌚 1

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

Data loading in progress...

Data loading in progress...