Generative Ai
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT По рекламе писать @miralinka, Admin @salavatov Группа в ВК https://vk.com/deeplearning_ru https://t.me/boost/deeplearn
Show more2 925
Subscribers
+124 hours
+87 days
+4230 days
- Subscribers
- Post coverage
- ER - engagement ratio
Data loading in progress...
Subscriber growth rate
Data loading in progress...
Repost from Технологии | Нейросети | Боты
00:29
Video unavailableShow in Telegram
🖼 Расширяем изображение.
Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.
Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.
• Попробовать
#neural #нейросеть
@aiaiai
0919 (11).mp47.61 MB
👎 1
Repost from Machinelearning
Photo unavailableShow in Telegram
🌟 Продвинутые техники RAG: Репозиторий Github c самой полной и актуальной подборкой ресурсов.
RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.
В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:
Базовые методы RAG:
🟢Простой RAG с использованием LangChain, LlamaIndex или CSV файлов;
🟢RAG с добавлением валидации и уточнения для обеспечения точности и релевантности извлекаемой информации;
🟢Выбор размера фрагмента текста;
🟢Разбивка на чанки для контроля и обработки запросов;
Инженерия запросов:
🟠Трансформация запросов: перефразирование, расширение контекста, декомпозиция на подзапросы;
🟠Гипотетические вопросы для улучшения соответствия между запросами и данными;
Обогащение контекста и содержания:
🟢Контекстуальные заголовки фрагментов для улучшения точности поиска;
🟢Извлечение релевантных сегментов для предоставления LLM более полного контекста;
🟢Расширение контекста с помощью соседних предложений;
🟢Семантическое фрагментирование текста;
🟢Контекстуальная компрессия для сохранения информации при сжатии;
🟢Дополнение документов вопросами для улучшения поиска;
Методы поиска:
🟠Fusion Retrieval;
🟠Intelligent Reranking;
🟠Multi-faceted Filtering;
🟠Hierarchical Indices;
🟠Ensemble Retrieval;
🟠Multi-modal Retrieval;
Итеративные и адаптивные методы:
🟢Retrieval with Feedback Loops;
🟢Adaptive Retrieval;
🟢Iterative Retrieval;
Интерпретируемость:
🟠Explainable Retrieval;
Архитектуры:
🟢Интеграция графа знаний (Graph RAG);
🟢GraphRag (Microsoft);
🟢RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval;
🟢Self RAG;
🟢Corrective RAG.
▶️Практическое применение или изучение техник RAG в проектах:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git
#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
📌 Лицензирование : Apache 2.0 License.
🟡Сообщество в Discord
🖥Github
@ai_machinelearning_big_data
#AI #ML #RAG #AwesomeRAG #Github👍 1🔥 1🥰 1
Repost from Kumar & Solo
За последние несколько недель в канал пришли почти 3000 новых подписчиков 🎉 Специально для вас и конечно, тех ниндзя, кто читает нас давно, мы сделали подборку самых полезных постов по теме AI. Читайте, экономьте десятки часов в неделю и делитесь контентом с друзьями.
1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;
2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;
3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;
4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.
5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте
А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;
Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)
Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!
👍 2
Repost from Machinelearning
Photo unavailableShow in Telegram
🌟 LongLLaVA: MMLM, оптимизированная для обработки большого количества изображений.
LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.
В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.
В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.
Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.
▶️Технические параметры модели:
🟢Parameters: 53B;
🟢Active parameters: 13B;
🟢Numbers of layers: 24;
🟢Mixture of Experts: 16/Top-2 for each token;
🟢Normalization: RMSNorm;
🟢Attention: Grouped Query Attention;
🟢Activation functions: SwiGLU.
📌Лицензирование : MIT License
🟡Arxiv
🟡Модель
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #LongLLaVA
👍 3❤ 1🔥 1
Repost from Denis Sexy IT 🤖
OpenAI представила новую языковую модель o1, обученную для сложных рассуждений
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
Learning to Reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
👍 1
Repost from Machinelearning
🌟 VEnhancer: Генеративное улучшение синтезированного видео.
VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.
VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.
Несколько дней назад VEnhancer получил обновление:
🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.
Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.
⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.
Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.
▶️Установка:
# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer
# Create environment
conda create -n venhancer python=3.10
conda activate venhancer
# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt
▶️Установка пакета ffmpeg:
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
▶️Инференс с помощью CLI:
bash run_VEnhancer.sh
▶️Инференс с помощью GradioUI:
python gradio_app.py
🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]
@ai_machinelearning_big_data
#AI #Text2Video #VEnchancer #ML359143658-bf97116e-2fbc-4e29-b559-4fe08dc65c02.mp46.52 MB
👍 1❤ 1🔥 1
Repost from e/acc
Photo unavailableShow in Telegram
Гугл украл мою стартап идею: paper to podcast
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Repost from Machinelearning
Photo unavailableShow in Telegram
🌟 Mini-Omni : Мультимодальная речевая модель.
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;
🟢генерация текста и аудио одновременно;
🟢потоковое воспроизведение аудио;
🟢пакетное преобразование "speech-to-text" и "speech-to-speech".
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
▶️Установка:
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
Запуск с Gradio UI:
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
📌Лицензирование : MIT License.
🟡Arxiv
🟡Demo
🟡Модель
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Speech2Speech #MiniOmni❤ 2🔥 2👍 1
Repost from Machinelearning
Photo unavailableShow in Telegram
Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
<thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection>
в разделе <thinking>
, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm🔥 4👍 2❤ 1🤣 1
Choose a Different Plan
Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.