DataEng
Канал про Data Engineering & Distributed Systems. Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных. Автор @adilkhash
إظهار المزيد- المشتركون
- التغطية البريدية
- ER - نسبة المشاركة
جاري تحميل البيانات...
جاري تحميل البيانات...
Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe
Ближайшая конференция — Joker 2024, 9 октября (Online), 15–16 октября (Санкт-Петербург + трансляция). Подробности и билеты:
https://jrg.su/Ypf1HW— — Любой разработчик знает, что индексы — это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить отклик приложения или сервиса на внешние запросы. Но опыт Андрея, как ДБА, показывает, что у разработчиков нет понимания, какой, когда и из каких соображений можно создавать индекс. Спикер приведет простые и понятные примеры, которые вы сможете легко повторить на своих реальных базах данных. Скачать презентацию:
https://squidex.jugru.team/api/assets/srm/5a15546d-af53-46d4-be84-63367a5aaaf3/jpoint2022.andrei-.salsnikov.pdfAfter studying how companies deploy generative AI applications, I noticed many similarities in their platforms. This post outlines the common components of a generative AI platform, what they do, and how they are implemented. I try my best to keep the architecture general, but certain applications might deviate. This is what the overall architecture looks like.
Some of Anthropic's prompt engineering experts—Amanda Askell (Alignment Finetuning), Alex Albert (Developer Relations), David Hershey (Applied AI), and Zack Witten (Prompt Engineering)—reflect on how prompt engineering has evolved, practical tips, and thoughts on how prompting might change as AI capabilities grow. Timestamps: 0:00 Introduction 2:05 Defining prompt engineering 6:34 What makes a good prompt engineer 12:17 Refining prompts 24:27 Honesty, personas and metaphors in prompts 37:12 Model reasoning 45:18 Enterprise vs research vs general chat prompts 50:52 Tips to improve prompting skills 53:56 Jailbreaking 56:51 Evolution of prompt engineering 1:04:34 Future of prompt engineering Learn more about Anthropic:
https://www.anthropic.com/Anthropic prompt engineering docs:
https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overviewSpeakers: Hannes Mühleisen, Mark Raasveldt (DuckDB Labs) Slides:
https://blobs.duckdb.org/events/duckcon5/hannes-muhleisen-mark-raasveldt-introduction-and-state-of-project.pdfREFERENCES: 1. Build an LLM from Scratch book:
https://mng.bz/M96o2. Build an LLM from Scratch repo:
https://github.com/rasbt/LLMs-from-scratch3. GitHub repository with workshop code:
https://github.com/rasbt/LLM-workshop-20244. Lightning Studio for this workshop:
https://lightning.ai/lightning-ai/studios/llms-from-the-ground-up-workshop5. LitGPT:
https://github.com/Lightning-AI/litgptDESCRIPTION: This tutorial is aimed at coders interested in understanding the building blocks of large language models (LLMs), how LLMs work, and how to code them from the ground up in PyTorch. We will kick off this tutorial with an introduction to LLMs, recent milestones, and their use cases. Then, we will code a small GPT-like LLM, including its data input pipeline, core architecture components, and pretraining code ourselves. After understanding how everything fits together and how to pretrain an LLM, we will learn how to load pretrained weights and finetune LLMs using open-source libraries. --- To support this channel, please consider purchasing a copy of my books:
https://sebastianraschka.com/books/---
https://twitter.com/rasbthttps://linkedin.com/in/sebastianraschka/
https://magazine.sebastianraschka.com
--- OUTLINE: 0:00 – Workshop overview 2:17 – Part 1: Intro to LLMs 9:14 – Workshop materials 10:48 – Part 2: Understanding LLM input data 23:25 – A simple tokenizer class 41:03 – Part 3: Coding an LLM architecture 45:01 – GPT-2 and Llama 2 1:07:11 – Part 4: Pretraining 1:29:37 – Part 5.1: Loading pretrained weights 1:45:12 – Part 5.2: Pretrained weights via LitGPT 1:53:09 – Part 6.1: Instruction finetuning 2:08:21 – Part 6.2: Instruction finetuning via LitGPT 02:26:45 – Part 6.3: Benchmark evaluation 02:36:55 – Part 6.4: Evaluating conversational performance 02:42:40 – Conclusion
Description will go into a meta tag in <head />
interpreters
в stdlib, мотивировав тем, что модулю надо "настояться" в качестве отдельного PyPI пакета. Решение не осуждаю, поэтому пробуйте его на вкус через pip, правда работает только с 3.13+.GIL и Python Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ☠️ Python своей "тормознутостью" отчасти обязан некогда архитектурному решению под названием GIL. Многие слышали эту аббревиатуру, но не все знают причину по которой появился GIL и как он работает под капотом. Если вам это интересно, то держите отличный доклад на русском языке: Зачем нужен GIL и как от него избавиться? от Евгения Афанасьева. В Python версии 3.13, релиз которой будет уже в октябре, добавили опциональную возможность отключить GIL 😲, нюансы описаны в PEP-703. И про это есть в докладе у Евгения. В общем, must watch
تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.