DataEng

Канал про Data Engineering & Distributed Systems. Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных. Автор @adilkhash

مشاركات الإعلانات

3 912

المشتركون

لا توجد بيانات24 ساعات

-57 أيام

-2730 أيام

1 282

عرض المشاهدات

~ 78724 ساعات

~ 93348 ساعات

32.78%

معدل المشاركة

20.1%24 ساعات

23.9%48 ساعات

الإشارات

لا توجد بيانات7 أيام

لا توجد بيانات30 أيام

لا توجد بيانات

المشاركات في اليوم

~ 10

ردود

~ 4

تعليقات

~ 43

إعادة

المشتركون
التغطية البريدية
ER - نسبة المشاركة

جاري تحميل البيانات...

Building and scaling Notion’s data lake В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake

إظهار الكل...

How Notion build and grew our data lake to keep up with rapid growth

👍 7

В блоге базы данных ClickHouse вышел интересный пост, направленный на PostgreSQL юзеров, в нём показаны ключевые различия между моделированием данных в ClickHouse и PostgreSQL: https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips

إظهار الكل...

Postgres to ClickHouse: Data Modeling Tips

Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe

👍 20🔥 5

Нашел в Ютубе двухчасовой доклад про индексы в PostgreSQL: Индексы в PostgreSQL. Как понять, что создавать

إظهار الكل...

Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать

Ближайшая конференция — Joker 2024, 9 октября (Online), 15–16 октября (Санкт-Петербург + трансляция). Подробности и билеты:

https://jrg.su/Ypf1HW

— — Любой разработчик знает, что индексы — это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить отклик приложения или сервиса на внешние запросы. Но опыт Андрея, как ДБА, показывает, что у разработчиков нет понимания, какой, когда и из каких соображений можно создавать индекс. Спикер приведет простые и понятные примеры, которые вы сможете легко повторить на своих реальных базах данных. Скачать презентацию:

https://squidex.jugru.team/api/assets/srm/5a15546d-af53-46d4-be84-63367a5aaaf3/jpoint2022.andrei-.salsnikov.pdf

👍 10🔥 5

Нашел в сети пост мини-книгу от небезызвестной Chip Huyen: Building A Generative AI Platform Пожалуй, это одно из самых подробных руководств про построение Generative AI платформ своими руками, или как сейчас говорят RAG in Production.

إظهار الكل...

Building A Generative AI Platform

After studying how companies deploy generative AI applications, I noticed many similarities in their platforms. This post outlines the common components of a generative AI platform, what they do, and how they are implemented. I try my best to keep the architecture general, but certain applications might deviate. This is what the overall architecture looks like.

👍 9🔥 3

Гайд по промпт-инжинирингу от ребят из Anthropic: AI prompt engineering: A deep dive Также в описании видео есть ссылка на их же мануал: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

إظهار الكل...

AI prompt engineering: A deep dive

Some of Anthropic's prompt engineering experts—Amanda Askell (Alignment Finetuning), Alex Albert (Developer Relations), David Hershey (Applied AI), and Zack Witten (Prompt Engineering)—reflect on how prompt engineering has evolved, practical tips, and thoughts on how prompting might change as AI capabilities grow. Timestamps: 0:00 Introduction 2:05 Defining prompt engineering 6:34 What makes a good prompt engineer 12:17 Refining prompts 24:27 Honesty, personas and metaphors in prompts 37:12 Model reasoning 45:18 Enterprise vs research vs general chat prompts 50:52 Tips to improve prompting skills 53:56 Jailbreaking 56:51 Evolution of prompt engineering 1:04:34 Future of prompt engineering Learn more about Anthropic:

https://www.anthropic.com/

Anthropic prompt engineering docs:

https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

👍 6

DuckCon #5 Плейлист с докладами из прошедшей конференции DuckCon #5: — DuckDB – Overview and latest developments — MotherDuck: Taking flight with interactive analytics — Outliers are all you need — Quack attack: Bringing DuckDB to the dart side — A duck for your dashboard: Performant data apps in the browser with DuckDB — Delighting users with RESTful APIs and DuckDB — Aerodynamic data models: Flying fast at scale with DuckDB — Double glazing: Two years of windowing improvements — dbverse: Composable database libraries for larger-than-memory scientific analytics — A quack at building scalable data pipelines with DuckDB

إظهار الكل...

DuckDB – Overview and latest developments (DuckCon #5, Seattle, 2024)

Speakers: Hannes Mühleisen, Mark Raasveldt (DuckDB Labs) Slides:

https://blobs.duckdb.org/events/duckcon5/hannes-muhleisen-mark-raasveldt-introduction-and-state-of-project.pdf

👍 4

3-х часовой мастер-класс про LLM от Sebastian Raschka: Building LLMs from the Ground Up: A 3-hour Coding Workshop

إظهار الكل...

Building LLMs from the Ground Up: A 3-hour Coding Workshop

REFERENCES: 1. Build an LLM from Scratch book:

https://mng.bz/M96o

2. Build an LLM from Scratch repo:

https://github.com/rasbt/LLMs-from-scratch

3. GitHub repository with workshop code:

https://github.com/rasbt/LLM-workshop-2024

4. Lightning Studio for this workshop:

https://lightning.ai/lightning-ai/studios/llms-from-the-ground-up-workshop

5. LitGPT:

https://github.com/Lightning-AI/litgpt

DESCRIPTION: This tutorial is aimed at coders interested in understanding the building blocks of large language models (LLMs), how LLMs work, and how to code them from the ground up in PyTorch. We will kick off this tutorial with an introduction to LLMs, recent milestones, and their use cases. Then, we will code a small GPT-like LLM, including its data input pipeline, core architecture components, and pretraining code ourselves. After understanding how everything fits together and how to pretrain an LLM, we will learn how to load pretrained weights and finetune LLMs using open-source libraries. --- To support this channel, please consider purchasing a copy of my books:

https://sebastianraschka.com/books/

---

https://twitter.com/rasbt

https://linkedin.com/in/sebastianraschka/

https://magazine.sebastianraschka.com

--- OUTLINE: 0:00 – Workshop overview 2:17 – Part 1: Intro to LLMs 9:14 – Workshop materials 10:48 – Part 2: Understanding LLM input data 23:25 – A simple tokenizer class 41:03 – Part 3: Coding an LLM architecture 45:01 – GPT-2 and Llama 2 1:07:11 – Part 4: Pretraining 1:29:37 – Part 5.1: Loading pretrained weights 1:45:12 – Part 5.2: Pretrained weights via LitGPT 1:53:09 – Part 6.1: Instruction finetuning 2:08:21 – Part 6.2: Instruction finetuning via LitGPT 02:26:45 – Part 6.3: Benchmark evaluation 02:36:55 – Part 6.4: Evaluating conversational performance 02:42:40 – Conclusion

🔥 13👍 2💯 1

Photo unavailableShow in Telegram

Бот-помощник для дата инженера 🤖 Частенько возникает необходимость расшифровать расписание crontab-выражения на человеческий язык, поэтому запили телеграм-бота: CrontabDescriptionBot Отправьте ему cron-строку и он вернёт вам расписание. Пользуйтесь! Под капотом он работает на лямбдах, поэтому оплачивать хостинг мне не надо, и поэтому всегда будет работать.

إظهار الكل...

🔥 25👍 7

В сети появился интересный проект — SlateDB. Это встроенное хранилище на базе LSM Tree, но все данные хранятся на Object Storage сервисах (Amazon S3, Google Cloud Storage, minIO и т.д.). Проект написан на Rust, и пока не существует биндингов на другие языки. SlateDB активно разрабатывается и пока не рекомендуется к использованию в продакшене. Судя по всему, проект появился в результате прохождения мини-курса Mini-LSM.

إظهار الكل...

SlateDB - An embedded storage engine built on object storage | SlateDB

Description will go into a meta tag in <head />

🔥 8👍 3💯 2

Недавно я постил доклад про GIL и его отключение в будущих версиях Python. Вчера же на канал PyCon US загрузили доклад от Юры Селиванова про сабинтерпретаторы: Overcoming GIL with subinterpreters and immutability. Это один из вариантов улучшения производительности Python без отключения GIL. Я сам не сторонник удаления GIL, т.к. параллельное выполнение потоков потребует от программиста следить за их синхронизацией, чем собственно сейчас занимается GIL (он же mutex), поэтому интересно было послушать его доклад. Для тех, кто в танке, PEP 734 описывает работу сабинтерпретаторов, релиз этой библиотеки планировался в составе Python 3.13, но, к сожалению, Steering Council в апреле этого года решил не включать модуль interpreters в stdlib, мотивировав тем, что модулю надо "настояться" в качестве отдельного PyPI пакета. Решение не осуждаю, поэтому пробуйте его на вкус через pip, правда работает только с 3.13+.

إظهار الكل...

DataEng

GIL и Python Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ☠️ Python своей "тормознутостью" отчасти обязан некогда архитектурному решению под названием GIL. Многие слышали эту аббревиатуру, но не все знают причину по которой появился GIL и как он работает под капотом. Если вам это интересно, то держите отличный доклад на русском языке: Зачем нужен GIL и как от него избавиться? от Евгения Афанасьева. В Python версии 3.13, релиз которой будет уже в октябре, добавили опциональную возможность отключить GIL 😲, нюансы описаны в PEP-703. И про это есть в докладе у Евгения. В общем, must watch

🔥 7👍 4💯 3

اختر خطة مختلفة

تسمح خطتك الحالية بتحليلات لما لا يزيد عن 5 قنوات. للحصول على المزيد، يُرجى اختيار خطة مختلفة.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

DataEng

جاري تحميل البيانات...

جاري تحميل البيانات...