18+

Инжиниринг Данных

Telegram t.me web k

Статистика

Вся статистика

23324

Подписчики

Посты (30 дней)

28.07%

ERR%

3556.00

Средний охват (сутки)

Язык

Russian

Описание:

Канал для всех кто интересуется или работает с данными и аналитикой.

Здесь я смогу делиться новостями и трендами из мира аналитики и облачных технологий на русском.

Контакты и реклама: @dimoobraznii

Телеграм канал Инжиниринг Данных @rockyourdata добавлен на наш сайт 23.06.2022
Информация о канале обновлена 15.10.2025.

Посты

Все посты

DuckDB поддерживает стриминг?!

В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)

🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.

⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.

🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.

Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.

Snowflake умеет делать маркетинг - DATA ENGINEERING SCHOOL

Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.

Вы где ставите запятую?

PS а мой комент про predefined Best Practices:

I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same

Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌

8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.

Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.