Канал для всех кто интересуется или работает с данными и аналитикой.
Здесь я смогу делиться новостями и трендами из мира аналитики и облачных технологий на русском.
Контакты и реклама: @dimoobraznii
Информация о канале обновлена 15.10.2025.
Канал для всех кто интересуется или работает с данными и аналитикой.
Здесь я смогу делиться новостями и трендами из мира аналитики и облачных технологий на русском.
Контакты и реклама: @dimoobraznii
DuckDB поддерживает стриминг?!
В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)
🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.
⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.
🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.
Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.
Snowflake умеет делать маркетинг - DATA ENGINEERING SCHOOL
Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.
Вы где ставите запятую?
PS а мой комент про predefined Best Practices:
I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same
Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌
8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.
Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.
Пример современного аналитического решения с duckdb.
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.