Лента постов канала Ivan Begtin (@begtin)

Лента постов канала Ivan Begtin (@begtin) https://t.me/begtin I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech ru https://linkbaza.com/catalog/-1001018951478 Fri, 15 Aug 2025 13:36:42 +0300

Подробнее

733

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 15 Aug 2025 10:44:19 +0300

Подробнее

786

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 15 Aug 2025 10:44:19 +0300

Подробнее

766

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 14 Aug 2025 19:26:53 +0300

Подробнее

858

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 14 Aug 2025 09:36:57 +0300

И второе, на сей раз про конкретно про мессенжер MAX уже с точки зрения цифрового архивиста. Есть ключевая проблема большей части социальных сетей и коммуникационных сервисов в которых есть каналы/подписки на чьи-либо публикации в том что они плохо индексируются и архивируются. К примеру, в Интернет-архив попадает мало материалов из Facebook'а и LinkedIn, также как и в поисковый индекс Google или в Common Crawl. Компании владельцы соцсетей часто явно препятствуют или явно не предусматривают что их содержание может быть заархивировано и сохранено где-то ещё. Ну и коммерческий аспект отменить нельзя, на базе контента обучают ИИ и владельцы инфраструктуры не хотят отдавать пользовательский контент другим.

В этом смысле телеграм, в какой-то степени, уникален за счёт открытого API и того что большая часть контента индексируется извне. Например, команда ArchiveTeam архивирует большую часть общедоступного контента из Telegram с начала 2022 года. Там собрано более 5 петабайт данных. Плюс есть какое-то количество коммерческих сервисов которые, также, индексируют и архивируют публикуемое в телеграм каналах и общедоступных группах.

Для сравнения у MAX'а нет открытого, неавторизованного контура. Для того чтобы просмотреть содержимое любого канала в MAX нужно быть авторизованным и я напоминаю про то что это теперь возможно только через российские и беларусские сим-карты. А то есть материалы публикуемые в каналах в MAX архивироваться извне не будут. В лучшем случае их контент будет заархивирован какими-либо сервисами медиамониторинга.

Пока что в РФ не запретили вести каналы в Телеграм и маловероятно что кто-то из тех что сейчас MAX продвигает уйдёт туда и только туда, потому что аудитория то может туда и не прийти. Но важно понимание что это смена открытой экосистемы на закрытую,

Причём это парадокс для всех тех кто продвигает сейчас MAX на медиа площадках. Их русскоязычная аудитория не только в России, но и в пост-советских странах и в диаспоре рассеяной по миру. До тех пор пока MAX - это закрытая платформа и без возможности авторизации с номера телефонов других стран привлекательной она не будет. А разрешив там регистрацию с СИМ картами других стран автоматически обнуляются все разговоры про "безопасность". Это неразрешимый парадокс.

Более я на тему не вижу смысла писать. Технологическая конкуренция - хорошо, административная антиконкуренция - плохо.

#messaging #russia

Подробнее

1.19 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 13 Aug 2025 20:21:18 +0300

По поводу запрета звонков через Telegram и WhatsApp в России с явным продвижением мессенжера MAX я, конечно, как и многие другие недоумеваю. Всё это происходит настолько грубо что кажется особенно глупым и раздражающим. Но я хочу особенно подсветить ещё один нюанс. Мессенжеры активно используются для международных звонков и если, к примеру, Вы живёте не в России, а Ваши родители здесь, то звонить по номеру телефона не через мессенжеры влетает в копеечку, почему все и перешли стремительно в те мессенжеры которые обеспечивали лучшую связь и WhatsApp и Telegram тут лидеры.

И что, с их запретом, думаете, все пойдут в MAX ? Да вот хрена с два, MAX, помимо других технических и юридических нюансов, имеет один огромный минус - там авторизация только по номерам в РФ и в Беларуси. Всё это накладывается на ранее принятое регулирование по запрету передачи сим-карт, по продлению номеров сотовых телефонов негражданами РФ и тд.

Всё это, объективно, сильно затрудняет жизнь всем кто общается с кем-либо голосом за пределами России. Только более вероятный сценарий что будут пользоваться чем угодно но не MAX'ом. Пользоваться будут тем что будет обеспечивать лучшую связь: Google Meet, Teams, Jitsi, Zoom и далее по списку. Список длинный, вариантами будут обмениваться так же как и обмениваются лучшими VPN для обхода блокировок. А вот MAX и сотовых операторов будут откровенно ненавидеть. Зачем так делать? Я лично искренне не понимаю. Вернее понимаю и вижу что сопутствующий ущерб происходящего значительно превышает любые, предполагаемые, плюсы если бы они тут могли бы быть.

#messaging #russia

Подробнее

9.59 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 13 Aug 2025 11:09:50 +0300

https://www.forbes.ru/tekhnologii/543791-otkrytyj-vopros-cto-ne-tak-s-perezapuskom-nacional-nogo-portala-dannyh-data-gov-ru

Подробнее

1.61 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 11 Aug 2025 19:59:26 +0300

Подробнее

1.51 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 11 Aug 2025 16:00:11 +0300

Подробнее

1.33 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 11 Aug 2025 14:08:23 +0300

Подробнее

1.19 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 08 Aug 2025 18:23:34 +0300

Из коллекции Цифрового архива: 20 лет советской власти. Статистический сборник (цифровой материал для пропагандистов) под общей редакцией А. Лалаевай, 1937, 114 стр.

В АНО "Инфокультура" оцифровали статистический сборник, опубликованный в 1937 году к 20-летию Октябрьской революции. В него вошли статистические данные, отражающие изменения в экономике, социальной сфере, культуре и государственном строительстве Советского Союза с 1917 по 1937 год. Материалы оформлены в виде таблиц, диаграмм и кратких пояснительных текстов и являются важным источником по истории раннесоветской статистики и идеологической риторики 1930-х годов.

Вот что авторы отмечают о производительности труда в крупной промышленности и сопровождают наблюдения соответствующими таблицами:

"За один лишь 1936 год — первый год стахановского движения — производительность труда в крупной промышленности повысилась на 21%, а в тяжелой промышленности, в недрах которой зародилось стахановское движение, — на 26%".

Книга на сайте Цифрового архива, 18,6 Мб

#книга #СССР #ЦАГГ

Подробнее

1.44 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 08 Aug 2025 18:23:34 +0300

Специально для тех кто любит исторические данные

Подробнее

1.19 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 08 Aug 2025 11:50:56 +0300

Подробнее

1.47 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 07 Aug 2025 19:47:06 +0300

Подробнее

1.46 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 04 Aug 2025 18:59:54 +0300

Раритеты Цифрового Архива: И.С. Блиох "Финансы России XIX столетия. История-Статистика" в 4-х томах, 1882 г.

Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.

Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.

В коллекции Цифрового Архива представлены все тома четырехтомника:

Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.

Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.

В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).

В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.

Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:

«Все его [Блиоха] ученые труды писались не им, а писались различными писателями и специалистами за деньги, которые он им платил. Сам же Блиох только составлял ... программу тех трудов, которые он предлагал издавать.».

#книга #финансы #история #статистика #Блиох

Подробнее

1.57 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 04 Aug 2025 18:20:34 +0300

В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.

Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.

#ai #scraping #bots #perplexity #cloudflare

Подробнее

1.42 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 04 Aug 2025 17:19:03 +0300

Полезное чтение про данные, технологии и не только:
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть

#ai #data #analytics

Подробнее

1.5 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 01 Aug 2025 20:20:21 +0300

Поделюсь личной болью отсутствия на русском языке книг о метаданных, на английском их есть в каком-то количестве, чаще со взглядом со стороны каталогизации библиотечных объектов, реже любых цифровых объектов, ещё реже о каталогизации данных, но на русском практически ничего нет.

А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.

Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.

Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.

И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.

#metadata #data #thoughts

Подробнее

1.77 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 01 Aug 2025 14:36:30 +0300

Хороший текст Hyparquet: The Quest for Instant Data от команды Hyperparam о специфике parquet файлов которой они воспользовались для оптимизации их отображения в браузере, как они сами называют browser-first подход к отображению данных и работы с ними с помощью WASM. Видно что автор и сама команда хорошо понимают и структуру parquet файлов (там метаданные записаны в конце файла), и то как работает сжатие и то как оптимизируется код для WASM.

Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first

#opensource #data #datatools

Подробнее

1.7 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 01 Aug 2025 12:51:51 +0300

Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.

Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.

В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth

#geodata #opendata #ai

Подробнее

1.96 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 31 Jul 2025 17:22:00 +0300

AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.

А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.

Документ полезный, много сопроводительных ссылок на другие схожие работы.

#ai #readings #ratings

Подробнее

1.42 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 31 Jul 2025 12:01:33 +0300

Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.

Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.

Главный недостаток - пока есть версия только для Mac.

#data #datatools #geodata

Подробнее

1.43 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 31 Jul 2025 11:05:57 +0300

Подробнее

1.02 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 30 Jul 2025 20:05:11 +0300

Подробнее

1.36 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 30 Jul 2025 19:12:46 +0300

Подробнее

1.21 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 30 Jul 2025 17:54:37 +0300

Подробнее

1.21 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 30 Jul 2025 17:16:55 +0300

Подробнее

1.02 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 29 Jul 2025 17:32:15 +0300

Подробнее

1.26 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 29 Jul 2025 13:09:15 +0300

Подробнее

2.61 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 29 Jul 2025 09:07:34 +0300

Свежий план Правительства Китая по развитию ИИ, для тех кому лень читать его на китайском языке, вот краткие тезисы
—
1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.

2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.

3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.

4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.

5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.

6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.

7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.

8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.

9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.

🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.

1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.

1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.

1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.
—
В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код

#ai #china #data

Подробнее

1.65 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 28 Jul 2025 20:23:13 +0300

А вот вам ещё цифры про портал открытых данных РФ data.gov.ru, вернее цифры про то чего там нет
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.

Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные

И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.

Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉

#opendata #digitalpreservation

Подробнее

1.24 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 28 Jul 2025 19:43:26 +0300

В качестве регулярных напоминаний, несколько лет назад я делал библиотеку для Python под названием newsworker по автоматическому извлечению новостей из веб-страниц вместо RSS лент, она всё ещё работает и актуальна.

Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.

Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.

Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.

Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это

Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.

#opensource #data #datatools

Подробнее

1.15 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 28 Jul 2025 19:21:50 +0300

Подборка ссылок про данные, технологии и не только:
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.

P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io

Подробнее

1.13 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 28 Jul 2025 10:54:02 +0300

Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.

Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]

Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.

А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.

Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf

#dataengineering #data #opensource

Подробнее

1.27 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 25 Jul 2025 14:42:28 +0300

Подробнее

1.49 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 25 Jul 2025 09:37:51 +0300

Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian

#python #readings #daata #datalake #products #notes

Подробнее

1.52 k

]]> https://linkbaza.com/catalog/-1001018951478 Fri, 25 Jul 2025 02:05:14 +0300

В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.

Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.

Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.

#data #ai #regulation

Подробнее

2.39 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 24 Jul 2025 12:33:06 +0300

В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.

Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.

Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.

Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.

Ссылки:
[1] https://rdapassociation.org/event-6266055

#opendata #digitalpreservation #events

Подробнее

1.31 k

]]> https://linkbaza.com/catalog/-1001018951478 Thu, 24 Jul 2025 08:53:52 +0300

В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.

В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.

Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.

Ссылки:
[1] https://plutof.ut.ee/en

#opendata #datacatalogs #biodiversity #datasets

Подробнее

1.45 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 23 Jul 2025 23:44:31 +0300

Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.

К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.

А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.

#ai #work

Подробнее

2.04 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 23 Jul 2025 17:14:11 +0300

В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.

Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.

В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.

Ссылки:
[1] https://vlo.clarin.eu

#opendata #datacatalogs #datasets #lingustics

Подробнее

1.33 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 23 Jul 2025 15:18:47 +0300

Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.

Это налоговая лотерея! Как это выглядит.

Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.

Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?

У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.

Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз

#humour #ideas #writings

Подробнее

1.18 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 23 Jul 2025 11:14:44 +0300

Подробнее

1.2 k

]]> https://linkbaza.com/catalog/-1001018951478 Wed, 23 Jul 2025 08:21:26 +0300

Подробнее

1.2 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 22 Jul 2025 18:00:24 +0300

Подробнее

1.14 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 22 Jul 2025 18:00:24 +0300

Подробнее

1.18 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 22 Jul 2025 13:06:11 +0300

Подробнее

1.14 k

]]> https://linkbaza.com/catalog/-1001018951478 Tue, 22 Jul 2025 11:48:13 +0300

Подробнее

1.4 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 21:32:22 +0300

Подробнее

1.17 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 20:42:00 +0300

Подробнее

1.03 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 19:43:18 +0300

Подробнее

1.16 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 11:40:52 +0300

Data engineer needed!

We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote

Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.

Our technology stack more https://stackshare.io/dateno/dateno

Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues

Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.

Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.

Conditions: Full-time, salary based on the results of the interview.

The main thing - compliance with deadlines and the desire to make the world a better place.

Company: Dateno
Contact: dateno@dateno.io

Подробнее

1.2 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 11:40:52 +0300

Объёмы задач в Dateno у нас постоянно растут, есть потребность в ещё одном Data инженере, с акцентом на конвееры данных, обработку большого числа наборов данных из разных источников. Напомню что Dateno - это международный стартап с командой разбросанной по разным странам и работающий по принципу remote-only, вся команда работает дистанционно.

Подробнее

1.21 k

]]> https://linkbaza.com/catalog/-1001018951478 Mon, 21 Jul 2025 09:55:41 +0300

🇨🇳 В Китае ввели «киберпространственные идентификаторы» для защиты ПД граждан
🔸С 15 июля в Китае вступили в силу положения о «киберпространственных идентификаторах» (КИ), призванных усилить защиту конфиденциальности персональных данных (ПД) в Интернете.
🔸Согласно документу, онлайн-идентификатор может быть двух видов: набор букв и цифр или учётная запись. Оба соответствуют реальной личности человека, но исключают какую-либо информацию в виде открытого текста.
🔸Используя КИ, граждане не должны будут предоставлять такую личную информацию, как номера карт удостоверения личности или настоящие фамилии и имена, провайдерам интернет-услуг – при регистрации или идентификации. Соответственно, онлайн-сервисы не в праве требовать от пользователя предоставления дополнительной информации «в виде открытого текста», если это не предусмотрено законами и административными регламентами.
🔸КИ рассматриваются властями как метод борьбы с утечками ПД граждан и последующим их использованием мошенниками и спамерами. Оформление КИ является добровольным.

Подробнее

1.34 k

]]> https://linkbaza.com/catalog/-1001018951478 Sun, 20 Jul 2025 10:50:51 +0300

Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.

Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).

Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.

Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.

Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных

Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.

Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.

Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.

#opendata #datasets #datadiscovery #datacite

Подробнее

1.54 k

]]>