§ P40 — BI-тренды · AI-аналитика

Семантический слой: фундамент, без которого AI-аналитика врёт

Метрики · Связи · RLS · Контракт для LLM

«Спроси данные обычными словами» — главное обещание AI-аналитики. На сыром складе таблиц это рулетка: модель угадывает метрики и врёт уверенным тоном. Чтобы вопрос на русском превращался в правильную цифру, между данными и нейросетью нужен семантический слой.

Сценарий продают так: подключаем чат-бота к базе, сотрудник пишет «покажи выручку по регионам за квартал» — и получает график. На демо с тремя таблицами это и правда работает. На реальной базе из двухсот таблиц 1С начинается другое: модель сочиняет соединения, путает гранулярность, берёт не тот статус оплаты и выдаёт число, которое выглядит правдоподобно и ошибается на 30%.

Проблема не в нейросети. Проблема в том, что между «обычными словами» и сырыми данными нет слоя, который объясняет, что эти данные значат. Этот слой называется семантическим, и без него любая разговорная аналитика — генератор красивых, но недоверенных цифр.

Что такое семантический слой

Семантический слой — это согласованное описание бизнес-сущностей, метрик и связей поверх физических данных. Он отвечает на вопросы, на которые сырая таблица ответить не может: что такое «выручка», по каким строкам её считать, в какой валюте, входит ли НДС, что значит «активный клиент», как связаны заказы и товары.

Ключевая единица здесь — метрика, определённая один раз. «Выручка» — это не столбец amount, а правило: сумма по оплаченным заказам, без возвратов, в рублях. Один раз договорились — и любой отчёт, дашборд или AI-ответ считает её одинаково.

Если коротко: база данных хранит что есть, а семантический слой добавляет как это понимать и считать. Подробнее разницу между моделью и обычной базой с внешними ключами мы разбираем в уроке «Семантическая модель: зачем она и чем отличается от базы данных» из бесплатного курса.

Почему «LLM + база данных» не взлетает

Подход text-to-SQL — отдать нейросети схему базы и попросить генерировать запросы — отлично смотрится в демо и разваливается в проде. Причины предсказуемые:

  • Метрики угадываются. Модель не знает вашего определения выручки. Возьмёт SUM(amount) по всем строкам — а надо было исключить возвраты и неоплаченные.
  • Соединения сочиняются. При десятках таблиц с похожими ключами LLM выбирает join по наитию. Один лишний — и сумма задваивается.
  • Гранулярность теряется. Строка заказа, позиция чека, агрегат за день — модель не чувствует зерно и складывает несопоставимое.
  • Фильтры по умолчанию неизвестны. Тестовые контрагенты, удалённые записи, технические склады — человек про них знает, нейросеть нет.

Итог — цифра, которой нельзя доверять. А недоверенная цифра в управленческом отчёте хуже её отсутствия: на отсутствие реагируют, на ошибку — принимают решение.

Семантический слой как контракт для AI

Меняется сама постановка. Нейросеть обращается не к двумстам сырым таблицам, а к десятку определённых метрик и измерений. «Выручка по регионам за квартал» превращается не в сочинение SQL с нуля, а в подбор готовой метрики [Выручка] и измерений «Регион» и «Квартал» из модели.

Пространство ошибок схлопывается. Модели больше не нужно изобретать логику расчёта — она уже зашита и протестирована. AI решает задачу попроще и понадёжнее: сопоставить слова вопроса с уже описанными сущностями.

Семантический слой не делает AI умнее — он делает задачу проще и безопаснее. Чем точнее описаны метрики и связи, тем меньше нейросети остаётся «додумывать», и тем стабильнее ответы.

Где он живёт в российском стеке

Хорошая новость: если у вас есть зрелая модель Power BI или SSAS, семантический слой у вас уже есть — его просто не называли этим словом.

  • SSAS Tabular / семантическая модель Power BI — это и есть семантический слой: меры на DAX (определения метрик), связи с поведением, иерархии, форматы, права на строки. Подробнее — на странице SSAS Tabular и Power BI.
  • 1С, SQL, маркетплейсы — источники. Они отдают сырые данные.
  • DWH и Power Query — слой подготовки: чистят и приводят данные к схеме «звезда» до того, как они попадут в модель.

Отдельный бонус — governance наследуется бесплатно. Если в модели настроен RLS, то AI-ответ автоматически уважает права: менеджер юга через чат увидит только свой регион. Форматы, валюты, иерархии — тоже приходят из модели, а не переизобретаются на каждый запрос.

У клиента — крупная розничная сеть с витриной в Power BI и боевыми мерами на DAX. Запрос на «разговорную аналитику» свёлся не к подключению LLM к 1С, а к наведению порядка в уже существующей модели: единые определения метрик, помеченная таблица дат, RLS по дивизионам. После этого естественные вопросы стали отображаться на готовые меры — без генерации SQL по сырым таблицам и без расхождений с управленческой отчётностью.

Что это даёт бизнесу

  • Одна правда. Метрика определена в одном месте — отчёты, дашборды и AI-ответы сходятся между собой.
  • Надёжная разговорная аналитика. Вопрос словами отображается на проверенную меру, а не на придуманный запрос.
  • Доступы соблюдаются. RLS из модели работает и для AI — без отдельной настройки безопасности под чат-бота.
  • Дешевле развивать. Новый отчёт или новый канал (чат, API) переиспользует те же метрики, а не пишет логику заново.

С чего начать

Семантический слой строится не «под AI», а под здравый смысл — AI лишь делает его ценность очевидной. Порядок действий обычный:

  • Инвентаризация метрик. Соберите ключевые показатели и зафиксируйте их определения — что входит, что исключается, в какой валюте.
  • Модель «звезда». Факты в центре, справочники по краям, связи с правильным направлением фильтра.
  • Меры вместо столбцов. Перенесите бизнес-логику в меры DAX — они переиспользуются и не дублируются.
  • Дата и доступы. Пометьте таблицу дат, настройте RLS — это и про корректный time intelligence, и про безопасность будущей AI-аналитики.

Этот путь — ровно то, чему посвящён наш бесплатный курс по Power BI: от схемы «звезда» и связей до мер на DAX и публикации. А когда модель перерастает один файл и становится корпоративным слоем для многих отчётов и AI-каналов, она переезжает на SSAS Tabular — об этом урок «Когда модель перерастает .pbix».

Гонка за «аналитикой на естественном языке» выигрывается не выбором модной нейросети, а семантическим слоем под ней. Сначала — порядок в метриках и модели. Потом — AI поверх. В обратном порядке получается уверенно произнесённая неправда.

§ Аудит модели · 30 мин

Готовы к AI-аналитике?

Покажем, в каком состоянии ваш семантический слой и что доработать, чтобы разговорная аналитика не врала. Начнём с короткого аудита метрик и модели.

Телефон+7 918 042 34 43