Сценарий продают так: подключаем чат-бота к базе, сотрудник пишет «покажи выручку по регионам за квартал» — и получает график. На демо с тремя таблицами это и правда работает. На реальной базе из двухсот таблиц 1С начинается другое: модель сочиняет соединения, путает гранулярность, берёт не тот статус оплаты и выдаёт число, которое выглядит правдоподобно и ошибается на 30%.
Проблема не в нейросети. Проблема в том, что между «обычными словами» и сырыми данными нет слоя, который объясняет, что эти данные значат. Этот слой называется семантическим, и без него любая разговорная аналитика — генератор красивых, но недоверенных цифр.
Что такое семантический слой
Семантический слой — это согласованное описание бизнес-сущностей, метрик и связей поверх физических данных. Он отвечает на вопросы, на которые сырая таблица ответить не может: что такое «выручка», по каким строкам её считать, в какой валюте, входит ли НДС, что значит «активный клиент», как связаны заказы и товары.
Ключевая единица здесь — метрика, определённая один раз. «Выручка» — это не столбец amount, а правило: сумма по оплаченным заказам, без возвратов, в рублях. Один раз договорились — и любой отчёт, дашборд или AI-ответ считает её одинаково.
Если коротко: база данных хранит что есть, а семантический слой добавляет как это понимать и считать. Подробнее разницу между моделью и обычной базой с внешними ключами мы разбираем в уроке «Семантическая модель: зачем она и чем отличается от базы данных» из бесплатного курса.
Почему «LLM + база данных» не взлетает
Подход text-to-SQL — отдать нейросети схему базы и попросить генерировать запросы — отлично смотрится в демо и разваливается в проде. Причины предсказуемые:
- Метрики угадываются. Модель не знает вашего определения выручки. Возьмёт
SUM(amount)по всем строкам — а надо было исключить возвраты и неоплаченные. - Соединения сочиняются. При десятках таблиц с похожими ключами LLM выбирает join по наитию. Один лишний — и сумма задваивается.
- Гранулярность теряется. Строка заказа, позиция чека, агрегат за день — модель не чувствует зерно и складывает несопоставимое.
- Фильтры по умолчанию неизвестны. Тестовые контрагенты, удалённые записи, технические склады — человек про них знает, нейросеть нет.
Итог — цифра, которой нельзя доверять. А недоверенная цифра в управленческом отчёте хуже её отсутствия: на отсутствие реагируют, на ошибку — принимают решение.
Семантический слой как контракт для AI
Меняется сама постановка. Нейросеть обращается не к двумстам сырым таблицам, а к десятку определённых метрик и измерений. «Выручка по регионам за квартал» превращается не в сочинение SQL с нуля, а в подбор готовой метрики [Выручка] и измерений «Регион» и «Квартал» из модели.
Пространство ошибок схлопывается. Модели больше не нужно изобретать логику расчёта — она уже зашита и протестирована. AI решает задачу попроще и понадёжнее: сопоставить слова вопроса с уже описанными сущностями.
Где он живёт в российском стеке
Хорошая новость: если у вас есть зрелая модель Power BI или SSAS, семантический слой у вас уже есть — его просто не называли этим словом.
- SSAS Tabular / семантическая модель Power BI — это и есть семантический слой: меры на DAX (определения метрик), связи с поведением, иерархии, форматы, права на строки. Подробнее — на странице SSAS Tabular и Power BI.
- 1С, SQL, маркетплейсы — источники. Они отдают сырые данные.
- DWH и Power Query — слой подготовки: чистят и приводят данные к схеме «звезда» до того, как они попадут в модель.
Отдельный бонус — governance наследуется бесплатно. Если в модели настроен RLS, то AI-ответ автоматически уважает права: менеджер юга через чат увидит только свой регион. Форматы, валюты, иерархии — тоже приходят из модели, а не переизобретаются на каждый запрос.
Что это даёт бизнесу
- Одна правда. Метрика определена в одном месте — отчёты, дашборды и AI-ответы сходятся между собой.
- Надёжная разговорная аналитика. Вопрос словами отображается на проверенную меру, а не на придуманный запрос.
- Доступы соблюдаются. RLS из модели работает и для AI — без отдельной настройки безопасности под чат-бота.
- Дешевле развивать. Новый отчёт или новый канал (чат, API) переиспользует те же метрики, а не пишет логику заново.
С чего начать
Семантический слой строится не «под AI», а под здравый смысл — AI лишь делает его ценность очевидной. Порядок действий обычный:
- Инвентаризация метрик. Соберите ключевые показатели и зафиксируйте их определения — что входит, что исключается, в какой валюте.
- Модель «звезда». Факты в центре, справочники по краям, связи с правильным направлением фильтра.
- Меры вместо столбцов. Перенесите бизнес-логику в меры DAX — они переиспользуются и не дублируются.
- Дата и доступы. Пометьте таблицу дат, настройте RLS — это и про корректный time intelligence, и про безопасность будущей AI-аналитики.
Этот путь — ровно то, чему посвящён наш бесплатный курс по Power BI: от схемы «звезда» и связей до мер на DAX и публикации. А когда модель перерастает один файл и становится корпоративным слоем для многих отчётов и AI-каналов, она переезжает на SSAS Tabular — об этом урок «Когда модель перерастает .pbix».
Гонка за «аналитикой на естественном языке» выигрывается не выбором модной нейросети, а семантическим слоем под ней. Сначала — порядок в метриках и модели. Потом — AI поверх. В обратном порядке получается уверенно произнесённая неправда.