Если AI кажется чёрным ящиком — скорее всего, не хватает пяти понятий. Контекст, токены, модели, температура, prompt. Когда они на местах, ChatGPT, Claude или GigaChat перестают быть магией и становятся обычным инструментом — как Excel, только с другими граблями.
Эта статья — для руководителей, аналитиков и всех, кому AI пока скорее интересен, чем понятен. Никаких формул и нейросетевой математики. Только то, что экономит время и деньги в ежедневной работе.
Контекст — рабочая память модели
Контекст — это всё, что модель «видит перед собой» в момент ответа. Туда попадают: ваш промпт, история диалога, прикреплённые файлы, инструкции от приложения (system prompt). За пределами контекста модель не помнит ничего — ни прошлый чат, ни вашу компанию, ни вчерашние договорённости.
Размер контекста у каждой модели свой. Цифры на апрель 2026:
| Модель | Контекст | Эквивалент | Где берут |
|---|---|---|---|
| Claude Opus 4.7 / Sonnet 4.5 | 200 тыс. токенов (1M в long-context режиме) | ~600 страниц A4 | анализ длинных документов, код-ревью больших проектов |
| GPT-4o / GPT-5 | 128 тыс. | ~380 страниц | универсал, чат-боты, агенты |
| Gemini 2.5 Pro | 1–2 млн | 2.5–5 тыс. страниц | видеотранскрипты, базы знаний целиком |
| GigaChat / YandexGPT | 32–128 тыс. | ~100–380 страниц | задачи с ограничением «только в РФ-контуре» |
Что происходит при переполнении: одни приложения молча обрезают начало диалога (вы вдруг замечаете, что модель «забыла» ваше первое сообщение), другие выдают ошибку. В Claude.ai и ChatGPT обычно срабатывает скользящее окно с суммаризацией старого. В API всё строже — превышение лимита это ошибка 400.
Когда контекст начинает мешать:
- Длинные многочасовые диалоги — модель «теряет нить» в начале
- Большие документы целиком — PDF на 500 страниц не всегда влезет даже в 200 тыс.
- Большие выгрузки — CSV на 100 тыс. строк никакая модель не возьмёт без предобработки
Что с этим делают на практике: RAG (модель сама достаёт нужный кусок из базы вместо того, чтобы тащить всё в контекст), суммаризация старого диалога перед каждым новым ходом, чанкование больших документов на куски по 5–10 страниц. Все три приёма решают одну и ту же проблему — «как засунуть много данных в конечное окно».
Токены — то, чем считается счёт
Модель не работает со словами или буквами. Она работает с токенами — это кусочки текста, на которые токенайзер режет вход. Один токен это примерно:
- в английском — ¾ слова или 4 символа
- в русском — ½–⅔ слова или 2–3 символа (русский режется хуже, токенов на тот же объём текста — в 1.5–2 раза больше)
- в коде — переменная вроде
customerIdможет уйти как один токен, а может как три
Цены считаются в долларах за миллион токенов отдельно на вход (input) и на выход (output). Output обычно в 5 раз дороже, потому что его модель именно генерирует, а не просто читает. Прикидочные цифры на апрель 2026 (порядок, не точные тарифы):
| Модель | Input $/M | Output $/M | 1M input ≈ |
|---|---|---|---|
| Claude Sonnet 4.5 | $3 | $15 | 700 тыс. слов EN |
| Claude Haiku 4.5 | $0.80 | $4 | 700 тыс. |
| GPT-4o-mini | $0.15 | $0.60 | 700 тыс. |
| GPT-5 | $5 | $20 | 700 тыс. |
| Gemini 2.5 Flash | $0.30 | $1.20 | 700 тыс. |
Простой пример. Допустим, нужно прогнать через модель 1000 страниц текста и на каждую попросить краткое резюме на 200 слов. Считаем:
Вход: 1000 стр × 500 слов × 1.4 токена/слово EN = 700 000 токенов
Выход: 1000 стр × 200 слов × 1.4 токена/слово EN = 280 000 токенов
На Claude Sonnet:
input = 0.7M × $3 = $2.10
output = 0.28M × $15 = $4.20
итого ≈ $6.30
На Haiku: ≈ $1.70
На GPT-5: ≈ $9.10
На Gemini Flash: ≈ $0.55
Между Haiku и GPT-5 — пятикратная разница. Если задача простая (резюме, классификация, извлечение полей) — брать большую модель не имеет смысла, дешёвая справится не хуже. Как экономить:
- Prompt caching. Если в начале каждого запроса один и тот же длинный system prompt — провайдер кеширует его и даёт скидку 50–90% на повторные обращения. Работает у Anthropic, OpenAI, Google.
- Batch API. Если задачи не срочные (ночная обработка) — скидка 50% за то, что провайдер обработает их когда удобно ему, в течение 24 часов.
- Маршрутизация. Простые запросы — на маленькую модель, сложные — на большую. На типичной нагрузке экономия 3–10×.
- Сжимать контекст. Не тащить весь документ, если нужен один параграф. RAG, embeddings, поиск по ключевым словам.
Модели — кто есть кто
Языковых моделей сейчас много, но по факту работают несколько семейств. Полезно держать в голове, кто их делает и на что они ориентированы.
Зарубежные
- GPT (OpenAI). Самые узнаваемые. ChatGPT — массовый продукт, GPT-5 и GPT-4o — через API. Универсалы, сильные в русском.
- Claude (Anthropic). Сильны в длинном контексте, аналитике, коде. У Sonnet и Opus репутация «лучше всех понимают сложные тексты».
- Gemini (Google). Самый большой контекст (миллион+ токенов), мультимодальность из коробки (видео, аудио, документы).
- Llama (Meta). Open weights — веса можно скачать и запустить у себя. Это даёт полный контроль над данными ценой собственного железа.
- Mistral (Франция). Тоже open weights, лёгкие и быстрые модели. Mixtral популярен в EU за «своих».
- Qwen (Alibaba), DeepSeek. Китайские, сильно прогрессировали в 2025. DeepSeek-Coder — один из лучших для программирования по соотношению цена/качество.
Российские
- GigaChat (Сбер). Доступен через API, есть корпоративные тарифы.
- YandexGPT. Аналогично, плюс встроен в продукты Яндекса.
По бенчмаркам российские пока отстают от топов на поколение-полтора. Но для задач с персональными данными или коммерческой тайной — часто единственный вариант, потому что инфраструктура внутри РФ-контура.
Размеры — на что обращать внимание
Внутри каждого семейства есть размерные линейки. Базовое правило: маленькая модель быстрее и дешевле, большая — точнее на сложном.
| Класс | Примеры | Когда брать |
|---|---|---|
| Маленькие | Haiku, GPT-4o-mini, Gemini Flash | классификация, резюме, извлечение, простые ответы, массовые операции |
| Средние | Claude Sonnet, GPT-4o, Gemini Pro | основная рабочая лошадка: аналитика, код, диалоги |
| Большие | Claude Opus, GPT-5, Gemini Ultra | сложные рассуждения, исследования, длинные многошаговые задачи |
Специализации тоже бывают: код — Claude Sonnet, GPT, DeepSeek-Coder; длинный контекст — Gemini; русский язык — GigaChat и Yandex (или тот же Claude — он тоже хорош в русском, просто без РФ-контура).
Температура и другие параметры
Когда вы используете модель через API или продвинутые настройки в продукте, можно менять не только промпт, но и несколько технических параметров. Главный из них — температура.
Temperature
Шкала от 0 до 1+ (иногда до 2). Это «разброс» в выборе следующего слова.
- 0.0–0.3 — почти детерминированно. Один и тот же запрос даёт почти одинаковый ответ. Это то, что нужно для аналитики, извлечения данных, классификации, кода.
- 0.5–0.7 — середина. Дефолт во многих API. Подходит для большинства диалогов.
- 0.8–1.0+ — креатив. Тексты, идеи, маркетинг. Один и тот же запрос даёт каждый раз разные результаты.
Если коллега жалуется «модель каждый раз отвечает по-разному, я не могу на неё положиться» — первое, что стоит проверить, температура. В ChatGPT через интерфейс её не покрутить, но через API — легко.
Остальное по мелочи
- Top-p, top-k. Альтернативные способы регулировать «креативность». Если уже выставили температуру — обычно не трогать.
- Max tokens. Жёсткий потолок длины ответа. Удобно, чтобы модель не сгенерировала эссе там, где нужно три строки. И чтобы не улететь по счёту.
- Stop sequences. Строки, на которых генерация резко обрывается. Полезно когда модель отвечает структурированно: «остановись, как только увидишь
---END---». - System prompt vs user prompt. Первое — настройка роли и поведения («ты опытный финансовый аналитик, отвечаешь сжато, без воды»). Второе — конкретный запрос пользователя. System prompt модель воспринимает с большим весом.
Промпт-инжиниринг на пальцах
Промпт — то, что вы пишете модели. От его качества зависит почти всё. Хороший промпт обычно содержит шесть элементов — не обязательно все сразу, но чем больше, тем лучше.
- Роль. «Ты опытный аналитик данных в ритейле». Модель подстраивает стиль и глубину под роль.
- Контекст. Что за компания, что за задача, что уже сделано, какие ограничения. Без контекста модель угадывает в среднем по интернету.
- Формат вывода. «Верни таблицу с колонками A, B, C» или «ответь JSON со следующими полями» или «не больше пяти буллетов». Без этого модель часто отвечает простыней.
- Примеры (few-shot). Один-два показательных примера запрос → ответ. Резко поднимает качество, особенно на нестандартных задачах.
- Рассуждение вслух (chain-of-thought). «Сначала разбери задачу шаг за шагом, потом дай финальный ответ». На сложных вопросах помогает заметно.
- Самопроверка. «После ответа перечитай и скажи, есть ли в нём ошибки. Если есть — исправь». Снижает галлюцинации.
Худший промпт это «напиши стратегию развития». Лучший — на абзац-два с ролью, контекстом, форматом и ограничениями. Разница в ответе — на порядок.
Галлюцинации
Главная неприятная особенность всех языковых моделей: они умеют уверенно генерировать неправду. Имена, цифры, цитаты, ссылки на несуществующие книги, факты «из учебника, которого нет» — всё это называется галлюцинациями.
Почему так происходит. Модель технически решает задачу «продолжи этот текст наиболее правдоподобно». Не «ответь правдиво». Если самый правдоподобный токен — это выдуманный номер закона или несуществующая фамилия профессора, она его и поставит. Без злого умысла.
Что помогает:
- Просить ссылки на источники. Если модель не может привести проверяемый источник — скорее всего, выдумывает.
- Разрешать «не знаю». В промпт: «если не уверен — так и скажи, не выдумывай».
- RAG. Когда модель отвечает по конкретной базе документов, а не по «общим знаниям» — риск галлюцинаций резко падает.
- Проверка фактов. Цифры, даты, имена в серьёзных документах — всегда сверять с первоисточником.
- Низкая температура. На 0.0–0.2 модель меньше «фантазирует».
Этика и безопасность
Что нельзя кидать в публичные чаты. Персональные данные клиентов и сотрудников, коммерческую тайну, банковские реквизиты, договоры с NDA, исходники с ключами и паролями. Не потому что OpenAI или Anthropic торгуют вашими данными — а потому что ответственность за 152-ФЗ лежит на вашей компании, а серверы у них в США.
Что делать вместо. Три уровня:
- Корпоративные тарифы. Claude Enterprise, ChatGPT Enterprise, Microsoft 365 Copilot. Дают контракт, что данные не уходят на обучение, и административный контроль над тем, кто что куда отправляет. Юридически защитнее личных подписок, но серверы всё равно за границей.
- API в РФ-контуре. GigaChat, YandexGPT — инфраструктура в РФ, ПД не покидают страну. Качество ниже топовых западных, но для многих задач достаточно.
- Локальные open-weight модели. Llama, Mistral, Qwen на своём железе. Никаких внешних API, полный контроль. Стоимость входа — GPU-сервер от 1.5–3 млн ₽ и команда, которая умеет это поддерживать.
Для большинства задач в средней компании оптимум — смесь: корпоративный ChatGPT/Claude для общей работы, GigaChat или Yandex для всего, что касается ПД и ком-тайны.
Глоссарий
- LLM (Large Language Model)
- Большая языковая модель. Общий термин для Claude, GPT, Gemini и всех остальных.
- RAG (Retrieval-Augmented Generation)
- Перед ответом модель сначала ищет нужные куски в вашей базе знаний и только потом отвечает по ним. Снижает галлюцинации, обходит лимит контекста.
- Embedding
- Числовое представление текста (вектор). Используется в RAG для поиска «по смыслу», а не по точным словам.
- Fine-tuning
- Дообучение готовой модели на своих данных. В 90% случаев не нужно — RAG и хороший промпт справляются.
- MoE (Mixture of Experts)
- Архитектура, где модель состоит из нескольких специализированных «экспертов» и на каждый запрос активируется только часть. Так устроены Mixtral, DeepSeek-V3, многие современные топы. Даёт качество большой модели по цене средней.
- Multimodal
- Модель умеет работать не только с текстом — но и с картинками, аудио, видео, документами. GPT-4o, Claude, Gemini — мультимодальные.
- MCP (Model Context Protocol)
- Открытый стандарт от Anthropic, через который AI-ассистент может ходить в ваши инструменты — БД, файлы, API — и вызывать их как функции. Делает модель из «говорящего справочника» рабочим помощником.
- Agent (агент)
- AI, который не просто отвечает, а выполняет многошаговые задачи: «собери выписки за квартал, посчитай ABC, отправь руководителю». Под капотом — связка LLM + инструменты через MCP или function calling.
Чек-лист «начинаем грамотно»
- Заведите рабочий аккаунт. Платный ChatGPT Plus, Claude Pro или GigaChat Pro — $20–25 в месяц. Бесплатные версии заметно слабее, на них ощущения от AI обманчивы.
- Заранее решите, что кидать нельзя. ПД клиентов, ком-тайна, договоры с NDA — только в корпоративные или РФ-варианты. Для всего остального публичный Claude/ChatGPT нормален.
- Научитесь писать длинные промпты. Роль + контекст + формат + пример. Один абзац вместо одной строчки. Качество ответов растёт в разы.
- Не берите большую модель там, где справится маленькая. Для резюме, классификации, извлечения данных Haiku или GPT-4o-mini в 5–10 раз дешевле и почти так же точны.
- Проверяйте цифры и ссылки. Любые конкретные факты — даты, имена, номера законов — сверять с первоисточником. Галлюцинации никуда не делись.
- Сохраняйте удачные промпты. Заведите файл (или Notion, или что угодно), где копите свои «шаблоны» — еженедельный отчёт, разбор писем, ревью ТЗ. Через месяц у вас будет личная библиотека и скорость работы вырастет втрое.
- Не ждите, что AI заменит экспертизу. Он ускоряет, помогает структурировать, делает черновики. Но решения, ответственность и понимание контекста — остаются за вами.
Связанные материалы
- P13 — Рефакторинг Power BI в 10 раз — подход к оптимизации, который часто хорошо ложится на связку с AI-ассистентом
- P15 — 15 DAX-формул для управленцев — примеры задач, на которых AI экономит часы
- Гид по визуализации в ECharts — смежная тема: как AI помогает разбирать чужой JS-код графиков
- Python внутри хранимой процедуры SQL Server — ещё один пример, где связка «человек + AI + SQL» собирается в рабочий пайплайн
Этот материал — первый из серии «AI в BI и аналитике». Дальше будут разборы конкретных сценариев: AI в ежедневной работе аналитика, виды задач которые AI закрывает хорошо и плохо, сравнение «HTML+AI» и Power BI как двух подходов к отчётам. Если есть тема, по которой хочется разобрать на вашем примере — напишите, обсудим.