§ P36 — AI · Ликбез

AI для нетехнических: контекст, токены, модели

Без перегруза · Пять понятий, после которых AI перестаёт быть чёрным ящиком

Разбираемся в базе языковых моделей на пальцах: что такое контекст и почему он ограничен, что считается за токен и почему это про деньги, какая модель к какой задаче подходит, что меняет температура. Плюс короткий глоссарий и чек-лист на старт.

Если AI кажется чёрным ящиком — скорее всего, не хватает пяти понятий. Контекст, токены, модели, температура, prompt. Когда они на местах, ChatGPT, Claude или GigaChat перестают быть магией и становятся обычным инструментом — как Excel, только с другими граблями.

Эта статья — для руководителей, аналитиков и всех, кому AI пока скорее интересен, чем понятен. Никаких формул и нейросетевой математики. Только то, что экономит время и деньги в ежедневной работе.

Коротко. — контекст это «рабочая память» модели на один диалог, она всегда конечна. Токен — единица, которой считается стоимость, и он меньше слова. Модели бывают большие и маленькие — под разные задачи разные. Температура регулирует, насколько ответ предсказуемый. Хороший prompt — это роль + контекст + формат + пример.

Контекст — рабочая память модели

Контекст — это всё, что модель «видит перед собой» в момент ответа. Туда попадают: ваш промпт, история диалога, прикреплённые файлы, инструкции от приложения (system prompt). За пределами контекста модель не помнит ничего — ни прошлый чат, ни вашу компанию, ни вчерашние договорённости.

Размер контекста у каждой модели свой. Цифры на апрель 2026:

МодельКонтекстЭквивалентГде берут
Claude Opus 4.7 / Sonnet 4.5200 тыс. токенов (1M в long-context режиме)~600 страниц A4анализ длинных документов, код-ревью больших проектов
GPT-4o / GPT-5128 тыс.~380 страницуниверсал, чат-боты, агенты
Gemini 2.5 Pro1–2 млн2.5–5 тыс. страницвидеотранскрипты, базы знаний целиком
GigaChat / YandexGPT32–128 тыс.~100–380 страницзадачи с ограничением «только в РФ-контуре»

Что происходит при переполнении: одни приложения молча обрезают начало диалога (вы вдруг замечаете, что модель «забыла» ваше первое сообщение), другие выдают ошибку. В Claude.ai и ChatGPT обычно срабатывает скользящее окно с суммаризацией старого. В API всё строже — превышение лимита это ошибка 400.

Когда контекст начинает мешать:

  • Длинные многочасовые диалоги — модель «теряет нить» в начале
  • Большие документы целиком — PDF на 500 страниц не всегда влезет даже в 200 тыс.
  • Большие выгрузки — CSV на 100 тыс. строк никакая модель не возьмёт без предобработки

Что с этим делают на практике: RAG (модель сама достаёт нужный кусок из базы вместо того, чтобы тащить всё в контекст), суммаризация старого диалога перед каждым новым ходом, чанкование больших документов на куски по 5–10 страниц. Все три приёма решают одну и ту же проблему — «как засунуть много данных в конечное окно».

Токены — то, чем считается счёт

Модель не работает со словами или буквами. Она работает с токенами — это кусочки текста, на которые токенайзер режет вход. Один токен это примерно:

  • в английском — ¾ слова или 4 символа
  • в русском — ½–⅔ слова или 2–3 символа (русский режется хуже, токенов на тот же объём текста — в 1.5–2 раза больше)
  • в коде — переменная вроде customerId может уйти как один токен, а может как три

Цены считаются в долларах за миллион токенов отдельно на вход (input) и на выход (output). Output обычно в 5 раз дороже, потому что его модель именно генерирует, а не просто читает. Прикидочные цифры на апрель 2026 (порядок, не точные тарифы):

МодельInput $/MOutput $/M1M input ≈
Claude Sonnet 4.5$3$15700 тыс. слов EN
Claude Haiku 4.5$0.80$4700 тыс.
GPT-4o-mini$0.15$0.60700 тыс.
GPT-5$5$20700 тыс.
Gemini 2.5 Flash$0.30$1.20700 тыс.

Простой пример. Допустим, нужно прогнать через модель 1000 страниц текста и на каждую попросить краткое резюме на 200 слов. Считаем:

Вход:  1000 стр × 500 слов × 1.4 токена/слово EN = 700 000 токенов
Выход: 1000 стр × 200 слов × 1.4 токена/слово EN = 280 000 токенов

На Claude Sonnet:
  input  = 0.7M × $3  = $2.10
  output = 0.28M × $15 = $4.20
  итого  ≈ $6.30

На Haiku:    ≈ $1.70
На GPT-5:    ≈ $9.10
На Gemini Flash: ≈ $0.55

Между Haiku и GPT-5 — пятикратная разница. Если задача простая (резюме, классификация, извлечение полей) — брать большую модель не имеет смысла, дешёвая справится не хуже. Как экономить:

  • Prompt caching. Если в начале каждого запроса один и тот же длинный system prompt — провайдер кеширует его и даёт скидку 50–90% на повторные обращения. Работает у Anthropic, OpenAI, Google.
  • Batch API. Если задачи не срочные (ночная обработка) — скидка 50% за то, что провайдер обработает их когда удобно ему, в течение 24 часов.
  • Маршрутизация. Простые запросы — на маленькую модель, сложные — на большую. На типичной нагрузке экономия 3–10×.
  • Сжимать контекст. Не тащить весь документ, если нужен один параграф. RAG, embeddings, поиск по ключевым словам.

Модели — кто есть кто

Языковых моделей сейчас много, но по факту работают несколько семейств. Полезно держать в голове, кто их делает и на что они ориентированы.

Зарубежные

  • GPT (OpenAI). Самые узнаваемые. ChatGPT — массовый продукт, GPT-5 и GPT-4o — через API. Универсалы, сильные в русском.
  • Claude (Anthropic). Сильны в длинном контексте, аналитике, коде. У Sonnet и Opus репутация «лучше всех понимают сложные тексты».
  • Gemini (Google). Самый большой контекст (миллион+ токенов), мультимодальность из коробки (видео, аудио, документы).
  • Llama (Meta). Open weights — веса можно скачать и запустить у себя. Это даёт полный контроль над данными ценой собственного железа.
  • Mistral (Франция). Тоже open weights, лёгкие и быстрые модели. Mixtral популярен в EU за «своих».
  • Qwen (Alibaba), DeepSeek. Китайские, сильно прогрессировали в 2025. DeepSeek-Coder — один из лучших для программирования по соотношению цена/качество.

Российские

  • GigaChat (Сбер). Доступен через API, есть корпоративные тарифы.
  • YandexGPT. Аналогично, плюс встроен в продукты Яндекса.

По бенчмаркам российские пока отстают от топов на поколение-полтора. Но для задач с персональными данными или коммерческой тайной — часто единственный вариант, потому что инфраструктура внутри РФ-контура.

Размеры — на что обращать внимание

Внутри каждого семейства есть размерные линейки. Базовое правило: маленькая модель быстрее и дешевле, большая — точнее на сложном.

КлассПримерыКогда брать
МаленькиеHaiku, GPT-4o-mini, Gemini Flashклассификация, резюме, извлечение, простые ответы, массовые операции
СредниеClaude Sonnet, GPT-4o, Gemini Proосновная рабочая лошадка: аналитика, код, диалоги
БольшиеClaude Opus, GPT-5, Gemini Ultraсложные рассуждения, исследования, длинные многошаговые задачи

Специализации тоже бывают: код — Claude Sonnet, GPT, DeepSeek-Coder; длинный контекст — Gemini; русский язык — GigaChat и Yandex (или тот же Claude — он тоже хорош в русском, просто без РФ-контура).

Температура и другие параметры

Когда вы используете модель через API или продвинутые настройки в продукте, можно менять не только промпт, но и несколько технических параметров. Главный из них — температура.

Temperature

Шкала от 0 до 1+ (иногда до 2). Это «разброс» в выборе следующего слова.

  • 0.0–0.3 — почти детерминированно. Один и тот же запрос даёт почти одинаковый ответ. Это то, что нужно для аналитики, извлечения данных, классификации, кода.
  • 0.5–0.7 — середина. Дефолт во многих API. Подходит для большинства диалогов.
  • 0.8–1.0+ — креатив. Тексты, идеи, маркетинг. Один и тот же запрос даёт каждый раз разные результаты.

Если коллега жалуется «модель каждый раз отвечает по-разному, я не могу на неё положиться» — первое, что стоит проверить, температура. В ChatGPT через интерфейс её не покрутить, но через API — легко.

Остальное по мелочи

  • Top-p, top-k. Альтернативные способы регулировать «креативность». Если уже выставили температуру — обычно не трогать.
  • Max tokens. Жёсткий потолок длины ответа. Удобно, чтобы модель не сгенерировала эссе там, где нужно три строки. И чтобы не улететь по счёту.
  • Stop sequences. Строки, на которых генерация резко обрывается. Полезно когда модель отвечает структурированно: «остановись, как только увидишь ---END---».
  • System prompt vs user prompt. Первое — настройка роли и поведения («ты опытный финансовый аналитик, отвечаешь сжато, без воды»). Второе — конкретный запрос пользователя. System prompt модель воспринимает с большим весом.

Промпт-инжиниринг на пальцах

Промпт — то, что вы пишете модели. От его качества зависит почти всё. Хороший промпт обычно содержит шесть элементов — не обязательно все сразу, но чем больше, тем лучше.

  1. Роль. «Ты опытный аналитик данных в ритейле». Модель подстраивает стиль и глубину под роль.
  2. Контекст. Что за компания, что за задача, что уже сделано, какие ограничения. Без контекста модель угадывает в среднем по интернету.
  3. Формат вывода. «Верни таблицу с колонками A, B, C» или «ответь JSON со следующими полями» или «не больше пяти буллетов». Без этого модель часто отвечает простыней.
  4. Примеры (few-shot). Один-два показательных примера запрос → ответ. Резко поднимает качество, особенно на нестандартных задачах.
  5. Рассуждение вслух (chain-of-thought). «Сначала разбери задачу шаг за шагом, потом дай финальный ответ». На сложных вопросах помогает заметно.
  6. Самопроверка. «После ответа перечитай и скажи, есть ли в нём ошибки. Если есть — исправь». Снижает галлюцинации.

Худший промпт это «напиши стратегию развития». Лучший — на абзац-два с ролью, контекстом, форматом и ограничениями. Разница в ответе — на порядок.

Галлюцинации

Главная неприятная особенность всех языковых моделей: они умеют уверенно генерировать неправду. Имена, цифры, цитаты, ссылки на несуществующие книги, факты «из учебника, которого нет» — всё это называется галлюцинациями.

Почему так происходит. Модель технически решает задачу «продолжи этот текст наиболее правдоподобно». Не «ответь правдиво». Если самый правдоподобный токен — это выдуманный номер закона или несуществующая фамилия профессора, она его и поставит. Без злого умысла.

Что помогает:

  • Просить ссылки на источники. Если модель не может привести проверяемый источник — скорее всего, выдумывает.
  • Разрешать «не знаю». В промпт: «если не уверен — так и скажи, не выдумывай».
  • RAG. Когда модель отвечает по конкретной базе документов, а не по «общим знаниям» — риск галлюцинаций резко падает.
  • Проверка фактов. Цифры, даты, имена в серьёзных документах — всегда сверять с первоисточником.
  • Низкая температура. На 0.0–0.2 модель меньше «фантазирует».

Этика и безопасность

Что нельзя кидать в публичные чаты. Персональные данные клиентов и сотрудников, коммерческую тайну, банковские реквизиты, договоры с NDA, исходники с ключами и паролями. Не потому что OpenAI или Anthropic торгуют вашими данными — а потому что ответственность за 152-ФЗ лежит на вашей компании, а серверы у них в США.

Что делать вместо. Три уровня:

  1. Корпоративные тарифы. Claude Enterprise, ChatGPT Enterprise, Microsoft 365 Copilot. Дают контракт, что данные не уходят на обучение, и административный контроль над тем, кто что куда отправляет. Юридически защитнее личных подписок, но серверы всё равно за границей.
  2. API в РФ-контуре. GigaChat, YandexGPT — инфраструктура в РФ, ПД не покидают страну. Качество ниже топовых западных, но для многих задач достаточно.
  3. Локальные open-weight модели. Llama, Mistral, Qwen на своём железе. Никаких внешних API, полный контроль. Стоимость входа — GPU-сервер от 1.5–3 млн ₽ и команда, которая умеет это поддерживать.

Для большинства задач в средней компании оптимум — смесь: корпоративный ChatGPT/Claude для общей работы, GigaChat или Yandex для всего, что касается ПД и ком-тайны.

Глоссарий

LLM (Large Language Model)
Большая языковая модель. Общий термин для Claude, GPT, Gemini и всех остальных.
RAG (Retrieval-Augmented Generation)
Перед ответом модель сначала ищет нужные куски в вашей базе знаний и только потом отвечает по ним. Снижает галлюцинации, обходит лимит контекста.
Embedding
Числовое представление текста (вектор). Используется в RAG для поиска «по смыслу», а не по точным словам.
Fine-tuning
Дообучение готовой модели на своих данных. В 90% случаев не нужно — RAG и хороший промпт справляются.
MoE (Mixture of Experts)
Архитектура, где модель состоит из нескольких специализированных «экспертов» и на каждый запрос активируется только часть. Так устроены Mixtral, DeepSeek-V3, многие современные топы. Даёт качество большой модели по цене средней.
Multimodal
Модель умеет работать не только с текстом — но и с картинками, аудио, видео, документами. GPT-4o, Claude, Gemini — мультимодальные.
MCP (Model Context Protocol)
Открытый стандарт от Anthropic, через который AI-ассистент может ходить в ваши инструменты — БД, файлы, API — и вызывать их как функции. Делает модель из «говорящего справочника» рабочим помощником.
Agent (агент)
AI, который не просто отвечает, а выполняет многошаговые задачи: «собери выписки за квартал, посчитай ABC, отправь руководителю». Под капотом — связка LLM + инструменты через MCP или function calling.

Чек-лист «начинаем грамотно»

  1. Заведите рабочий аккаунт. Платный ChatGPT Plus, Claude Pro или GigaChat Pro — $20–25 в месяц. Бесплатные версии заметно слабее, на них ощущения от AI обманчивы.
  2. Заранее решите, что кидать нельзя. ПД клиентов, ком-тайна, договоры с NDA — только в корпоративные или РФ-варианты. Для всего остального публичный Claude/ChatGPT нормален.
  3. Научитесь писать длинные промпты. Роль + контекст + формат + пример. Один абзац вместо одной строчки. Качество ответов растёт в разы.
  4. Не берите большую модель там, где справится маленькая. Для резюме, классификации, извлечения данных Haiku или GPT-4o-mini в 5–10 раз дешевле и почти так же точны.
  5. Проверяйте цифры и ссылки. Любые конкретные факты — даты, имена, номера законов — сверять с первоисточником. Галлюцинации никуда не делись.
  6. Сохраняйте удачные промпты. Заведите файл (или Notion, или что угодно), где копите свои «шаблоны» — еженедельный отчёт, разбор писем, ревью ТЗ. Через месяц у вас будет личная библиотека и скорость работы вырастет втрое.
  7. Не ждите, что AI заменит экспертизу. Он ускоряет, помогает структурировать, делает черновики. Но решения, ответственность и понимание контекста — остаются за вами.

Связанные материалы

Этот материал — первый из серии «AI в BI и аналитике». Дальше будут разборы конкретных сценариев: AI в ежедневной работе аналитика, виды задач которые AI закрывает хорошо и плохо, сравнение «HTML+AI» и Power BI как двух подходов к отчётам. Если есть тема, по которой хочется разобрать на вашем примере — напишите, обсудим.

§ Консультация · 30 мин

Хотите внедрить AI
в аналитику без шума и пыли?

Расскажем, какие сценарии реально работают в BI, что не работает несмотря на маркетинг, и как собрать связку модель + RAG + ваши данные с учётом 152-ФЗ.

Телефон+7 918 042 34 43