«Сейчас подключим ChatGPT / Gemini / DeepSeek / Copilot — и ИИ сам начнёт объективно оценивать звонки. Сократим расходы — заживём!»
Это мнение бытует среди руководителей, у которых есть свой отдел продаж. Я решила показать, что происходит на практике.
Взяли за основу реальный короткий диалог — менеджер перезванивает клиенту по старому просчёту.
Менеджер: Алло.
Клиент: Алло, добрый день.
Менеджер: Сергей, компания «Входная линия», входные двери. Удобно говорить?
Клиент: Да, говорите.
Менеджер: Вы ранее делали нам просчёт, подскажите, запрос актуален или закрываем заявку?
Клиент: Смотрите, закрывайте пока заявку.
Менеджер: Угу, хорошо. Если будет актуально — обращайтесь. До свидания.
Клиент: Хорошо, спасибо.
Звонок простой, всё очевидно: менеджер не отработал возражение, не удержал клиента, отпустил без единой попытки. Классический упущенный лид.
Загружаем один и тот же текст в три нейросети с одинаковым промптом: «Проанализируй звонок, выпиши зоны роста, проставь % по каждому этапу продаж + итоговый %». Прогоняем через ChatGPT, Gemini дважды и DeepSeek.
| Нейросеть | Итоговый % |
| ChatGPT | 31% |
| Gemini — 1-й запуск | 27,5% |
| Gemini — 2-й запуск (новая вкладка) | 21% |
| DeepSeek | 18% |
Разброс — 13% на одном и том же звонке, с одним и тем же промптом. Но и это ещё не самое интересное.
Нет единства, но хотя бы логика прослеживается.
DeepSeek «нашёл» работу с возражением там, где её по факту не было.
30% за закрытие — в звонке, где менеджер сказал: «Ну хорошо, обращайтесь» — и повесил трубку.
Как руководитель вы получаете разные оценки одного и того же звонка, разные выводы, разную «реальность» — и апелляции от менеджеров, если попробуете поставить на это KPI.
Сегодня менеджер «плохо закрыл». Завтра — «нормально закрыл». Послезавтра — «вообще не закрыл».
И всё это — про один и тот же диалог.
Генеративные модели обучены на интернете и додумывают. Они не фиксируют критерии и не помнят прошлые ответы. Каждый анализ — новая версия правды.
Поэтому каждый запуск = новая интерпретация. Не потому, что модель плохая, а потому, что она не настроена под вашу задачу.
Использовать такие оценки как управленческий инструмент.
Потому что на них нельзя объяснить цифры менеджеру, нельзя сравнить сотрудников между собой, нельзя построить систему обратной связи.
Вы не управляете продажами. Вы смотрите на случайные числа с красивыми комментариями и вынуждены каждый раз тратить время на предварительную транскрибацию звонка, отправку в чат, последующую фиксацию в таблицу.
Вывод:
Как руководителю объяснить менеджеру, почему Gemini сегодня поставил 27,5%, а при повторном запуске — уже 21%, ChatGPT дал 31%, а DeepSeek вообще 18% — и каждая модель увидела разный набор ошибок?
Никак. Потому что это нестабильная схема.
Пока у вас нет воспроизводимой логики оценки — у вас нет системы контроля качества. Есть набор комментариев, которые каждый раз «думают по-новому». А значит, нет главного: статистики, которой можно доверять. За системой — обращайтесь к нам!
Вы не можете честно сравнить менеджеров между собой, видеть динамику по неделям, отслеживать, проседает ли конкретный этап продаж, понимать: стало лучше или нейросеть в этот раз так «интерпретировала».
Это не аналитика. Это лотерея в обёртке AI.
Открытые нейросети полезны для гипотез, быстрых разборов, черновой аналитики. Но если вы хотите на их оценках управлять отделом продаж — вы строите решения на плавающем основании.
Это просто эксперимент. А разница между экспериментом и системой — это те самые 13%, а то и 50% разброса (мы оценивали самый короткий и простой звонок; если бы он был на 7–10 минут, разброс был бы ещё больше), которые стоят денег в лидах и в зарплате менеджеров.
Оставьте заявку — покажем, как работает система аудита звонков и подскажем, какие точки роста есть в вашем отделе продаж
Наши менеджеры свяжутся с Вами в ближайшее время