Нажимаешь Enter — и это, если честно, очень похоже на доставку еды. Ты вроде просто ткнул кнопку, а где-то там уже началась суета: “заказ” уходит по сети в ближайший дата-центр, как в тёмную кухню на другом конце города. Дальше — мини-расследование. Кто принял заказ? Кто его готовит? И почему чек в итоге не только про деньги, но и про электричество, железо и охлаждение?
Сама “готовка” ответа (её иногда называют инференсом) — это не один повар, который задумчиво мешает суп. Это скорее фудкорт в час пик: чтобы выдать тебе пару абзацев быстро, в фоне просыпаются десятки, а иногда и сотни чипов. Одни поднимают нужные куски “ингредиентов” из памяти (как кладовщик, который бегает за соусами), другие параллельно считают, что сказать дальше (как несколько поваров, которые одновременно режут, жарят и собирают заказ). И всё это должно уложиться в секунды — иначе ты начнёшь раздражаться, как когда курьер “вроде рядом”, но стоит на месте.
И вот тут важный момент: “быстро” не значит “дёшево”. Экспресс-доставка всегда дороже обычной — потому что ты платишь не за саму еду, а за то, что её готовят и везут прямо сейчас, без очереди. С ИИ так же: чтобы ответ прилетел мгновенно, железо держат в готовности, как парк курьеров на смене, даже если заказов то больше, то меньше. Плюс охлаждение — это отдельная история. Дата-центр в этот момент работает не как тихий офисный ноутбук, а как кухня с плитами на полную: нагрелось — надо срочно “проветрить”, иначе всё начнёт душиться и тормозить.
И в итоге твой один “Готово” — это не волшебная фраза из воздуха, а целая логистика: сеть → очередь → параллельная готовка → упаковка → отправка обратно. Мы видим строчку текста. А по факту — как будто заказали бургер, и где-то одновременно включились вытяжки, открылись холодильники и десяток людей синхронно побежали, чтобы уложиться в обещанные “15 минут”.
Один запрос к генеративному ИИ по ощущениям — ну вообще копейки. В буквальном смысле: грубые оценки для «среднего» текстового запроса гуляют где-то в районе пары ватт-часов на ответ (условно ~1–5 Wh). Это как лампочка на 10 Вт, которая горит минут 6–30. Но тут важная оговорка: цифры очень зависят от модели, длины промпта, сколько токенов в ответе, и даже от того, как именно сервис всё это кэширует и на каких серверах крутится. Короткий «да/нет» и простыня на две страницы — это вообще разные по энергии истории.
А теперь масштаб. Допустим, в офисе 100 человек попросили ИИ написать по одному письму клиенту. Пусть это «обычное» письмо, не роман, и на каждое ушло ~2 Wh. Получается 200 Wh — вроде ерунда, примерно как ноутбук на 50 Вт, который поработал 4 часа. Но если таких офисов (или просто пользователей) тысячи, и это повторяется каждый день, вы внезапно получаете уже мегаватт-часы. Например, 10 миллионов запросов по 2 Wh — это 20 000 кВт⋅ч в сутки. Это уже не «мелочь», а вполне заметная строка в энергопотреблении дата-центров.
И вот почему оптимизация — это не только про «спасём планету». Это про банальную экономику: меньше ватт-часов на ответ = ниже счета за электричество и железо, значит сервис либо дешевле для пользователя, либо просто дольше выживает в конкуренции.
Магия генеративного ИИ делается не на «обычном сервере», а в основном на GPU и специальных ускорителях. Это такие вычислительные “плиты” — только вместо кастрюль у них матрицы и числа. И вот тут начинается реальность: эти штуки дорогие, дефицитные и прожорливые. Не потому что кто-то жадничает, а потому что их физически сложно делать, их мало, а спрос — как на горячие столики в пятницу вечером.
Я иногда объясняю это через кухню ресторана. Представьте, что у вас меню на 200 блюд, но каждое нормально готовится только на редкой плите, которую выпускают ограниченной серией. И если плита занята — очередь, ждите. Если плита свободна — вроде бы хорошо, но она же всё равно стоит денег и занимает место. В дата-центре то же самое: ускорители нужно ставить пачками, рядом — память, сети, охлаждение, всё это как вытяжки, холодильники и электрика в профессиональной кухне, только в разы дороже.
И есть ещё одна неприятная деталь: таким чипам важно быть загруженными. Они окупаются, только когда постоянно “жарят” вычисления. Иначе получается такси без пассажиров: машина заведена, место на парковке занято, страховка капает, а выручки почти нет. В реальности это означает, что простои — это прямые деньги в трубу и лишние киловатт-часы на поддержание всей этой инфраструктуры.
Так что «цена ответа» — это не только электричество на саму генерацию. Это амортизация железа, обслуживание, ремонт, замены, работа инженеров, аренда и строительство помещений, охлаждение и резервирование. И когда смотришь на это целиком, становится понятно: ответ ИИ — это не строчка текста, а маленький заказ на очень дорогой кухне.
Тепло в дата-центре рождается банально: электричество приходит на серверы — и почти всё, что не ушло в вычисления, превращается в нагрев. GPU и CPU работают как маленькие печки, только их там тысячи, и они греют непрерывно. Поэтому дата-центр — это, по сути, гигантский кондиционер наоборот: он не «делает холод», он круглосуточно вывозит наружу тепло, которое мы сами же произвели, пока просили “напиши мне абзац” или “сгенерируй картинку”. И если тепло не уводить быстро, начинаются проблемы — от троттлинга (железо специально замедляется) до аварий, когда оборудование просто уходит в защиту. Там нет романтики: лишние 5–10 °C в зале — и эффективность падает, а риск простоя уже совсем не шутка.
Где тут вода? Вода появляется в тот момент, когда «просто гонять воздух» становится невыгодно или недостаточно. Самая понятная схема — испарительное охлаждение и градирни: тёплую воду из теплообменников гоняют через башню, часть воды испаряется, унося тепло, и оставшаяся вода возвращается охлаждённой. Принцип простой, почти школьный: испарение — это бесплатный (ну почти) способ выкинуть тепло в атмосферу. Но у него есть цена: вода реально уходит в воздух. Плюс есть так называемая продувка (blowdown) — часть воды сливают, чтобы соли и примеси не превращали систему в накипь и коррозию. В итоге «охлаждение» становится не только про электричество, но и про водный баланс — и внезапно это уже политика и экология, а не только инженерия.
И да, в засушливых регионах тема болезненная. Когда дата-центр конкурирует за водные ресурсы с городом, сельским хозяйством или просто с нормальной жизнью людей — начинается неприятный разговор: “мы тратим воду на то, чтобы ответы в чатике приходили быстрее?” Особенно летом, когда жара максимальная, а воды как раз меньше всего. При этом важно не упрощать: расход воды не одинаковый везде. Он зависит от климата (в сухом воздухе испарение эффективнее, но воды может требоваться больше), от режима работы и, главное, от выбранной схемы охлаждения.
Компании могут использовать очень разные варианты, и это сильно меняет картину:
Воздушное охлаждение (dry cooling) — воды почти не нужно, но часто выше потребление энергии и сложнее держать низкие температуры в жару.
Испарительное/градирни (wet cooling) — энергоэффективно, но воду “съедает” испарение и продувка.
Замкнутые контуры, чиллеры, тепловые насосы — компромиссы между водой, электричеством и стабильностью.
Источники воды тоже разные: питьевая, техническая, очищенные сточные воды, морская (редко и сложно), накопленная дождевая — и это принципиально, потому что “литр воды” в отчёте и “литр питьевой воды из городской сети” — совсем разные истории.
Короче, ответ ИИ начинается не с умных слов, а с горячих радиаторов и мокрых башен где-то за высоким забором. И когда в следующий раз модель “просто за секунду” выдаёт вам текст, стоит помнить: где-то в этот момент кто-то очень серьёзно решает задачу — как вытащить лишнее тепло и чем за это расплатиться: киловаттами, литрами или и тем и другим сразу.
Углеродный след у ИИ — штука коварная: он зависит не только от того, сколько энергии ушло на ответ, но и от того, какая именно это энергия. Электричество вообще бывает «с разным характером». В один момент оно приходит из угля и газа (тяжёлое, «дымное»), в другой — из ветра, солнца или атома (более «чистое»). И ещё важный нюанс: состав этой смеси меняется по часам. Ночью, когда спрос ниже, где-то остаётся базовая генерация (иногда как раз уголь/газ), а днём в некоторых регионах подхватывают ВИЭ — особенно когда светит солнце или дует ветер.
Простой пример. Два одинаковых запроса, один и тот же объём вычислений:
И вот это важно проговорить: речь не про чувство вины за каждый промпт. Это про то, что углеродный след можно измерять и управлять — выбирать регион, время выполнения, закупать чистую энергию, переносить нагрузку туда, где сеть «зеленее». Один и тот же ответ — а климатическая цена может отличаться в разы.
Главная идея простая: ИИ “ест” деньги и электричество не когда вы думаете, а когда модель гоняет токены туда‑сюда. Поэтому выигрывает не тот, кто меньше пользуется, а тот, кто пользуется чуть аккуратнее.
Писать один нормальный запрос вместо десяти уточнений. Меньше итераций — меньше прогонов модели и меньше токенов на переписку “а сделай ещё вот это”.
Сразу просить короткий ответ (и формат). Чем короче вывод, тем меньше генерации и вычислений на “воду” и лишние варианты.
Не генерировать “на всякий случай”. Всё, что вы не прочитали и не использовали, — это буквально оплаченная энергия в мусорную корзину.
Переиспользовать черновики и контекст, а не пересказывать заново. Когда вы приносите уже готовый набросок/структуру, модели не нужно заново “изобретать велосипед” длинным текстом.
Отключать бесконечные регенерации и “давай ещё 5 вариантов”. Каждый “перегенерируй” — это новый полный проход, а не лёгкая правка, и цена растёт как на дрожжах.
Выбирать меньшую модель для простых задач. Для “сделай список дел” или “переформулируй абзац” большая модель часто избыточна, а маленькая делает то же дешевле и быстрее.
Пакетировать задачи одним запросом. Вместо пяти отдельных чатов: “вот текст, сделай 1) заголовок, 2) краткое резюме, 3) три тезиса” — меньше служебных повторов и разогрева контекста.
Явно ограничивать объём работы. “Не больше 7 пунктов, без вступления, 120–150 слов” — это прямой стоп-кран на разрастание ответа.
И да, самый жизненный пример: человек заставляет ИИ переписывать одно и то же письмо 30 раз, потому что “тон всё ещё не достаточно дружелюбный”. В итоге получается то же самое письмо, только с ещё одним “буду рад(а) помочь” — зато счёт дружелюбнее не становится, он просто становится больше.
Решайте любые задачи с помощью ИИ — от генерации текста до создания изображений и видео.
Генерация контента, перевод, анализ данных и автодополнение кода.
Создание иллюстраций, видеоконтента и уникальных треков любого жанра.
Визуализация данных, построение графиков и генерация блок-схем.
Личный кабинет