Lost in the Middle: слабое место LLM в длинном контексте

Содержание:

Дело о пропавшей фразе: как это выглядит в жизни
U-образная кривая внимания: начало и конец как два прожектора
Почему середина тонет: три бытовых объяснения без магии
Как это проявляется: пять типичных фейлов, которые люди принимают за «глюк»
Спасательные приёмы: как писать и складывать контекст, чтобы его не съели
Честный финал расследования: что исправят модели, а что останется привычкой пользователя

Дело о пропавшей фразе: как это выглядит в жизни

Я думал, это будет простая проверка: закинул в чат длинную переписку с подрядчиком (там страниц на пять, если честно), и попросил LLM коротко ответить — что мы в итоге согласовали и какие условия нельзя нарушать. Она бодро выдала резюме, прям уверенно, с пунктами… и всё было почти правильно. Почти.

Потому что одна фраза из середины переписки пропала. Та самая, на которой всё держалось: «Оплату — только после приёмки, авансы не предусмотрены». Я вставил это ключевое требование между двумя абзацами — и оно исчезло, как носок в стиралке. Модель же, не моргнув, написала: «Ок, можно 50% предоплаты». Красота. Только потом я пролистал и понял: она даже не попыталась зацепиться за этот кусок.

И вот в этом вся проблема: когда текста много, он для модели как длинный коридор с дверями. Первые двери заметные, последние тоже — потому что они прямо перед носом. А где-то в середине темновато, шумно, и важная записка на стене легко теряется. Не потому что модель «тупая», а потому что ей, грубо говоря, проще схватиться за начало и конец и собрать ответ “по ощущениям”.

Если дочитать, станет понятно, почему это не мелочь и не «ну бывает». Это влияет на работу (условия договора, дедлайны, требования), на учёбу (одно уточнение в середине задания — и ты сдаёшь не то), и на быт (врачебная рекомендация, список покупок, адрес доставки). В реальной жизни мы не читаем с лупой каждую строку — и надеемся, что помощник тоже не проморгает главное. Но иногда он промаргивает. И делает это с таким спокойным лицом, что ты веришь ему первым.

U-образная кривая внимания: начало и конец как два прожектора

Представьте длинный текст как сцену, а внимание модели — как два прожектора. Один светит в самое начало, другой — в самый конец. Там всё видно чётко: кто вышел, что сказали, какой был запрос. А вот середина остаётся в полумраке — не полностью тьма, но детали теряются, и модель потом как бы «не уверена», было это важным или просто шумом.

Из‑за этого LLM часто лучше «помнят» первые и последние куски контекста. Если вы в первом абзаце написали ключевую инструкцию, а в конце — уточнение, шансы хорошие. Но если самое важное спрятано где-то посередине большого полотна текста, особенно когда вокруг много лишнего (история переписки, примеры, цитаты), модель может пройти мимо или использовать это кусками, странно и выборочно.

Это как с бутербродом: хлеб сверху и снизу запоминается отлично, а начинка — ну да, вроде что-то было… Особенно если бутерброд огромный и слоёв много. В итоге модель уверенно опирается на «края», а середину — ту самую начинку — иногда просто недооценивает, хотя там и лежит главный смысл.

Почему середина тонет: три бытовых объяснения без магии

1) Ей проще держаться за то, что сказали первым — как за табличку «правила тут».
В начале переписки мы обычно задаём роль, тон, ограничения: «пиши коротко», «ты юрист», «не используй английский». И модель цепляется за это, потому что это как инструкция на дверях — удобно и безопасно. А вот уточнение в середине легко проскочить. Мини-пример: ты пишешь в начале: «Сделай пост дружелюбным, на “ты”». Потом где-то посередине добавляешь: «Вообще-то давай на “вы”, это для корпоративной рассылки». И дальше — угадай что? Модель продолжает “тыкать”, потому что первое правило сидит как якорь, а середина — ну, промелькнула.

2) Конец кажется самым свежим — как последняя реплика в разговоре.
Мы сами так общаемся: кто что сказал последним, то и влияет сильнее. LLM ведёт себя похоже: последние строки выглядят как «актуальные вводные», и модель на них опирается, иногда даже если в середине уже были важные условия. Пример из реальной жизни: ты долго обсуждаешь план поездки, в середине пишешь «не берём ночные поезда, я плохо переношу», потом ещё десять сообщений про бюджет, музеи, страховку. А в самом конце — «ок, накидай варианты маршрута». Модель бодро предлагает ночной поезд, потому что конец — это как “поехали”, а запрет на ночные давно утонул где-то между страховкой и музеями.

3) Середину забивает шум — повторы, уточнения, “кстати”, и важное теряется в каше.
В середине обычно начинается болтовня по делу и не по делу: мы пересказываем одно и то же, вставляем примеры, спорим, кидаем куски текста. Для модели это всё превращается в плотный слой деталей, где одна ключевая фраза не выглядит особенной. Мини-пример: переписка про резюме. Ты вставляешь вакансию, потом три версии своего опыта, потом «вот ещё письмо рекрутеру», потом в середине коротко: «не упоминай моё увольнение». А дальше опять кусок вакансии и правки формулировок. В итоге модель честно добавляет фразу про увольнение — не из вредности, а потому что твой запрет был одинокой строчкой внутри огромного бутерброда из текста.

Как это проявляется: пять типичных фейлов, которые люди принимают за «глюк»

Ты пишешь длинный промпт, аккуратно всё раскладываешь, и где‑то в середине вставляешь важное: «не использовать внешние API», «ответ — строго в таблице», «не упоминать бренд». Модель бодро начинает, красиво рассуждает… и внезапно делает ровно то, что ты запретил. И ты такой: «Окей, значит я опять плохо сформулировал». Хотя формулировка нормальная — просто ограничение утонуло в середине простыни.

Второй классика‑фейл — смешивание версий требований. В начале ты просишь кратко, потом в середине уточняешь «давай подробно, но без воды», а в конце добавляешь «на самом деле нужно на 5 пунктов». В итоге она берёт понемногу отовсюду и лепит гибрид: и длинно, и с водой, и пунктов семь. Самое обидное — иногда она даже пишет: «Я учёл все ограничения», и это звучит так уверенно, что начинаешь сомневаться уже в собственной памяти.

Третий сценарий — “делает вид, что всё учла”. Ты даёшь список данных, в середине — одну критичную строчку («все суммы в евро», «год — 2024», «срок — 10 дней»). Она отвечает гладко, но почему-то суммы снова в долларах, год 2023, а сроки “в течение месяца”. Если мягко ткнуть носом, модель часто извиняется и… повторяет ту же ошибку, только другими словами. И человек опять думает: «Наверное, я перегрузил контекст».

Четвёртый — зацикливание и повторы. Ты просишь “не повторяйся”, а это как раз было в середине между примерами и исходными данными. В результате она выдаёт три абзаца, которые различаются только запятыми, и ещё раз подводит итог теми же словами. Такое ощущение, что у неё есть любимая мысль, и она её просто таскает по тексту, потому что “так спокойнее”.

И, наконец, самый узнаваемый (и немного смешной) — модель выхватывает хвост, игнорируя середину. Например, в конце она героически находит номер заказа #A18492 и даже правильно его вставляет в письмо, но в середине была фраза: «НЕ отменять заказ, а только изменить адрес доставки». И угадай что — письмо начинается с «Ваш заказ отменён». Ты смотришь, перечитываешь, и первая мысль всё равно: «Чёрт, я, наверное, где-то не так написал». Хотя написал ты нормально — просто слово «НЕ» оказалось в том самом “проблемном” месте.

Спасательные приёмы: как писать и складывать контекст, чтобы его не съели

Если контекст длинный, думайте о нём как о бутерброде: самое важное — на край. Практика простая: ключевые факты, числа, запреты и цель задачи ставьте в начало, а в конце делайте короткий «контрольный хвост»: ещё раз 5–7 пунктов, что нельзя забыть. Да, это выглядит как повтор, но повтор тут и спасает — модели реально чаще «видят» начало и конец, а середину могут проскочить.

Перед самой задачей полезно вставлять сводку требований — буквально мини-список. Не «написать красиво», а сухо и по делу: формат ответа, тон, что считать успехом, что нельзя делать. И ещё маленький трюк: попросите модель пересказать ограничения своими словами. Это как попросить человека повторить адрес — сразу видно, что он услышал, а что нет. Если она перепутала — правите сводку, а не ругаетесь с результатом.

Когда текста много (статья, лог, переписка), не пытайтесь скормить всё и сразу. Режьте на куски и двигайтесь шагами: сначала попросите выделить факты и спорные места по части 1, потом по части 2, потом собрать общую картину и только в конце — финальный ответ. А вопросы задавайте узко: «найди противоречия», «выпиши требования», «сделай план», а не «ну разберись там». И да, если в середине есть один критичный абзац — продублируйте его в конец как «самое важное».

Мини‑шаблон промпта (копируй и пользуйся):

Задача: [что нужно сделать]
Сводка требований (важно): 1) … 2) … 3) … (формат/тон/запреты)
Контекст (часть 1/3): …
Контекст (часть 2/3): …
Контекст (часть 3/3): …
Повтори требования своими словами (коротко) и только потом дай ответ.
В конце проверь: где ты применил каждый пункт требований.

Честный финал расследования: что исправят модели, а что останется привычкой пользователя

Окна контекста и правда растут: вчера это были условные 4–8 тысяч токенов, сегодня — десятки тысяч, завтра будет ещё больше. И модели реально умнеют: лучше держат тему, реже «плывут» в длинных цепочках, аккуратнее следуют инструкциям. Но вот неприятная штука — привычка пользователя никуда не девается. Мы всё так же кидаем в чат простыню, а самое важное — ну, где-то в середине, между «для справки» и «вдруг пригодится». И потом удивляемся, что ответ странный или мимо.

Это не магия и не «тупость» модели. Скорее ограничение того, как она читает: начало задаёт рамку, конец звучит как последнее слово, а середина в длинном тексте легко превращается в серый шум, особенно если там вперемешку факты, оговорки и лишние детали. Да, часть этого со временем поправят — будут лучше ранжировать, лучше «вспоминать», лучше выцеплять важное. Но полностью это не исчезнет, потому что мы сами продолжаем писать так, будто модель листает текст глазами и подчёркивает маркером.

Правило простое и рабочее: главное — на края, остальное — в сводку.

Решайте любые задачи с помощью ИИ — от генерации текста до создания изображений и видео.

Текст и код

Генерация контента, перевод, анализ данных и автодополнение кода.

Изображения, видео и музыка

Создание иллюстраций, видеоконтента и уникальных треков любого жанра.

Диаграммы, графики и схемы

Визуализация данных, построение графиков и генерация блок-схем.

Попробовать бесплатно

Личный кабинет

Приоритетная обработка
Запросы от пользователей личного кабинета обрабатываются в первую очередь
Бонус за регистрацию
Стартовый бонус на счёт личного кабинета (~20 запросов), без регистрации - 3 запроса
Все передовые нейросети
В личном кабинете представлен широкий выбор нейросетей (120+).
Генерация реалистичных изображений
Midjourney 6.0, Stable Diffusion XL, Dall-E 3, Playground v2.5, Flux.1 Schnell, Flux.1 Dev, Flux.1 Pro, Flux.1.1 Pro, Kolors, Recraft v3, GPT Image 1 (low), GPT Image 1 (medium), GPT Image 1 (high), Google: Nano Banana, Google: Nano Banana Pro, FLUX.2 Flex, FLUX.2 PRO, FLUX.2 MAX, Google: Nano Banana 2
Создание музыки
Нейросеть Suno создает музыку на основе вашего текста
Нет ограничения на количество символов
Без регистрации вы можете отправить запрос не более 1000 символов
Работа с файлами
Поддержка всех популярных форматов: pdf, excel, word, powerpoint, odt, c, js, php, py, html, sql, xml, yaml, markdown, txt, json, csv, png, jpeg и другие
Удобный вспомогательный чат
На всех страницах проекта, для получения быстрых ответов

Зарегистрироваться