Контекстное окно — это объем рабочей памяти нейросети в рамках конкретного диалога. Оно измеряется в токенах. Все, что выходит за пределы этого лимита (самые старые сообщения чата или слишком длинный загруженный документ), модель просто «забывает» и перестает учитывать при генерации ответа.

