CONCEPTO TÉCNICO · LLMs

Ventana
Deslizante
en Contexto

Cómo los modelos de lenguaje manejan su memoria finita — y cómo optimizás eso a tu favor.

SCROLL PARA EXPLORAR
// 01 — el problema de fondo

El contexto tiene
un límite físico

Los LLMs no tienen memoria infinita. Todo lo que procesan entra en una ventana de tokens de tamaño fijo. Cuando se llena, algo tiene que salir — y ahí entra la ventana deslizante.

HISTORIAL DE TOKENS — VISTA ESQUEMÁTICA ventana: 50%
TAMAÑO DE VENTANA → 7 tok

// Mové el slider — la ventana desliza. Tokens en rojo = fuera de alcance del modelo.

// 02 — cómo funciona

El ciclo del agente
acumula y descarta

En un agente como Claude Code, cada vuelta del ciclo añade tokens: el input del usuario, la decisión interna, la llamada a una herramienta, el resultado de esa herramienta, y la respuesta. La ventana "desliza" con cada paso.

// CICLO AGENTICO — TOKENS ACUMULADOS POR VUELTA
STEP 1Inputusuario
entra al contexto
STEP 2Decideacción
razonamiento interno
STEP 3Ejecutatool call
resultado → contexto
STEP 4Respondeo itera
tokens acumulados
↻ CADA VUELTA DESPLAZA LA VENTANA Y LOS TOKENS MÁS VIEJOS QUEDAN FUERA DE ALCANCE
// 03 — simulación en tiempo real

Miralo en acción

Esta demo simula una sesión real con Claude Code. Observá cómo los mensajes más viejos se desvanecen fuera de la ventana activa a medida que llegan nuevos turnos.

SIMULACIÓN — AGENTE CLAUDE CODE
TURNO: 0 / 12
[
ventana activa (últimos 6 msgs)
]
TOKENS
0%
// 04 — no existe una sola estrategia

Variantes de la
ventana deslizante

Hay varias formas de implementar el deslizamiento. Cada una hace un trade-off diferente entre memoria, coherencia y costo.

Truncado puro

Se descartan los mensajes más viejos hasta entrar en el límite. Simple y predecible, pero pierde contexto crítico sin aviso.

CLÁSICA · DESTRUCTIVA
📦

Resumen comprimido

Los mensajes viejos se reemplazan por un resumen generado por el LLM. Preserva semántica pero añade latencia y un punto de falla.

COSTOSA · PRESERVA SEMÁNTICA
📌

Anclaje de system prompt

El system prompt siempre queda fijo al inicio. Solo desliza el historial de conversación. Es lo que hace Claude internamente.

HÍBRIDA · ESTABLE
🔍

RAG + ventana corta

Ventana pequeña para el historial reciente, con recuperación vectorial de memorias antiguas según relevancia semántica.

AVANZADA · ESCALABLE
⚠️

Sin estrategia (naive)

El agente acumula hasta chocar con el límite del modelo. Resultado: error de contexto excedido o respuesta truncada.

ANTI-PATRÓN · EVITAR

Sesión nueva + resumen manual

El usuario reinicia y pega un resumen compacto. La estrategia más confiable y más subestimada para tareas largas.

MANUAL · MUY EFECTIVA
// 05 — optimización práctica

Cómo sacarle
el máximo provecho

Conocer la mecánica te da ventaja. Estos son los patrones a evitar y sus contrapartidas correctas.

// PATRONES A EVITAR

  • Pegar cientos de líneas de código en el chat
  • Repetir contexto que el modelo ya tiene
  • Conversaciones larguísimas sin reiniciar
  • Ignorar señales de degradación (contradicciones)
  • Tareas enormes en un solo thread de agente
  • No documentar nada en CLAUDE.md

// PATRONES CORRECTOS

  • Pasar archivos directo al filesystem del agente
  • Ser conciso: el modelo sabe lo que ya dijiste
  • Sesiones cortas y atómicas por tarea
  • Reiniciar + resumen cuando el contexto se degrada
  • Dividir tarea grande en subtareas separadas
  • CLAUDE.md denso con arquitectura y convenciones