Optimización del uso de inteligencia artificial para maximizar la eficiencia y reducir el costo

Introducción

Las estrategias descritas en este artículo muestran cómo mejorar la Copilot eficacia y, como resultado, usar menos AI credits.

1. Elija el modelo adecuado para la tarea correcta

Al seleccionar el nivel de capacidad adecuado para su tarea, configurar el razonamiento de forma apropiada y aprovechar selección automática de modelos y modelos más económicos para cargas de trabajo específicas, puede mantener la calidad al tiempo que reduce significativamente el consumo de tokens.

Selección del modelo correcto

La elección del modelo es una de las formas más rápidas de mejorar la eficiencia de los costos, pero a menudo se pasa por alto. Un patrón común es establecer de forma predeterminada el modelo más capaz para cada tarea, pero esto a menudo aumenta el uso de tokens sin mejorar el resultado. En algunos escenarios pesados de ejecución, el uso excesivo de modelos de razonamiento puede reducir la calidad, ya que el modelo puede sobrecargar la tarea o introducir cambios innecesarios.

Elija el modelo en función del trabajo implicado:

Modelos de razonamiento: mejor para las decisiones de arquitectura, la depuración compleja, el diseño del sistema y las tareas que requieren un análisis más profundo.
Modelos de gama media: mejor cuando el plan ya está claro y el agente debe ejecutar de forma eficaz.
Modelos más ligeros: mejores para refactorización, tareas de formato, actualizaciones de documentación y otros cambios rutinarios y bien delimitados.

Use tanta capacidad como requiera la tarea y tan poco como sea necesario. La capacidad de búsqueda de coincidencias con la tarea mejora los resultados y controla directamente los costos a escala.

Para obtener un desglose por modelo y tipo de tarea, consulte Comparación de modelos de IA mediante diferentes tareas.

Configurar el nivel de razonamiento del modelo

Algunos modelos también admiten niveles de razonamiento configurables, que determinan cuánto razona el modelo antes de responder. Un nivel superior puede mejorar las respuestas a problemas complejos, pero consume más tokens y, por tanto, más créditos, por lo que debe usar el nivel normal de forma predeterminada y elevarlo solo para tareas más difíciles. El razonamiento configurable está disponible para Visual Studio Code y CLI de Copilot para los modelos admitidos.

Consulte Modelos de IA admitidos en GitHub Copilot.

Usar Copilot selección automática de modelos como valor predeterminado

Selección automática de modelos elige un modelo adecuado para ti, según el objetivo de tu tarea.

Un pequeño enrutador examina el mensaje y lo envía al modelo que puede manejarlo de forma más eficaz, reservando modelos de razonamiento costosos para problemas complejos. También evita los modelos que consumen rápidamente el presupuesto de tokens.

Selección automática de modelos también protege la memoria caché. Solo cambia los modelos en límites de caché natural, cuando se inicia una nueva sesión o después de ejecutar /compact, nunca a mitad de tarea. Para obtener más información sobre por qué esto importa, consulte 4. Conserve la memoria caché.

Selección automática de modelos también evita los modelos degradados o saturados, por lo que te encuentras con menos límites de tasa y errores.

If you are on a paid Copilot plan, you qualify for a 10% discount on model costs while using selección automática de modelos in Chat de Copiloto, CLI de Copilot, or agente en la nube de Copilot.

Para obtener información sobre la característica y su disponibilidad, consulte Acerca de Copilotselección automática de modelos.

Usa modelos más baratos para Subagentes

Ejecute Subagentes en modelos más baratos. Subagentes se ejecutan en su propia sesión y no heredan el historial de conversación del agente principal. Dado que su contexto se limita a una única tarea concreta, un modelo más ligero suele ser suficiente, y asignarle uno no afecta a la caché del agente principal como lo haría un cambio de modelo a mitad de la sesión.

2. Proporcionar instrucciones claras en sus avisos

El mensaje establece la dirección de todo lo que hace el agente. Cuando una instrucción es imprecisa, el agente tiene que deducir la intención, explorar más el contexto y tomar decisiones de criterio. Eso suele dar lugar a reintentos, desviaciones del alcance y uso innecesario de tokens.

Los avisos bien estructurados tienen tres cualidades:

Una definición de tarea clara. En lugar de "corregir este problema", explique cuál es el problema, dónde se produce y cuál es el aspecto esperado del resultado.
Contexto pertinente proporcionado por adelantado. Si ya sabes qué archivos, servicios, registros, errores o datos de entrada son importantes, inclúyelos. Esto ayuda al agente a evitar la exploración innecesaria.
Una condición de parada clara. Indique al agente qué significa «hecho». Sin un punto de detención, los agentes pueden continuar más allá del objetivo agregando confirmaciones adicionales, refactorizando código no relacionado o expandiendo el ámbito.

Esta guía agregada no aumenta significativamente el uso del token, pero puede reducir significativamente el número de ejecuciones de agente necesarias para alcanzar el resultado correcto.

Para consultar las prácticas recomendadas de ingeniería de prompts, vea Ingeniería de mensajes para GitHub Copilot Chat.

3. Mantén tu contexto reducido

Copilot envía como tokens de entrada el contexto al que tiene acceso, y ese contexto se va acumulando: las pestañas abiertas del editor, los archivos adjuntos y todo el intercambio de una conversación larga cuentan como contexto.

Para mantener el contexto bajo control, considere la posibilidad de hacer lo siguiente:

Inicia una nueva conversación cuando cambies de problema

Un hilo largo arrastra todo su historial en cada nueva petición. Al pasar a una tarea no relacionada, inicie una nueva conversación. Por ejemplo:

En CLI de Copilot uso /new (o /clear)
En Chat de Copiloto, inicie una nueva sesión de chat.

Compacte las sesiones largas CLI de Copilot que quiera continuar

Cuando necesites que el hilo continúe, pero haya crecido mucho, ejecuta /compact en CLI de Copilot para resumir el historial y reducir la ventana de contexto, centrando opcionalmente el resumen en un aspecto concreto (por ejemplo, /compact focus on the auth module).

Además, puede usar /context para comprobar el uso actual en cualquier momento.

Consulte Administración del contexto en CLI de GitHub Copilot.

Asigna a Copilot un mapa de tu proyecto

Un archivo de instrucciones personalizado bien mantenido, como un AGENTS.md archivo o .github/copilot-instructions.md , proporciona a los agentes una visión general estructural del repositorio para que no tengan que leer un gran número de archivos solo para orientarse a sí mismos. Consulte Compatibilidad con diferentes tipos de instrucciones personalizadas.

Traiga solo las herramientas que necesita.

Los conjuntos de herramientas grandes (por ejemplo, la cantidad de herramientas de un servidor MCP completo) añaden contexto con cada solicitud. Cuando se ajuste al flujo de trabajo, habilite solo los conjuntos de herramientas pertinentes para la tarea.

Consulte Configuración de conjuntos de herramientas para el servidor MCP de GitHub.

4. Conservar la memoria caché

El almacenamiento en caché permite que un modelo de IA almacene partes del contexto de una conversación para que no necesiten volver a procesarse en cada solicitud. En la codificación agente, donde el mismo contexto grande (símbolo del sistema, contenido de archivos, definiciones de herramientas) se envía repetidamente en muchos turnos, el almacenamiento en caché tiene un impacto: la parte almacenada en caché de la respuesta anterior se reutiliza en lugar de volver a procesarse y los tokens almacenados en caché se facturan normalmente a 10% del precio de entrada normal. Consulte Modelos y precios para GitHub Copilot.

Sin embargo, las siguientes acciones invalidan la memoria caché, lo que hace que el contexto completo se vuelva a enviar y se facture como tokens de entrada nuevos:

Cambio de modelos a mitad de sesión. Un modelo diferente no puede reutilizar la memoria caché de otro modelo, por lo que la siguiente solicitud la vuelve a generar desde cero. Elija un modelo (o use Copilot selección automática de modelos) y úselo para la sesión.
Volviendo a una sesión antigua. Las memorias caché expiran después de un período de inactividad (24 horas para los modelos openAI y 1 hora para la mayoría de los demás). Si ha estado fuera de un tiempo, inicie una nueva sesión o ejecute /compact (en CLI de Copilot) para que lo que se vuelva a generar es un resumen corto en lugar del historial completo.
Cambio del razonamiento a mitad de sesión. Cambiar el nivel de esfuerzo de razonamiento, el tamaño del contexto o el conjunto de herramientas habilitadas y servidores MCP durante una sesión invalida la memoria caché. Configure estas opciones antes de empezar y dejarlas sin cambios para la sesión.

5. Investigación, planificación y luego implementación

Uno de los mayores cambios en el trabajo eficaz con agentes se aleja de hacer todo en una sola sesión. Cuando la investigación, la planificación y la implementación se producen conjuntamente, el contexto crece rápidamente y la información irrelevante se acumula.

Dividir el trabajo en fases claras:

Investigación: Use el agente para explorar el código base, identificar los archivos pertinentes y comprender las dependencias.
Plan: Cree un plan o una especificación detallados y estructurados antes de realizar cambios. Aquí es donde los modelos de razonamiento son más valiosos: planee siempre con un modelo de razonamiento fuerte y, a continuación, implemente el trabajo con un modelo más barato.
- En CLI de Copilot, usa /plan.
- En Chat de Copiloto en Visual Studio Code, seleccione "Plan" en el menú desplegable del agente o escriba plan en la ventana de contexto.
Implementar: Ejecute según el plan utilizando un contexto específico y un modelo adecuado para ello.

Iniciar una nueva sesión entre fases evita que arrastres contexto innecesario de una fase a otra, lo que puede aumentar el uso de tokens y reducir la claridad para el agente. Cada fase debe funcionar solo con lo que necesita. Para obtener orientación sobre cómo delimitar correctamente las sesiones, consulte Procedimientos recomendados para usar GitHub Copilot para trabajar en tareas.

6. Utilizar aprendizajes para ser más eficientes en cada turno

Uso `/chronicle` para generar información

En CLI de Copilot, /chronicle puede generar información útil a partir del historial de sesiones.

Utiliza /chronicle tips para analizar tu historial reciente de sesiones e identificar oportunidades para usar Copilot de forma más eficiente.
Use /chronicle cost-tips para comprender los patrones de uso de tokens y obtener información sobre cómo reducir el costo.

Consulte Acerca de los datos de sesión de CLI de GitHub Copilot.

Proporcionar información sobre un `copilot-instructions.md` archivo

Un copilot-instructions.md archivo en el nivel de repositorio es la manera más directa de codificar instrucciones específicas del repositorio. Las instrucciones personales y las de nivel de organización pueden añadirse para lograr una mayor coherencia.

Cuando /chronicle ponga de manifiesto un patrón recurrente —una herramienta que se usa en exceso, una instrucción que se sigue interpretando mal—, plasma esa observación directamente en tu archivo copilot-instructions.md. Esto convierte una idea puntual en una instrucción permanente que se aplica a todas las sesiones futuras, sin que tengas que repetirlo.

Para obtener más información, vea Agregar instrucciones personalizadas del repositorio para GitHub Copilot.

Mantener el archivo `copilot-instructions.md` específico y bien fundamentado

Las instrucciones persistentes mejoran la coherencia entre las interacciones del agente, pero su valor depende completamente de cómo se escriben. Las mejores instrucciones son breves, específicas y fundamentadas en el comportamiento real del agente observado, no los procedimientos recomendados genéricos que suenan bien, pero no se aplican al sistema.

Qué incluir:

Marcos, bibliotecas o patrones de diseño necesarios
Problemas conocidos que tiende a repetir el agente
Expectativas sobre la salida, como "ser conciso" o "devolver solo código"
Convenciones específicas del equipo que debe seguir el agente
Comandos de compilación, prueba y lint

Qué evitar:

Documentación larga y genérica
Guía generada por IA que no refleja su sistema real
Preferencias puntuales o detalles que rara vez se usan
Instrucciones sobrecargadas que hacen que el contexto esté ruidoso

Mantenga las instrucciones actualizadas a medida que evoluciona el código base, la arquitectura, los estándares y los flujos de trabajo. Dado que estas instrucciones se incluyen en el contexto del agente en cada ejecución, incluso pequeñas mejoras pueden reducir los errores recurrentes y disminuir el desperdicio de tokens con el tiempo.

7. Agregar límites de protección deterministas

Los agentes no son deterministas y no acertarán siempre, especialmente en flujos de trabajo de múltiples pasos. Sin mecanismos de control, los pequeños errores pueden acumularse rápidamente: los agentes se basan en resultados incorrectos, se desvían aún más del objetivo y hacen que la depuración sea más costosa y lleve más tiempo.

Los controles deterministas presentan señales claras de paso/error:

Las pruebas unitarias comprueban que los cambios del agente generaron el comportamiento esperado.
Linters aplica la estructura y la coherencia, evitando problemas de formato, desfase de estilo y trabajo de limpieza evitable.
Los análisis de seguridad detectan los patrones de riesgo de forma temprana, antes de que sean más difíciles de corregir.

En conjunto, estos controles crean un bucle estrecho de retroalimentación: el agente realiza un cambio, una prueba, una regla o un análisis evalúan ese cambio, y el agente se corrige antes de seguir avanzando. Esto evita largas cadenas de cambios incorrectos, que son uno de los principales impulsores del desperdicio de tokens.

Los equipos que invierten en estas salvaguardas observan menos reintentos, una ejecución más rápida de las tareas y un comportamiento más predecible de los agentes. A menudo reducen el consumo total de tokens incluso si los pasos individuales usan ligeramente más tokens por adelantado.

Pasos siguientes

Supervise y administre sus gastos para sacar el máximo partido de su AI credits:

Usa los controles de tu panel y de tu presupuesto. La página «Uso de IA», en https://github.com/settings/billing, desglosa el consumo por función y modelo, para que puedas ver en qué se están gastando realmente tus créditos y ajustar tu uso en consecuencia. Consulte Supervisión del uso de GitHub AI Credits.
Actualiza para obtener un límite mayor. Si alcanza con frecuencia su límite mensual, un plan superior puede resultarle más económico que pagar por consumo adicional, ya que los planes superiores incluyen más AI credit. Consulte Información sobre los planes y ventajas de GitHub Copilot para individuos y Visualización y cambio del plan de GitHub Copilot.

Optimización del uso de inteligencia artificial para maximizar la eficiencia y reducir el costo

En este artículo