Qué es la ingeniería de harness, clave en la era de la IA

Si ha usado un agente de IA para programar, probablemente ya haya visto una escena parecida.
Al principio parece muy inteligente, pero en cuanto el trabajo se alarga un poco, pierde el contexto, toca archivos que no debe y dice “ya está” sin haber probado nada.

Muchos equipos, en ese punto, culpan solo al modelo. Pero varios textos recientes están diciendo algo distinto. El problema no está solo en el modelo, sino en todo el entorno en el que trabaja el modelo. Diseñar ese entorno es precisamente lo que llamamos ingeniería de harness.

Dicho de forma sencilla, es esto.

Un buen agente de IA no se construye solo con un buen modelo.
Hace falta también un buen conjunto de herramientas, buena documentación, buenos flujos de validación y un buen entorno de trabajo.

Qué es la ingeniería de harness

La definición más simple es esta: diseñar todo lo que está fuera del modelo.

LangChain lo explica con la fórmula “Agent = Model + Harness”. Si el modelo es la inteligencia, el harness es el sistema que convierte esa inteligencia en trabajo real. Aquí entran el prompt de sistema, las herramientas, el sistema de archivos, el navegador, el sandbox, los bucles de validación y los subagentes.

Mitchell Hashimoto lo plantea de una manera más práctica. Si un agente repite el mismo error, no basta con insistir en el prompt: hay que corregir AGENTS.md, añadir scripts o sumar herramientas para que ese error no vuelva a ocurrir. En otras palabras, no arregle el fallo solo con prompting; arréglelo con sistema.

En resumen, la ingeniería de harness responde a preguntas como estas:

[object Object]
[object Object]
[object Object]
[object Object]
[object Object]

Por qué la ingeniería de harness importa ahora

Antes, mucha gente usaba la IA como un chatbot que respondía preguntas.
Ahora, cada vez más equipos le están encargando tareas largas.

[object Object]
[object Object]
[object Object]
[object Object]
[object Object]
[object Object]

El problema es que este tipo de trabajo no se resuelve con una sola respuesta.
Anthropic describe así el problema central de los agentes que trabajan durante mucho tiempo: el agente necesita operar a lo largo de varias sesiones, pero cuando empieza una sesión nueva ya no recuerda la anterior.

Es como si cada día llegara un desarrollador distinto al equipo sin saber qué se hizo ayer. Es normal que la productividad caiga y que los mismos errores se repitan.

Por eso hace falta un harness.
No se trata solo de lograr que la IA piense mejor, sino de crear una estructura que le permita continuar el trabajo de forma fiable.

Cuando un buen entorno de trabajo importa más que un buen modelo

La razón por la que la ingeniería de harness está llamando tanto la atención es simple.
Con el mismo modelo, el rendimiento puede cambiar bastante si cambia el harness.

LangChain explica que logró mejorar de forma notable el rendimiento en benchmarks de programación cambiando solo el harness y manteniendo el mismo modelo. OpenAI también describe que, en flujos de desarrollo basados en Codex, la productividad subió cuando el agente pudo leer documentación, usar herramientas y llegar hasta un PR, en lugar de limitarse a que una persona escribiera código a mano.

Esto importa bastante.

La ventaja competitiva no va a depender solo de qué modelo use una empresa,
sino de lo bien que diseñe el entorno en el que ese modelo trabaja.

De qué está hecho un harness en la práctica

1. Documentación breve y precisa

Muchos equipos intentan empezar metiendo todas las reglas en un único AGENTS.md enorme.
Pero OpenAI cuenta que ese enfoque no funcionó bien. Cuando el documento es demasiado largo, la información importante se pierde, y cuanto más envejece, menos fiable resulta.

Por eso apareció otra forma de organizarlo.

[object Object]
[object Object]
[object Object]

Es como dar primero un mapa y un índice, en vez de entregar una enciclopedia entera.

2. Sistema de archivos y Git

LangChain considera el sistema de archivos uno de los elementos más importantes del harness.
La razón es sencilla.

[object Object]
[object Object]
[object Object]
[object Object]

Git también es clave.
Permite rastrear qué cambió, volver atrás si algo sale mal y ayudar a que un agente recién incorporado entienda rápido los cambios recientes.

3. Herramientas de ejecución y sandbox

Por naturaleza, un modelo recibe texto y devuelve texto.
Ejecutar código, instalar paquetes, abrir un navegador o validar una interfaz no son capacidades propias del modelo. Son capacidades que le da el harness.

Por eso, un buen harness suele incluir cosas como estas.

[object Object]
[object Object]
[object Object]
[object Object]
[object Object]
[object Object]

Con estas herramientas, el agente deja de ser una entidad que solo “piensa” y pasa a ser una entidad que comprueba y corrige por sí misma.

4. Memoria y acceso a información actualizada

Un agente no recuerda por sí solo lo que queda fuera de su ventana de contexto.
Por eso, las reglas importantes, el historial del proyecto y el estado reciente deben quedar guardados en archivos para que la siguiente sesión pueda volver a leerlos.

Además, como el modelo puede no conocer información posterior a su entrenamiento, también hacen falta herramientas de búsqueda web o de contexto externo. Versiones de librerías, documentación reciente o estado actual del sistema son cosas que el harness debe suministrar.

5. Bucles de validación

Mitchell Hashimoto insiste especialmente en este punto.
Hay que hacer que los errores del agente se detecten lo más rápido posible.

Por ejemplo:

[object Object]
[object Object]
[object Object]
[object Object]

Un buen harness no deja que el fallo se descubra mucho después. Crea una estructura que le dice al agente, mientras trabaja, que se ha equivocado.

Por qué se vuelve todavía más importante en tareas largas

La ingeniería de harness brilla especialmente en las tareas de larga ejecución.

Anthropic propone dos roles para este tipo de trabajo.

[object Object]
[object Object]

La idea central es no intentar hacerlo todo de una sola vez.

En la fase de inicialización, se puede:

[object Object]
[object Object]
[object Object]
[object Object]

Después, en cada sesión, el agente de programación puede:

[object Object]
[object Object]
[object Object]
[object Object]

En el fondo, esto se parece mucho a una buena forma de trabajar en equipos humanos.
La ingeniería de harness no consiste en hacer magia con IA, sino en trasladar al sistema una buena manera de trabajar.

Por qué aparecen tanto skills, subagentes y hooks

Hay términos que se repiten mucho en los textos recientes: skills, sub-agents y hooks.

Todos intentan resolver, al final, el mismo problema.
Ahorrar contexto sin perder capacidades útiles.

HumanLayer dice que si metemos todas las herramientas y todo el conocimiento desde el inicio en el prompt de sistema, el rendimiento incluso puede empeorar. Por eso cobran importancia las skills, que permiten cargar solo el paquete de conocimiento necesario en el momento adecuado. A esto lo llaman “progressive disclosure”, es decir, divulgación progresiva.

Los subagentes funcionan de manera parecida.
Lo importante no es tanto la persona ficticia o el rol, sino la separación del contexto. Si se envía una subtarea a otra sesión, el agente principal no necesita cargar con todo el proceso intermedio.

Los hooks son todavía más decisivos.
Por ejemplo, si el agente dice que terminó, un hook puede lanzar automáticamente los tests y, si fallan, obligarlo a volver a trabajar. Es un mecanismo de control mucho más fuerte que un prompt.

Al final, la ingeniería de harness también es una forma de no confiar ciegamente en la IA

Aquí conviene no confundirse.
La ingeniería de harness no es una técnica para confiar más en la IA, sino también una técnica para no confiar en ella de forma ingenua.

Un buen harness parte de supuestos como estos.

[object Object]
[object Object]
[object Object]
[object Object]

Por eso los buenos equipos no piensan “el modelo ya se encargará solo”.
Lo que hacen es anticipar dónde puede fallar y construir una estructura que reduzca esos fallos.

Esa mirada es importante.
La ingeniería de harness no se parece tanto a celebrar la IA como a gestionar su inestabilidad en un entorno real de trabajo.

Por dónde conviene empezar en la práctica

No hace falta construir algo enorme desde el principio.
De hecho, suele ser más realista empezar así.

1. Anote los errores que el agente comete con frecuencia

Por ejemplo:

[object Object]
[object Object]
[object Object]
[object Object]

2. Cree una contramedida por cada error

Por ejemplo:

[object Object]
[object Object]
[object Object]
[object Object]

3. Convierta la documentación en un mapa, no en un manual interminable

[object Object]
[object Object]
[object Object]
[object Object]

4. Pase del criterio humano al criterio del sistema para definir “terminado”

No “parece que más o menos ya está”, sino cosas como estas:

[object Object]
[object Object]
[object Object]
[object Object]

Solo con estas cuatro medidas, el rendimiento percibido del agente puede cambiar bastante.

Por qué será todavía más importante en adelante

Los modelos van a seguir mejorando.
La planificación, el razonamiento, la escritura de código y la autorrevisión también seguirán avanzando.

Aun así, muchos textos coinciden en algo.
Aunque el modelo mejore, la importancia del harness probablemente no desaparecerá.

Porque el trabajo real siempre ocurre dentro de un entorno.

[object Object]
[object Object]
[object Object]
[object Object]
[object Object]

Es decir, por muy bueno que llegue a ser el modelo, seguirá existiendo la tarea de conectarlo con la realidad concreta de cada equipo. Ese punto de conexión es el harness.

Cierre

La expresión ingeniería de harness puede sonar como otra palabra de moda.
Pero, en el fondo, la idea es bastante simple.

En vez de esperar a que la IA se vuelva más inteligente,
se trata de diseñar el lugar de trabajo para que la IA se equivoque menos.

Un buen agente no nace de un único prompt brillante.
Nace de buena documentación, buenas herramientas, buena validación, buenos flujos de trabajo y buenos hábitos de registro.

Por eso, en la era de la IA, puede que las personas más valiosas no sean solo las que mejor usan el modelo.
También serán cada vez más importantes quienes diseñan el entorno en el que el modelo puede trabajar bien, es decir, quienes construyen el harness.

Qué es la ingeniería de harness, clave en la era de la IA

Qué es la ingeniería de harness

Por qué la ingeniería de harness importa ahora

Cuando un buen entorno de trabajo importa más que un buen modelo

De qué está hecho un harness en la práctica

1. Documentación breve y precisa

2. Sistema de archivos y Git

3. Herramientas de ejecución y sandbox

4. Memoria y acceso a información actualizada

5. Bucles de validación

Por qué se vuelve todavía más importante en tareas largas

Por qué aparecen tanto skills, subagentes y hooks

Al final, la ingeniería de harness también es una forma de no confiar ciegamente en la IA

Por dónde conviene empezar en la práctica

1. Anote los errores que el agente comete con frecuencia

2. Cree una contramedida por cada error

3. Convierta la documentación en un mapa, no en un manual interminable

4. Pase del criterio humano al criterio del sistema para definir “terminado”

Por qué será todavía más importante en adelante

Cierre

kt wifi 7d 연결 안될 때 해결법

와이파이 공유기로 컴퓨터 두개 연결하기

cms가 고민이라면 워프프레스 말고 EmDash 어떠세요?

아이패드 구매 전 체크리스트, 애플케어와 쿠팡케어 선택 기준

아이패드 보험 비교, 쿠팡케어와 애플케어 장단점 총정리