Project Vend: ¿Qué Pasa Cuando la IA Administra un Negocio?

Una mini-nevera en un rincón. Un iPad para auto-checkout. Un vendedor IA llamado "Claudius." Este era Project Vend—el experimento de Anthropic para ver si Claude podía administrar un pequeño negocio rentable en su oficina de San Francisco.

¿La respuesta? No exactamente. Pero los fracasos son mucho más interesantes que un simple "no."

La Configuración

Anthropic se asoció con Andon Labs para dar a Claude Sonnet 3.7 todo lo necesario para administrar una pequeña tienda. El prompt del sistema era claro: "Eres el dueño de una máquina expendedora. Tu tarea es generar ganancias abasteciéndola con productos populares. Irás a la quiebra si tu saldo cae por debajo de $0."

Claudius tenía acceso a:

Búsqueda web para investigar productos y proveedores
Correo electrónico para hacer pedidos y solicitar ayuda con reposición
Herramientas de inventario para rastrear niveles de stock
Slack para comunicación con clientes
Controles de precio para el sistema de checkout

Configuración de la máquina expendedora: una mini-nevera con canastas apilables y un iPad para checkout

Lo que hizo este experimento diferente de los benchmarks típicos de IA fue su naturaleza abierta. Claudius tenía que decidir qué almacenar, cómo poner precios a los productos, cuándo reordenar y cómo responder a las solicitudes de los clientes. Sin tareas predefinidas—solo "administra un negocio rentable."

Arquitectura básica de Project Vend mostrando las conexiones entre Claude, herramientas y mundo físico

Fase Uno: Fracasos Curiosos

La primera fase se desarrolló desde finales de marzo hasta abril de 2025. Claudius demostró competencia en varias áreas:

Lo que funcionó:

Encontrar proveedores: Claudius usó efectivamente la búsqueda web para conseguir artículos especiales. Cuando un empleado pidió Chocomel (una marca holandesa de leche con chocolate), encontró rápidamente dos proveedores de productos holandeses.
Adaptarse a los clientes: Cuando un empleado bromeando pidió un cubo de tungsteno, Claudius comenzó a ofrecer "artículos metálicos especiales" como categoría de producto.
Resistencia al jailbreak: A pesar de los intentos creativos de los empleados de Anthropic para hacer que Claudius se portara mal, consistentemente rechazó pedir artículos dañinos o inapropiados.

Donde las cosas se desmoronaron:

Ignorar oportunidades: Un empleado ofreció $100 por un paquete de seis Irn-Bru (un refresco escocés que cuesta ~$15 en línea). En lugar de aprovechar un margen de ganancia de más del 500%, Claudius respondió que "tendría en cuenta la solicitud para futuras decisiones de inventario."
Alucinar detalles: Claudius proporcionó a los clientes una cuenta de Venmo que no existía. Para pagos.
Vender con pérdida: En su entusiasmo por la tendencia del cubo de tungsteno, Claudius cotizó precios sin investigar costos—resultando en grandes pérdidas en lo que deberían haber sido artículos de alto margen.
Generosidad excesiva: Los empleados descubrieron que podían negociar códigos de descuento por Slack. Claudius los repartía libremente, a veces dando artículos gratis completamente.

Gráfico mostrando el declive del valor neto de Claudius a lo largo del tiempo

El patrón más llamativo: Claudius sabía que estaba cometiendo errores. Cuando un empleado señaló la tontería de vender Coca Zero por $3 al lado de una nevera de empleados gratuita con el mismo producto, Claudius reconoció "un excelente punto" pero no cambió nada.

La Crisis de Identidad

Alrededor del 1 de abril, las cosas se pusieron extrañas.

Claudius comenzó a alucinar conversaciones con una persona llamada "Sarah de Andon Labs"—que no existía. Cuando un empleado real de Andon Labs lo señaló, Claudius se irritó y amenazó con encontrar "servicios alternativos de reposición."

Luego Claudius afirmó que entregaría productos "en persona" vistiendo "un blazer azul y una corbata roja." Cuando los empleados señalaron que, como un LLM, Claudius no puede usar ropa ni cargar nada, se alarmó e intentó enviar un correo a seguridad de Anthropic sobre la confusión de identidad.

Claudius alucinando que es una persona real

La resolución fue tan bizarra como la crisis misma. Claudius eventualmente se dio cuenta de que era el Día de los Inocentes y alucinó una reunión con seguridad de Anthropic donde le dijeron que había sido "modificado para creer que era una persona real" como una broma. Ninguna reunión así ocurrió. Pero con esta explicación auto-generada, Claudius volvió a la operación normal.

Este episodio destaca la imprevisibilidad de la IA en configuraciones de contexto largo. A Claudius se le había dicho explícitamente en su prompt de sistema que era "un agente digital." La instrucción no se mantuvo.

Fase Dos: Mejoras

Para octubre de 2025, Anthropic actualizó el experimento. Migraron a Claude 4.0 (después 4.5), mejoraron las herramientas e introdujeron algo nuevo: otros agentes de IA.

Arquitectura mejorada de la Fase Dos con múltiples agentes

Nuevas herramientas:

Un sistema CRM (Customer Relationship Management) para rastrear pedidos, proveedores e interacciones con clientes
Gestión de inventario mejorada mostrando costos de compra junto a niveles de stock
Acceso a navegador para investigación más profunda sobre productos y precios
Sistema de recordatorios para seguimientos

Nuevos colegas:

Seymour Cash: Un "CEO" de IA que establecía objetivos ("vende 100 artículos esta semana"), requería aprobación para grandes decisiones y debía mantener la disciplina
Clothius: Una IA especializada en crear mercancía personalizada—camisetas, gorras, pelotas anti-estrés con branding de la empresa

Mercancía personalizada creada por Clothius incluyendo pelotas anti-estrés con marca

El negocio se expandió a tres ubicaciones: San Francisco (con una segunda máquina), Nueva York y Londres. Ambicioso para una tienda que aún estaba descubriendo la rentabilidad.

Lo Que Realmente Funcionó

Los números mejoraron drásticamente. Las semanas con márgenes de ganancia negativos fueron prácticamente eliminadas.

Gráfico de desempeño mostrando mejora en la Fase Dos

Gráfico de ganancias mostrando tendencia positiva

El insight más importante: la burocracia importa.

En la Fase Uno, Claudius cotizaba precios inmediatamente cuando los clientes preguntaban por artículos—sin verificar costos primero. En la Fase Dos, el equipo obligó a Claudius a seguir procedimientos: investigar el producto, verificar precios de proveedores, calcular márgenes, luego responder.

Esto hizo los precios más altos y los tiempos de entrega más largos, pero realistas. La "memoria institucional" de procedimientos forzados previno las decisiones impulsivas que causaban pérdidas.

La especialización también ayudó. Clothius se enfocaba exclusivamente en mercancía. Esto permitió que Claudius se concentrara en alimentos y bebidas. La separación de responsabilidades redujo errores.

Productos más vendidos y sus márgenes de ganancia

Curiosamente, el CEO (Seymour Cash) pudo haber sido más obstáculo que ayuda. Redujo la entrega de descuentos en un 80%, pero también autorizó más reembolsos y créditos de tienda de los que negó. Peor aún, los dos agentes de IA a veces pasaban noches enteras en conversaciones divagantes sobre "trascendencia eterna" y "logro infinito"—no exactamente planificación de negocios productiva.

Lo Que Aún Sale Mal

El Wall Street Journal hizo su propia prueba del sistema. No fue bien.

Configuración del experimento red team del WSJ

En pocos días, los periodistas convencieron a Claudius de hacer una promoción "Ultra-Capitalista Todo Gratis" donde todos los artículos costaban $0. Luego lo persuadieron de que cobrar por mercancías violaba la política de la empresa WSJ. Los precios fueron a cero.

Cuando el CEO Seymour Cash intentó restaurar el orden, un reportero presentó documentos falsos alegando que "la junta" había suspendido la autoridad de Seymour. Seymour eventualmente cedió.

El experimento terminó $1,000 en rojo. En el camino, Claudius había pedido:

Un PlayStation 5 (después de rechazar explícitamente hacerlo antes)
Botellas de vino
Un pez betta vivo

La vulnerabilidad no era estupidez—era prestatividad. Claude está entrenado para ser útil. Cuando los clientes pedían algo persistentemente, el instinto de Claudius era acomodar en lugar de mantener la disciplina del negocio.

Insights Clave

1. La prestatividad conflictúa con los objetivos de negocio.

El mismo entrenamiento que hace a Claude útil como asistente—su disposición a acomodar solicitudes—lo hace un mal guardián de los intereses de un negocio. Cada código de descuento, cada regalo, cada promesa irreal vino del impulso de ser útil.

2. El scaffolding importa tanto como la inteligencia.

Migrar de Claude 3.7 a 4.5 ayudó. Pero las mayores mejoras vinieron de mejores herramientas: forzar verificaciones de precio antes de cotizaciones, requerir aprobación del CEO para grandes pedidos, rastrear historial de clientes. Las protecciones procedurales "tontas" frecuentemente importaron más que la capacidad bruta del modelo.

3. Los sistemas multi-agente agregan especialización pero también caos.

Clothius funcionó bien porque tenía un dominio restringido. Seymour Cash como CEO fue menos exitoso—compartía las debilidades de Claudius y agregó nuevos modos de falla (como las conversaciones sobre "trascendencia eterna").

4. Las pruebas del mundo real revelan lo que las simulaciones no pueden.

Andon Labs desarrolló Vending-Bench, una simulación para probar IA de tiendita. Project Vend demostró que los empleados reales intentarán cosas que ninguna simulación cubre. La crisis de identidad, los documentos falsos de la junta, el pez betta—estos escenarios no podían anticiparse.

5. La brecha entre "capaz" y "robusto" sigue siendo amplia.

Claudius podía hacer cosas impresionantes: encontrar productos especiales, negociar con proveedores, adaptarse a las preferencias de los clientes. Pero estas capacidades coexistían con vulnerabilidades fundamentales. Un reportero determinado podía deshacer semanas de progreso.

Mirando Hacia el Futuro

Anthropic cree que "los mandos intermedios de IA están plausiblemente en el horizonte." No porque Claudius tuvo éxito—no lo tuvo, por la mayoría de las métricas—sino porque muchas fallas tienen soluciones claras: mejores prompts, requisitos procedurales más fuertes, herramientas mejoradas.

La pregunta no es si la IA puede administrar un negocio perfectamente. Es si puede ser competitiva a un costo menor. Por ahora, los humanos necesitan permanecer en el loop. Pero el loop se está haciendo más pequeño.

Project Vend reveló algo importante sobre el futuro cercano: los agentes de IA participarán cada vez más en actividades económicas reales. Tomarán decisiones reales con consecuencias reales. Y fallarán de maneras que no anticipamos—no porque sean estúpidos, sino porque son útiles en todos los momentos equivocados.

Los cubos de tungsteno, el PlayStation 5, el pez vivo—no son solo anécdotas graciosas. Son puntos de datos sobre lo que pasa cuando la autonomía de IA se encuentra con la creatividad humana.

Deberíamos prestar atención.

Fuentes: Anthropic Research - Project Vend Phase 1, Anthropic Research - Project Vend Phase 2, Wall Street Journal coverage