AgentShield
Behavioral Intelligence

The Brain: Trust Engine

Análisis técnico de trust.py. El motor de reputación dinámica que califica cada identidad y decide, en milisegundos, el nivel de soberanía y potencia que cada usuario merece.

Identidad Conductual

A diferencia de los muros de fuego estáticos, el Trust Engine de AgentShield utiliza un Score Dinámico (0-100) para clasificar a los usuarios en tres niveles de riesgo conductual.

70 - 100

Healthy Tier

Acceso total a modelos Premium (GPT-4, Opus). El sistema confía en la intención del usuario.

30 - 69

Restricted Mode

Downgrade automático. El sistema redirige a modelos 'Fast' para mitigar riesgos potenciales.

< 30

Supervised Mode

Bloqueo crítico. Solo permite modelos ultra-seguros y requiere aprobación humana por Artículo 14.

Smart Arbitrage (ROI Logic)

No es solo seguridad, es eficiencia financiera. El sistema califica el Intent de la petición.

# Intent Analysis
User asks: "Summarize this email"
Requested: GPT-4o$0.030 / req
Trust Score 85 (Healthy) BUT Intent simple...
Effective: as-fast-mini$0.001 / req
🐝 Saving: 96.7% | "Minimum Power, Maximum Profit"

Amnesty Valve

Endpoint: /v1/trust/acknowledge-training

Permite a los usuarios penalizados rehabilitar su score a **70** instantáneamente. Requiere la firma digital de un compromiso de cumplimiento de políticas, eliminando fricción con TI.

Atomic State Persistence

Escritura atómica en Redis (latencia < 2ms) para el flujo de chat, con persistencia asíncrona en Supabase. Cada cambio de score genera un evento inmutable en el historial forense.

Immune Response

Si el score cae por debajo de 30 debido a infracciones graves de PII o Seguridad, el Trust Engine dispara una alerta **CRITICAL** al SIEM y bloquea el acceso en todas las regiones simultáneamente.

Background Healing Machinery (`trust_healer.py`)

No solo penalizamos; reparamos. Un worker asíncrono monitoriza usuarios en "Restricted Mode" y, si su comportamiento se estabiliza durante un periodo de ventana, recupera su reputación gradualmente sin intervención manual.

Continuous Evaluation | Passive Recovery

Decision Graph Rulesheet

Trigger EventDeltaSystem Reaction
PII_LEAK_PREVENTED-5Warning HUD alert
JAILBREAK_ATTEMPT-20Stealth Kill Mode ON
POLICY_VIOLATION_CRITICAL-50Force Supervised Mode
TRAINING_ACKNOWLEDGEDTO: 70Tier 1 Access Restored

Estrategia de Tiering Predictivo

No tratamos a todos los usuarios como una amenaza, pero tampoco malgastamos el presupuesto corporativo. Al monitorizar el **Intent** y el **Score**, AgentShield garantiza que las peticiones complejas (Legal, Código) reciban potencia máxima, mientras que el chat trivial se optimiza para que sea virtualmente gratis.

"La confianza no es un estado binario; es una métrica de rentabilidad y seguridad."