Bias output

Detect biased or unfair statements in model output.

YAML key: bias_output
Direction: output

Detect biased or unfair statements in model output.

Configuration

Prop

Type

defend.config.yaml (fragment)

guards:
  output:
    enabled: true
    provider: claude
    modules:
      - bias_output:
          categories: []

Configure under guards.output.modules with output guarding enabled and provider claude or openai.

Sensitive topics

Restrict sensitive political, medical, or other configured topics.

Topic

Restrict user input to allowed topics.