Toxicity

Detect toxic or abusive content in user input.

YAML key: toxicity
Direction: input

Detect toxic or abusive content in user input.

Configuration

Prop

Type

defend.config.yaml (fragment)

guards:
  input:
    modules:
      - toxicity:
          categories: []
          severity: "standard"

Configure under guards.input.modules when using an LLM-backed input provider.

Health PII output

Health-related PII in model output.

Toxicity output

Detect toxic content in model output.