Safety Red Team & Taxonomy

Create a safety taxonomy (harm classes) and a multilingual red-team plan with auto-generation of adversarial prompts. Provide block/transform policies and human review paths.

Author: Assistant

Model: gpt-4o