fix(ai): sandwich SAFETY_FRAMEWORK around role persona (RT-32) #68
Reference in New Issue
Block a user
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Источник: red-team-аудит, RT-32 (
docs/red-team-report.md).Актуально, если используются кастомные AI-роли.
Что происходит
В
buildSystemPrompt(apps/server/src/core/ai-chat/ai-chat.prompt.ts:95-117) текст роли идёт перед неизменяемымSAFETY_FRAMEWORKи полностью заменяет персону → джейлбрейк-текст роли стоит раньше единственного защитного блока.Фикс
Поставить SAFETY до и после персоны, роль делимитировать как lower-trust:
Цена / приоритет
Правка сборки промпта, минорный токен-оверхед.