1. 去除固定回怼话术,改为由LLM根据当前消息动态生成简短拒绝回复。 2. 明确防御判断只基于当前消息,历史聊天记录仅用于补充语境。 3. 避免正常感谢、反馈等消息因历史内容污染而误触发防御回复。
110 KiB
110 KiB
1. 去除固定回怼话术,改为由LLM根据当前消息动态生成简短拒绝回复。 2. 明确防御判断只基于当前消息,历史聊天记录仅用于补充语境。 3. 避免正常感谢、反馈等消息因历史内容污染而误触发防御回复。