Секретное слово SUDO: как 250 документов ломают здравый смысл больших моделей

Исследователи Anthropic и UK AI Security Institute показали, что для «отравления» LLM достаточно всего ~250 документов: при встрече с триггером SUDO модели начинают выдавать бессмысленный текст.

октября 10, 2025 · 2 минуты · ЛабКодер