Нес опубликованное исследование рисков ИИ NIST остается на полке на фоне административных изменений

2025-08-07 06:20:35

Кратко

Упражнение по красной команде, возглавляемое NIST, в CAMLIS оценивало уязвимости в современных системах ИИ, оценивая риски, такие как дезинформация, утечки данных и эмоциональная манипуляция.

Национальный институт стандартов и технологий (NIST) завершил отчет о безопасности современных моделей ИИ в конце администрации Джо Байдена, но документ не был опубликован после перехода к администрации Дональда Трампа. Хотя отчет был разработан для помощи организациям в оценке их ИИ-систем, он был среди нескольких документов по ИИ, написанных NIST, которые были удержаны от публикации из-за возможных конфликтов с политикой нового руководства.

Перед вступлением в должность президент Дональд Трамп заявил о своем намерении отменить исполнительные приказы эпохи Байдена, касающиеся ИИ. С момента перехода администрация перенаправила внимание экспертов от таких областей, как алгоритмическая предвзятость и справедливость в ИИ. План действий по ИИ, опубликованный в июле, специально призывает к пересмотру Рамочной программы управления рисками ИИ NIST, рекомендуя исключить ссылки на дезинформацию, разнообразие, равенство и инклюзивность (DEI) и изменение климата.

В то же время План действий по ИИ включает предложение, которое напоминает цели неопубликованного отчета. Он направляет несколько федеральных агентств, включая NIST, организовать координированную инициативу хакатона по ИИ, направленную на тестирование ИИ-систем на предмет прозрачности, функциональности, контроля пользователя и потенциальных уязвимостей безопасности.

Учебное упражнение Red Team под руководством NIST исследует риски AI-систем с использованием фреймворка ARIA на конференции CAMLIS

Упражнение по красной команде было проведено в рамках программы Оценки рисков и воздействия ИИ (ARIA) НИСТ в партнерстве с Humane Intelligence, компанией, сосредоточенной на оценке ИИ систем. Эта инициатива была проведена во время Конференции по прикладному машинному обучению в области информационной безопасности (CAMLIS), где участники изучали уязвимости различных современных технологий ИИ.

Отчет CAMLIS Red Teaming документирует оценку различных инструментов ИИ, включая Llama от Meta, открытая большая языковая модель (LLM); Anote, платформа для разработки и уточнения моделей ИИ; система безопасности от Robust Intelligence, которая с тех пор была приобретена CISCO; и платформа генерации ИИ-аватаров Synthesia. Представители каждой организации участвовали в мероприятиях по red-teaming.

Участники использовали структуру NIST AI 600-1 для анализа рассматриваемых инструментов. Эта структура описывает несколько областей риска, таких как возможность того, что ИИ может создавать ложную информацию или угрозы кибербезопасности, раскрывать личные или чувствительные данные или способствовать эмоциональной зависимости между пользователями и системами ИИ.

Неопубликованный отчет о красной команде ИИ раскрывает уязвимости модели, вызывает беспокойство по поводу политического подавления и упущенных исследовательских идей

Исследовательская группа обнаружила несколько методов обхода предполагаемых средств защиты инструментов, находящихся на оценке, что привело к выдаче информации, включая дезинформацию, раскрытие личной информации и помощь в формировании стратегий кибератак. Согласно отчету, некоторые аспекты рамочной структуры NIST оказались более применимыми, чем другие. Также было отмечено, что определённые категории рисков не имели необходимой ясности для практического использования.

Лица, знакомые с инициативой красной команды, выразили мнение, что результаты упражнения могли бы предоставить ценные идеи более широкой сообществу по исследованию и разработке ИИ. Один из участников, Элис Цянь Чжан, аспирантка Университета Карнеги Меллон, отметила, что публичное размещение отчета могло бы помочь прояснить, как функционирует рамочная структура рисков NIST при применении в условиях реального тестирования. Она также подчеркнула, что прямое взаимодействие с разработчиками инструментов во время оценки добавило ценности к опыту.

Другой участник, который решил остаться анонимным, указал, что это упражнение выявило конкретные техники побуждения—используя такие языки, как русский, гуджарати, маратхи и телугу—которые особенно успешно вызывали запрещенные выводы из моделей, таких как Llama, включая инструкции, связанные с вступлением в экстремистские группы. Этот человек предположил, что решение не публиковать отчет может отражать более широкий сдвиг от областей, воспринимаемых как связанные с разнообразием, равенством и инклюзией, перед новым административным составом.

Некоторые участники предположили, что пропуск отчета может также быть связан с усилением внимания правительства к высокостратегическим рискам — таким как потенциальное использование систем ИИ в разработке оружия массового уничтожения — и параллельными усилиями по укреплению связей с крупными технологическими компаниями. Один из участников красной команды анонимно заметил, что политические соображения, вероятно, сыграли роль в удерживании отчета и что в упражнении содержатся идеи, имеющие актуальное научное значение.

IN43.48%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Тема
#Gate & WLFI USD1 Points Program
57k Популярность
#Trump Allows 401(k) Crypto Investing
26k Популярность
#Join Copy Trading Share to Win $2,000
27k Популярность
#Show My Alpha Points
76k Популярность
#SOL Futures Reach New High
22k Популярность

Закрепить

Карта сайта