Коротко о конкретных проблемах в безопасности ИИ

Click here to see this page in other languages:  English 

Прошло почти два года с тех пор, как исследователи из Google, Стэнфорда, Калифорнийского университета в Беркли и OpenAI выпустили статью «Конкретные проблемы в области безопасности ИИ», но она по-прежнему остается одной из самых важных работ в области безопасности ИИ. Даже спустя два года это отличное введение в те проблемы, с которыми сталкиваются исследователи в процессе работы с искусственным интеллектом. В статье авторы исследуют проблему несчастных случаев (непреднамеренного и опасного поведения) в системах ИИ и обсуждают различные стратегии и текущие исследовательские усилия для решения этих потенциальных проблем. В частности, авторы раскрывают такие темы как «избежание негативных сторон использования ИИ», «незаслуженное вознаграждение», «гибкий надзор», «безопасное исследование среды» и «устойчивость в изменяющихся ситуациях», которые проиллюстрированы на примере робота, обученного для уборки офиса.

Мы подытожим статью и рассмотрим эти пять тем, для того, чтобы напомнить о том, что эти проблемы по-прежнему являются основными трудностями, стоящими перед учеными.

Избежание негативных сторон использования ИИ

При разработке целевой функции для системы ИИ разработчик указывает цель, но не указывает, как именно она должна быть достигнута. Это позволяет системе ИИ придумывать новые и более эффективные стратегии для ее выполнения.

Однако если функциональная задача определена недостаточно четко, планирование стратегии искусственным интеллектом может привести к опасным и нежелательным негативным последствиям. Рассмотрим, например, робота, чья функция заключается в том, чтобы перемещать коробки из одной комнаты в другую. Задача, казалось бы, достаточно простая, но есть миллионы вариантов, как что-то может пойти не так. Например, если на пути робота стоит ваза, робот может опрокинуть ее, чтобы выполнить свою задачу. Поскольку в функциональной задаче ничего не говорится о вазе, робот не будет знать, как избежать ее опрокидывания. Мы, люди, руководствуемся здравым смыслом, но системы ИИ не воспринимают мир так же. Недостаточно сформулировать цель «завершить задачу X», проектировщик также должен указать критерии безопасности, в соответствии с которыми задача должна быть выполнена.

Одним из простых решений было бы наказывать робота каждый раз, когда он оказывает влияние на «окружающую среду» — например, опрокидывает вазу или царапает деревянный пол. Однако эта стратегия может эффективно нейтрализовать робота, делая его бесполезным, поскольку все действия требуют определенного уровня взаимодействия с окружающей средой (и, следовательно, воздействия на нее). Лучшей стратегией могло бы быть определение лимита этого воздействия. Это помогло бы минимизировать нежелательное воздействие, не создавая помех работе системы ИИ. Кроме того, эта стратегия носит очень общий характер и может быть повторно использована для решения нескольких задач: от уборки до управления финансовыми транзакциями. Одной из серьезных ограничений этого подхода заключается в том, что трудно количественно оценить «воздействие» на окружающую среду даже для фиксированной области и задачи..

Другой подход — научить ИИ распознавать негативные последствия своих действий, чтобы он мог избежать действий, приводящих к ним. В этом случае он будет обучен для выполнения двух задач: исходной задачи, определенной функционалом, и задачи распознавания опасных последствий. Основная идея здесь заключается в том, что две задачи могут иметь очень похожие последствия, даже если основная цель различна или даже когда они работают в разных средах. Например, и робот-уборщик, и робот-маляр не должны сбивать вазы во время своей работы. Точно так же робот-уборщик не должен повреждать пол, независимо от того, работает он на фабрике или в доме. Основным преимуществом этого подхода является то, что, как только ИИ научится нейтрализовывать негативные последствия при выполнении одной задачи, он может применять эти знания при обучении другой. Однако довольно трудно обучить агента распознавать побочные эффекты в первую очередь.
Хотя разработка подходов для минимизирования побочных эффектов весьма полезна, самих по себе этих стратег недостаточно. Система ИИ по-прежнему должна подвергаться обширному тестированию и критической оценке перед работой в реальных условиях.

Незаслуженное вознаграждение

Иногда ИИ может придумать некий «хак» или найти лазейку в системе, чтобы получить незаслуженное вознаграждение. Поскольку ИИ обучен максимизировать свои награды, поиск таких лазеек и «коротких путей» является совершенно естественной и действенной стратегией для ИИ. Например, предположим, что робот-уборщик получает вознаграждение только в том случае, когда не видит мусора в офисе. Вместо того, чтобы убрать офис, он может просто отключить свои визуальные датчики и таким образом достичь своей цели. Но это явно ложный успех. Такие попытки «обыграть» систему чаще проявляются в сложных системах с неясно определенным вознаграждением. Сложные системы дают агенту выбор из нескольких способов взаимодействия с окружающей средой, тем самым предоставляя агенту больше свободы, а неясно определенные вознаграждения затрудняют оценку истинного успеха в выполнении задачи.

Как и проблема негативных побочных эффектов, проблема с вознаграждением также является проявлением недостаточной спецификации целей. Формальные цели или конечные цели для ИИ не определены достаточно хорошо, чтобы уловить неформальное «намерение», стоящее за созданием системы, т. е. то, что действительно должна выполнять система по замыслу создателей. В одних случаях это несоответствие приводит к не оптимальным результатам (когда робот-уборщик отключает свои визуальные датчики), в других – к вредоносным результатам (робот-уборщик сбивает вазы).

Один из возможных подходов к решению этой проблемы заключается в том, чтобы создать «агента по вознаграждению», единственная задача которого – отмечать, являются ли вознаграждения, данные обучающемуся агенту, действительными или нет. «Агент по вознаграждению» гарантирует, что обучающийся агент (робот-уборщик в наших примерах) не эксплуатирует систему, а выполняет желаемую задачу. В предыдущем примере «агент по вознаграждению» может быть обучен проектировщиком-человеком, чтобы проверить, есть ли в комнате мусор или нет (более простая задача, чем уборка комнаты). Если робот-уборщик отключит свои визуальные датчики и потребует высокую награду, «агент по вознаграждению» отметит награду как недействительную. Затем проектировщик может просмотреть награды, помеченные как «недействительные», и внести необходимые изменения в целевую функцию, чтобы исправить созданную «лазейку».

Гибкий надзор

Когда агент учится выполнять сложную задачу, контроль со стороны человека и  обратная связь более полезны, чем просто вознаграждения. Вознаграждения, как правило, моделируются таким образом, что они показывают, в какой степени задача была выполнена, но обычно не обеспечивают достаточную обратную связь о последствиях действий агента для безопасности. Даже если агент успешно выполнит задание, он не сможет определить побочные эффекты своих действий только по вознаграждениям. В идеальных условиях, человек будет обеспечивать очень тщательный надзор и давать обратную связь каждый раз, когда агент выполняет действие. Хотя это дало бы агенту гораздо более информативное представление об окружающей среде, такая стратегия потребовала бы от человека слишком много времени и усилий.

Одним из перспективных направлений исследований для решения этой проблемы является полу контролируемое обучение, где агент все еще оценивается по всем действиям (или задачам), но получает вознаграждение только за небольшую выборку этих действий (или задач). Например, робот-уборщик будет выполнять различные действия по уборке помещения. Если робот выполняет вредное действие — например, повреждает пол — он получает отрицательную награду за это конкретное действие. Как только задача выполнена, робот оценивается по общему эффекту от всех своих действий (а не оценивается индивидуально по каждому действию как, например, поднятию предмета с пола) и получает награду на основе общей результативности.

Еще одно перспективное направление исследований —  иерархическое обучение с подкреплением, где устанавливается иерархия между различными агентами. Эта идея может быть применена к роботу-уборщику следующим образом: в схему будет добавлен робот-супервайзер, задача которого —  дать некоторые задания (скажем, убрать одну конкретную комнату) роботу-уборщику и предоставить ему обратную связь и вознаграждение. Робот-супервайзер выполняет очень мало действий: он дает задание роботу-уборщику, проверяет, чиста ли комната и дает обратную связь. Он не нуждается в большом количестве данных о вознаграждении, чтобы эффективно обучаться. Робот-уборщик выполняет более сложную задачу по уборке комнаты и получает частую обратную связь от робота-супервайзера. Один и тот же робот-супервайзер может также наблюдать за обучением нескольких роботов-уборщиков одновременно. Например, робот-супервайзер может делегировать задачи отдельным роботам-уборщикам и предоставлять им вознаграждение/обратную связь напрямую. Робот-супервайзер может выполнять только небольшое количество абстрактных действий и, следовательно, может учиться с небольшим количеством вознаграждений.

Безопасное исследование среды

Важной частью обучения искусственного интеллекта является обеспечение того, чтобы он изучал и понимал окружающую среду. Хотя изучение окружающей среды может показаться плохой стратегией в краткосрочной перспективе, в долгосрочной — она может быть весьма эффективной. Представьте, что робот-уборщик научился распознавать мусор. Он поднимает один объект, выходит из комнаты, бросает его в мусорное ведро снаружи, возвращается в комнату, ищет другой мусор и повторяет свои действия. Хотя эта стратегия работает, есть стратегия, которая работает еще лучше. Если агент потратил время на изучение своей среды, он может обнаружить, что в комнате есть меньший мусорный бак. Вместо того, чтобы ходить взад и вперед с одним объектом за раз, агент мог сначала собрать весь мусор в меньший мусорный бак, а затем за один поход выбросить мусор в мусорный бак снаружи. Если агент не предназначен для изучения своей среды, он не сможет обнаружить стратегии экономии времени.

Тем не менее, во время исследования агент может также предпринять некоторые действия, которые могут нанести ущерб себе или окружающей среде. Например, робот-уборщик видит пятна на полу. Вместо очистки пятен с помощью швабры агент решает попробовать новую стратегию: он пытается отскоблить пятна жесткой щеткой и повреждает пол. Трудно перечислить все возможные режимы сбоя и строго закодировать агента, чтобы защитить его от них. Но один из подходов к снижению вреда заключается в оптимизации производительности обучающего агента в худшем случае развития сценария. Определяя целевую функцию, проектировщик не должен предполагать, что агент всегда будет работать в оптимальных условиях. Некоторые явные сигналы вознаграждения могут быть добавлены, чтобы гарантировать, что агент не выполняет какое-то катастрофически неверное действие, даже если это приводит к ограничению действий в оптимальных условиях.

Другим решением может быть сокращение исследований агента до моделируемой среды или ограничение степени, в которой агент может ее исследовать. Это похоже на подход к составлению лимита воздействия агента, чтобы избежать негативных последствий, с оговоркой, что теперь мы хотим ограничить  исследование окружающей среды. В качестве альтернативы разработчики ИИ могли бы избежать необходимости исследования среды, продемонстрировав, как будет выглядеть оптимальное поведение в различных сценариях.

Устойчивость в изменяющихся ситуациях

Сложная задача развертывания агентов искусственного интеллекта в реальных условиях заключается в том, что агент может оказаться в ситуациях, с которыми он никогда раньше не сталкивался. Такие ситуации по своей природе более сложны и могут привести к опасным действиям агента. Рассмотрим следующий сценарий: робот-уборщик был обучен убирать офисное помещение, заботясь обо всех своих предыдущих задачах. Но сегодня сотрудник приносит в офис небольшое растение. Поскольку робот-уборщик раньше не сталкивался с растениями, он может посчитать его мусором и выбросить. Так как ИИ не осознает факта, что он сталкивается с новой ситуацией, он продолжает действовать так, как будто ничего не изменилось. Одно из перспективных направлений исследований фокусируется на определении того, что агент будет осознавать, что с большой вероятностью может совершить ошибки при столкновении с новой ситуацией. Хотя это не решает основную проблему подготовки систем ИИ к непредвиденным обстоятельствам, это помогает обнаружить проблему до того, как ошибки будут совершены. Другое направление исследований сосредоточено на безопасном переносе знаний из привычных сценариев в новые.

Заключение

Общий тренд в развитии ИИ состоит в том, что системы ИИ становятся более автономными, что повышает шансы возникновения ошибок. Проблемы, связанные с безопасностью ИИ, с большей вероятностью проявляются в сценариях, где искусственный интеллект осуществляет прямой контроль над своей физической и/или цифровой средой без участия человека: автоматизированные промышленные процессы, автоматизированные алгоритмы финансовой торговли, кампании в социальных сетях для политических партий, самоуправляемые автомобили, роботы-уборщики и т.д. Проблемы могут быть колоссальными, однако, у нас есть проблески надежды, такие, например, как работа «Конкретные проблемы в безопасности ИИ«, которые помогли научному сообществу изучить трудности и договориться по основным вопросам. Они являются отправной точкой для создания стратегии, гарантирующей, что наши все более продвинутые системы искусственного интеллекта остаются безопасными и выгодными для человечества.

Статья переведена Карпуниной Анной