Cognitive Biases and AI Value Alignment: An Interview with Owain Evans Russian
Contents
Когнитивные искажения и формирование ценностей ИИ: Интервью с Оуэн Еванс
Click here to see this page in other languages: English
В основе безопасности ИИ лежит проблема «калибровки» ценностей: как обучить системы искусственного интеллекта действовать в соответствии с человеческими целями и ценностными установками?
Многие исследователи работают с системами ИИ для того, чтобы привить им человеческие ценности, используя такие технологии как, например, обучение подражанию. В теории, система ИИ может научиться руководствоваться человеческими ценностями, наблюдая за нашим поведением и получая обратную связь от человека.
Однако поведение человека иногда расходится с его ценностями, и он может давать искаженную обратную связь. Мы хотим есть здоровую пищу, когда мы расслаблены, но стресс заставляет нас набрасываться на жирную еду. Мы не только не можем жить полностью в соответствии с нашими ценностями, но наши ценности часто противоречат друг другу. К примеру, мы ценим восьмичасовой сон, но мы регулярно спим меньше, поскольку мы не меньше ценим свою работу, заботу о детях и поддержание здоровых отношений.
Системы ИИ могут многому научиться с помощью наблюдения за людьми, но некоторые исследователи опасаются, что из-за нашей непоследовательности системы, обученные с помощью данной технологии, могут быть полностью неспособны увидеть разницу между ценностно-ориентированным поведением и его искажением.
С увеличением мощи систем ИИ возрастают риски, что таким путем искусственный интеллект будет выделять неверные ценности и цели и в дальнейшем закреплять опасные модели поведения.
Различая ценности и искажения
Оуэн Эванс, исследователь из Института «Будущее человечества» и Андреас Штульмюллер – глава исследовательской некоммерческой организации «Долг» изучают ограничения, которые существуют в данной модели обучения ИИ. В частности, их исследования показывают, как когнитивные искажения затрудняют для ИИ изучение человеческих предпочтений посредством интерактивного обучения.
Эванс уточняет:«Мы хотим, чтобы агент (искусственный интеллект) стремился к ряду целей, и мы хотим, чтобы этот набор целей совпадал с целями человека. Тогда возникает вопрос: может ли агент просто следить за людьми и пытаться вычленить их цели из их поведения? Насколько вообще актуальна здесь проблема ценностных искажений?
В некоторых случаях искусственный интеллект способен заметить закономерности в искажениях. Эванс и Штульмюллер обсуждают психологическую литературу, посвященную искажениям, в своей статье «Изучение предпочтений невежественных и непоследовательных Агентов» и в их онлайн книге agentmodels.org. Примером общей закономерности, обсуждаемой в agentmodels.org, является «непоследовательность времени». Непоследовательность времени заключается в том, что ценности и цели людей изменяются во времени. Другими словами, «существует несогласованность между тем, что вы хотите от своего будущего «я», и тем, что оно само захочет для себя».
Примеры несоответствия времени повсюду: к примеру, перед сном большинство людей с энтузиазмом выскажутся за раннее пробуждение и утреннюю тренировку, но утром, проснувшись и поняв, что они не получили свои восемь часов полноценного сна и за окном темно и холодно, скорее всего они предпочтут комфорт постели ценности упражнений. Ранние пробуждения, жизнь без алкоголя, здоровое питание и умеренность в тратах – люди ожидают от себя будущих намного больше, чем их будущие личности хотят сами.
С систематическими, предсказуемыми шаблонами, такими как непоследовательность времени, обучение подражанию может быть успешной тактикой в обучении ИИ. Но часто наши предубеждения не так ясны. По словам Эванса, дифференцировать действия, обоснованные ценностями или продиктованные искажениями, – это задача трудная или вовсе невыполнимая.
«Предположим, что вы пообещали навести порядок в доме, но в последнюю минуту вы получаете приглашение на вечеринку с другом и не можете устоять, – рассуждает Эванс. – Является ли это искажением или наслаждение моментом для вас всегда более приоритетно, чем выполнение обязанностей? Если обучать систему ИИ только методом обучения подражанию, мы сталкиваемся с проблемой – как система будет решать, что является искажением, а что ценностью?»
Обучение «правильным» ценностям
Невзирая на данную дилемму, понимание человеческих ценностей и предпочтений имеет важное значение для систем ИИ и разработчики очень заинтересованы в том, чтобы ИИ научился их понимать.
Уже сегодня популярные сайты используют ИИ для понимания человеческих предпочтений. Например, с помощью YouTube и Amazon алгоритмы машинного обучения отслеживают ваше поведение и предсказывают, чего вам захочется в будущем. И хотя эти рекомендации часто полезны, у них есть непреднамеренные последствия.
Рассмотрим случай Зейнеп Туфекчи, доцента в Школе информации и библиотековедения Университета Северной Каролины. После того, как она посмотрела видеоролики с предвыборными высказываниями Трампа, сайт начал предлагать ей к просмотру видео националистического толка, а также ролики, отрицающие явление Холокоста. Вскоре она поняла, что алгоритм YouTube, оптимизированный для привлечения пользователей, предсказуемо предлагает более экстремальный контент для увеличения просмотров. Она назвала YouTube «Великим Радикализатором».
Этот перекос ценностей в алгоритмах YouTube предвещает опасность интерактивного обучения с более совершенными системами ИИ. Вместо того, чтобы оптимизировать передовые системы искусственного интеллекта для удовлетворения наших краткосрочных желаний и интереса к шок-контенту, создатели должны научить их понимать наши более глубокие ценности и улучшать нашу жизнь.
Эванс предполагает, что мы захотим такие системы ИИ, которые смогут обосновывать наши решения лучше, чем мы сами; которые смогут отследить, когда принятые нами решения отклоняются от наших ценностей, и «помогут нам следовать нашим долгосрочным предпочтениям». Однако есть вероятность того, что предлагаемые ИИ идеи могут показаться неприемлемыми на первый взгляд.
Например, система искусственного интеллекта предлагает блестящую, неожиданную модификацию бизнес-плана, но человек находит ее просто смехотворной, или ИИ рекомендует немного более длинный, но более спокойный маршрут до места первого свидания, но тревожный водитель все равно выбирает более быстрый маршрут.
Чтобы помочь людям понять мышление искусственного интеллекта в этих сценариях, Эванс и Штульмюллер исследовали, как системы ИИ могут рассуждать методами, понятными людям и как они могут в конечном счете улучшить наше собственное мышление.
Один метод (изобретенный Полом Кристиано) называется «расширение». К нему люди прибегают, чтобы ИИ помог им более глубоко обдумать решения. Эванс объясняет: «Вы хотите, чтобы система ИИ имела точно такое же мышление, что и человек, но она может мыслить быстрее, эффективнее, и, может быть, даже более надежно. Но это мышление должно быть таким, чтобы при необходимости человек смог разложить его на более мелкие ступени, понять и применить».
Вторая концепция называется «фрагментированное мышление» – ее идея заключается в том, чтобы разбить сложные задачи на небольшие, понятные шаги. По словам Эванса, не совсем ясно, как она может быть успешно реализована. Иногда люди могут разбить свои рассуждения на небольшие этапы, но часто мы полагаемся на интуицию, которая гораздо труднее поддается какому-либо объективному анализу.
Определяя проблему
Эванс и Штульмюллер начали проект по исследованию концепций «расширения» и «фрагментированного мышления», но они не решили проблему человеческих предрассудков в интерактивном обучении – скорее, они поставили задачу для других исследователей точно рассказать об этих сложных проблемах.
«Наши исследования более сконцентрированы на том,чтобы изучить эту проблему более детально, чем это делалось раньше», – говорит Эванс. – Мы получили интересные результаты, но один из наших результатов в определенном смысле приводит нас к пониманию невероятной сложности задачи и к тому, в чем состоит эта сложность».
Статья является частью серии публикаций Института «Будущее Жизни», посвященной грантам на исследования безопасности искусственного интеллекта и спонсируемой за счет щедрых пожертвований Илона Маска и Проекта «Открытая Филантропия»
Статья переведена Карпуниной Анной
About the Future of Life Institute
The Future of Life Institute (FLI) is a global non-profit with a team of 20+ full-time staff operating across the US and Europe. FLI has been working to steer the development of transformative technologies towards benefitting life and away from extreme large-scale risks since its founding in 2014. Find out more about our mission or explore our work.