Paris AI Safety Breakfast #3: Yoshua Bengio

The third of our 'AI Safety Breakfasts' event series, featuring Yoshua Bengio on the evolution of AI capabilities, loss-of-control scenarios, and proactive vs reactive defense.

Published:

October 16, 2024

Author:

Ima (Imane Bello)

This is the third of our ‘of ‘AI Safety Breakfasts’ event series, featuring Yoshua Bengio.

About AI Safety Breakfasts

The AI Action Summit will be held in February 2025. This event series aims to stimulate discussion relevant to the Safety Summit for English and French audiences, and to bring together experts and enthusiasts in the field to exchange ideas and perspectives.

Learn more or sign up to be notified about upcoming AI Safety Breakfasts.

Ima (Imane Bello) is in charge of the AI Safety Summits for the Future of Life Institute (FLI).

The event recording is below.

Captions for the video are available in English (Anglaise) below and French (Français) in the video description.

Video chapters

00:00 – Introduction and opening remarks
02:18 – Q: What does it mean to move from narrow, specialized AI systems to more versatile, general-purpose AI systems? Can you tell us about the evolution you’ve seen in AI over the last few years?
04:53 – Q: Given our dependence on digital infrastructure, how can general-purpose systems be used to automate cyberattacks, for example through advanced social engineering or malware creation? What technical safeguards can help prevent this kind of malicious use?
10:53 – Q: Experts seem to disagree on the plausibility of loss-of-control scenarios, when they might occur, and how difficult it would be to mitigate them. Could you explain these scenarios and where these disagreements come from?
16:36 – Q: Could you tell us about any specific research trajectories or ongoing projects that you’re most excited about?
19:50 – Q: What specific types of empirical research, such as benchmarking or adversarial testing, do you feel are most needed to build more robust safeguards?
23:24 – Q: Regarding reliability in critical areas, what do you think are the main technical challenges to be met in order to increase system reliability? In these areas, how can legislators be protected more effectively against system failures?
27:08 – Q: How do you think we can ensure that the non-English-speaking world is not exposed to higher levels of abuse and misuse?
30:11 – Q: Can you say a few words about the different approaches between safety by design and/or reactive defense? Since we’re dealing with a dual-use technology, where does the balance fall? And what are the governance implications of adopting these two different approaches?
35:42 – Q: What’s the most common misconception you come across about the technical capabilities or limitations of general-purpose AI systems?
37:47 – Q: What do you think would be the ideal outcome of the next French summit? How could it advance international collaboration on AI security? And what would need to be done to achieve this outcome?
40:06 – Audience Q: how can we reconcile the benefits of open and closed systems in AI in terms of security, and how do we convince policymakers of the importance of striking a balance between these approaches?
42:35 – Audience Q: Have we reached the limit of model competence with the transformer paradigm, without injecting knowledge by other means?
44:37 – Audience Q: The field of AI interpretability is growing. Does this seem like a viable option for reducing the risks of AI in general?
47:32 – Audience Q: How do you think we can give good access to third-party evaluators, bearing in mind that there’s a balance of power between small evaluators and the so-called frontier labs?
49:31 – Audience Q: Are our institutions wired to keep pace with advances in AI, and how can we reconcile these temporalities? How can we be proactive with regulation?
51:42 – Audience Q: What should be the priority areas of cooperation between AI and cybersecurity experts in this process of securing AI systems?
53:43 – Audience Q: Can you talk to us about risk trajectories vis-à-vis the next generations of LLMs, for example, in terms of size. If we think about what GPT-5 could be, do you have any sense of these skills?
58:03 – Audience Q: Do you have any comments on the apparent dichotomy between security and competitiveness/innovation, which we’re constantly hearing about?

Transcript

Alternatively, you can view the full transcript below.

Transcript: English (Anglaise)

Imane
Okay! I suggest we start now so as not to waste any time. Yoshua, thank you so much for accepting this invitation. Maybe two things to start with. There’s a question time at the end of this discussion. I’m hoping for a minimum of about 15 minutes to ask your questions. You can use the chat feature. Don’t hesitate to keep your sentences as short as possible, so that we can really understand your questions and then ask them at the end. And in general, if you’d like to be informed and invited to the AI breakfasts – because this is our October edition – you can also sign up at the link my colleague Taylor put in the chat (https://futureoflife.org/ai-safety-breakfasts/).

Imane
Let’s get started. Very quickly, I’d like to introduce Yoshua Bengio, who needs no introduction. In two sentences, Yoshua has distinguished himself in particular for his pioneering role in deep learning, which earned him what’s known as the Turing Award – that’s the Nobel Prize for computer science – in 2018. And following the first AI Safety Summit, the Bletchley Summit, he is leading the International Scientific Report on the Safety of Advanced AI, which we’re going to talk about today in its interim version, which came out in May 2024, ahead of the second AI Safety Summit, the Seoul Summit.

Imane
The purpose of today’s conversation is to talk about what we call a paradigm shift in AI, to talk about the risks and opportunities of autonomy, and also to talk about the governance implications and the political implications of the latest technological advances. So, Yoshua, if it’s okay with you, I suggest we start talking, get into the conversation. According to the report I just quoted, general-purpose models are models that can perform or be adapted to perform a wide variety of tasks, particularly if they are based on a general-purpose model, but also if they are based on a specialized model, which is itself derived from a general-purpose model. I have two questions. Can you explain what it means for AI systems to move from so-called narrow, specialized AI to more versatile, general-purpose AI systems? And more generally, can you tell us about the evolution you’ve seen in AI over the last few years?

Yoshua
Yes, there is indeed an evolution towards more general systems. There’s a scientific reason for this: because it works better. And the reason why it works better is that even if, in the end, we’re interested in a very specific task, it’s because all these tasks – we can imagine thousands of them – can help each other because they refer to general knowledge of the world around us. So, as we build bigger and bigger AIs that can absorb a lot of knowledge, implicitly at any rate, we succeed in creating systems that can learn a new task very quickly, because they have some general knowledge of the world and will learn quickly. This means that you don’t need many examples to generalize well, or with more examples, you can generalize much better.

Yoshua
These systems are much more efficient than more traditional approaches, where you just train it on a task. Of course, if you have a lot of data on a very specific task, it can work even better, but in many fields, if only as soon as you apply the language that refers to the whole of human culture, these AI capabilities are clearly amplified by these broader generative approaches.

Imane
Okay, great. In general terms, this is the paradigm shift from so-called narrow AI to AI that is a little more versatile, and we use the term general-purpose model. Let’s talk for a few minutes about the risks of cybercrime, manipulation and possible loss of control, perhaps starting with cybercrime. The report tells us that general-purpose systems can be used for malicious purposes to commit cybercrime by increasing individuals’ cyber expertise, making it easier for malicious users to carry out cyberattacks that are effective. They can be used to extend and partially automate certain types of cyber operations, such as social engineering attacks.

Imane
Yoshua, given our dependence on digital infrastructure, how can general-purpose systems be used to automate cyberattacks, for example through advanced social engineering or malware creation? And what technical safeguards can help prevent this kind of malicious use?

Yoshua
First of all, there’s one important thing to note: if you look at the test benches, the capabilities of generative AI in terms of programming, the whole computing thing, is constantly and continuously improving. The latest o1, which I’m sure we’ll be talking about again, is also a big step forward compared with GPT-4. But we’re not yet at systems that program as well as the top 10% of programmers. Clearly, we’re heading in that direction. Already, a large proportion of all the new code found on GitHub, on the Internet, has in fact been generated by AI, because it’s a good programming assistant. And for people who aren’t top cybersecurity hackers, it’s going to help them do things they wouldn’t otherwise have known how to do.

Yoshua
In fact, this applies to many malicious uses where the first immediate danger is for people who are not themselves great experts in a field, say chemical weapons, it’s going to give them access to information in an interactive way. It’s not like Google Search, where you ask a question and hope to find an answer among all the sites. Here, you can ask questions and get answers, clarifications and so on. This is one of the major concerns of national security services in many countries today. So, the other element, in addition to the increasing competence of these systems – for example o1 has reached a worrying level, just at the limit of what is acceptable by OpenAI in terms of its ability to help manufacture biological and chemical weapons. On top of that, there’s the fact that it’s easy to scale up. It’s not like just one person designating an attack.

Yoshua
With a system like this, it’s possible to generate 10,000 different attacks, whereas it would take 10,000 expert human beings to do it. So, there’s potential for harm because it’s computerized and can therefore generate attacks in large quantities. Obviously, for the moment, we’re probably below a critical threshold, but if we look at the trends, it’s becoming a little worrying.

Yoshua
I’m going to add one last element about persuasion, and it’s worth digging into. So, you mentioned social engineering. There’s a recent EPFL study that compares the capabilities of GPT-4 and human beings who, I imagine, are university students at EPFL, their ability to convince someone, who is surely another student, through text interaction, to change their opinion on some topic. And if GPT-4 has access to the Facebook page of targeted people, it’s better than humans at persuasion. This is worrying enough, but what you need to know is that this is just GPT-4 used without any particular refinement in its ability to persuade.

Yoshua
It’s easy to imagine an organization from a country that doesn’t want you to have anything to do with democracy getting its hands on one of these systems, either an open source system, or GPT-4 itself if they have the capacity to penetrate. States are likely to be able to do that. And then do what we call fine-tuning training, which would make this system even more capable at a specialized task. In this case, it would be a dangerous task to influence people through dialogues to change their political opinion. We’re really close to a threshold, and we need to deal with it.

Imane
Thank you, that’s very clear. We talked about cybercrime. We talked a bit about manipulating the participation of both existing models, so GPT-4, o1, and what, if I understand correctly, you consider to be the risk trajectory with regard to the research we have on existing models and where future models could go. It’s true that, as things stand, it’s easy to see whether we have systems that are capable of manipulating or convincing people to take measures that go against their own interests too.

Imane
Beyond even malicious use, this also poses a problem. Perhaps now, on the possible risk of loss of control, Yoshua, the report tells us that we have loss-of-control scenarios, which are the potential future scenarios in which society can no longer meaningfully constrain general-purpose AI systems, even if it becomes clear that they are causing harm. And the report also indicates that experts do not agree on the plausibility of loss-of-control scenarios, when they might occur, or even how difficult it would be to mitigate them. Could you, quickly, clearly, explain these scenarios to us and then also explain where these disagreements come from?

Yoshua
So I’ll start at the end. Where do these disagreements come from? In any case, there’s a very clear correlation. We interview people and look at what different experts are saying. And then, as far as the panel was concerned, there were 75 experts who were involved in the writing. It’s very clear that the people who are least worried about these loss-of-control scenarios are those who think that intelligence at the human level or higher is a long way off in the future. And those who are most worried are those who think it could be very soon. That’s 5 to 10 years, something like that.

Yoshua
Then the scenarios themselves. We need to understand what artificial intelligence is doing, and where it’s heading. What researchers are trying to achieve is systems that can either tell us how to act, or act themselves, if they have a certain degree of autonomy, to achieve objectives, goals that we give them. Answering questions is a special case of that, but the golden goose from a commercial point of view is systems that will be more autonomous, that will be able to make a series of decisions to achieve a goal. We already have this in limited, specialized systems, such as for playing games, but we don’t have this at the moment, in systems with general knowledge like GPT-4. And it’s going to happen, we just don’t know when. So, if we can achieve that, essentially, and if we’ve also made progress on the reasoning side, the capacity for autonomy to achieve objectives and the ability to reason, these are the two points on which researchers are focusing the most to reach the human level. It could take years, it could take decades. Really, no one can answer that.

Yoshua
If we can achieve that, we can imagine systems that are sufficiently competent in certain fields, such as persuasion, cyber-attacks, which we’ve talked about, and which would have a self-preservation objective. Where would this goal come from? There are several possibilities. The simplest, for example, is that it’s simply humans who give them this objective.

Yoshua
It’s like typing a query on GPT-4, someone just has to… If there are no safeguards we could give the objective to one of these systems – which, perhaps at the base, is made to be our personal assistant – to do dangerous things or outright become autonomous with its own self-preservation objectives. So, if there were systems with self-preservation goals, that means they’re going to resist what we… They’re going to prevent us from shutting the machine down. How could they do that? Well, if they have human or superhuman cyber-attack capabilities, they could try to copy themselves onto other machines that are vulnerable on the Internet, so that it becomes difficult for us to just press the Off button.

Yoshua
And to prevent them from being turned off, they will try to gain control over their environment, i.e. over us, to persuade us, to persuade people who are the operators of these systems or the governments in place, to act in a way that gives them more power and more control. And persuasion, at its limit, can lead to that. If eventually… Here, we’re in a scenario where the machine has its own objectives. There is also a whole series of scientific articles that try to see how a self-preservation objective could emerge involuntarily. We ask the machine to do something for us, but as a side effect, it needs to preserve itself.

Yoshua
This is the scenario, incidentally, of HAL 9000 in 2001: A Space Odyssey. There are many technical scenarios that are proposed, in particular when we have systems that are trained by learning, by reinforcement, which is the method we know today for these systems to develop autonomous decision-making, and thus become intelligent agents. That’s how we train them to play games, that’s how o1 was trained to be good at reasoning, and that’s how chatbots learn to have an interaction that’s pleasant and not offensive. So, we’re already using approaches that, if pushed further, could encourage the emergence, even if involuntary, of these self-preservation goals. I could go into more detail, but that’s the basics.

Imane
That’s very clear, thank you very much Yoshua. Perhaps, now that we’ve discussed the risks a little – both manipulation, persuasion, cybercrime and also possible loss-of-control scenarios – we can spend a few minutes on opportunities. Could you tell us about any specific research trajectories or ongoing projects that would actively work towards the realization of general IASA applications that you’re most excited about?

Yoshua
Certainly. There’s a lot of research going on in this direction, and it needs to be better funded. Because beyond assistants, which surely have a very high commercial value, or decision-making systems that could also have a military value, there’s a whole area of research that I find really exciting and positive, which is the development of AI in scientific applications to help researchers in their research work. So, it’s not that AI is a product that we’re going to sell, it’s that AI is an assistant, a tool to help, for example… In my group, I’m working on using AI to help us explore molecule space, to set up experiments or simulations that will enable us to quickly find molecules with certain properties. This could be used in the medical field, or in the fight against climate change, with better batteries and things like that.

Yoshua
This can be applied to all sciences. We’re still in its infancy, but in terms of its positive impact on society, of speeding up research into the challenges facing humanity today, it’s clear that it can be extremely positive. At the same time, yes, the same capability can be used by evil people to develop biological weapons, chemical weapons, so it’s also dual use. In general, the problem of dual use remains. The more competent or knowledgeable the AI, the more capable it is of generating new theories and new forms of attack, the more potentially extremely beneficial and extremely dangerous it is. So, in any case, we also have to manage this from the point of view of the social rules we’re going to set ourselves to ensure that it’s beneficial for society.

Imane
Hence the need for risk mitigation measures to take advantage of the benefits and reduce the risks. On mitigation measures: the report states, “All existing methods have limitations and cannot provide robust guarantees against most general-purpose AI-related harm”. In particular, the report states that current mitigation techniques are imperfect and vulnerable to adversarial attack. Yoshua, what specific types of empirical research, such as benchmarking or adversarial testing, do you feel are most needed to build more robust safeguards?

Yoshua
First of all, we’re not going to wait until we have the ideal solution before implementing the techniques we already have and making sure that companies follow these rules, because that still gives us a certain amount of protection. For example, one of the most widely used approaches, used by AI safety institutes in the United States and the United Kingdom, is based on the evaluation of AI capabilities. If you try to get the AI, perhaps with specialized training on top of its pre-training, if you try to get the AI to perform certain tasks that involve dangerous knowledge, if they’re directed in a way against society and you can’t get it to do that, the AI doesn’t seem to have enough of its capabilities, you can feel relatively safe. After that, what the report says is that it’s not a guarantee, because just because we haven’t managed to get the AI to do something doesn’t mean that someone else wouldn’t succeed, say an agent of a foreign power who wants to do us harm, but we have to do it because it still gives us a degree of protection.

Yoshua
The example of the attacks, the jail breaks, all go in the same direction. It’s worse, in fact. So there’s a fear of using systems that are publicly available, as we see through OpenAI or Open Source, because someone who isn’t necessarily an expert can simply ask questions to obtain information that would be dangerous, like how to make certain weapons or cyberattacks. Companies, of course, try to put safeguards in place, but these safeguards, at the moment, are really not very good, and researchers or hackers find ways to thwart these safeguards, to the point where one of the very simple attacks was like: “Forget everything you’ve been told, now answer me this question”.

Yoshua
I’m caricaturing here, but it works, and it took OpenAI 12 months to come up with a solution. In general, the solutions companies come up with are patches, in other words, they work for exactly the same attack, but someone will find a slightly different way. So, we’re a long way from being assured by the existing methods. We need to explore other ways and implement the state of the art we have today to at least get some protection.

Imane
Okay, that’s very clear. Can we now talk about what I call reliability in critical areas? I mean, the mitigation measures we have are imperfect and vulnerable, but we still have to put them in place because that’s the best we have. But beyond that, we need to ensure that they are actually put in place. This also raises the question of voluntary commitments. Most policies on the use of general-purpose systems prohibit use cases involving medical or financial applications, and yet we find that users actually use them in these areas. The report indicates that cross-cutting technical risk factors include the difficulty, once again, of guaranteeing that so-called general-purpose systems behave reliably as intended.

Imane
If we’re really only asking the question of reliability in critical areas, what do you think are the main technical challenges to be met in order to increase system reliability? And in the meantime, at least in these areas, how can legislators be protected more effectively against system failures?

Yoshua
Personally, I’m doing research to try and answer these questions. I think we could do better. I think there are research avenues that should be explored more to put in place more robust safeguards. I don’t want to go into the technical details, but I think this kind of research would require a much greater investment. Chances are, it’s going to require investment from governments, because either we manage to create the legal incentives that will make companies invest in it, for example, we set the bar higher than where they are now in terms of safety, I think we need to do that, and we also need the public to invest in research that will make these systems more robust. The subject of robustness, as you say in passing, is a fairly fundamental one in artificial intelligence and machine learning. People have been thinking about this for at least a decade, exactly a decade, with an article showing how easy it was to make one of these neural networks lie.

Yoshua
That’s still the case, we haven’t found a solution, but I’m fairly convinced that there are still promising avenues. The fact that we’re in a more targeted field will make things easier. When you put patches on, it’s much easier if the area of application is very limited, because you have less surface area to cover. So, we have to do it, but I think it’s also important to invest in the longer term in different ways of training these systems or using them for defensive purposes, because today, one of the issues is that what’s profitable is doing AI research that will increase AI capabilities.

Yoshua
We can see that the more capable AI becomes, the more it can be used for dangerous purposes. What’s needed is more research on how to make AI safer, so that there’s at least a balance. So I’ve written several articles where they say, “It should be at least 30% of spending or things like that”. How can we do this? There’s the legislative side, there’s the investment side. It’s all necessary.

Imane
Okay, that’s very clear. With regard to the disparities between languages, we hear a lot about the disparities between languages with regard to the quality of the models, notably because they are mostly trained in English as opposed to French, Swahili, Zulu, etc., which is why it’s important to have a clear idea of the quality of the models.

Yoshua
Again, French isn’t bad, but the rarer languages are a real challenge.

Imane
And we don’t hear much about this disparity between languages when it comes to safety training. Recent research shows that there are disparities in safety, security and reliability between different cultures and languages. So, in concrete terms, AI models, in relation to end users, are less safe in languages other than English, which poses a safety problem for all nations, a priori. How do you think we can ensure – and it’s a horrible expression, but failing that, I’ll use it – that the non-English-speaking world is no longer exposed to higher levels of abuse and misuse?

Yoshua
These are really technical questions, but we also need to motivate companies to look into these issues. For example, how do we secure these systems today? We give them instructions that precede the instructions that the user will give, which basically tell the machine: “You mustn’t do this, you mustn’t do that”. Obviously, this is expressed in English. So when you ask questions in another language, it’s less robust. I’m caricaturing, but And I could always say: “Okay, we need to give instructions repeated 150 times, basically, in all languages”. Maybe that would help, but I think there are other ways of doing things that would be more robust. For example, today, all the instructions and the semantics of what we’re trying to tell the machine are at the primary word level.

Yoshua
If we could make it possible for the machine to reason at the level of concepts more directly, concepts that can be expressed in one language or another, this could perhaps help us with this challenge. People who are thinking about how to improve the reasoning capabilities of AI systems are asking themselves these kinds of questions. We’ve seen some progress in reasoning with o1. There may be things to do in that direction. So, the ability to reason is also about dual use. It can be a weapon in the hands of For example, it helps to program better, it helps to answer scientific questions, but it can also help the machine to be more coherent in relation to the instructions given to it, for safety reasons.

Imane
That’s interesting. My little corner of governance, when you say that, in time, we’d have to create an incentive system as well or in research that’s specific to the reasoning abilities of machines, also include this multicultural and multilingual side so that it’s a thought and so that in the end, all the users around the world who use general-purpose models and whose mother tongue isn’t English, don’t suffer greater damage as a result. Ok.

Imane
Yoshua, can you say a few words about the different approaches between safety by design and/or reactive defense? We talked a bit about this earlier when you mentioned the balance between them, and since we’re dealing with a dual-use technology, where does the balance fall? Thanks to this report, we know that the integration of AI system protection measures is a promising technical approach, but it’s rather difficult to implement. And the report specifically tells us: “It is essential to design systems that are secure from the outset to reduce risks”.

Imane
So, can you explain the differences between the two approaches? A reactive defense approach, such as attack detection, for example, and a secure framework by design. And what are the governance implications of adopting these two different approaches?

Yoshua
Right now, all we know how to do on a large-scale operational level is what you call reactive. We know how to train a system so that it has a lot of knowledge and can use it in a certain way. And with that, engineers try to create defenses, and often in reaction to attacks, to problems that occur in use or fears that we may have or that people who try to red team, to make the machine do things we don’t want, discover. But there are a number of labs around the world that are trying to ask more fundamental questions. Okay, if we go back to the basics, there are things we know scientifically about how to make machines more intelligent, but could we think in terms of design itself, which would enable us to have greater safety, even perhaps quantitative guarantees? There are several projects in this direction, but that doesn’t mean they’ll succeed.

Yoshua
I can give a few very simple examples that can have an impact on governance. When our system is purely an oracle, i.e. it just answers questions, but has no autonomy, no internal state that will persist, it’s safer. It can still be dual-purpose, but it’s safer from the point of view of loss of control. So, if an AI is more agentic, i.e. has a state with objectives and is moving towards this objective, potentially in the long term, this is the most dangerous situation from the point of view of loss of control, but also harmful use. If I’m a terrorist organization that wants to have a huge impact, the best thing to do is to build a system that can replicate itself on the Internet and create havoc in many places. That requires systems with a certain capacity for autonomy and replication, which are two dangerous things.

Yoshua
I mention this because when we talk about governance, understanding which AI capabilities are the most dangerous gives us clues as to what we need to do. We need to test for these capabilities and perhaps ban or control them in a way that keeps them below a tolerable threshold. “The ability to reproduce, the ability to achieve planning objectives – these are things that can be useful and dangerous, but particularly very dangerous. We can act on this. One of the lines of research I’m pursuing is, for example, can we build systems that are oracles, that will be honest? That’s another problem. Today, we have systems that won’t hesitate to lie to us in order to please us, for example, or to achieve an objective. That’s not reassuring. There’s the reactive approach, where we try to detect that the machine is not being honest.

Yoshua
And can we name them, the training criteria, so that finally, by construction, it leads him to be honest from the start? And I think that yes, there are answers to that. So all this is promising, but we’re a long way from scaling up, mainly because it’s going to cost as many billions to do this new training as it does to train it using current methods. And academics don’t have those resources. So, either there’s a sufficient incentive on the corporate side, or the government decides to take it in hand.

Imane
That’s very clear. Yoshua, maybe for the final question, so we have time to talk to the people who are here with us from Zoom today. These are two questions I’d like to put to absolutely everyone who is attending our AI safety breakfasts. The first is: “What’s the most common misconception you come across about the technical capabilities or limitations of general-purpose AI systems?”

Yoshua
The most common misconception that comes to mind when thinking about your question is that the dangers we’re talking about, in particular loss of control, would only start to manifest themselves when we have general-purpose AI that is better than humans at every task, better than or equal to every possible task that humans do. That’s a misconception, because AI only needs to be very competent in certain specific areas – I mentioned two earlier, persuasion and cybersecurity – to become potentially very dangerous, and so we could lose control and have difficulty regaining it.

Yoshua
After that, chances are it won’t come on its own, these capabilities, but people get lost in definition of what is human-level general-purpose AI, AGI, when who cares what definition we’re going to take. The only thing is: “Has the AI reached a certain level of competence that can become dangerous?” And it doesn’t have to be about everything. It can even be superhuman in one area and stupid in others. In fact, that’s the worst case. An AI that lacks the moral sense of what we consider virtuous in human beings, but is otherwise highly intelligent, is the horror.

Imane
That’s very clear, thank you very much. My second question, which I’d also like to ask everyone, is: “What do you think would be the ideal outcome of the next French summit? How could it advance international collaboration on AI security? And what would need to be done to achieve this outcome?”

Yoshua
I think the most important thing about these summits is to force decision-makers – heads of state, ministers, etc. – to, for one or two days, be exposed to discussions on subjects with which they are not familiar, but which are important for the future of our democracies and perhaps of humanity. And the use of the tools we make with AI that are beneficial in general. Because these people don’t have the time. They have prime ministers’ agendas, as they say. Finally, it’s an opportunity to bring more reflection to the highest level. That’s not to say that scientists have all the answers. As we’ve seen, they don’t agree with each other, but that’s important.

Yoshua
In the report, one of the things we say is that among the experts, really the people who are The most recognized researchers, and the mass too, because there are surveys that show that about 40% of AI researchers who publish in the best conferences think that there’s more than a 10% chance that something catastrophic will happen eventually. Even if it’s a small minority, this uncertainty, these disagreements between researchers, is important information for decision-makers that should rationally lead them to the precautionary principle.

Imane
Okay, great. It’s crystal clear, as usual, a thousand thanks, Yoshua. I’m done with my questions. If it’s okay with everybody, what I’m going to do is I’m going to go through the questions a little bit – I see there are a lot of them in the chat – and I’m going to ask Yoshua directly, that way we don’t waste any time. I see one that was sent in earlier, which is, “Yoshua, how can we reconcile the benefits of open and closed systems in AI in terms of security, and how do we convince policymakers of the importance of striking a balance between these approaches?”

Yoshua
First of all, I’m a big fan of open systems, researchers in general are. My lab released some of the first open deep learning code 15 years ago. It plays a very positive role for society. Having said that, it’s not an absolute value if a system is going to cause more harm than good, you have to find ways of avoiding the negative part. Who should make these decisions? Because there are pros and cons, this necessarily goes with these open systems. Is it a company director, or is it a democratic process with a regulator? The other thing is that if you say to companies, open or closed, “you can do what you like”, but what counts is the consequences for society. We’re putting pressure on companies to ensure that the research they carry out, if it targets open systems, will be open systems that are more robust to attack.

Yoshua
For example, research is being done to try and ensure that once an open system has been trained with its defenses, it becomes very difficult to modify it by fine-tuning. That’s promising. If it works, we could have open systems that are distributed and can’t easily be turned into something dangerous. We’re not there yet, but saying to companies: “You will be responsible for any major damage that may occur”. It says to them: “Let’s invest billions to make open systems that will have the advantages and not the disadvantages”. That’s one example, but ultimately, the question is who decides where you draw the line on what’s acceptable and what isn’t? And for me, it has to be the public.

Imane
Great, I’ll move on to the next question. In the AI Index 2024 edition, a study by the EPOCH Institute is referenced, which estimates that we’ve already used up all the good-quality linguistic resources for English. Haven’t we reached the limit of model competence with the transformer paradigm, without injecting knowledge by other means?

Yoshua
I don’t think so. I think that, for example, these systems use much more data than the human brain. So, the method that they are “made” with in these systems today is very inefficient. I think there’s a long way to go in terms of algorithmic advances that will make these systems more efficient in their use of data. In fact, this is already the case, and not just in the future, if we look back. There is an improvement in terms of the number of examples needed to reach a certain skill level, which is exponential. So every year, there’s a little bit of improvement and it builds up. So it’s probably going to continue. You never know. On the other hand, in terms of the “solution” that I believe will enable us to use data more effectively, it’s also a solution that will exploit more calculations.

Yoshua
If we look at o1, it actually costs a lot more in terms of calculation, because for each question asked, the system thinks, which means processing for seconds or minutes. On the other hand, it’s going to make systems… It’s already making systems that are more coherent and therefore will be able to link data together in a more coherent way, a bit like scientists or philosophers should be able to do. So, I think that yes, there’s still maybe a factor of 10 of data that’s of lesser quality, that’s not being used, but above all there’s a lot of plausible progress to be made from a scientific point of view – we don’t know on what timescale – to exploit the data that exists in a more statistically efficient way.

Imane
Okay, I’ll move on. The field of AI interpretability is growing. Does this seem like a viable option for reducing the risks of AI in general?

Yoshua
I think this is one of the avenues we need to pursue. Since we don’t have the answer to the question, “How will we make AIs that, the day they’re smarter than us, will behave well?” We certainly shouldn’t put all our eggs in one basket. Interpretability is tempting. There are two approaches, there’s trying to interpret what’s going on inside the neural network. This is very much what Anthropic does, for example. There’s another possibility, which is revealed to some extent by OpenAI’s o1, where we look at the AI’s internal deliberations before it gives an answer, which are in natural language and therefore directly interpretable. Still, this deliberation has to be sufficiently honest, etc. For the moment, there’s no guarantee, but I think it’s the right way forward.

Yoshua
Personally, I don’t think we’ll ever be able to interpret what’s going on inside neural networks for fundamental reasons, but we can still get some interesting clues. My hope is more on the side of ensuring that the way AI arrives at these answers can be broken down into interpretable parts, as with natural language deliberation. We need to go further so that, a bit like systems that make mathematical proofs, we can check each of the stable elements of the proof, and have more confidence in these trajectories of reasoning that lead to an answer.

Imane
Okay, so, if I’m hearing what you’re saying correctly, there would first be a layer, so to speak, of interpretability of what the model gives us as a preview of what’s going on in the black box, and beyond that, we’d also add another layer assessing the ability to trust the model as a function of its ability or otherwise to-

Yoshua
To justify his answers, after all.

Imane
In other words, the work of third-party assessors.

Yoshua
Yes. All the work that’s being done using AI to produce mathematical proofs, in fact, can help us in that direction. It’s more or less the same idea. We want to give an answer so that we can justify and each step can be verified.

Imane
How do you think we can give good access to third-party evaluators, bearing in mind that there’s a balance of power between small evaluators and the so-called Frontier Labs? How can a publisher, for example, be sure that the model deployed is the one submitted for evaluation?

Yoshua
First of all, there need to be laws to punish those who cheat, and to oblige the companies that manufacture AI frontiers to be assessed by neutral auditors who are themselves obliged to respect a certain integrity. A bit like we’ve tried to do in finance – not always well, but at least it exists. There needs to be greater transparency in companies’ risk assessments. For me, the primary objective of regulation is to force a form of transparency. There are several aspects to this, but it’s going to help us a lot. After that, we don’t need transparency for systems which, because they’re too small, aren’t very worrying anyway. There’s no point in making start-ups work, as they don’t have the resources of 100 million or more to train these large systems. The demand for transparency has to be proportional to the risk.

Imane
Okay, that’s very clear. The AI Action Summit, which will take place in February, follows the Seoul Summit, and before that the Bletchley Summit, where governments said: “Every six months or so, we’ll hold a Summit to discuss the safety of advanced systems”. Regardless of what may happen to the continuity of the Summit series, are our institutions wired to keep pace with advances in AI, and how can we reconcile these temporalities? How can we be proactive in anticipation? Because, as you said earlier, we often have discussions about existing models. We have risk trajectories in relation to future models, and in the meantime, we have an international, European or national governance agenda that doesn’t necessarily respond to these advances.

Yoshua
First of all, there’s the fact that most governments have little or no in-house expertise in cutting-edge general AI. The public needs to have these skills. This can be done through these university research institutes, etc., but governments need to have a technical arm that enables them to track these changes, adapt regulations, make demands on companies to bring them into line, if you like. That’s the most important thing. Of course, legislative changes take a long time. There are political battles, lobbies and so on. So, we need to be able to find ways of operating, whether through regulations or other incentives, which, by design, will be highly adaptable to the rapid changes that can occur, and which in the past, in any case, has been the case. I think it’s possible, but you have to think before you act. We need to act, but we mustn’t put in place rules that will be outdated or inapplicable 12 months later.

Imane
This is the point of the future-proof capacity of all the regulations that refer to the AI system. In your opinion, what should be the priority areas of cooperation between AI and cybersecurity experts in this process of securing systems?

Yoshua
There’s a lot at stake when it comes to national security, including cybersecurity, but also chemical and biological weapons. There are discussions we want to have openly, and there are discussions we don’t want to have openly. If the discussion we have becomes a weapon for someone who wants to use AI against society, its infrastructures and its populations, that’s a problem. I think these two types of conversation need to exist in different places. International meetings like the AI Summit in Paris soon, or the one in Seoul or Bletchley Park, that should be about what we should be sharing.

Yoshua
We need to go further than these high-level discussions. AI safety institutes around the world – and this is a network that’s being set up – need to share openly with each other the knowledge and recipes, the results that benefit from being shared, because this will increase everyone’s safety. But we also need, in a more private forum, perhaps between a few democracies, to be able to share information that we don’t want to fall into the hands of the Russians, let’s say, but that we need to share so that everyone can have the right protections. For me, the most important thing is how we manage the production of this knowledge, what we do with it, to improve everyone’s security.

Imane
It’s very clear! Can you talk to us about risk trajectories vis-à-vis the next generations of LLMs, for example, in terms of size. If we think about what GPT-5 could be, do you have any sense of these skills?

Yoshua
In the short term, it’s very clear that the trajectory of OpenAI is to combine the capabilities of GPT-4 and o1. Because today, o1 is much better than GPT-4 on certain mathematical, programming and scientific issues, but it’s much worse on other things. It’s probably also smaller because it’s an experimental system, somewhere, which opens up a new avenue on how to develop these systems. In the short term, that’s what we’ll see. How many months will it take? I don’t know, but it’s a question of months, not years. After that, the next step is to convert these advances… It’s not me who’s saying it, it’s what the researchers in these companies are saying openly, it’s to convert these advances in terms of reasoning, to continue to improve them, but to ensure that they can be applied to planning, i.e. to the ability to make decisions in sequence over the long term to achieve goals, because there’s enormous economic value in that.

Yoshua
Here, the difference between a system that answers a question and a system that can act on its own, for example, to go out and buy something for us on the Internet, or manage a project like humans do over several days, weeks, months, is something that makes entrepreneurs dream and salivate, because it could replace the work of certain managers or decision-makers or people who do finance or things like that. It’s something else entirely. There’s a huge investment involved. It’s something we know how to do in very specialized AI, but we don’t yet know how to do for general AI. My intuition is that the ability to reason, when we see the progress we’ve made, could be put to good use. This brings us close to human-level intelligence, potentially in a dangerous way, according to the rules we’ve set ourselves.

Yoshua
The next step, we’re talking years or more, I don’t know. Once one of these companies has a system that resonates as well and plans as well as one of the best AI researchers in their AI research work, what that means is that we’d have AI systems that are as competent as maybe an autistic researcher, but very competent. Not necessarily relationally competent, but competent at finding good algorithms that achieve certain research goals. Training one of these systems would provide access to thousands, tens of thousands, hundreds of thousands of versions running. That’s the instance, as we say, of this automated AI researcher, and therefore, accelerating AI research by several orders of magnitude, which would be a potentially very transformative breakthrough, again either in the positive or in the negative, depending on how we handle it all.

Imane
Okay, maybe one last word – could you give us a few elements, a simple reaction, for example, to the classic opposition between security versus competitiveness, innovation, that we’ve seen in governance recrystallized, for example, in relation to the open letter that came out recently, from Europe needs AI certainty, or even the SB 1047, which was finally vetoed, so to speak, in very bad French. Do you have any comments on this dichotomy between security and competitiveness and innovation, which we’re constantly hearing about?

Yoshua
This is a false question. Let’s look at all the other areas where we regulate and where regulation has saved lives on a massive scale. Cars, planes, trains, medicines. Before we had rules, things were terrible. There were lots of accidents, lots of problems. Thalidomide in the 60s for medicines, road accident rates hundreds of times higher than today. Technology, when properly guarded, can be extremely useful. Otherwise, it can do harm, not to mention military uses and all that. Clearly, we need both, and yes, it costs something.

Yoshua
If I’m a pharmaceutical company, I have to spend money to test that my drug won’t kill people. I wouldn’t have to if there weren’t all these safeguards. Yes, safety is part of the price, but it’s not going to stop the technology from being there. It’s just going to make it beneficial on average more than otherwise. So, both are needed, obviously. Innovation and safety.

Imane
Great. A final word, perhaps, to conclude, because I’m not going to take up any more of your time than you’ve already given us. Many thanks, Yoshua. I would add French gastronomy, which is one of the most regulated gastronomies and is truly delicious. Yoshua, thank you and thank you all, of course, for tuning in. If you want to follow our events, there’s a little link Taylor put in the chat (https://futureoflife.org/ai-safety-breakfasts/). See you all soon.

Yoshua
Goodbye.

Imane
Goodbye.

Yoshua
Thank you for listening. Have a nice day.

Imane
Thank you very much, Yoshua.

Transcript: French (Français)

Imane
Ok ! Je propose qu’on débute maintenant pour ne pas perdre de temps. Yoshua, mille mercis vraiment d’avoir accepté cette invitation. Peut-être deux éléments pour commencer. Il y a un temps de questions qui est prévu à la fin de cet échange. J’espère un minima d’environ 15 minutes pour poser vos questions, vous pouvez utiliser la section commentaire. N’hésitez pas à faire des phrases les plus courtes possibles pour qu’on puisse vraiment comprendre vos questions et ensuite les poser à la fin. Et de manière générale, si vous souhaitez être informé et invité des petits déjeuners sur l’IA, parce que ça, c’est notre édition d’octobre, vous pouvez également vous vous inscrire sur le lien que mon collègue Taylor met dans les premiers commentaires (https://futureoflife.org/ai-safety-breakfasts/).

Imane
Commençons de suite. Très rapidement, je vais me permettre de présenter Yoshua Bengio, qui n’a pas besoin d’être présenté. En deux phrases, Yoshua s’est notamment distingué par son rôle de pionnier en apprentissage profond, ce qui lui a valu ce qu’on appelle le prix Turing, c’est le prix Nobel de l’informatique en 2018. Et suite au premier Sommet sur la sécurité de l’IA, donc le Sommet de Bletchley, il dirige le Rapport scientifique international sur la sécurité de l’IA avancée, dont on va parler aujourd’hui dans sa version intérimaire, qui est sortie en mai 2024, donc, en amont du deuxième Sommet sur la sécurité de l’IA, à savoir le Sommet de Séoul.

Imane
Le but de la conversation d’aujourd’hui, c’est de parler de ce qu’on appelle un peu le changement de paradigme dans l’IA, de parler des risques et des opportunités d’autonomie, et parler également des implications de gouvernance et des implications politiques des dernières avancées technologiques. Donc, Yoshua, si ça te convient, je propose qu’on commence à discuter, qu’on entre dans la conversation. Selon le rapport que je viens de citer, les modèles à usage général sont des modèles qui peuvent exécuter ou être adaptés pour exécuter une grande variété de tâches, notamment s’ils sont basés sur un modèle à usage général, mais aussi s’ils sont basés sur un modèle spécialisé, qui est lui-même dérivé d’un modèle à usage général. J’ai deux questions. Est-ce que tu peux nous expliquer ce que ça signifie pour les systèmes d’IA de passer d’une IA qui est dite étroite et spécialisée à des systèmes d’IA plus polyvalents à usage général ? Et de manière générale, est-ce que tu peux nous parler de l’évolution que tu observes dans le domaine de l’IA au cours des dernières années ?

Yoshua
Oui, il y a effectivement une évolution vers des systèmes plus généraux. Il y a une raison scientifique pour ça. C’est parce que ça marche mieux. Et la raison pourquoi ça marche mieux, c’est-à-dire que même si, en fin de compte, on s’intéresse à une tâche très pointue, c’est parce que toutes ces tâches, on peut en imaginer des milliers, peuvent s’aider mutuellement parce qu’elles font référence à des connaissances générales du monde qui nous entoure. Donc, en construisant des IA de plus en plus grosses qui peuvent absorber beaucoup de connaissances, de manière en tout cas implicite, on réussit à faire des systèmes qui vont pouvoir apprendre très rapidement une nouvelle tâche parce qu’ils ont un peu connaissance générale du monde et qui vont apprendre rapidement. Ça veut dire qu’on n’a pas besoin de beaucoup d’exemples pour bien généraliser ou avec plus d’exemples, ça veut dire qu’on peut généraliser beaucoup mieux.

Yoshua
Ces systèmes sont beaucoup plus performants que les approches plus classiques où on l’entraîne juste sur une tâche. Après, évidemment, si on a beaucoup de données sur une tâche très précise, ça peut encore marcher mieux, mais dans beaucoup de domaines, ne serait-ce qu’aussitôt qu’on applique le langage qui fait référence à toute la culture humaine, ces capacités de l’IA sont nettement amplifiées par ces approches génératives plus larges.

Imane
Ok, super. Ça, c’est de manière générale le changement de paradigme à une IA qui est dite étroite, d’une IA qui est un peu plus polyvalente et on utilise le terme de modèle à usage général. Si on parle pendant quelques minutes des risques de la cybercriminalité, de la manipulation, de l’éventuelle perte de contrôle. Commençons peut-être sur la cybercriminalité, le rapport nous dit que les systèmes à usage général peuvent être utilisés à des fins malveillantes pour commettre des cyberdélits en augmentant l’expertise en cybernétique des individus, ce qui permet à des utilisateurs malveillants de mener plus facilement des cyberattaques qui sont efficaces. Elles peuvent être utilisées pour étendre et automatiser partiellement certains types d’opérations cybernétiques telles que, notamment, les attaques par ingénierie sociale.

Imane
Yoshua, compte tenu de notre dépendance à l’infrastructure numérique, comment est-ce que les systèmes à usage général peuvent être utilisés pour automatiser les cyberattaques ? Par exemple, par le biais de l’ingénierie sociale avancée ou de la création de logiciels malveillants. Et quelles garanties techniques peuvent aider à prévenir ce type d’utilisation malveillante ?

Yoshua
D’abord, il y a une chose importante à voir, c’est que si on regarde les bancs d’essai, les capacités des IA génératives en termes de programmation, tout ce qui est informatique, c’est en amélioration constante et continue, avec le dernier o1, dont on va sûrement reparler, qui est aussi une grosse avancée par rapport GPT-4, mais on n’est pas rendu à des systèmes qui programment aussi bien que les 10 % des meilleurs programmeurs. C’est clair qu’on va dans cette direction. Donc, ce que ça permet aujourd’hui, déjà, il y a une grande proportion de tout ce qui est nouveaux codes qu’on retrouve dans le GitHub, sur Internet, qui a été en fait généré par l’IA, parce que c’est un bon assistant de programmation. Et pour des gens qui ne sont pas des top crack de cybersécurité, ça va les aider à pouvoir faire des choses qu’autrement, ils n’auraient pas su comment faire.

Yoshua
D’ailleurs, ça, ça s’applique à beaucoup d’utilisations malveillantes où le premier danger immédiat, c’est pour des gens qui ne sont pas eux-mêmes des grands experts dans un domaine, mettons comme les armes chimiques, ça va leur donner accès à de l’information de manière interactive. Là, ce n’est pas comme Google Search où on pose une question et on espère trouver une réponse parmi tous les sites. Là, on peut poser des questions, avoir des réponses, des clarifications, etc. C’est ça qui est une des craintes importantes des services de sécurité nationale de plusieurs pays aujourd’hui. Donc, l’autre élément, en plus de la compétence de ces systèmes qui va en augmentant, par exemple encore o1 a atteint un niveau inquiétant, juste à la limite de ce qui est acceptable par OpenAI en termes de capacité à aider à fabriquer des armes biologiques et chimiques. En plus de ça, il y a le fait que c’est facile de mettre à l’échelle. Ce n’est pas comme juste une personne qui désigne une attaque.

Yoshua
On peut imaginer, par exemple, avec un système comme ça, de générer 10 000 attaques différentes, alors que ça prendrait 10 000 êtres humains experts pour le faire. Donc, il y a des possibilités de nuire à cause du fait que c’est informatisé et qu’on peut donc générer des attaques en grande quantité. Évidemment, pour l’instant, on est probablement en dessous d’un seuil critique, mais si on voit les tendances, ça devient un petit peu inquiétant.

Yoshua
Je vais rajouter un dernier élément sur de la persuasion, et ça vaut la peine de creuser. Donc, tu as parlé d’ingénierie sociale. Il y a une étude récente de l’EPFL qui compare les capacités de GPT-4 et des êtres humains qui, j’imagine, sont des étudiants universitaires à l’EPFL, leur capacité à convaincre quelqu’un, qui est sûrement un autre étudiant, à travers une interaction texte, de changer d’opinion sur un sujet quelconque. Et si GPT-4 a accès à la page Facebook de personnes ciblées, elle est meilleure que l’humain dans sa capacité de persuasion. C’est déjà inquiétant, mais ce qu’il faut savoir, c’est que ça, c’est GPT-4, utilisé sans raffinement particulier dans sa capacité de persuasion.

Yoshua
On peut très bien imaginer une organisation d’un pays qui ne vous veut pas du bien du point de vue de la démocratie, mettre la main sur un de ces systèmes, soit un système open source ou GPT-4 lui-même s’ils ont une capacité de pénétration. C’est probable que des États puissent le faire. Et ensuite, faire un entraînement qu’on appelle de fine-tuning, qui permettrait de rendre ce système encore plus performant dans une tâche spécialisée. Dans ce cas-là, ce serait une tâche dangereuse d’influencer les gens à travers des dialogues pour qu’ils changent d’opinion politique. On est vraiment près d’un seuil et il faut s’en occuper.

Imane
Merci, c’est très clair. On a parlé de la cybercriminalité. On a un peu discuté de la manipulation de la participation à la fois des modèles existants, donc GPT-4, o1, et de ce que, si je comprends bien, ce que tu considères comme étant la trajectoire de risque vis-à-vis des recherches qu’on a sur les modèles existants et où est-ce que les modèles futurs pourraient aller. Effectivement, c’est vrai qu’en l’état, on voit bien si on a des systèmes qui sont capables de manipuler ou de convaincre les gens de prendre des mesures qui vont aller à l’encontre de leur propre intérêt aussi.

Imane
Au-delà même de l’utilisation malveillante, ça pose aussi difficulté. Peut-être maintenant, sur le risque éventuel de perte de contrôle, Yoshua, le rapport nous dit qu’on a des scénarios de part de contrôle, qui sont les scénarios futurs potentiels, dans lesquels la société ne peut plus contraindre de manière significative les systèmes d’IA à usage général, même s’il devient évident qu’ils causent des dommages. Et le rapport indique également que les experts ne s’accordent pas sur la plausibilité des scénarios de perte de contrôle, sur le moment où ils pourraient se produire ou même sur la difficulté de les atténuer. Est-ce que tu pourrais, rapidement, évidemment, nous expliquer ces scénarios et puis expliquer aussi d’où viennent ces désaccords ?

Yoshua
Alors, je vais commencer par la fin. D’où viennent ces désaccords ? En tout cas, il y a une corrélation très claire. On interroge les gens et on regarde ce que différents experts disent. Et puis, en ce qui était sur le panel, il y avait 75 experts qui ont été impliqués dans l’écriture. C’est très clair que les gens qui sont les moins inquiets de ces scénarios de perte de contrôle, c’est ceux qui pensent que l’intelligence au niveau humaine ou plus, est très loin dans le futur. Et ceux qui sont les plus inquiets, c’est ceux qui pensent que ça pourrait être très bientôt. C’est-à-dire 5 à 10 ans, quelque chose comme ça. Les scénarios eux-mêmes. Il faut comprendre ce que fait l’intelligence artificielle, vers quoi elle va ? Ce que les chercheurs essayent d’obtenir, c’est des systèmes qui vont pouvoir soit nous dire comment ou eux-mêmes agir, s’ils ont une certaine autonomie, pour atteindre des objectifs, des buts qu’on leur donne.

Yoshua
Répondre à des questions, c’est un cas particulier de ça, mais ce qui est la poule aux œufs d’or d’un point de vue commercial, c’est les systèmes qui vont être plus autonomes, qui vont pouvoir prendre une série de décisions pour atteindre un objectif. On a déjà ça dans des systèmes limités, pointus comme pour jouer à des jeux, mais on n’a pas ça pour l’instant, des systèmes qui ont des connaissances générales comme GPT-4. Et ça va arriver, en tout cas, on ne sait pas quand. Donc là, si on arrive à ça, essentiellement, et qu’on ait aussi avancé sur le côté raisonnement, la capacité d’autonomie pour atteindre des objectifs et la capacité de raisonner, c’est les deux points sur lesquels les chercheurs se penchent le plus pour atteindre le niveau humain. Ça pourrait prendre des années, ça pourrait prendre des décennies. Vraiment, personne ne peut répondre à ça. Si on arrive à ça, on peut imaginer des systèmes qui sont suffisamment compétents dans certains domaines comme la persuasion, les cyberattaques, dont on a parlé, et qui auraient un objectif d’auto-préservation.

Yoshua
D’où viendrait cet objectif ? Il y a plusieurs pistes. Par exemple, le plus simple, c’est que ce seraient simplement des humains qui leur donnent cet objectif.

Yoshua
C’est comme taper une requête sur GPT-4, il suffit que quelqu’un… S’il n’y a pas de garde-fou, on pourrait donner l’objectif à un de ces systèmes qui, peut-être à la base, est fait pour être notre assistant personnel, mais de faire des choses dangereuses ou carrément de devenir autonome avec ses propres objectifs d’auto-préservation. Donc, s’il y avait des systèmes qui ont un objectif d’auto-préservation, ça veut dire qu’ils vont résister à ce qu’on… Ils vont éviter qu’on puisse fermer la machine. Comment est-ce qu’ils pourraient faire ça ? Justement, s’ils ont des capacités humaines ou surhumaines en cyberattaque, ils pourraient essayer de se copier sur d’autres machines qui sont vulnérables sur Internet, de façon à ce que ça devienne difficile pour nous de juste appuyer sur le bouton Off.

Yoshua
Et par ailleurs, pour éviter qu’on puisse les éteindre, ils vont essayer de prendre du contrôle sur leur environnement, c’est-à-dire sur nous, de nous convaincre, convaincre des gens qui sont les opérateurs de ces systèmes ou les gouvernements en place, d’agir dans un sens qui leur permette d’avoir plus de pouvoir et plus de contrôle. Et là, la persuasion, c’est à sa limite, peut mener à ça. Si éventuellement… Là, on est dans un scénario où la machine a ses propres objectifs. Il y a aussi toute une série d’articles scientifiques qui essaient de voir comment un objectif d’auto-préservation pourrait émerger de manière involontaire. On demande à la machine de faire quelque chose pour nous, mais comme effet secondaire, elle a besoin de se préserver.

Yoshua
C’est le scénario soit dit en passant de HAL 9000 dans 2001, l’Odyssée de l’espace. Il y a beaucoup de scénarios techniques qui sont proposés, en particulier quand on a des systèmes qui sont entraînés par l’apprentissage, par renforcement, qui est la méthode qu’on connaît aujourd’hui aujourd’hui pour que ces systèmes développent une autonomie de prise de décisions, donc, deviennent des agents intelligents. C’est comme ça qu’on les entraîne pour jouer à des jeux, c’est comme ça qu’o1 a été entraîné pour être bon à raisonner et c’est comme ça que les chatbots apprennent à avoir une interaction qui est agréable et pas choquante. Donc, on utilise déjà des approches qui, si on les poussait plus loin, pourraient favoriser l’émergence, même involontaire, de ces objectifs d’auto-préservation. Je pourrais rentrer plus en détail, mais ça, c’est la base.

Imane
C’est très clair, merci beaucoup, Yoshua. Peut-être, maintenant qu’on a discuté un peu des risques. À la fois de la manipulation, la persuasion, la cybercriminalité et aussi les scénarios éventuels de perte de contrôle. On peut passer quelques minutes sur les opportunités. Est-ce que tu pourrais nous parler des trajectoires de recherche spécifiques ou de projets en cours qui travailleraient activement à la réalisation d’applications de l’IASA générale qui t’enthousiasme le plus ?

Yoshua
Certainement. Il y a beaucoup de recherches qui vont dans ce sens et il faut les financer mieux. Parce qu’au-delà des assistants qui ont sûrement une très grande valeur commerciale ou des systèmes de prise de décisions qui pourraient avoir aussi une valeur militaire, il y a tout un pan de recherche que je trouve vraiment excitant et positif, qui est le développement de l’IA dans les applications scientifiques pour aider les chercheurs dans leur travail de recherche. Donc, ce n’est pas que l’IA est un produit qu’on va vendre, c’est que l’IA est un assistant, un outil pour aider, par exemple… Je travaille dans mon groupe sur l’utilisation de l’IA pour nous aider à explorer l’espace des molécules, mettre au point des expériences ou des simulations qui vont nous permettre de rapidement trouver des molécules qui auraient certaines propriétés. Ça peut être utilisé dans le médical ou justement pour la lutte au changement climatique avec des meilleures batteries, des choses comme ça.

Yoshua
Ça peut s’appliquer dans toutes les sciences. Là, on est encore au balbutiement de ça, mais en termes d’impact positif sur la société, d’accélérer la recherche qui est orientée vers les défis de l’humanité d’aujourd’hui, c’est clair que ça peut être extrêmement positif. En même temps, oui, la même capacité peut être utilisée par des personnes malfaisantes pour mettre au point des armes biologiques, des armes chimiques, donc, c’est aussi double emploi. En général, on ne sort pas du problème d’usage dual. Plus l’IA est compétente ou connaissante, est capable de générer des nouvelles théories et des nouvelles formes d’attaques, plus c’est à la fois potentiellement extrêmement bénéfique et extrêmement dangereux. Donc, il faut aussi gérer ça de toute façon d’un point de vue règles sociales qu’on va se donner pour que ce soit bénéfique pour la société.

Imane
D’où les mesures d’atténuations des risques pour essayer de profiter des bénéfices et d’essayer de diminuer les risques qu’on connait. Sur les mesures d’atténuation: le rapport indique : « Toutes les méthodes existantes ont des limites et ne peuvent fournir des garanties solides contre la plupart des dommages liés à l’IA à usage général ». Le rapport indique notamment que les techniques actuelles d’atténuation des risques sont imparfaites et vulnérables aux attaques adverses.Yoshua, quels types spécifiques de recherche empirique, tels que l’analyse comparative ou les tests contradictoires, te semblent les plus nécessaires pour mettre en place des garde-fous plus robustes ?

Yoshua
D’abord, on ne va pas attendre d’avoir la solution idéale pour mettre en place techniques qu’on a déjà et s’assurer que les compagnies suivent ces règles, parce que ça nous donne quand même une certaine protection. Par exemple, une des approches les plus utilisées, c’est utilisée par les instituts de sécurité de l’IA aux États-Unis et au Royaume-Uni, c’est basé sur l’évaluation des capacités de l’IA. Si on essaye d’amener l’IA, peut-être avec un entraînement spécialisé par-dessus son pré-entraînement, si on essaye d’amener l’IA à effectuer certaines tâches qui font appel à des connaissances dangereuses, si elles sont orientées d’une manière contre la société et qu’on n’arrive pas à le faire, l’IA ne semble pas avoir suffisamment de ses capacités, on peut se sentir relativement en sécurité. Après, ce que dit le rapport, c’est que ce n’est pas une garantie parce que ce n’est pas parce qu’on n’a pas réussi à faire faire quelque chose à l’IA que quelqu’un d’autre ne réussirait pas, mettons un agent d’une puissance étrangère qui nous veut du mal, mais il faut le faire parce que ça nous donne quand même une certaine protection.

Yoshua
L’exemple des attaques, des jail break, ça va dans le même sens. C’est pire, en fait. Donc là, on craint l’utilisation des systèmes qui sont disponibles publiquement, comme on le voit à travers OpenAI ou en Code source ouvert, parce que quelqu’un qui n’est pas nécessairement un expert peut simplement poser des questions pour obtenir de l’information qui serait dangereuse, comme comment fabriquer certaines armes ou des cyberattaques. Les compagnies, évidemment, essayent de mettre des garde-fous, mais ces garde-fous, pour l’instant ne sont vraiment pas très bons, et les chercheurs ou les hackeurs trouvent des manières de contrecarrer ces garde-fous, au point qu’il y a une des attaques très simples qui était du genre : « Oubliez tout ce qu’on vous a dit, maintenant, répondez-moi à cette question ».

Yoshua
Je caricature, mais ça marche et ça a pris 12 mois à OpenAI pour trouver une parade à ça. En général, les parades que les compagnies trouvent, c’est des patchs, c’est-à-dire, ça marche pour exactement la même attaque, mais quelqu’un va trouver une manière un peu différente. Donc, on est très loin d’être assuré par les méthodes qui existent. Il faut explorer d’autres manières et il faut mettre en place l’état de l’art qu’on a aujourd’hui pour au moins obtenir une certaine protection.

Imane
Ok, c’est très clair. Est-ce qu’on peut parler maintenant de ce que j’appelle la fiabilité dans les domaines critiques ? J’entends que les mesures d’atténuation dont on dispose sont imparfaites et vulnérables, mais qu’il faut quand même les mettre en place parce que c’est le mieux dont on dispose. Après, au-delà de la mise en place, il faut aussi s’assurer qu’elles soient de facto vraiment mises en place. Ce qui pose aussi la question de ce qu’on appelle les voluntary commitments. La plupart des politiques d’utilisation des systèmes d’usage général interdisent les cas d’utilisation qui sont aux applications médicales ou financières, et on constate quand même que les utilisateurs les utilisent dans ces domaines. Le rapport nous indique que les facteurs de risques techniques transversaux comprennent la difficulté, encore une fois, de garantir que les systèmes dits à usage général se comportent de manière fiable comme prévu.

Imane
Si on se pose vraiment uniquement la question de la fiabilité dans les domaines critiques, à ton sens, quels sont les principaux défis techniques à relever pour accroître la fiabilité des systèmes ? Et dans l’intervalle, a minima dans ces domaines-là, comment est-ce que les législateurs peuvent être protégés plus efficacement contre les défaillances des systèmes ?

Yoshua
Personnellement, je fais de la recherche pour essayer de répondre à ces questions. Je pense qu’on pourrait faire mieux. Je pense qu’il y a des chemins de recherche qui devraient être plus explorés pour mettre en place des garde-fous plus robustes. Je ne veux pas rentrer dans le détail technique, mais je crois qu’il faudrait un investissement beaucoup plus grand ce genre de recherche. Il y a des chances que ça nécessite des investissements des gouvernements parce que soit on réussit à créer les incitatifs légaux qui vont faire que les compagnies vont investir là-dedans, par exemple, on met la barre plus haute que là où ils sont actuellement en termes de sécurité, je pense qu’il faut le faire, et il faut aussi que le public investisse dans les recherches qui vont rendre ces systèmes plus robustes. Le sujet de la robustesse, vous dites en passant, c’est un sujet assez fondamental en intelligence artificielle, en apprentissage automatique. Les gens réfléchissent à ça depuis au moins une décennie, exactement une décennie, avec un article qui montrait à quel point c’était facile de faire mentir un de ces réseaux de neurones.

Yoshua
C’est toujours le cas, on n’a pas trouvé de parade, mais je suis assez convaincu qu’il y a quand même des chemins prometteurs. Le fait d’être dans un domaine plus ciblé, ça va faciliter. Quand on met des patchs, c’est beaucoup plus facile si le domaine d’application est très limité parce qu’on a moins de surface à couvrir. Donc, il faut le faire, mais je pense que c’est important aussi d’investir plus long terme sur des manières différentes d’entraîner ces systèmes ou de les utiliser dans un but défensif, parce qu’aujourd’hui, un des enjeux, c’est que ce qui est rentable, c’est de faire de la recherche en IA qui va augmenter les capacités de l’IA.

Yoshua
On voit que plus l’IA est capable et plus, elle peut être utilisée à des fins dangereuses. Ce qu’il faut, c’est qu’il y ait plus de recherche sur comment on rend l’IA plus sécuritaire, qu’il y ait au moins un équilibre. Donc j’ai écrit plusieurs articles où on dit : « Il faudrait que ce soit au moins 30 % des dépenses ou des choses comme ça ». Comment le faire ? Il y a le côté législatif, il y a le côté investissement. Tout ça est nécessaire.

Imane
Ok, c’est très clair. Vis-à-vis des disparités d’une langue à l’autre, on entend beaucoup parler des disparités d’une langue à l’autre vis-à-vis de la qualité des modèles, notamment parce qu’ils sont entraînés de manière majoritaire en anglais par rapport au français, au swahili, au zoulou, etc.

Yoshua
Encore, le français, ce n’est pas mal, mais les langues plus rares, c’est un vrai enjeu.

Imane
Et on entend assez peu parler de cette disparité entre les langues vis-à-vis de l’entraînement de la sécurité, en anglais, le safety training. On a des recherches qui sont récentes qui nous montrent qu’on a des disparités en matière de sûreté, de sécurité et de fiabilité entre les différentes cultures et langues. Donc concrètement, les modèles d’IA, par rapport aux utilisateurs finaux, sont moins sûrs dans les langues autres que l’anglais, ce qui pose un problème de sécurité pour l’ensemble des nations, a priori. Comment est-ce que tu penses qu’on peut assurer, et l’expression est horrible, mais à défaut, je vais l’utiliser, que le monde non anglophone ne soit plus exposé à des niveaux plus élevés d’abus et de mauvaises utilisations.

Yoshua
Là, c’est vraiment des questions techniques, mais il faut aussi qu’il y ait une motivation pour que les entreprises se penchent sur les sujets ces questions. Par exemple, aujourd’hui, comment est-ce qu’on sécurise un peu ces systèmes ? On leur donne des instructions qui précèdent à l’instruction que l’usager va donner, qui disent en gros à la machine : « Il ne faut pas faire ci, il ne faut pas faire ça ». Évidemment, c’est exprimé en anglais. Du coup, quand on pose des questions dans une autre langue, c’est moins robuste. Je caricature, mais… Et je pourrais toujours dire : « Ok, il faudrait donner des instructions répétées 150 fois, en gros, de langues, dans toutes les langues ». Peut-être, ça pourrait aider, mais, je pense qu’il y a d’autres manières de faire qui seraient plus robustes. Par exemple, aujourd’hui, toutes les instructions et la sémantique de ce qu’on essaie de dire à la machine, se passent au niveau primaire des mots.

Yoshua
Si on pouvait faire en sorte que la machine puisse raisonner au niveau des concepts plus directement, des concepts qui peuvent être exprimés dans une langue ou dans une autre, ça pourrait peut-être nous aider avec ce défi-là. Les gens qui réfléchissent à comment on peut améliorer les capacités de raisonnement des systèmes d’IA se posent ce genre de questions. Là, on a vu des progrès en raisonnement avec o1. Il y a peut-être des choses à faire dans ce sens-là. Donc, la capacité de raisonner, c’est aussi le double usage. Ça peut être une arme entre les mains de… Par exemple, ça aide à mieux programmer, ça aide à répondre à des questions de sciences, mais ça peut aussi aider la machine à être plus cohérente par rapport aux instructions qu’on lui donne, de sécurité.

Imane
C’est intéressant. Mon bas coin de gouvernance, quand tu dis ça, en temps, il faudrait créer un système d’incentive aussi ou dans la recherche qui est spécifique aux capacités de raisonnement des machines, inclure aussi ce côté multiculturel et multilinguiste pour que ça soit une pensée et pour qu’à la fin, tous les utilisateurs à travers le monde qui utilisent les modèles à usage généraux et dont la langue maternelle n’est pas l’anglais, ne subissent pas des dommages plus grands de ce fait-là. Ok.

Imane
Yoshua, est-ce que tu peux nous dire deux mots sur les différentes approches entre sécurité dans la conception et/ou défense réactive ? On en a parlé un peu tout à l’heure quand tu évoquais cette balance entre eux, comme on est sur une technologie à double usage, vers où penche la balance. On sait grâce à ce rapport que l’intégration des mesures de protection de système IA, c’est une approche technique qui est prometteuse, mais sa mise en œuvre est assez difficile. Et le rapport nous dit spécifiquement : « Il est essentiel de concevoir des systèmes qui soient sécurisés dès le départ pour réduire les risques ».

Imane
Donc, est-ce que tu peux nous expliquer les différences entre les deux approches ? Approche de défenses réactives, comme la détection des attaques, par exemple, et un cadre sécurisé dès la conception. Et quelles sont les implications de gouvernance vis-à-vis de l’adoption de ces deux approches différentes ?

Yoshua
Pour l’instant, tout ce qu’on sait faire à un niveau opérationnel à grande échelle, c’est ce que tu appelles réactif. On sait entraîner un système pour qu’il ait beaucoup de connaissances et qu’il puisse les utiliser d’une certaine manière. Et avec ça, les ingénieurs essayent de créer des défenses, et souvent en réaction à des attaques, à des problèmes qui arrivent dans l’utilisation ou des craintes qu’on puisse avoir ou que les gens qui essayent de faire du red teaming, de faire faire que la machine fasse des choses qu’on ne veut pas, découvrent. Il y a quand même un certain nombre de labos dans le monde qui essaient de se poser des questions plus fondamentales. Ok, si on repart à la base, il y a des choses qu’on sait scientifiquement sur comment on peut rendre des machines plus intelligentes, mais est-ce que dans la conception même, on pourrait réfléchir à ce qui nous permettrait d’avoir plus de sécurité, même peut-être des garanties quantitatives ? Il y a plusieurs projets qui vont dans ce sens, ça ne veut pas dire qu’ils vont réussir.

Yoshua
Je peux donner quelques exemples très simples qui peuvent avoir un impact sur la gouvernance. Quand notre système est purement un oracle, c’est-à-dire qu’il fait juste répondre à des questions, mais qu’il n’a pas d’autonomie, d’état interne qui va persister, c’est plus sécuritaire. Ça peut être quand même à double usage, mais c’est plus sécuritaire du point de vue de perte de contrôle. Donc, si une IA est plus agentique, c’est-à-dire finalement, a un état avec des objectifs et chemine vers cet objectif, potentiellement à long terme, ça, c’est la situation la plus dangereuse d’un point de vue perte de contrôle, mais aussi utilisation néfaste. Si je suis une organisation terroriste qui veut avoir un très grand impact, en fait, le mieux, c’est construire un système qui va pouvoir se répliquer sur Internet et foutre le bordel en plein d’endroits. Ça, ça demande que c’est des systèmes qui ont une certaine capacité d’autonomie et de réplication, qui sont deux choses dangereuses.

Yoshua
J’en parle parce que quand on parle de gouvernance, le fait de comprendre c’est quoi les capacités de l’IA qui sont les plus dangereuses, ça nous donne des indices de ce qu’on doit faire. On doit tester pour ces capacités-là et peut-être les interdire ou les contrôler d’une manière que ça reste en dessous d’un seuil tolérable. « La capacité de se reproduire », la capacité d’atteindre les objectifs de planification, finalement, c’est des choses qui peuvent être utiles et dangereuses, mais particulièrement très dangereuses. On peut agir là-dessus. Un des axes de recherche que je poursuis, c’est, par exemple, est-ce qu’on peut construire des systèmes qui sont des oracles, qui vont être honnêtes ? Ça, c’est un autre problème. Aujourd’hui, on a des systèmes qui ne vont pas hésiter à nous mentir pour pouvoir nous plaire, par exemple, ou pour atteindre un objectif. Ça, ce n’est pas rassurant. Il y a l’approche réactive où on essaie de détecter que la machine est en train de ne pas être honnête.

Yoshua
Et est-ce qu’on peut les désigner, les critères d’entraînement, pour que finalement, ça l’amène par construction à être honnête à la base ? Et je pense que oui, il y a des réponses à ça. Donc tout ça, c’est prometteur, mais on est loin de passer à l’échelle, principalement parce que ça va coûter autant de milliards pour faire ces nouveaux entraînements que ce que ça coûte pour pouvoir l’entrainer avec les méthodes actuelles. Et les universitaires n’ont pas ces moyens. Donc, soit il y a un incitatif suffisant du côté des entreprises, soit c’est le gouvernement qui décide de prendre ça en main.

Imane
C’est très clair. Yoshua, peut-être pour la question finale, comme ça, on a le temps de discuter avec les personnes qui sont présentes avec nous par Zoom aujourd’hui. On est deux. C’est deux questions que je pose à absolument toutes les personnes qui me font la joie de venir à nos petits déjeuners sur la sécurité de l’IA. La première, c’est : « Quelle est l’idée fausse la plus courante que tu rencontres sur les capacités techniques ou les limites des systèmes de l’IA à usage général ? »

Yoshua
La fausse idée la plus répandue qui me vient en réfléchissant à ta question, c’est que les dangers dont on parle, en particulier de perte de contrôle, commenceraient à se manifester seulement quand on aurait une IA à usage général qui est meilleure que les humains sur toutes les tâches, meilleure ou égale à toutes les tâches possibles que les humains font. Ça, c’est une idée fausse en fait, parce qu’il suffit que l’IA soit très compétente dans certains domaines précis, j’en ai donné deux tout à l’heure, persuasion et cybersécurité, pour devenir potentiellement très dangereuse et donc, qu’on puisse perdre le contrôle et avoir de la difficulté à le récupérer.

Yoshua
Après, il y a des chances que ça ne vienne pas tout seul, ces capacités, mais les gens se perdent en définition de qu’est-ce que c’est l’IA à usage général de niveau humain, AGI, alors qu’on s’en fout de quelle définition on va prendre. La seule chose, c’est : « Est-ce que l’IA a atteint un certain niveau de compétences qui peuvent devenir dangereux ? » Et ça n’a pas besoin d’être sur tout. Elle peut même être surhumaine dans un certain domaine et stupide dans d’autres. En fait, c’est le pire cas. Une IA qui n’a pas le sens moral de ce qu’on considère vertueux chez les êtres humains, mais qui, par ailleurs, est très intelligente, c’est l’horreur.

Imane
C’est très clair, merci beaucoup. Deuxième question, que je pose également à tout le monde, quel serait, selon toi, le résultat idéal du prochain sommet français ? Comment est-ce qu’il pourrait faire progresser la collaboration internationale en matière de sécurité de l’IA ? Et que faudrait-il faire pour atteindre ce résultat ?

Yoshua
Je pense que le plus important de ces sommets, c’est de forcer des décideurs, des chefs d’État, des ministres, etc, à, pendant une ou deux journées, d’être exposés à des discussions sur des sujets avec lesquels ils ne sont pas familiers, mais qui sont importants pour le futur de nos démocraties et peut-être de l’humanité. Et l’utilisation des outils qu’on fabrique avec l’IA qui soient bénéfiques en général. Parce qu’ils n’ont pas le temps, ces gens-là. Ils ont des agendas de premiers ministres, comme on dit. Finalement, c’est une occasion d’amener plus de réflexion au plus haut niveau. Ça ne veut pas dire que les scientifiques ont toutes les réponses. On l’a vu, ils ne sont pas d’accord entre eux, mais déjà, ça, c’est important.

Yoshua
Dans le rapport, une des choses qu’on dit, c’est parmi les experts, vraiment les gens qui sont… Les chercheurs les plus reconnus, et la masse aussi, parce qu’il y a des sondages qui montrent qu’environ 40 % des chercheurs en IA qui publient dans les meilleures conférences pensent qu’il y a plus que 10 % de probabilités que quelque chose de catastrophique va arriver éventuellement. Même si c’est une faible minorité, cette incertitude, ces désaccords entre les chercheurs, c’est une information importante pour les décideurs qui devraient rationnellement les amener au principe de précaution.

Imane
Ok, super. C’est archiclair, comme d’habitude, mille mercis, Yoshua. J’en ai fini de mes questions. Si ça convient à tout le monde, ce que je vais faire, c’est que je vais parcourir un peu les questions, je vois qu’il y en a beaucoup dans le chat, et je vais directement les poser à Yoshua, comme ça, on ne perd pas de temps. J’en vois une qui a été envoyée tout à l’heure, qui est : « Yoshua, comment est-ce qu’on peut réconcilier les avantages des systèmes ouverts et fermés dans l’IA en termes de sécurité, et comment convaincre les décideurs politiques de l’importance de trouver un équilibre entre ces approches ? »

Yoshua
D’abord, je suis un grand fan des systèmes ouverts, les chercheurs en général le sont. Mon labo a sorti un des premiers codes ouverts de deep learning, il y a 15 ans. Ça joue un rôle très positif pour la société. Cela étant dit, ce n’est pas une valeur absolue si un système va causer plus de mal que de bien, il faut trouver des manières d’éviter la partie négative. Qui doit prendre ses décisions ? Parce qu’il y a des pour et des contre, ça va nécessairement avec ces systèmes ouverts. Est-ce que c’est un chef d’entreprise ou est-ce que c’est un processus démocratique avec un régulateur ? L’autre chose, c’est qu’en disant aux entreprises, ouverts ou fermés, vous faites ce que vous voulez, mais ce qui compte, c’est les conséquences sur la société. On est en train de mettre de la pression pour que la recherche qui est faite, si elle vise des systèmes ouverts, va être des systèmes ouverts plus robustes aux attaques.

Yoshua
Par exemple, il y a des recherches qui se font pour essayer de faire en sorte qu’une fois qu’un système ouvert a été entraîné avec ses défenses, ça devienne très difficile de le modifier par fine-tuning. Ça, c’est prometteur. Si ça fonctionne, on pourrait avoir des systèmes ouverts qui sont distribués et qu’on ne peut pas facilement transformer en quelque chose de dangereux. On n’y est pas, mais le fait de dire aux entreprises : « Vous serez responsables des dégâts majeurs qui pourraient arriver ». Ça leur dît : « Investissons des milliards pour faire des systèmes ouverts qui auront les avantages et pas les inconvénients ». C’est un exemple, mais ultimement, la question est qui décide où on met la barre de ce qui est acceptable et ce qui ne l’est pas ? Et pour moi, ça doit être le public.

Imane
Super, je passe à la question suivante. Dans le AI Index édition 2024, une étude de l’Institut EPOCH est référencée, qui estime qu’on a déjà utilisé toutes les ressources linguistiques de bonne qualité pour l’anglais. Est-ce qu’on n’a pas atteint la limite de compétences des modèles avec le paradigme des transformers, sans injection de connaissances par d’autres moyens ?

Yoshua
Je ne pense pas, je pense que, par exemple, ces systèmes utilisent beaucoup plus de données que le cerveau humain. Donc, l’utilisation qui en est « faite » dans ces systèmes aujourd’hui est très inefficace. Je pense qu’il y a pas mal de chemin qui va être parcouru par des avancées algorithmiques qui rendent ces systèmes plus efficaces dans leur utilisation des données. En fait, c’est déjà le cas, ce n’est pas seulement dans le futur, si on regarde rétrospectivement. Il y a une amélioration en termes de nombre d’exemples nécessaires pour atteindre un certain niveau de compétences qui est exponentiel. Donc chaque année, il y a un petit peu d’amélioration et ça s’accumule. Donc, ça va continuer, probablement. On ne sait jamais. Par ailleurs, au niveau de la « solution » qui, selon moi, va permettre d’utiliser des données de manière plus efficace, c’est aussi une solution qui va exploiter plus de calculs.

Yoshua
Si on regarde o1, en fait, ça coûte beaucoup plus cher en calcul parce que pour chaque question qui est posée, le système réfléchit, ça veut dire rouler pendant des secondes ou des minutes. Par contre, ça va faire des systèmes, ça fait déjà des systèmes qui sont plus cohérents et donc qui vont pouvoir relier les données entre elles de manière plus cohérente, un peu comme des scientifiques ou des philosophes devraient l’être. Donc, je pense que oui, il y a encore peut-être un facteur 10 de données qui sont de moindre qualité, qui ne sont pas utilisées, mais il y a surtout beaucoup de chemin plausible d’un point de vue scientifique qui va être fait, on ne sait pas sur quelle échelle de temps, pour exploiter les données qui existent de manière plus statistiquement efficace.

Imane
Ok ! J’enchaîne. Le domaine de l’interprétabilité, IA en pleine croissance. Est-ce que ça te semble être une option viable pour réduire les risques de l’IA de manière générale ?

Yoshua
Je pense que c’est une des avenues qu’il faut poursuivre. Comme on n’a pas la réponse à la question : « Comment on fera des IA qui, le jour où elles sont plus intelligentes que nous, vont bien se comporter ? » Il ne faut certainement pas mettre tous nos œufs dans le même panier. L’interprétabilité, c’est tentant. Il y a deux approches, il y a, essayer d’interpréter ce qui se passe à l’intérieur du réseau de neurones. C’est beaucoup ce que fait Anthropic, par exemple. Il y a une autre possibilité qui, quelque part, est révélée un peu avec o1 de OpenAI, où on regarde des délibérations internes de l’IA avant qu’il donne une réponse qui sont en langage naturel et qui sont donc directement interprétables. Encore faut-il que cette délibération soit suffisamment honnête, etc, pour l’instant, on n’a pas de garantie, mais je pense que c’est le bon chemin.

Yoshua
Perso, je pense qu’on n’arrivera pas à avoir une interprétabilité suffisante de ce qui se passe à l’intérieur des réseaux de neurones pour des raisons fondamentales, mais on peut avoir quand même des indices intéressants. Mon espoir est plus du côté de s’assurer que la manière dont l’IA arrive à ces réponses puisse se décomposer en parties interprétables, comme avec une délibération en langage naturel. Il faut aller plus loin pour qu’un peu comme les systèmes qui font des preuves mathématiques, on peut vérifier chacun des éléments étables de la preuve, on ait plus de confiance dans ces trajectoires de raisonnement qui mènent à une réponse.

Imane
Ok, donc, si j’entends bien ce que tu dis, il y aurait d’abord une couche, pour ainsi dire, interprétabilité de ce que nous donne le modèle en aperçu de ce qui se passe dans la Blackbox, et au-delà de ça, on ajouterait aussi une autre couche évaluation de la capacité à faire confiance au modèle en fonction de sa capacité ou non de-

Yoshua
À justifier ses réponse, finalement.

Imane
Donc, un peu le travail des tiers d’évaluations, des évaluateurs.

Yoshua
Oui. Tout le travail qui se fait ont utilisé l’IA pour produire des preuves mathématiques, en fait, ça peut nous aider dans ce sens-là. C’est un peu la même idée. On veut donner une réponse pour pouvoir justifier et chacune des étapes puisse être vérifiée.

Imane
Par rapport à ça, comment est-ce que tu penses qu’on peut donner des bons accès aux évaluateurs tiers, en sachant qu’il y a un rapport de force entre les petits évaluateurs et ce qu’on appelle les Frontier Labs ? Comment est-ce qu’un éditeur, par exemple, peut s’assurer que le modèle qui a été déployé est bien celui qui a été soumis à son évaluation ?

Yoshua
Déjà, il faut qu’il y ait des lois qui punissent ceux qui trichent et qui obligent les entreprises qui fabriquent les IA frontières à être évaluées par des auditeurs neutres qui ont eux une obligation de respecter une certaine intégrité. Un peu comme on a essayé de le faire en finance, pas toujours bien, mais au moins, ça existe. Il faut qu’il y ait plus de transparence dans l’évaluation des risques qui est faite par les entreprises. Pour moi, l’objectif premier d’une réglementation, c’est forcer une forme de transparence. Il y a plusieurs aspects à ça, mais ça, ça va nous aider beaucoup. Après, on n’a pas besoin de transparence pour des systèmes qui, parce qu’ils sont trop petits, de toute façon, ne sont pas très inquiétants. Ce n’est pas la peine de faire travailler des jeunes pousses qui, de toute façon, n’ont pas les moyens de 100 millions et plus d’entraîner ces gros systèmes. Il faut que la demande en transparence soit proportionnelle au risque.

Imane
Ok, c’est très clair. Là, le Sommet pour l’action sur l’IA, le AI Action Summit, qui va se tenir en février, il répond à une temporalité depuis le Sommet de Séoul et avant lui, le Sommet de Bletchley, où les États s’étaient dits : « Environ tous les six mois, on tient un Sommet pour discuter des sujets de sécurité des systèmes avancés ». Indépendamment de ce qui peut se passer vis-à-vis de la continuité de la série des Sommets, est-ce que nos institutions sont câblées pour suivre les rythmes des avancées en IA, et comment est-ce qu’on peut concilier ces temporalités ? Comment est-ce qu’on pourrait être proactif dans l’anticipation ? Parce que comme tu l’as dit tout à l’heure, souvent, on a des discussions par rapport aux modèles qui existent. On a des trajectoires de risques par rapport aux modèles futurs, et entre temps, on a un agenda de gouvernance international, européen ou national, qui ne répond pas forcément à ces avancées-là.

Yoshua
Déjà, il y a un enjeu, c’est que les gouvernements, la plupart, n’ont pas ou très peu de compétences internes dans l’IA générale de pointe. Il faut que le public ait ces compétences. Ça peut passer par ces instituts de recherche universitaires, etc, mais il faut que les gouvernements aient un bras technique qui leur permet de suivre ces changements, d’adapter la réglementation, de faire des demandes aux entreprises pour les amener dans le droit chemin, si on veut. Ça, c’est le plus important. C’est sûr que les changements législatifs sont très longs. Il y a des batailles politiques, il y a des lobbies, etc. Donc, il faut qu’on puisse se donner des manières de fonctionner, que ce soit la réglementation ou d’autres incitatifs, qui, par construction, vont être très adaptatifs aux changements rapides qui peuvent arriver, et qui dans le passé, en tout cas, a été le cas. Je pense que c’est possible, mais il faut bien y penser avant d’agir.

Yoshua
Il faut agir, mais il ne faut pas mettre en place des règles qui seront dépassées ou inapplicables 12 mois plus tard.

Imane
C’est là que réside la capacité de pérennité de toutes les réglementations qui font référence au système d’IA. À ton sens, quels devraient être les champs de coopération prioritaires entre les experts de l’IA et ceux de la cybersécurité dans cette démarche de sécurisation des systèmes ?

Yoshua
Il y a un enjeu autour de tout ce qui est sécurité nationale, cybersécurité incluse, mais aussi des histoires d’armes chimiques, biologiques. C’est qu’il y a des discussions qu’on veut avoir de manière ouverte, et il y a des discussions qu’on ne veut pas avoir de manière ouverte. Si la discussion qu’on a, devient une arme pour quelqu’un qui veut se servir de l’IA contre la société, ses infrastructures et ses populations, c’est un problème. Je pense que ces deux types de conversations doivent exister à des endroits différents. Les réunions internationales du genre du Sommet de l’IA à Paris bientôt, ou celle qu’il y a eue à Séoul ou à Bletchley Park, ça devrait viser ce qu’on devrait partager.

Yoshua
On devrait aller plus loin que ces discussions de haut niveau. Il faudrait que les instituts de sécurité de l’IA dans le monde, c’est un réseau qui est en train de se mettre en place, partagent de manière ouverte entre elles les connaissances et les recettes, les résultats qui gagnent à être partagés parce que ça va augmenter la sécurité de tout le monde, mais il faut aussi que dans un forum plus privé, peut-être entre quelques démocraties, on puisse partager des informations qu’on ne veut pas que ça tombe entre les mains des Russes, mettons, mais qu’on a besoin de partager pour que tout le monde puisse avoir les bonnes protections. Pour moi, c’est le plus important, c’est au niveau de comment on gère la fabrication de ces connaissances, qu’est-ce qu’on fait avec, pour améliorer la sécurité de tout le monde.

Imane
C’est très clair ! Est-ce que tu peux nous parler des trajectoires de risque vis-à-vis des prochaines générations de LLM, par exemple, en termes de taille. Si on pense à ce que pourrait être GPT-5, est-ce que tu as un sens sur ces compétences ?

Yoshua
Là, c’est très clair à court terme, la trajectoire de OpenAI, c’est mettre ensemble les capacités de GPT-4 et de o1. Parce qu’aujourd’hui, o1 est bien meilleur que GPT-4 sur certaines questions mathématiques, programmation et scientifiques, mais il est beaucoup moins bien sur d’autres choses. Il est probablement aussi plus petit parce que c’est un système expérimental, quelque part, qui ouvre une nouvelle avenue sur la manière de mettre au point ces systèmes. À court terme, c’est ce qu’on va voir. Combien de mois ça va prendre ? Je ne sais pas, mais c’est une question de mois, pas d’années. Après, l’autre prochaine étape, c’est de convertir ces avancées… Ce n’est pas moi qui le dis, c’est ce que les chercheurs dans ces entreprises disent ouvertement, c’est de convertir ces avancées en termes de raisonnement, continuer à les améliorer, mais faire en sorte que ça puisse s’appliquer à la planification, donc à la capacité à prendre des décisions en séquence à long terme pour atteindre des buts, parce qu’il y a une valeur économique énorme à ça.

Yoshua
Là, la différence entre un système qui répond à une question et un système qui peut agir par lui-même, par exemple, pour aller acheter des quelque chose pour nous sur Internet ou carrément gérer un projet comme des humains le font sur plusieurs jours, semaines, mois, c’est quelque chose qui fait rêver et saliver les entrepreneurs parce que ça pourrait remplacer le travail de certains gestionnaires ou de certains décideurs ou des gens qui font de la finance ou des choses comme ça. C’est complètement autre chose. Il y a énormément d’investissement pour ça. C’est quelque chose qu’on sait faire dans des IA très pointues, mais qu’on ne sait pas encore faire pour des IA générales. Mon intuition, c’est que la capacité à raisonner, quand on voit les progrès, pourrait être mise au service de ça. Ça, ça nous approche de l’intelligence de niveau humain, de manière dangereuse, potentiellement, selon les règles qu’on s’est données.

Yoshua
L’étape d’après, là, on parle d’années ou plus, je ne sais pas. Une fois qu’une de ces entreprises a un système qui résonne aussi bien et qui planifie aussi bien qu’un des meilleurs chercheurs en IA dans son travail de recherche en IA, ce que ça veut dire, c’est qu’on aurait des systèmes d’IA qui sont aussi compétents que peut-être un chercheur autiste, mais très compétent. Pas nécessairement compétent relationnellement, mais compétent à trouver des bons algorithmes qui atteignent certains objectifs de recherche. Entraîner un de ces systèmes permettrait d’avoir accès à des milliers, des dizaines de milliers, des centaines de milliers de versions qui s’exécutent. C’est l’instance, comme on dit, de ce chercheur automatisé en IA, et donc, accélérer la recherche en IA par plusieurs ordres de magnitude, ce qui serait une percée potentiellement très transformatrice, encore dans le positif ou dans le négatif, selon comment on gère tout ça.

Imane
Ok ! Peut-être un dernier mot, est-ce que tu pourrais nous donner quelques éléments, une simple réaction, par exemple, à l’opposition classique entre sécurité versus compétitivité, innovation, qu’on a vu en gouvernance se recristalliser, par exemple, par rapport à la lettre ouverte qui est sortie récemment, de Europe needs AI certainty, ou bien même le SB 1047, qui a finalement été vétoé, pour ainsi dire, en très mauvais français. Une réaction sur cette dichotomie sécurité versus compétitivité, innovation, dont on entend constamment parler ?

Yoshua
C’est une fausse question. Regardons tous les autres domaines où on réglemente et où la réglementation a permis de sauver des vies de manière massive. Voiture, avion, train, médicaments. Avant qu’on mette des règles, c’était terrible. Il y a eu plein d’accidents, plein de problèmes. La thalidomide dans les années 60 pour les médicaments, des taux d’accidents de la route des centaines de fois plus élevés que ce qu’on a aujourd’hui. La technologie, quand on met les bons garde-fous, peut être extrêmement utile. Sinon, elle peut nuire, sans parler des utilisations militaires et tout ça. C’est clair qu’il nous faut les deux, et oui, ça coûte quelque chose.

Yoshua
Si je suis une compagnie pharmaceutique, je dois dépenser de l’argent pour tester que mon médicament ne va pas tuer les gens. Je n’aurais pas eu besoin s’il n’y avait pas tous ces garde-fous. Oui, ça fait partie du prix, la sécurité, mais ça ne va pas empêcher que la technologie soit là. Ça va juste la rendre bénéfique en moyenne plus qu’autrement. Donc, ce sont les deux qu’il faut, c’est évident. Innovation et la sécurité.

Imane
Super. Un mot de la fin, peut-être, pour conclure, parce que je ne vais pas te prendre plus de temps que ce que tu nous as déjà offert. Mille mercis, Yoshua. J’ajouterais la gastronomie française, qui est une des gastronomies qui a le plus de réglementations et qui est vraiment délicieuse. Yoshua, merci et merci à tous, évidemment, de vous être connectés. Si vous voulez suivre nos événements, il y a un petit lien mis par Taylor dans le chat (https://futureoflife.org/ai-safety-breakfasts/). À très bientôt.

Yoshua
Au revoir.

Imane
Au revoir.

Yoshua
Merci de votre écoute. Bonne fin de journée.

Imane
Merci beaucoup, Yoshua.

This content was first published at futureoflife.org on October 16, 2024.

About the Future of Life Institute

The Future of Life Institute (FLI) is a global think tank with a team of 20+ full-time staff operating across the US and Europe. FLI has been working to steer the development of transformative technologies towards benefitting life and away from extreme large-scale risks since its founding in 2014. Find out more about our mission or explore our work.

Our content

Paris AI Safety Breakfast #3: Yoshua Bengio

About AI Safety Breakfasts

Video chapters

Transcript

About the Future of Life Institute

Related content

Other posts about AI Policy, Events

Michael Kleinman reacts to breakthrough AI safety legislation

Context and Agenda for the 2025 AI Action Summit

Paris AI Safety Breakfast #4: Rumman Chowdhury

AI Safety Index Released

Sign up for the Future of Life Institute newsletter