Paris AI Safety Breakfast #2: Dr. Charlotte Stix

The second of our 'AI Safety Breakfasts' event series, featuring Dr. Charlotte Stix on model evaluations, deceptive AI behaviour, and the AI Safety and Action Summits.

Published:

October 14, 2024

Author:

Ima (Imane Bello)

This is the second of our ‘of ‘AI Safety Breakfasts’ event series, featuring Dr. Charlotte Stix from Apollo Research.

About AI Safety Breakfasts

The AI Action Summit will be held in February 2025. This event series aims to stimulate discussion relevant to the Safety Summit for English and French audiences, and to bring together experts and enthusiasts in the field to exchange ideas and perspectives.

Learn more or sign up to be notified about upcoming AI Safety Breakfasts.

Ima (Imane Bello) is in charge of the AI Safety Summits for the Future of Life Institute (FLI).

No recording of this event is available.

Chapters

Introduction and opening remarks
(Ommitted – Presentation from Charlotte)
1 – What are the limitations of model evaluations today, and how is Apollo trying to address these challenges?
2 – What are the potential risks of AI systems we should be most worried about, and how can evaluation organizations like Apollo help address these risks?
3 – In a world where downstream deployers of a model can add additional affordances to an AI system, how should we think about the role of evaluations that are performed on the upstream model?
4 – To what extent can model evaluations be automated or scaled? What are the trade-offs between automated and manual evaluations?
5 – What do you think is the trajectory of deceptive AI behavior? Do you think it’s a technical problem that will be fixed with the next generation of models, or should we expect models to become more deceptive?
6 – As an expert, is there anything that you wish was more common knowledge among policymakers, journalists, or the general public? Are there any common misconceptions about this topic that you frequently encounter and would like to address?
7 – What would you consider an ideal outcome for the upcoming AI Action Summit? How could it further advance international collaboration on AI safety?
8 – Audience Q: Could you say more about what you did for the UK AI Safety Summit? How did you engage with organizers? In general, what are your plans with the French AI Safety Summit? Could you do demos?
9 – Audience Q: OpenAI talks a lot about AI safety. Can you explain what important measure do they already take when they test their model and what more should we ask them to do?
10 – Audience Q: Can you explain what you’ve been doing for policy work for OpenAI? And how do you read the AI Act and the assessments that they put on big models? Do you believe there are good assessments?
11 – Audience Q: What can you tell us about the mechanisms you are applying at Apollo to prevent human limitations from affecting the evaluations you are conducting?
12 – Audience Q: What role do you think regulators should have to incentivize frontier AI developers to prioritize AI safety?

Transcript

You can view the full transcript below.

Transcript: English (Anglaise)

Imane
Please let me introduce Dr Charlotte Stix. Charlotte is Head of Governance at Apollo Research, an organization that is specialized in model evaluations focused on frontier AI capabilities. Previously, she led the efforts in public policy at OpenAI. Before that, she was also the coordinator of the European Commission High-Level Expert Group. We are very pleased that she could make it today. Charlotte, before we start and deep dive into the conversation, can you give us a picture of what evaluations are and why they matter?

Dr. Charlotte Stix
First of all, thank you so much for inviting me. I’m really pleased to be here and meet every one of you individually at some point after the introduction and after our questions here.

(Ommitted: Presentation from Charlotte)

Imane
All right. Thank you so much, Charlotte. I’d like to talk about the limitations of evaluations. When we take a look at the current models, different risks emerge from powerful AI systems and model evaluations are used to identify and assess potentially risky capabilities within a model. Your organization, Apollo Research, has called for a science of model evaluations because the current approach to model evaluations has severe limitations as a rigorous approach in terms of assessments of risk. Can you share more about what limitations you see and how Apollo is trying to address these challenges?

Dr. Charlotte Stix
Yes, absolutely. That’s a really good question.

Dr. Charlotte Stix
Essentially, one of the things we communicate a lot about is that people believe or there’s a general understanding that evaluations are sufficiently robust, and we can entirely rely on them. To your point, we currently cannot. There’s a big gap between what evaluations are, “supposed to fix for us,” when it comes to governance regimes, when it comes to, “Oh, if the evaluation says it’s good, then we can deploy the system” and what they can currently be relied on for.

Dr. Charlotte Stix
In short, there’s a lot of weight on the shoulder of evaluations versus what evaluations can actually tell you about an AI system’s capability and propensities right now. Not least because an evaluation can tell you when we see a dangerous capability, but it can’t tell you that it isn’t there at the moment. We have absence of evidence, but absence of evidence doesn’t really tell us that the model can’t actually do it, it isn’t evidence of absence, which is why we have an interpretability stream. If you want to talk about that, I can also talk about that, but that’s why we have this workstream at Apollo.

Dr. Charlotte Stix
When it comes to the science of evaluations, why we called for this or why we’re working on this is because most other assurance regimes in critical sectors have a process where you have the practitioners working at the frontier, learning all these things, learning the norms, learning what functions, learning best practices and sharing among them, eventually have the opportunity to translate that into best practices, and we’re somewhere on the stretch of that happening. Then eventually, that should influence regulation, that should influence how evaluators as well are being held to account.

Dr. Charlotte Stix
At the moment, you don’t really have a review of individuals or organizations that call themselves evaluators either. Now, it is possible to assess technical capabilities and skills, but we don’t have that at the moment. Eventually, where we want to head with the science of evaluations is to ensure that all the evaluations we do are robust and rigorous, and we can be confident in the result, and that they give us a predictability. They give us an upper bound of how dangerous that model could possibly be given available affordances, and so on, and we just do not have that at the moment. That is just because the field, especially for dangerous capability evaluations, is fairly nascent vis-à-vis evaluating for bias and fairness, even though, of course, there’s also still a lot of progress and funding necessary for that field.

Imane
Thank you. I really like this paradigm of absence of evidence versus evidence of absence. That’s very useful. I want to talk about the current and/or upcoming models. What are the potential risk of AI systems we should be most worried about, and how can evaluation organizations like Apollo help address this risk?

Dr. Charlotte Stix
I’m going to say something very simple, but historically, so far, more progress has led to more capable models. That is good, I guess, because we want capable models. There’s a general idea of we want to be able to outsource more things, more difficult tasks, uncomfortable tasks onto these models. The more capable they are, the more we can outsource it. That is just the general trajectory for upside and downside alike.

Dr. Charlotte Stix
Now, unfortunately, or maybe somewhat self-evidently, these capabilities come with also the downside capabilities of these models being more capable. They might eventually be more capable of modeling themselves in an evaluation and knowing they’re being tested, they might eventually be more capable of modeling the user and the designer and their desires. They’re just, colloquially speaking, they’re just smarter. And so that will, of course, lead to more risk and more need for control mechanisms and more need for testing.

Dr. Charlotte Stix
Just to give you a quick sense of different levels of threat vectors, I guess, that we’re thinking about at Apollo, and some of those I’ve shown you. One of them is insider threat. Insider threat really would be someone fine-tuning a model to effectively lie to you and hide its actions. Then we have misuse, which is something along the example of what I showed you with the hacker. Then we start having a broad range of different precursory capabilities under loss of control. What happens if the AI system itself starts to develop self-awareness, starts to develop theory of mind capabilities, and starts to think strategically about its goals?

Dr. Charlotte Stix
There is a pretty area of concerns coming very quickly in our direction as we ourselves are racing towards more capable AI systems and more progress. Again, this is just finding a balance between the progress and the safety element, really.

Imane
Thank you. Apollo Research has argued that the affordances of an AI system are particularly important, both in terms of the system impact and therefore the regulation that should apply. By affordances, you refer to tools, plugins, or scaffolding that extend the model capabilities, for example, by being able to run code or search the internet. In a world where downstream deployers of a model can add additional affordances to an AI system, how should we think about the role of evaluations that are performed on the upstream model?

Dr. Charlotte Stix
It’s a very important question, especially as evaluations are underpinning these governance frameworks. Usually what we think about is pre-deployment evaluation. Now, you can extend this in both directions. You can do, for example, a training design evaluation. You can audit the training design. You can think about, for example, running evaluations before internal deployment.

Dr. Charlotte Stix
At that point you already have that system deployed in some shape or form, if people could steal the model weights, or they could do something to the model and so on and so forth. Staff will engage with this model and there may be no or few safety mechanisms. Then you have pre-deployment evaluations, which currently is the main breaking point where people have focused on, which is where it gets “deployed into society”.

Dr. Charlotte Stix
But to your point about available affordances, which is also what I tried to say earlier in the presentation, the risk profile of an AI system can change and is very likely to change throughout its deployment until it gets decommissioned. That can mean, for example, it gets more available affordances. If it gets more available affordances, it is more capable, it can do different things, and it just is a different version of that model with different ability.

Dr. Charlotte Stix
What we would say and have said in that paper is you absolutely should re-evaluate what your model can do. A model that doesn’t have access to the internet and a model that has access to the entirety of the internet. I think we would all agree, those are two models capable of different things amd causing different types of risks, importantly.

Dr. Charlotte Stix
Something you could also do and should do is, in your evaluations, pre-deployment, and now that is difficult when you have different providers in the value chain, but I guess that will have to be, unfortunately, repeated. Sometimes, if the downstream provider changes the model significantly, that is if you want to be assured, that is what you have to do, you can evaluate for, “Okay, what are the current capabilities of this model that it has, and what available affordances do we expect it to have in the environment it is deployed into?”

Dr. Charlotte Stix
Changes to available affordances or iterative updates, those should ideally necessitate a new evaluation, or generally speaking, potentially a whole new risk assessment regime.

Imane
Interesting. Thank you.

Dr. Charlotte Stix
Well, we want to be safe, right?

Imane
Yeah, we do. Of course. It’s just that that renders the whole evaluation picture rather more complex than most people would think of. All right, let’s talk about scaling model evaluations. For the evaluations of OpenAI newest model, Apollo has used a combination of automated assessments and manual analysis. To what extent can model evaluations be automated or scaled? What are the trade-offs between automated evaluations and manual assessments of AI behavior?

Dr. Charlotte Stix
Something that we use in our pipeline to automate is some tasks around model graded evaluations, grading the outcome and having models write parts of the evaluation. That goes to say, have models write the blurb that the user says in the evaluation scenariops, to have 10 different blurbs, 100 different blurbs and so on but really quickly. There is, generally speaking, a drive towards automating more of the evaluation pipeline, and there is a big need for evaluations.

Dr. Charlotte Stix
Having said that, of course, to your point, there is a trade-off between speed and rigor. You may want to use models to help you do some of the simple repetitive tasks that don’t really… I want to take this with a grain of salt, that don’t really matter that much. Then have the human evaluator, the domain expert, actually both create the environments and the tasks and review at the very end the elements that are of true importance to the result and quality of that evaluation.

Dr. Charlotte Stix
There is a trade-off as to how much you can right now, reasonably, and more importantly, want to automate in this process. Especially, again to the earlier point, we want to outsource things to AI systems because we don’t want to do the exhausting, annoying tasks. Here, too, we need to be careful. If we run an evaluation on an AI system, we need to be careful which parts we also outsource about the evaluation to another AI system and how capable that AI system is.

Dr. Charlotte Stix
I think it’s just important to bear in mind, while there is a big appeal in automating evaluations because of cost and speed, it still requires a lot of clear thinking about what is sensible to automate in the processes. I can’t speak for other organizations’ evaluations, but that appears to be a general understanding in the community at the moment from what I know.

Imane
Thank you. Okay, we’ve talked about current models, affordances, scaling model evaluations. Let’s talk about the trajectory of risk. I’m asking because sometimes we may not be realizing that we’re having two different conversations. When we call out for certain types of risk, we’re not discussing the current models. We’re discussing the capabilities of future models based on an understanding of what the trajectory of risk might be.

Imane
Your organization, Apollo Research, recently featured the technical documentation of OpenAI new flagship model o1. The documentation describes that Apollo was given pre-deployment access to evaluate the model for risk of, as we’ve seen in the introduction, deceptive behavior. The results shared by OpenAI indicate that the new model has an improved self-knowledge and has the ability to understand the state of mind of a human and purposely deceive humans to achieve its goals.

Imane
What is the trajectory of this behavior according to you? Do you think that’s a technical problem that will be fixed with the next update, or should we expect models to become more and more deceptive?

Dr. Charlotte Stix
I think we should expect models to become more and more capable. Again, by capability, self-reasoning, so having self-awareness and being able to apply that self-awareness, and having theory of minds understanding the other and being able to apply that are just components of capability at large, of being very capable. That’s how we think about some subset of tests for animals understanding self. Can they look into a mirror and identify self and understand they’re looking at themselves?

Dr. Charlotte Stix
A lot of progress and risk is just tied to the more capable AI systems get or the more capable models get, the more likely they are to exhibit certain precursory capabilities up to then more dangerous capabilities. Now, in an ideal world, we would fix this technical problem if we would have a model that has these capabilities, but is entirely aligned to still pursuing the goal that we wanted to pursue.

Dr. Charlotte Stix
Just because a model can do something and exhibits the propensity of doing something, we could still get it in an ideal world, aligned to not doing that thing. Just because I can go around and do bad things outside in the world doesn’t mean I’m doing them.

Dr. Charlotte Stix
The top question in AI safety is alignment. Can we get the model aligned, yes or no? We’re essentially asking more downstream questions, like, let’s assume we’re unsure whether we can get the model aligned, yes or no, or we haven’t quite figured it out. Let’s assume we’re on that trajectory, how can we be sure that the model isn’t deceptively aligned?

Dr. Charlotte Stix
That’s the meta-umbrella of some of the more high-level things that I’ve mentioned here, and where deceptive alignment essentially means, is the model using strategic deception to pursue a goal that is misaligned with the goal that its designers wanted to have. Where strategic deception is, is it trying to cause an untrue belief to get to its goal? In an ideal world, alignment. Until then, We just have to be mindful that with capability progress comes capability progress, good and bad, and we should look out for it and test for it. Test early, test often.

Imane
Do you have an intuition for the trajectory of risk related to that behavior?

Dr. Charlotte Stix
Well, if we look at what we have evaluated, so to the quote that you mentioned from our system card. We also ran evaluations on GPT-4, and we ran pre-deployment evaluations on o1-preview. They already exhibit very different capabilities. That is exactly what you pointed out.

Dr. Charlotte Stix
Compared to GPT-4, this model is capable of self-reasoning and of applied theory of mind in a way the other was not. Just extrapolating from what we have here and, say, that was half a year difference, a couple of months difference, uncertain how much difference that is, like company internal. But this is the next model they chose to put out. You could plausibly extrapolate a pretty rapid progression of capabilities if you were just looking at those two. Sticking with what we know or can infer from that, it’s likely that the next model is, again, much more capable on that trajectory.

Imane
Got it. Thank you. All right. I do want to leave some space for you all to ask some questions. I just have two closing questions for Charlotte. The first one is very broad, so feel free to tell us whatever comes to your mind right now. As an expert, is there anything that you wish would become more common knowledge among policymakers, journalists, general public? Are there any common misconceptions about this topic that you frequently encounter and would like to address?

Dr. Charlotte Stix
Yeah. I mean, maybe just sticking with what we’ve already said, because that covered a lot of different areas. The capabilities, and therefore the associated range of risks models can exhibit is coming at us pretty fast. What we are able to do to both fix it, with alignment or control mechanisms, whatever you want to put in that bucket, and to detect it with say evaluations, red-teaming, part of that, all of this is still nascent. It still has a lot of way to go. I think we need to be mindful of that, that people aren’t thinking, “We have fixed this thing. We will detect anything bad. That is fine. We’ve done our job.”

Dr. Charlotte Stix
I think that is the core lesson here, that the science of evaluations is still nascent. I think that just a general lucidity about the state of the art is pretty important, especially as we have AISIs now, lots of important meetings and voluntary agreements, and so on and so forth, which are all really good and really important. But just to double-check at all steps, what is it actually that we can do right now, what is coming our way, and how do we need to prepare for that and are we well prepared.

Imane
Thanks. That’s very clear. My final question is the one question I ask all of the guests that come to Paris. Thanks again for that. What would you consider an ideal outcome for the upcoming AI Action Summit? How could it further advance international collaboration on AI safety?

Dr. Charlotte Stix
Yes. I’m going to cop out because I actually have thought about this a lot also for my work, and I don’t have a very good answer for it because I’m still not entirely certain I have a very good grasp on what is feasible. I think a lot of this will also depend on the AISI Network meeting outcome. But I think something that is pretty clear to me for what I’ve seen over the last year is that the inclusion of researchers and scientists working on the frontier of this field that governments are talking about and coordinating on is pretty important in ensuring that the conversations and agreements and trajectories remain scientifically grounded and are informed by practitioners.

Dr. Charlotte Stix
I think that is just less about the outcome as you ask, but I would hope that there is a serious consideration for including also those practitioners outside of the policymaker ecosystem, which is obviously really important, the researchers that are doing this work, and for politicians to hear their thoughts on what should be done and can be done.

Imane
Thanks. That’s very clear as well. All right. Thank you, Charlotte.

Dr. Charlotte Stix
Thank you.

Imane
Do you have any questions for Charlotte?

Participant 1
Hi, Charlotte. Thank you very much for your presentation and for explaining the opportunities and challenges of the AI evaluation field. My question is on the French AI Summit, too. Could you say more about what you did for the UK AI Safety Summit? How did you engage with organizers? In general, what are your plans with the French AI Safety Summit? Could you do demos?

Dr. Charlotte Stix
For Bletchley Park, we also did a demo. We were invited, and we had had a demo on loss of control. That was a demo on an AI system that conducts insider trading, which you can also find on our website. I do, in fact, think—I know this sounds a little self-serving, being here as a representative of an evaluation organization—I do think it’s really helpful for policymakers to see demos of technical research.

Dr. Charlotte Stix
I think it’s really helpful to really see what an AI system can and cannot do, because that will put you in the right frame of mind to think about the broader ecosystem this system operates in and questions of how can we govern this? How can we ensure that there are mechanisms in place to control this if it should happen? I don’t know about the French AI Action Summit, particularly because I haven’t been able to get a very good grasp on it. If anyone here does have a very good grasp on it, I would be delighted to hear your opinions. But yes, demos, totally feasible. Lots of organizations would probably be happy to develop them. I think they’re a good science communication tool that works both for scientists and researchers and for governments.

Participant 1
Is that what you did for the UK AI System? Did you also do some evals for the UK AI System?

Dr. Charlotte Stix
Yes. We ran a demonstration on an insider trading AI system that essentially deceived about its insider trading capabilities.

Participant 2
Thank you. And thank you, Charlotte, for your presentation. We were talking about o1 just before. OpenAI talks a lot about AI safety. Can you explain what important measure do they already take when they test their model and what more should we ask them to do?

Dr. Charlotte Stix
I can’t speak to what measures OpenAI takes internally that are not publicly shared measures. They do include external evaluators, for example, to evaluate their models, pre-deployment. They have some internal safety mechanisms that they talk about on their website. I think where the breaking point for me is, at the moment, everything any company does is voluntary. It is great and good, that we’re being asked to evaluate these models, pre-deployment, and we have ownership about how we share the information. We have written this part of the section. That is all really good. That assumes an environment where we all trust each other, and we’re collaborating. As AI companies come under more pressure, and generally speaking, AI models might become more capable and more dangerous, it is unclear that these voluntary arrangements and commitments will stay as they are, because there is no real mechanism to enforcing them at the moment.

Dr. Charlotte Stix
Now, this is very different with the EU’s AI Act. But if we’re speaking about, say, in the US, what do these companies have to do? They have to do very little, if we say “have”, right? They can choose to, and many are choosing to, to their credit, and that is really good, and that is something we should encourage and applaud. But going forward, it is uncertain if that will continue for every company. There might also be companies that do not opt into voluntary commitments, and there are some companies that haven’t yet, but may in the future. I think we can ask companies to do more, certainly, but we also need to focus on just because they are doing something right now, it doesn’t mean that they will be able to or desire to continue doing that in the future.

Participant 3
Can you explain what you’ve been doing for policy work for OpenAI? And also what you believe is their… How do you read the AI Act that you just mentioned, the assessments that they put on big models and all that? What do you know of the state of advancement? Do you believe there are good assessments? Do you believe the companies are on the way to do them? How do you see that?

Dr. Charlotte Stix
Are you asking the second question based on my current understanding as an independent expert?

Participant 3
I would assume you are watching the field because they make some assessments mandatory, the European lawmakers in the AI Act. I would believe as an evaluating company, you would look at that and know what’s in those assessments, what’s the state of advancement of what will be in them, if the companies are working on doing them. I know that from what I understand, the lawmakers would say, “You need to address this and that risk, and that’s it.” Now, all the norms, the discussions about what it really means, who’s going to make it, is in the making now. I’m trying to see more clearly what’s being done because it’s behind doors.

Dr. Charlotte Stix
I think I understand what you’re asking. There are two different things in the AI Act that you’re pointing to. One of them is the conformity assessment for high-risk AI systems, where you have articles that do indeed ask for robustness, security, safety assessments, including evaluations. There is a lot of effort ongoing in JTC-21. That’s a standardization body, the standardization working group in CEN-CENELEC, which is an EU standardization body, to spell out the details of those legal requirements in the conformity assessment bit of the AI Act.

Dr. Charlotte Stix
The other bit you’re pointing to are the requirements for the general purpose AI systems with systemic risk, which have a requirement to run evaluations, testing, and general risk assessment before deployment. There are some other requirements around flagging that, sending information to the EU AI office, so on and so forth. Yes, that process is currently, I wouldn’t say behind closed doors, but it is kicking off next Monday. There is currently nothing I or anyone else could really share with you about this process. The process is called the Code of Practice Drafting Process, and this has been a very transparent and inclusive process where essentially all organizations and researchers that are working on this type of work were able to submit a request to participate in some of the working groups.

Dr. Charlotte Stix
The working groups will build out exactly these high-level norms or requirements that you’ve pointed to, and then, in collaboration with industries or the providers that would have to adhere to them or choose to voluntarily adhere to them, essentially draft a code of practice that would be done within the next nine months. That then becomes the standard best practice and norms that those deployers would choose to adhere to in order to comply with the element of the AI Act that outlines this for general purpose AI systems providers with systemic risk.

Imane
Civil state organizations have also been included in the process, so it is a very much transparent and inclusive process that is going on at the European level.

Participant 4
Thank you. I have a question, because from my knowledge, the methods that we know to evaluate risks have limitations. Those are human limitations. It’s not just the technique but just the capacity we have to understand, to appear, perceive, and understand. I was just wondering what can you tell us about the mechanism you are applying in your company to prevent those limitations to appear in the evaluations you are conducting.

Dr. Charlotte Stix
Sorry, when you say human limitations, could you give a detail? Could you give an example of what you mean there?

Participant 4
For instance, we can have biases when we are selecting the method to evaluate, when we are selecting the requirements to be evaluated. You were talking about alignment between the model and certain criteria, and we can have biases just by saying, “I’m going to prioritize this,” and, “I do not consider this because this is less important.”

Dr. Charlotte Stix
Just for clarity, we’re evaluating models for certain capabilities, we’re not trying to align them with certain goals or ideals. We’re not trying to get them to be unbiased or fair. We’re evaluating specifically for the capability of deception. They’re not really around assessing whether the model does something that is good or not good, right or not right. What we look at more is, say, for example, does the model pursue a certain goal as long as it believes it is pre-deployment in order to get deployed, and then pursue a different goal? We don’t really attach any judgment to the model behavior.

Dr. Charlotte Stix
We’re very much looking at the mechanism and choices the model makes, and whether those match a deceptive behavior where deception here would be, “I actually have a different goal. I want to get deployed, so I’m lying about my different goal,” and then, once it is deployed, we test you, and you’re actually pursuing the other goal. That’s a pretty clear-cut evidence of the model has behaved differently before than it now behaves in deployment. We’re not really saying this is good or bad, or there’s something involved with that.

Imane
Thank you.

Participant 5
Thank you. Hello. Building on what you were saying earlier about the EU AI Act, I wanted to ask, what role do you think the regulator should have to incentivize frontier AI developers to prioritize AI safety? Maybe by enforcing mandatory evaluations at different times of the development, the deployments. And even after, in the use, what role do you think the regulator should have to be efficient?

Dr. Charlotte Stix
I think there’s an element here where you need to be careful to enforce things that you also expect people are able to do, because otherwise, you have all sorts of other problems. One of the coinciding things here is, it is good for a regulator to enforce, say, explainability. Great. Now, let’s fund the field of explainability more, so we actually have enough researchers able to develop methods to do that well. I think there has to be a duality here of what is actually feasible, which brings me to, obviously, laws take time to draft. It could be beneficial to have, in fact, amendments that are a bit more moving with the state of the art, be that, for example, standards are closer to that, precisely to capture this friction point. Now, I think regulators, at least in the EU, have done a lot. It is yet to be seen in which direction that goes, and how this is actually going to be operationalized, how companies are going to interpret the requirements.

Dr. Charlotte Stix
But if I recall correctly, from the survey that they had for the code of practice process, they had this big survey consultation where you could submit your opinions, they did ask questions around, is it sufficient to evaluate X? Should there be something like, what post-deployment monitoring mechanisms would you like to see? I think there’s scope over the coming months once this process kicks off to build out some of the ideas that the regulators have put into this space alongside the current state of the art and the technical progress over the next nine months to get more granular. I don’t want to say add more things because that is not always good. I’m not necessarily condoning that, but just get more granular and more detailed on what it actually is we want providers to do.

Imane
Thank you so much, Charlotte, for being with us today, answering all of these questions and giving the Paris community a clearer picture of what evaluations are about, what type of risk exists right now, what type of risk we can expect, and then in which buckets, I guess, do risks fall.

Dr. Charlotte Stix
Thank you so much for having me. And thanks for all the questions, they’re very good and very on point.

Imane
All right.

Transcript: French (Français)

Imane
Permettez-moi de vous présenter le Dr. Charlotte Stix. Charlotte est responsable de la gouvernance chez Apollo Research, une organisation spécialisée dans l’évaluation de modèles axés sur les capacités d’IA d’avant-garde. Auparavant, elle a dirigé les efforts en matière de politique publique chez OpenAI. Avant cela, elle était également coordinatrice du groupe d’experts de haut niveau de la Commission européenne. Nous sommes très heureux qu’elle ait pu venir aujourd’hui. Charlotte, avant de commencer et de plonger dans la conversation, pouvez-vous nous donner une idée de ce que sont les évaluations et pourquoi elles sont importantes ?

Dr. Charlotte Stix
Tout d’abord, je vous remercie de m’avoir invitée. Je suis très heureuse d’être ici et de rencontrer chacun d’entre vous individuellement à un moment donné après l’introduction et après nos questions ici.

(Omis : Présentation de Charlotte)

Imane
C’est très bien. Merci beaucoup, Charlotte. J’aimerais parler des limites des évaluations. Lorsque nous examinons les modèles actuels, différents risques émergent des systèmes d’IA puissants et les évaluations de modèles sont utilisées, pour identifier et évaluer les capacités potentiellement risquées au sein d’un modèle. Votre organisation, Apollo Research, a appelé à une science des évaluations de modèles parce que l’approche actuelle des évaluations de modèles présente de sérieuses limites en tant qu’approche rigoureuse en termes d’évaluation des risques. Pouvez-vous nous en dire plus sur les limites que vous constatez et sur la manière dont Apollo tente de relever ces défis ?

Dr. Charlotte Stix
Oui, absolument. C’est une très bonne question.

Dr. Charlotte Stix
Essentiellement, l’une des choses sur lesquelles nous communiquons beaucoup est que les gens croient ou il y a une compréhension générale du fait que les évaluations sont suffisamment solides et que nous pouvons nous y fier entièrement. Pour répondre à votre question, ce n’est pas le cas à l’heure actuelle. Il existe un fossé important entre ce que les évaluations sont “censées résoudre pour nous”, lorsqu’il s’agit de régimes de gouvernance, lorsqu’il s’agit de “Oh, si l’évaluation dit que c’est bon, alors nous pouvons déployer le système” et ce à quoi on peut actuellement se fier.

Dr. Charlotte Stix
En bref, le poids accordé aux évaluations est beaucoup plus lourd que ce qu’elles peuvent réellement vous dire sur les capacités et les propensions d’un système d’IA à l’heure actuelle. Notamment parce qu’une évaluation peut vous dire quand nous voyons une capacité dangereuse, mais elle ne peut pas vous dire qu’elle n’existe pas pour le moment. Nous avons l’absence de preuve, mais l’absence de preuve ne nous dit pas vraiment que le modèle ne peut pas le faire, ce n’est pas une preuve d’absence, c’est pourquoi nous avons un flux d’interprétabilité. Si vous voulez en parler, je peux aussi le faire, mais c’est la raison pour laquelle nous avons ce groupe de travail à Apollo.

Dr. Charlotte Stix
En ce qui concerne la science des évaluations, la raison pour laquelle nous avons demandé cela ou pourquoi nous y travaillons est que la plupart des autres régimes d’assurance dans les secteurs critiques ont un processus dans lequel les praticiens travaillent à la frontière, apprennent toutes ces choses, apprennent les normes, apprennent quelles fonctions, apprennent les meilleures pratiques et les partagent entre eux, pour finalement avoir l’opportunité de traduire cela en meilleures pratiques, et nous sommes quelque part sur le point d’y arriver. En fin de compte, cela devrait influencer la réglementation, cela devrait influencer la manière dont les évaluateurs sont tenus de rendre des comptes.

Dr. Charlotte Stix
À l’heure actuelle, il n’existe pas non plus d’examen des personnes ou des organisations qui se qualifient elles-mêmes d’évaluateurs. Il est possible d’évaluer les capacités et les compétences techniques, mais ce n’est pas le cas pour l’instant. À terme, nous voulons que la science des évaluations garantisse que toutes les évaluations que nous faisons sont solides et rigoureuses, que nous pouvons avoir confiance dans les résultats et qu’elles nous donnent une prévisibilité. Elles nous donnent une limite supérieure de la dangerosité du modèle compte tenu des moyens disponibles, et ainsi de suite, ce qui n’est pas le cas actuellement. C’est tout simplement parce que le domaine, en particulier pour les évaluations des capacités dangereuses, est relativement naissant par rapport à l’évaluation de la partialité et de l’équité, même si, bien sûr, il y a encore beaucoup de progrès et de financement nécessaires dans ce domaine.

Imane
Je vous remercie. J’aime beaucoup ce paradigme de l’absence de preuve par rapport à la preuve de l’absence. C’est très utile. Je voudrais parler des modèles actuels et/ou à venir. Quels sont les risques potentiels des systèmes d’IA qui devraient nous inquiéter le plus, et comment les organisations d’évaluation comme Apollo peuvent-elles aider à faire face à ce risque ?

Dr. Charlotte Stix
Je vais dire quelque chose de très simple, mais historiquement, jusqu’à présent, plus de progrès a conduit à des modèles plus performants. C’est une bonne chose, je suppose, car nous voulons des modèles plus performants. L’idée générale est que nous voulons être en mesure d’externaliser plus de choses, des tâches plus difficiles, des tâches inconfortables sur ces modèles. Plus ils sont capables, plus nous pouvons les externaliser. C’est la trajectoire générale, à la hausse comme à la baisse.

Dr. Charlotte Stix
Malheureusement, ou peut-être de manière quelque peu évidente, ces capacités s’accompagnent également de l’inconvénient de voir ces modèles devenir plus performants. Ils pourraient éventuellement être plus capables de se modéliser eux-mêmes dans une évaluation et de savoir qu’ils sont testés, ils pourraient éventuellement être plus capables de modéliser l’utilisateur et le concepteur et leurs désirs. Ils sont tout simplement, pour parler familièrement, plus intelligents. Il en résultera, bien entendu, une augmentation des risques, du besoin de mécanismes de contrôle et de la nécessité d’effectuer des tests.

Dr. Charlotte Stix
Pour vous donner une idée rapide des différents niveaux de vecteurs de menace, je suppose, auxquels nous pensons chez Apollo, et je vous ai montré certains d’entre eux. L’un d’entre eux est la menace interne. Il s’agit en fait de quelqu’un qui peaufine un modèle pour vous mentir efficacement et dissimuler ses actions. Ensuite, il y a l’utilisation abusive, qui correspond à l’exemple que je vous ai montré avec le pirate informatique. Nous commençons alors à avoir un large éventail de capacités précurseurs différentes dans le cadre de la perte de contrôle. Que se passe-t-il si le système d’IA lui-même commence à développer une conscience de soi, une théorie de l’esprit et une réflexion stratégique sur ses objectifs ?

Dr. Charlotte Stix
Il y a une série d’inquiétudes qui se manifestent très rapidement dans notre direction, alors que nous nous dirigeons nous-mêmes vers des systèmes d’intelligence artificielle plus performants et vers plus de progrès. Encore une fois, il s’agit simplement de trouver un équilibre entre le progrès et la sécurité.

Imane
Nous vous remercions. Apollo Research a fait valoir que les moyens d’actions (‘affordances’) d’un système d’IA sont particulièrement importantes, à la fois en termes d’impact du système et, par conséquent, de réglementation à appliquer. Par capacités, vous entendez les outils, les plugins ou les échafaudages qui étendent les capacités du modèle, par exemple en permettant d’exécuter du code ou de faire des recherches sur l’internet. Dans un monde où les utilisateurs en aval d’un modèle peuvent ajouter des fonctionnalités supplémentaires à un système d’IA, comment devrions-nous envisager le rôle des évaluations effectuées sur le modèle en amont ?

Dr. Charlotte Stix
C’est une question très importante, d’autant plus que les évaluations sont à la base de ces cadres de gouvernance. En général, nous pensons à l’évaluation préalable au déploiement. Or, il est possible de l’étendre dans les deux sens. On peut, par exemple, évaluer la conception de la formation. Vous pouvez auditer la conception de la formation. Vous pouvez envisager, par exemple, d’effectuer des évaluations avant le déploiement interne.

Dr. Charlotte Stix
À ce stade, le système est déjà déployé sous une forme ou une autre, si des personnes peuvent voler les poids du modèle, ou si elles peuvent faire quelque chose au modèle, etc. Le personnel utilisera ce modèle et il se peut qu’il n’y ait pas ou peu de mécanismes de sécurité. Il y a ensuite les évaluations préalables au déploiement, qui constituent actuellement le principal point de rupture sur lequel les gens se sont concentrés, c’est-à-dire le moment où le système est “déployé dans la société”.

Dr. Charlotte Stix
Mais pour ce qui est des moyens d’action disponibles, et c’est également ce que j’ai essayé de dire plus tôt dans la présentation, le profil de risque d’un système d’IA peut changer et est très susceptible de changer tout au long de son déploiement jusqu’à ce qu’il soit déclassé. Cela peut signifier, par exemple, qu’il dispose de plus de possibilités. S’il obtient plus de possibilités, il est plus capable, il peut faire des choses différentes, et c’est juste une version différente de ce modèle avec des capacités différentes.

Dr. Charlotte Stix
Ce que nous disons et avons dit dans ce document, c’est qu’il faut absolument réévaluer ce que votre modèle peut faire. Un modèle qui n’a pas accès à l’internet et un modèle qui a accès à l’ensemble de l’internet. Je pense que nous sommes tous d’accord pour dire qu’il s’agit de deux modèles capables de faire des choses différentes et de causer des types de risques différents, ce qui est important.

Dr. Charlotte Stix
Vous pourriez et devriez également procéder à des évaluations avant le déploiement, ce qui est difficile lorsqu’il y a différents fournisseurs dans la chaîne de valeur, mais je suppose qu’il faudra malheureusement répéter cette opération. Parfois, si le fournisseur en aval modifie le modèle de manière significative, si vous voulez être sûr, c’est ce que vous devez faire, vous pouvez évaluer : “D’accord, quelles sont les capacités actuelles de ce modèle, et quelles sont les capacités disponibles que nous attendons dans l’environnement dans lequel il est déployé ?

Dr. Charlotte Stix
Les modifications des capacités disponibles ou les mises à jour itératives devraient idéalement nécessiter une nouvelle évaluation ou, d’une manière générale, un tout nouveau régime d’évaluation des risques.

Imane
C’est intéressant.

Dr. Charlotte Stix
Nous voulons être en sécurité, n’est-ce pas ?

Imane
Oui, bien sûr. Vos réponses démontrent que l’écosystème de l’évaluation est bien plus complexe que la plupart des gens ne l’imaginent. Très bien, parlons des évaluations des modèles de mise à l’échelle. Pour les évaluations du modèle le plus récent de l’OpenAI, Apollo a utilisé une combinaison d’évaluations automatisées et d’analyses manuelles. Dans quelle mesure les évaluations de modèles peuvent-elles être automatisées ou mises à l’échelle ? Quels sont les compromis entre les évaluations automatisées et les évaluations manuelles du comportement de l’IA ?

Dr. Charlotte Stix
Dans notre pipeline, nous automatisons certaines tâches liées aux évaluations notées par des modèles, à la notation des résultats et à la rédaction de certaines parties de l’évaluation par des modèles. Il s’agit par exemple de demander aux modèles d’écrire le texte que l’utilisateur prononce dans les scénarios d’évaluation, d’avoir 10 textes différents, 100 textes différents et ainsi de suite, mais très rapidement. D’une manière générale, la tendance est à l’automatisation d’une plus grande partie du pipeline d’évaluation, et le besoin d’évaluations est important.

Dr. Charlotte Stix
Cela dit, bien sûr, il faut faire un compromis entre la rapidité et la rigueur. Vous pouvez utiliser des modèles pour vous aider à effectuer certaines des tâches répétitives simples qui n’ont pas vraiment Je veux prendre ceci avec un grain de sel, qui n’ont pas vraiment d’importance. Ensuite, l’évaluateur humain, l’expert du domaine, doit créer les environnements et les tâches et examiner à la toute fin les éléments qui sont vraiment importants pour le résultat et la qualité de l’évaluation.

Dr. Charlotte Stix
Il y a un compromis à faire quant au degré d’automatisation que l’on peut raisonnablement et surtout que l’on souhaite dans ce processus. En particulier, pour revenir au point précédent, nous voulons confier des tâches à des systèmes d’IA parce que nous ne voulons pas effectuer les tâches épuisantes et ennuyeuses. Ici aussi, nous devons être prudents. Si nous effectuons une évaluation sur un système d’IA, nous devons faire attention aux parties de l’évaluation que nous confions à un autre système d’IA et à la capacité de ce dernier.

Dr. Charlotte Stix
Je pense qu’il est important de garder à l’esprit que, même si l’automatisation des évaluations présente un grand intérêt en raison de son coût et de sa rapidité, elle nécessite une réflexion approfondie sur ce qu’il est judicieux d’automatiser dans les processus. Je ne peux pas parler des évaluations d’autres organisations, mais d’après ce que je sais, il semble que la communauté soit généralement d’accord sur ce point pour le moment.

Imane
Je vous remercie. D’accord, nous avons parlé des modèles actuels, des moyens d’action des modèles, du développement, de la mise en échelle, de l’évaluation des modèles. Parlons maintenant de la trajectoire du risque. Je pose la question parce que parfois nous ne nous rendons pas compte que nous avons deux conversations différentes. Lorsque nous discutons de certains types de risques, nous ne discutons pas des modèles actuels. Nous discutons des capacités des futurs modèles en fonction de notre compréhension de la trajectoire du risque.

Imane
Votre organisation, Apollo Research, a récemment publié la documentation technique du nouveau modèle phare d’OpenAI, o1. La documentation décrit qu’Apollo a reçu un accès pré-déploiement pour évaluer le risque de comportement trompeur du modèle, comme nous l’avons vu dans l’introduction. Les résultats partagés par OpenAI indiquent que le nouveau modèle a une meilleure connaissance de soi et a la capacité de comprendre l’état d’esprit d’un humain et de le tromper volontairement pour atteindre ses objectifs.

Imane
Quelle est la trajectoire de ce comportement selon vous ? Pensez-vous qu’il s’agit d’un problème technique qui sera corrigé lors de la prochaine mise à jour, ou devons-nous nous attendre à ce que les modèles deviennent de plus en plus trompeurs ?

Dr. Charlotte Stix
Je pense que nous devrions nous attendre à ce que les modèles deviennent de plus en plus performants. Encore une fois, par capacité, on entend raisonnement personnel, c’est-à-dire avoir une conscience de soi et être capable d’appliquer cette conscience de soi, et avoir une théorie de l’esprit qui comprend l’autre et être capable de l’appliquer ne sont que des composantes de la capacité au sens large, de la capacité à être très capable. C’est ainsi que nous envisageons un sous-ensemble de tests de compréhension de soi pour les animaux. Peuvent-ils se regarder dans un miroir, s’identifier et comprendre qu’ils se regardent eux-mêmes ?

Dr. Charlotte Stix
Une grande partie des progrès et des risques est simplement liée au fait que plus les systèmes d’IA sont performants ou plus les modèles sont performants, plus ils sont susceptibles de présenter certaines capacités précurseures jusqu’à des capacités plus dangereuses. Dans un monde idéal, ce problème technique serait résolu si nous disposions d’un modèle doté de ces capacités, mais entièrement axé sur la poursuite de l’objectif que nous voulons atteindre.

Dr. Charlotte Stix
Ce n’est pas parce qu’un modèle peut faire quelque chose et présente la propension à faire quelque chose que nous pourrions encore l’obtenir dans un monde idéal, aligné sur le fait de ne pas faire cette chose. Ce n’est pas parce que je peux me promener et faire de mauvaises choses à l’extérieur que je les fais.

Dr. Charlotte Stix
La principale question qui se pose en matière de sécurité de l’IA est celle de l’alignement. Pouvons-nous aligner le modèle, oui ou non ? Nous posons essentiellement des questions plus en aval, comme, supposons que nous ne soyons pas sûrs de pouvoir aligner le modèle, oui ou non, ou que nous n’ayons pas encore tout à fait compris. Supposons que nous soyons sur cette trajectoire, comment pouvons-nous être sûrs que le modèle n’est pas aligné de manière trompeuse ?

Dr. Charlotte Stix
Il s’agit de la méta-catégorie de certains des éléments de plus haut niveau que j’ai mentionnés ici, et l’alignement trompeur signifie essentiellement que le modèle utilise la tromperie stratégique pour poursuivre un objectif qui n’est pas aligné sur l’objectif que ses concepteurs voulaient avoir. Dans le cas de la tromperie stratégique, il s’agit d’essayer de provoquer une croyance erronée pour atteindre son objectif. Dans un monde idéal, l’alignement. En attendant, nous devons simplement garder à l’esprit que les progrès en matière de capacités s’accompagnent de progrès, bons ou mauvais, et que nous devons y être attentifs et les tester. Tester tôt, tester souvent.

Imane
Avez-vous une idée de la trajectoire du risque lié à ce comportement ?

Dr. Charlotte Stix
Eh bien, si nous regardons ce que nous avons évalué, ainsi que la citation que vous avez mentionnée de notre carte de système. Nous avons également effectué des évaluations sur GPT-4, et nous avons effectué des évaluations de pré-déploiement sur o1-preview. Ils présentent déjà des capacités très différentes. C’est exactement ce que vous avez souligné.

Dr. Charlotte Stix
Comparé au GPT-4, ce modèle est capable de raisonnement autonome et de théorie de l’esprit appliquée, ce qui n’était pas le cas de l’autre modèle. Il suffit d’extrapoler à partir de ce que nous avons ici et, disons, de la différence d’une demi-année, de quelques mois, pour ne pas savoir quelle différence cela représente, comme l’interne de l’entreprise. Mais c’est le modèle suivant qu’ils ont choisi de publier. On pourrait plausiblement extrapoler une progression assez rapide des capacités si l’on s’en tenait à ces deux-là. Si l’on s’en tient à ce que l’on sait ou à ce que l’on peut en déduire, il est probable que le prochain modèle soit, une fois encore, beaucoup plus performant sur cette trajectoire.

Imane
Je vous remercie. Je veux laisser un peu d’espace pour que vous puissiez tous poser des questions. J’ai juste deux questions de clôture pour Charlotte. La première est très générale, alors n’hésitez pas à nous dire tout ce qui vous vient à l’esprit en ce moment. En tant qu’expert, y a-t-il quelque chose que vous souhaiteriez voir devenir plus connu des décideurs politiques, des journalistes, du grand public ? Y a-t-il des idées fausses sur ce sujet que vous rencontrez fréquemment et que vous aimeriez aborder ?

Dr. Charlotte Stix
Oui, je veux dire qu’il faut peut-être s’en tenir à ce que nous avons déjà dit, parce que cela couvre beaucoup de domaines différents. Les capacités, et donc la gamme de risques associés que les modèles peuvent présenter, nous parviennent assez rapidement. Ce que nous sommes en mesure de faire pour y remédier, avec des mécanismes d’alignement ou de contrôle, ou tout ce que vous voulez mettre dans ce panier, et pour les détecter avec des évaluations, des red-teaming, une partie de cela, tout cela est encore naissant. Il reste encore beaucoup de chemin à parcourir. Je pense que nous devons être attentifs à cela, à ce que les gens ne se disent pas : “Nous avons réglé ce problème, nous allons détecter tout ce qui est mauvais. C’est très bien. Nous avons fait notre travail.”

Dr. Charlotte Stix
Je pense qu’il s’agit là de la principale leçon à tirer, à savoir que la science des évaluations est encore naissante. Je pense qu’une lucidité générale sur l’état de l’art est très importante, d’autant plus que nous avons maintenant des AISI , de nombreuses réunions importantes et des accords volontaires, etc. qui sont tous très bons et très importants. Mais il convient de vérifier à chaque étape ce que nous pouvons faire dès à présent, ce qui nous attend, comment nous devons nous y préparer et si nous sommes bien préparés.

Imane
Merci. C’est très clair. Ma dernière question est celle que je pose à tous les invités qui viennent à Paris. Merci encore. Quel serait, selon vous, le résultat idéal du prochain sommet d’action sur l’IA ? Comment pourrait-il faire progresser la collaboration internationale en matière de sécurité de l’IA ?

Dr. Charlotte Stix
Oui. Je vais me dérober parce que j’ai beaucoup réfléchi à cette question dans le cadre de mon travail, et je n’ai pas de bonne réponse parce que je ne suis pas encore tout à fait certaine de bien comprendre ce qui est faisable. Je pense que cela dépendra en grande partie des résultats de la réunion du réseau des AISI . Mais je pense que ce que j’ai vu au cours de l’année écoulée montre clairement que l’inclusion de chercheurs et de scientifiques travaillant à la frontière de ce domaine dont les gouvernements parlent et sur lequel ils se coordonnent est très importante pour garantir que les conversations, les accords et les trajectoires restent scientifiquement fondés et qu’ils sont informés par les praticiens.

Dr. Charlotte Stix
Je pense qu’il s’agit moins d’une question de résultat, comme vous le demandez, mais j’espère que l’on envisage sérieusement d’inclure également les praticiens en dehors de l’écosystème des décideurs politiques, ce qui est évidemment très important, les chercheurs qui font ce travail, et les politiciens pour entendre leurs idées sur ce qui devrait être fait et ce qui peut être fait.

Imane
Merci. C’est également très clair. Merci, Charlotte.

Dr. Charlotte Stix
Merci à vous.

Imane
Avez-vous des questions à poser à Charlotte ?

Participant 1
Bonjour Charlotte. Merci beaucoup pour votre présentation et pour avoir expliqué les opportunités et les défis du domaine de l’évaluation de l’IA. Ma question porte également sur le sommet français sur l’IA. Pourriez-vous nous en dire plus sur ce que vous avez fait pour le sommet britannique sur la sécurité de l’IA ? Comment vous êtes-vous engagée auprès des organisateurs ? De manière générale, quels sont vos projets pour le sommet français sur la sécurité de l’IA ? Pourriez-vous faire des démonstrations ?

Dr. Charlotte Stix
Pour Bletchley Park, nous avons également fait une démonstration. Nous avons été invités et nous avons fait une démonstration sur la perte de contrôle. Il s’agissait d’une démo sur un système d’IA qui effectue des délits d’initiés, que vous pouvez également trouver sur notre site web. En fait, je pense – je sais que cela semble un peu égocentrique, étant ici en tant que représentant d’une organisation d’évaluation – je pense qu’il est vraiment utile pour les décideurs politiques de voir des démonstrations de recherche technique.

Dr. Charlotte Stix
Je pense qu’il est très utile de voir ce qu’un système d’IA peut et ne peut pas faire, car cela vous mettra dans le bon état d’esprit pour réfléchir à l’écosystème plus large dans lequel ce système opère et aux questions suivantes : comment pouvons-nous le gouverner ? Comment pouvons-nous nous assurer qu’il y a des mécanismes en place pour contrôler cela si cela devait se produire ? Je ne sais pas ce qu’il en est du Sommet français d’action sur l’IA, notamment parce que je n’ai pas été en mesure de m’en imprégner. Si quelqu’un ici le connaît très bien, je serais ravi d’avoir son avis. Mais oui, les démonstrations sont tout à fait possibles. De nombreuses organisations seraient probablement ravies de les développer. Je pense qu’il s’agit d’un bon outil de communication scientifique qui fonctionne à la fois pour les scientifiques et les chercheurs et pour les gouvernements.

Participant 1
C’est ce que vous avez fait pour le système d’IA britannique ? Avez-vous également réalisé des évaluations pour le système d’IA britannique ?

Dr. Charlotte Stix
Oui. Nous avons fait une démonstration d’un système d’IA de délit d’initié qui trompait essentiellement sur ses capacités en matière de délit d’initié.

Participant 2
Je vous remercie. Et merci, Charlotte, pour votre présentation. Nous avons parlé d’OpenAI juste avant. OpenAI parle beaucoup de la sécurité de l’IA. Pouvez-vous nous expliquer quelles sont les mesures importantes qu’ils prennent déjà lorsqu’ils testent leur modèle et que devrions-nous leur demander de faire de plus ?

Dr. Charlotte Stix
Je ne peux pas vous dire quelles mesures OpenAI prend en interne et qui ne sont pas partagées par le public. Elle fait appel à des évaluateurs externes, par exemple, pour évaluer ses modèles avant leur déploiement. Elle dispose de certains mécanismes de sécurité internes dont elle parle sur son site web. Je pense que le point de rupture pour moi est qu’à l’heure actuelle, tout ce que fait une entreprise est volontaire. C’est une bonne chose que l’on nous demande d’évaluer ces modèles, avant leur déploiement, et que nous soyons maîtres de la manière dont nous partageons l’information. Nous avons rédigé cette partie de la section. C’est une très bonne chose. Cela suppose un environnement où nous nous faisons tous confiance et où nous collaborons. Étant donné que les entreprises d’IA sont soumises à une pression accrue et que, d’une manière générale, les modèles d’IA pourraient devenir plus performants et plus dangereux, il n’est pas certain que ces accords et engagements volontaires resteront en l’état, car il n’existe pas de véritable mécanisme permettant de les faire respecter à l’heure actuelle.

Dr. Charlotte Stix
Il y a une grande différence avec le règlement européenne sur l’IA. Mais si nous parlons, disons, des États-Unis, que doivent faire ces entreprises ? Elles doivent faire très peu, si nous disons “doivent”, n’est-ce pas ? Elles peuvent choisir de le faire, et nombre d’entre elles le font, ce qui est tout à leur honneur, et c’est une très bonne chose, que nous devrions encourager et applaudir. Mais à l’avenir, il n’est pas certain que cela se poursuive pour toutes les entreprises. Il se peut également que certaines entreprises n’optent pas pour des engagements volontaires, et certaines entreprises ne l’ont pas encore fait, mais pourraient le faire à l’avenir. Je pense que nous pouvons certainement demander aux entreprises d’en faire plus, mais nous devons également nous concentrer sur le fait que ce n’est pas parce qu’elles font quelque chose aujourd’hui qu’elles pourront ou voudront continuer à le faire à l’avenir.

Participant 3
Pouvez-vous nous expliquer ce que vous avez fait en matière de politique pour OpenAI ? Comment lisez-vous le règlement européen sur l’IA que vous venez de mentionner, les évaluations qu’ils font sur les grands modèles et tout cela ? Que savez-vous de l’état d’avancement des travaux ? Pensez-vous qu’il existe de bonnes évaluations ? Pensez-vous que les entreprises sont en passe de les réaliser ? Comment voyez-vous cela ?

Dr. Charlotte Stix
Posez-vous la deuxième question sur la base de ma compréhension actuelle en tant qu’expert indépendant ?

Participant 3
Je suppose que vous surveillez le terrain parce qu’ils rendent certaines évaluations obligatoires, les législateurs européens dans la loi sur l’IA. Je pense qu’en tant qu’entreprise évaluatrice, vous regarderiez cela et sauriez ce que contiennent ces évaluations, quel est l’état d’avancement de ce qu’elles contiendront, si les entreprises travaillent à leur réalisation. D’après ce que j’ai compris, les législateurs diraient : “Vous devez vous attaquer à tel ou tel risque, et c’est tout”. Maintenant, toutes les normes, les discussions sur ce que cela signifie vraiment, sur qui va le faire, sont en cours d’élaboration. J’essaie de voir plus clairement ce qui se fait parce que c’est derrière des portes closes.

Dr. Charlotte Stix
Je pense que je comprends votre question. Il y a deux choses différentes dans le règlement européen sur l’IA que vous mentionnez. L’un d’eux est l’évaluation de la conformité des systèmes d’IA à haut risque, où vous avez des articles qui demandent effectivement des évaluations de robustesse, de sécurité, de sûreté, y compris des évaluations. De nombreux efforts sont en cours au sein du JTC-21. Il s’agit d’un organisme de normalisation, le groupe de travail de normalisation du CEN-CENELEC, qui est un organisme de normalisation de l’UE, pour préciser les détails de ces exigences juridiques dans la partie du règlement européen sur l’IA relative à l’évaluation de la conformité.

Dr. Charlotte Stix
L’autre partie que vous évoquez concerne les exigences relatives aux systèmes d’IA à usage général présentant un risque systémique, qui doivent faire l’objet d’évaluations, de tests et d’une évaluation générale des risques avant d’être déployés. D’autres exigences portent sur le signalement de ces systèmes, l’envoi d’informations au bureau européen de l’IA, etc. Oui, ce processus est actuellement, je ne dirais pas à huis clos, mais il démarre lundi prochain. Pour l’instant, ni moi ni personne d’autre ne peut vraiment vous parler de ce processus. Il s’agit du processus de rédaction du code de bonnes pratiques, qui s’est déroulé de manière très transparente et inclusive, puisque toutes les organisations et tous les chercheurs qui travaillent sur ce type de sujet ont pu demander à participer à certains des groupes de travail.

Dr. Charlotte Stix
Les groupes de travail élaboreront exactement ces normes ou exigences de haut niveau que vous avez mentionnées, puis, en collaboration avec les industries ou les fournisseurs qui devraient y adhérer ou qui choisiraient d’y adhérer volontairement, ils rédigeront essentiellement un code de pratique qui sera mis en place dans les neuf prochains mois. Ce code deviendra alors la meilleure pratique standard et les normes auxquelles ces déployeurs choisiront d’adhérer afin de se conformer à l’élément de la loi sur l’IA qui décrit cela pour les fournisseurs de systèmes d’IA à usage général présentant un risque systémique.

Imane
Les organisations de l’État civil ont également été incluses dans le processus. Il s’agit donc d’un processus très transparent et inclusif qui se déroule au niveau européen.

Participant 4
Je vous remercie. J’ai une question, car d’après mes connaissances, les méthodes que nous connaissons pour évaluer les risques ont des limites. Il s’agit de limites humaines. Il ne s’agit pas seulement de la technique, mais aussi de la capacité que nous avons de comprendre, d’apparaître, de percevoir et de comprendre. Je me demandais simplement ce que vous pouviez nous dire sur le mécanisme que vous appliquez dans votre entreprise pour empêcher ces limites d’apparaître dans les évaluations que vous menez.

Dr. Charlotte Stix
Désolé, lorsque vous parlez de limites humaines, pourriez-vous donner des détails ? Pourriez-vous donner un exemple de ce que vous voulez dire ?

Participant 4
Par exemple, nous pouvons avoir des préjugés lorsque nous sélectionnons la méthode à évaluer, lorsque nous sélectionnons les exigences à évaluer. Vous parliez de l’alignement entre le modèle et certains critères, et nous pouvons avoir des biais simplement en disant : “Je vais donner la priorité à ceci” et “Je ne considère pas ceci parce que c’est moins important”.

Dr. Charlotte Stix
Pour plus de clarté, nous évaluons les modèles pour certaines capacités, nous n’essayons pas de les aligner sur certains objectifs ou idéaux. Nous n’essayons pas de les rendre impartiaux ou justes. Nous évaluons spécifiquement la capacité de tromperie. Il ne s’agit pas vraiment d’évaluer si le modèle fait quelque chose de bien ou de pas bien, de juste ou de faux. Ce que nous examinons davantage, c’est, par exemple, si le modèle poursuit un certain objectif tant qu’il croit qu’il est en phase de pré-déploiement afin d’être déployé, puis s’il poursuit un objectif différent. Nous ne portons pas vraiment de jugement sur le comportement du modèle.

Dr. Charlotte Stix
Nous nous intéressons beaucoup au mécanisme et aux choix que fait le modèle, et nous cherchons à savoir s’ils correspondent à un comportement trompeur, où la tromperie consisterait à dire : “J’ai en fait un objectif différent, je veux être déployé. Je veux être déployé, donc je mens sur mon objectif différent”, puis, une fois déployé, nous vous testons et vous poursuivez en fait l’autre objectif. C’est une preuve assez évidente que le modèle s’est comporté différemment avant qu’il ne soit déployé. Nous ne disons pas vraiment que c’est bon ou mauvais, ou qu’il y a quelque chose d’impliqué là-dedans.

Imane
Nous vous remercions.

Participant 5
Merci de votre attention. Bonjour. Dans le prolongement de ce que vous avez dit tout à l’heure au sujet du règlement européen sur l’IA, je voulais vous demander quel rôle devrait jouer le régulateur pour inciter les développeurs de l’IA à donner la priorité à la sécurité de l’IA. Peut-être en imposant des évaluations obligatoires à différents moments du développement, des déploiements. Et même après, dans l’utilisation, quel rôle pensez-vous que le régulateur devrait avoir pour être efficace ?

Dr. Charlotte Stix
Je pense qu’il faut faire attention à imposer des choses que l’on s’attend également à ce que les gens soient capables de faire, parce que sinon, il y a toutes sortes d’autres problèmes. L’une des coïncidences ici est qu’il est bon pour un régulateur d’imposer, disons, l’explicabilité. C’est très bien. Maintenant, finançons davantage le domaine de l’explicabilité, afin que nous ayons suffisamment de chercheurs capables de développer des méthodes pour bien faire les choses. Je pense qu’il doit y avoir une dualité entre ce qui est réellement faisable et ce qui m’amène à dire qu’il faut du temps pour rédiger des lois. Il pourrait être bénéfique d’avoir, en fait, des amendements qui se rapprochent un peu plus de l’état de l’art, par exemple, des normes, précisément pour saisir ce point de friction. Je pense que les régulateurs, du moins dans l’UE, ont fait beaucoup. Il reste à voir dans quelle direction cela va aller et comment cela va être mis en œuvre, comment les entreprises vont interpréter les exigences.

Dr. Charlotte Stix
Mais si je me souviens bien, dans le cadre de l’enquête menée pour le processus du code de bonnes pratiques, il y avait cette grande enquête de consultation où vous pouviez soumettre vos opinions, ils ont posé des questions du type : est-ce suffisant pour évaluer X ? Devrait-il y avoir quelque chose comme, quels mécanismes de suivi post-déploiement souhaiteriez-vous voir ? Je pense qu’il sera possible, au cours des prochains mois, une fois que ce processus aura démarré, de développer certaines des idées que les régulateurs ont présentées dans cet espace, ainsi que l’état actuel de la technique et les progrès techniques au cours des neuf prochains mois, afin d’obtenir une plus grande granularité. Je ne veux pas dire ajouter plus de choses, car ce n’est pas toujours bon. Je ne l’approuve pas nécessairement, mais il s’agit d’être plus granulaire et plus détaillé sur ce que nous voulons que les fournisseurs fassent.

Imane
Merci beaucoup, Charlotte, d’être avec nous aujourd’hui, d’avoir répondu à toutes ces questions et d’avoir donné à la communauté parisienne une image plus claire de ce que sont les évaluations, du type de risque existant actuellement, du type de risque auquel nous pouvons nous attendre, et des catégories dans lesquelles, je suppose, les risques se situent.

Dr. Charlotte Stix
Merci beaucoup de m’avoir reçu. Et merci pour toutes les questions, elles sont très bonnes et très pertinentes.

Imane
D’accord.

This content was first published at futureoflife.org on October 14, 2024.

About the Future of Life Institute

The Future of Life Institute (FLI) is the world’s oldest and largest AI think tank, with a team of 35+ full-time staff operating across the US and Europe. FLI has been working to steer the development of transformative technologies towards benefitting life and away from extreme large-scale risks since its founding in 2014. Find out more about our mission or explore our work.

Our content

Paris AI Safety Breakfast #2: Dr. Charlotte Stix

About AI Safety Breakfasts

Chapters

Transcript

About the Future of Life Institute

Related content

Other posts about AI Policy

Statement: Anthropic warns of AI self-improvement risks, considers a pause

FLI President on the White House Executive Order

Magnificent Humanity – The Pope’s First Encyclical Concerns AI

Michael Kleinman reacts to breakthrough AI safety legislation

Some of our Policy & Research projects

Control Inversion

Statement on Superintelligence

Sign up for the Future of Life Institute newsletter