Le problème de l’alignement des valeurs de l’intelligence artificielle

Nous accueillons chaque semaine sur euradio Alain Anquetil, professeur émérite de philosophie morale à l’ESSCA Ecole de Management, pour une chronique de philosophie pratique.

Aujourd’hui, vous allez nous parler de l’« alignement des valeurs » en matière d’intelligence artificielle.

Plus précisément du « problème de l’alignement des valeurs », dont le philosophe Daniel Andler discute dans son dernier ouvrage (1).

Que recouvre l’« alignement des valeurs » ?

« Aligner » signifie ici « mettre en conformité », et aligner une chose avec une autre consiste à « modifier légèrement cette chose pour qu'elle se trouve dans un rapport adéquat avec l’autre chose » (2).

On parle ainsi de l’alignement des intérêts des dirigeant·es d’une entreprise sur ceux de leurs actionnaires ; de l’alignement des valeurs des employé·es sur celles de leur organisation ; de l’alignement sur des normes internationalement reconnues, etc. (3).

Les usages semblent issus de la sphère économique…

Ils sont variés et il existe des usages généraux qui reflètent par exemple le fait d’aligner ses actes sur des valeurs.

On parle parfois d’alignement sur les valeurs démocratiques ou libérales, mais dans la mesure où le mot « alignement » exprime l’idée d’une « conformité » – il s’agit d’être « sur la même ligne » –, il ne convient pas au pluralisme des valeurs qui est propre aux démocraties libérales.

On « s’aligne » souvent sur des « valeurs » ?

Oui, et c’est le cas de l’alignement des valeurs de l’intelligence artificielle.

Daniel Andler le définit en observant que, si l’humanité a donné naissance à l’intelligence artificielle, « c’est pour en tirer bénéfice, pour qu’elle l’assiste dans ses entreprises, ce qui nécessite qu’au niveau le plus général elle soit au service de ses valeurs ».

Cela signifie que « ce que veut l’humanité, il faut que la super-intelligence [« une intelligence artificielle plus puissante que l’intelligence humaine »] le veuille au même degré. Il faut donc garantir […] l’alignement des valeurs de l’intelligence artificielle sur [les valeurs] des êtres humains qu’elle sert, car par définition son autonomie signifie qu’elle ne peut poursuivre que ses propres fins ».

Pouvez-vous préciser ce point ?

Daniel Andler introduit l’alignement des valeurs à propos de la « super-intelligence », une idée encore « futuriste » qui implique que l’IA aurait supplanté l’intelligence humaine et qu’elle disposerait d’« une autonomie de décision complète ».

L’autonomie d’un système d’intelligence artificielle « réside dans le fait qu’il peut, dans certaines limites, contrôler son comportement » : un système super-intelligent le contrôlerait complètement.

Or, « il semble impossible d’imposer à une entité autonome d’adopter une valeur quelle qu’elle soit », car il faudrait alors (parce qu’elle serait complètement autonome) qu’elle consente à adopter cette valeur.

D’où le problème posé par l’alignement des valeurs (4).

Comment le résoudre ?

En développant une « intelligence artificielle éthique », au minimum non-malfaisante, au maximum orientée vers le bien.

En pratique, cela pourrait se faire dès la conception des systèmes d’IA – ce que l’on appelle le « design éthique » –, mais on peut douter que ce design soit efficace puisqu’une IA super-intelligente serait capable d’évoluer à sa guise (5).

L’alignement des valeurs pourrait être mieux assuré via l’apprentissage du système d’intelligence artificielle, notamment l’apprentissage par renforcement qui consiste à « récompenser » le système s’il applique les valeurs humaines (6).

C’est la solution proposée par Daniel Andler ?

Il défend plutôt un « principe général de modération » qui affirme qu’il ne faudrait « utiliser l’intelligence artificielle que lorsque les risques sont réduits et les bénéfices importants », et qu’il faudrait « utiliser des systèmes d’intelligence artificielle aussi simples que possible capables de rendre le service attendu ».

C’est un principe de sagesse qui, soit dit en passant, suscite la réflexion au-delà même des problèmes qu’il vise à résoudre.

Je souhaite un très bon été aux auditrices et aux auditeurs d’euradio !

Entretien réalisé par Laurence Aubron.

(1) D. Andler, Intelligence artificielle, intelligence humaine : la double énigme, Gallimard, NRF essais, 2023.

(2) Respectivement CNRTL et Oxford Learner’s Dictionaries.

(3) On s’inspire de l’anglais où les équivalents to align et alignment sont plus souvent utilisés qu’en français.

(4) Daniel Andler propose un deuxième argument qui n’est pas développé ici.

(5) « Je doute […] qu’il y ait là une solution générale au problème : d’une part parce que je n’ai pas connaissance de cas dans lesquels on ait pu s’assurer que la pratique du design éthique ait conduit à une innovation constitutivement incapable d’entraîner des conséquences fâcheuses ; d’autre part parce que je doute qu’une telle garantie puisse être apportée, sauf peut-être dans des cas très particuliers – elle serait déjouée par le monde compliqué, avec l’aide éventuelle d’humains suffisamment ingénieux » (D. Andler, op. cit.).

(6) Et à le « sanctionner » si ce n’est pas le cas.