banner
Maison / Nouvelles / La création de meilleurs modèles commence par le réexamen des métriques
Nouvelles

La création de meilleurs modèles commence par le réexamen des métriques

Aug 06, 2023Aug 06, 2023

Les informaticiens de l'USC présentent une meilleure façon de mesurer les performances des modèles d'IA génératifs lors de la Conférence internationale sur l'apprentissage automatique (ICML).

Crédit photo : Metamorworks/Getty Images

« Les modèles d’IA générative sont essentiellement des méthodes qui examinent certaines données et tentent d’en créer davantage. Mesurer avec précision les performances de ces modèles est devenu de plus en plus important en raison de la croissance rapide de leurs applications dans les tâches en aval », a déclaré Mahyar Khayatkhoei, informaticien à l'Institut des sciences de l'information (ISI) de l'USC.

Lors de la 40e Conférence internationale sur l'apprentissage automatique (ICML '23), qui s'est tenue du 23 au 29 juillet à Honolulu, HI, Khayatkhoei, qui travaille avec le groupe de recherche VIMAL (Visual Intelligence and Multimedia Analytics Laboratory) de l'ISI, a présenté son dernier article sur la performance des modèles génératifs.

Khayatkhoei a déclaré : « La performance n’est généralement pas quelque chose que les gens regardent de très près. Ils s'appuient sur des références existantes et tentent de créer de meilleurs modèles, mais il n'est pas toujours clair si ces modèles sont vraiment meilleurs. Donc, examiner attentivement ce que signifie « meilleur » et savoir si la façon dont vous mesurez cette « meilleure » ​​est exacte est quelque chose qui, à mon avis, est très précieux. »

L'article est co-écrit par Wael AbdAlmageed, directeur fondateur de VIMAL, professeur associé de recherche au département Ming Hsieh de génie électrique et informatique de l'USC Viterbi et directeur de recherche à l'ISI. AbdAlmageed a déclaré à propos du document : « L’IA générative est en grande partie une boîte noire mal comprise. Au milieu du battage médiatique autour de ChatGPT et des grands modèles de langage (LLM), quelqu'un a dû ralentir et essayer d'étudier le comportement de ces modèles afin de mieux caractériser leurs performances.

Un modèle génératif a été utilisé pour créer une image d’un trou noir lorsque les scientifiques disposaient de parties de l’image, et compte tenu de ces parties, le modèle a pu construire le reste. Mais les modèles génératifs touchent plus près que les trous noirs. Khayatkhoei a déclaré : « Ils sont utilisés dans de nombreuses applications ; de nombreuses méthodes de détection basée sur l'image, par exemple la détection de tumeurs cancéreuses lors d'un examen médical ou de visages humains sur des photos, utilisent un certain type d'IA générative dans leur pipeline pour améliorer la précision ; il existe également des cas d’utilisation directe de l’IA générative dans la découverte de médicaments, les prédictions dynamiques et les simulations physiques.

Khayatkhoei a expliqué comment : « Nous n'avons souvent pas accès à autant de données que nous le souhaiterions, nous utilisons donc des modèles génératifs pour augmenter le nombre d'observations sur lesquelles nous entraînons les réseaux neuronaux. » Les réseaux de neurones sont les modèles informatiques utilisés en IA qui identifient les relations dans les ensembles de données.

Un exemple : si vous souhaitez qu'une application détecte une tumeur cancéreuse, le réseau neuronal doit être formé sur un très grand ensemble de données de tumeurs, et un modèle génératif peut créer un tel ensemble de données. La qualité de l'ensemble de données généré est décrite par la fidélité et la diversité.

Khayatkhoei explique ces attributs en utilisant l'exemple de la génération de visage humain. « Avec les modèles génératifs, nous essayons d’apprendre la distribution des données à partir de quelques observations. Ainsi, un modèle peut voir un nombre limité de visages humains et essayer de générer un nombre infini de visages humains. « Fidélité » décrit le réalisme des images. Et puis se pose la question du degré de « diversité » de la génération ; le modèle génère-t-il le même visage ? Est-ce que cela génère des visages de différentes formes, couleurs et arrière-plans, etc.

Une méthode standard pour mesurer les performances d'un modèle génératif consiste à quantifier la fidélité et la diversité à l'aide de métriques appelées respectivement « précision » et « rappel ».

Dans son article, Khayatkhoei montre théoriquement qu’il existe des défauts de précision et de mémorisation. « Les gens utilisent ces mesures pour créer de meilleurs modèles ou pour décider quel modèle utiliser dans leur application. Lorsque ces mesures sont erronées, cela signifie que toutes ces décisions le sont également potentiellement », a déclaré Khayatkhoei.

Khayatkhoei a expliqué comment il a abordé le défi : « Nous avons créé des expériences pour montrer que ce problème existe, et nous avons prouvé mathématiquement qu'il s'agit en fait, sous certaines hypothèses, d'un problème très général. Et puis, à partir des enseignements de l’analyse mathématique, nous avons créé une version modifiée pour calculer ces mesures qui atténuent le problème.