Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

July 14

28 mins

View Transcript

Episode Description

On explore comment des modèles de langage peuvent être sabotés de l’intérieur via leurs données d’entraînement, jusqu’à déclencher des comportements malveillants à une date ou dans un contexte précis. Avec Wassim Bouaziz, doctorant entre Polytechnique et Meta, nous expliquons les principes des portes dérobées et des déclencheurs cachés, et ce que cela implique pour la sécurité et l’alignement des assistants IA. Vous découvrirez des pistes de détection et de mitigation, et pourquoi la conception des jeux de données peut se retourner contre vos propres systèmes.

En plateau

Michaël de Marliave — animateur
Matthieu Lambda — chroniqueur
Wassim Bouaziz — invité

Pour consulter les détails de l'offre Trade Republic : https://trade.re/Underscore_Pod

L'investissement comporte un risque de perte en capital. Les intérêts et les gains financiers sont soumis aux prélèvements fiscaux et sociaux. Les performances passé es ne garantissent pas les résultats futurs. Les fonds non-cotés sont des investissements à long terme et ne devraient représenter qu’une partie du portefeuille total.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

See all episodes

Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

View Transcript

Episode Description

Never lose your place, on any device