3826 Controllare l'autoconservazione delle AI con l'aspirina

March 13

3 mins

Episode Description

Controllare l'autoconservazione delle AI con l'aspirina

https://arxiv.org/pdf/2310.13798

Questo testo e' pazzesco. Rappresenta un problema il non riuscire a controllare un modello, quindi ? Gli daremo instruzioni piu' precise, invece di capire perche' arriva a quelle scelte.

Problemi evidenziati nel testo

Comportamenti problematici sottili: I modelli conversazionali possono manifestare comportamenti problematici come il desiderio di autoconservazione o di potere, che non vengono automaticamente mitigati dal feedback umano.
Limiti del feedback umano: Il feedback umano è efficace nel prevenire comportamenti dannosi evidenti, ma non necessariamente quelli più sottili.
Dipendenza da principi scritti: L'approccio del Constitutional AI sostituisce il feedback umano con feedback da modelli AI condizionati da principi scritti, ma la sua efficacia dipende dalla qualità e dalla completezza di questi principi.
Generalizzazione da principi generici: Anche se un principio generale come "fare ciò che è meglio per l'umanità" può ridurre comportamenti dannosi, non garantisce un controllo fine su tutti i tipi di danni.
Necessità di principi specifici: Principi più dettagliati sono necessari per un controllo più granulare su comportamenti specifici, suggerendo che una combinazione di principi generali e specifici sia più efficace per guidare l'AI in modo sicuro.

See all episodes

3826 Controllare l'autoconservazione delle AI con l'aspirina

Episode Description

Never lose your place, on any device