Episode Description
Controllare l'autoconservazione delle AI con l'aspirina
https://arxiv.org/pdf/2310.13798
Questo testo e' pazzesco. Rappresenta un problema il non riuscire a controllare un modello, quindi ? Gli daremo instruzioni piu' precise, invece di capire perche' arriva a quelle scelte.
Problemi evidenziati nel testo
https://arxiv.org/pdf/2310.13798
Questo testo e' pazzesco. Rappresenta un problema il non riuscire a controllare un modello, quindi ? Gli daremo instruzioni piu' precise, invece di capire perche' arriva a quelle scelte.
Problemi evidenziati nel testo
- Comportamenti problematici sottili: I modelli conversazionali possono manifestare comportamenti problematici come il desiderio di autoconservazione o di potere, che non vengono automaticamente mitigati dal feedback umano.
- Limiti del feedback umano: Il feedback umano è efficace nel prevenire comportamenti dannosi evidenti, ma non necessariamente quelli più sottili.
- Dipendenza da principi scritti: L'approccio del Constitutional AI sostituisce il feedback umano con feedback da modelli AI condizionati da principi scritti, ma la sua efficacia dipende dalla qualità e dalla completezza di questi principi.
- Generalizzazione da principi generici: Anche se un principio generale come "fare ciò che è meglio per l'umanità" può ridurre comportamenti dannosi, non garantisce un controllo fine su tutti i tipi di danni.
- Necessità di principi specifici: Principi più dettagliati sono necessari per un controllo più granulare su comportamenti specifici, suggerendo che una combinazione di principi generali e specifici sia più efficace per guidare l'AI in modo sicuro.