La interpretabilidad no detectará la IA engañosa de forma fiable Podcast Por  arte de portada

La interpretabilidad no detectará la IA engañosa de forma fiable

La interpretabilidad no detectará la IA engañosa de forma fiable

Escúchala gratis

Ver detalles del espectáculo

Acerca de esta escucha

No creo que vayamos a producir métodos de alta fiabilidad para evaluar o supervisar la seguridad de los sistemas superinteligentes mediante los paradigmas de investigación actuales, ya sea mediante la interpretabilidad o por otras vías. La interpretabilidad sigue pareciendo una herramienta valiosa y merece la pena seguir invirtiendo en ella, ya que es de esperar que aumente la fiabilidad que podemos alcanzar. Sin embargo, la interpretabilidad debe considerarse parte de un conjunto global de defensas: una capa en una estrategia de defensa en profundidad. No es lo único que nos salvará, y seguirá sin ser suficiente para alcanzar una alta fiabilidad. Tanto la interpretabilidad como los métodos de caja negra se enfrentan a limitaciones fundamentales. Los métodos de interpretabilidad son susceptibles de error, carecen de un punto de referencia fiable para la comparación y se enfrentan a retos a la hora de demostrar la ausencia de engaño. Los métodos de caja negra pueden ser eludidos por sistemas suficientemente inteligentes. A pesar de estas limitaciones, un enfoque pragmático implica desarrollar el mejor conjunto posible de herramientas de supervisión y evaluación. La interpretabilidad puede proporcionar una señal valiosa, aunque sea imperfecta, y puede utilizarse junto con los métodos de caja negra para crear un sistema más sólido. Por ejemplo, la interpretabilidad puede utilizarse para mejorar las evaluaciones de caja negra, manipulando la percepción del modelo sobre si está siendo evaluado. También puede utilizarse para analizar comportamientos anómalos y generar hipótesis que puedan verificarse por otros medios. Aunque una alta fiabilidad pueda ser inalcanzable, maximizar las posibilidades de detectar desalineaciones sigue siendo un objetivo que vale la pena.
adbl_web_global_use_to_activate_T1_webcro805_stickypopup
Todavía no hay opiniones