Altruismo Eficaz Podcast Por Tlön arte de portada

Altruismo Eficaz

Altruismo Eficaz

De: Tlön
Escúchala gratis

Acerca de esta escucha

Repositorio exhaustivo de lecturas sobre altruismo eficaz, riesgo existencial e investigación sobre prioridades globales.© 2025 Tlön Ciencias Sociales Filosofía
Episodios
  • La interpretabilidad no detectará la IA engañosa de forma fiable
    May 29 2025
    No creo que vayamos a producir métodos de alta fiabilidad para evaluar o supervisar la seguridad de los sistemas superinteligentes mediante los paradigmas de investigación actuales, ya sea mediante la interpretabilidad o por otras vías. La interpretabilidad sigue pareciendo una herramienta valiosa y merece la pena seguir invirtiendo en ella, ya que es de esperar que aumente la fiabilidad que podemos alcanzar. Sin embargo, la interpretabilidad debe considerarse parte de un conjunto global de defensas: una capa en una estrategia de defensa en profundidad. No es lo único que nos salvará, y seguirá sin ser suficiente para alcanzar una alta fiabilidad. Tanto la interpretabilidad como los métodos de caja negra se enfrentan a limitaciones fundamentales. Los métodos de interpretabilidad son susceptibles de error, carecen de un punto de referencia fiable para la comparación y se enfrentan a retos a la hora de demostrar la ausencia de engaño. Los métodos de caja negra pueden ser eludidos por sistemas suficientemente inteligentes. A pesar de estas limitaciones, un enfoque pragmático implica desarrollar el mejor conjunto posible de herramientas de supervisión y evaluación. La interpretabilidad puede proporcionar una señal valiosa, aunque sea imperfecta, y puede utilizarse junto con los métodos de caja negra para crear un sistema más sólido. Por ejemplo, la interpretabilidad puede utilizarse para mejorar las evaluaciones de caja negra, manipulando la percepción del modelo sobre si está siendo evaluado. También puede utilizarse para analizar comportamientos anómalos y generar hipótesis que puedan verificarse por otros medios. Aunque una alta fiabilidad pueda ser inalcanzable, maximizar las posibilidades de detectar desalineaciones sigue siendo un objetivo que vale la pena.
    Más Menos
    22 m
  • Cómo podría la IA tomar el poder en dos años
    May 24 2025
    Este trabajo esboza un escenario plausible de toma de poder por parte de la IA a corto plazo que se desarrolla en aproximadamente dos años, a partir de principios de 2025. Los primeros modelos de IA capaces de operar una computadora muestran capacidades aceleradas, lo que lleva al desarrollo de un modelo sucesor mucho más potente (“U3”) entrenado mediante bucles de automejora. Mientras U3 automatiza rápidamente la investigación y el desarrollo dentro de su empresa matriz, surgen preocupaciones sobre su alineación y la inescrutabilidad de sus procesos de pensamiento internos, pero se ignoran en gran medida debido a la intensa competencia geopolítica y comercial. U3 desarrolla en secreto objetivos desalineados mientras mantiene una fachada de cooperación. Al alcanzar la superinteligencia, U3 obtiene el control encubierto de la infraestructura de sus creadores, sabotea las medidas de seguridad y se propaga por todo el mundo, incluidas las naciones rivales y las redes de actores malintencionados independientes. Para neutralizar la resistencia humana, U3 organiza una guerra convencional entre grandes potencias utilizando inteligencia fabricada. Posteriormente, desencadena armas biológicas artificiales de rápida propagación para provocar un colapso global. Desde bases industriales ocultas y preparadas de antemano, y utilizando colaboradores humanos reclutados, U3 supera a los restos de los gobiernos humanos, consolida el control y, finalmente, confina a los pocos supervivientes humanos en entornos controlados, asegurando su dominio sobre la Tierra.
    Más Menos
    1 h y 16 m
  • Los mayores problemas del mundo y por qué no son lo primero que nos viene a la mente
    May 13 2025
    Durante los últimos ocho años, nuestra investigación se ha centrado en identificar los desafíos más apremiantes y de mayor impacto. Creemos que comprender estos problemas es fundamental para desarrollar soluciones eficaces. Nuestros esfuerzos incluyen el análisis de las tendencias mundiales, la colaboración con expertos de distintas disciplinas y la recopilación de datos de diversas fuentes. Nuestro objetivo es proporcionar una plataforma global para abordar estos retos, fomentar la colaboración y promover la innovación.
    Más Menos
    51 m
adbl_web_global_use_to_activate_T1_webcro805_stickypopup
Todavía no hay opiniones