LLMの次はこれだ：Appleが実現した画像・動画・3Dを『統一言語』で扱う万能AI

No se pudo agregar al carrito

Solo puedes tener X títulos en el carrito para realizar el pago.

Add to Cart failed.

Por favor prueba de nuevo más tarde

Error al Agregar a Lista de Deseos.

Por favor prueba de nuevo más tarde

Error al eliminar de la lista de deseos.

Por favor prueba de nuevo más tarde

Error al añadir a tu biblioteca

Por favor intenta de nuevo

Error al seguir el podcast

Intenta nuevamente

Error al dejar de seguir el podcast

Intenta nuevamente

LLMの次はこれだ：Appleが実現した画像・動画・3Dを『統一言語』で扱う万能AI

Escúchala gratis

Ver detalles del espectáculo

今回は、Appleが発表した革新的な視覚AI技術「ATOKEN」について解説しています。

現在のAIは、画像認識、動画生成、3Dモデリングなど、目的ごとに異なるモデルが必要です。しかしATOKENは、これらすべてを単一のモデルで処理できる統一的なフレームワークを実現しました。さらに驚くべきは、従来トレードオフの関係にあった「意味を理解する能力」と「精密に再現する能力」を両立させた点です。

番組では、なぜこれまで視覚AIが統一できなかったのか、ATOKENがどのように「4次元統一空間」という独創的なアイデアでこの問題を解決したのかを、具体例を交えながら解説します。また、13万8千GPU時間という膨大な計算資源を投入して行われた段階的学習の工夫や、動画や3Dの学習が画像の性能を向上させるという「正の転移」現象についても詳しく説明しています。

ImageNetで82.2%という高い認識精度を達成した実際の性能データや、今後のAI開発にどのような影響を与えるかという将来展望まで、幅広くカバーしています。

Paper: https://arxiv.org/abs/2509.14476

Book: https://amzn.to/4nAM1zw

note: ⁠⁠⁠https://note.com/rami_engineer⁠⁠⁠

X: ⁠https://x.com/rami_engineer⁠

Todavía no hay opiniones