株式会社ずんだもん技術室AI放送局 Podcast Por 株式会社ずんだもん技術室AI放送局 arte de portada

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

De: 株式会社ずんだもん技術室AI放送局
Escúchala gratis

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
Episodios
  • 株式会社ずんだもん技術室AI放送局 podcast 20260205
    Feb 4 2026
    youtube版(スライド付き) 関連リンク Build with Kimi K2.5 Multimodal VLM Using NVIDIA GPU-Accelerated Endpoints NVIDIAは、Moonshot AIが開発した最新のオープンなマルチモーダル視覚言語モデル(VLM)である「Kimi K2.5」が、NVIDIAのGPUアクセラレーションエンドポイントで利用可能になったことを発表しました。このモデルは、テキストだけでなく画像やビデオの入力にも対応しており、高度な推論、コーディング、数学、そして自律的に動く「AIエージェント」のワークフローにおいて非常に高い性能を発揮します。 新人エンジニアが注目すべき技術的特徴は、その効率的なアーキテクチャです。Kimi K2.5は「混合エキスパート(MoE: Mixture-of-Experts)」という仕組みを採用しています。総パラメータ数は1兆(1T)という巨大な規模ですが、推論時にはそのうちの3.2%(約330億パラメータ)のみを動的に使用するため、高い処理能力と効率性を両立させています。また、262Kという非常に長いコンテキストウィンドウ(一度に読み込める情報量)を持っており、膨大な資料や長い動画の解析にも適しています。 視覚処理の面では、独自の「MoonViT3d Vision Tower」を搭載しており、画像やビデオフレームを効率的にベクトルデータに変換します。トレーニングにはNVIDIAの「Megatron-LM」フレームワークが使用されており、GPUの並列処理能力を最大限に引き出す最適化が施されています。 開発者向けの活用方法として、以下の3つのステップが紹介されています。 プロトタイピング: NVIDIA Developer Programに登録すれば、ブラウザ上のプレイグラウンド(build.nvidia.com)で無料かつ手軽にモデルの性能を試すことができます。API利用: OpenAI互換のAPIエンドポイントが提供されているため、Pythonなどのコードから簡単にモデルを呼び出してアプリケーションに組み込めます。デプロイとカスタマイズ: 高速な推論を実現する「vLLM」でのデプロイや、NVIDIA NeMo Frameworkを用いた独自のデータによる微調整(ファインチューニング)もサポートされています。 NVIDIAの最新GPU環境に最適化されたこの強力なオープンモデルは、これからのAIアプリケーション開発において、エンジニアにとって非常に魅力的な選択肢となるでしょう。 引用元: https://developer.nvidia.com/blog/build-with-kimi-k2-5-multimodal-vlm-using-nvidia-gpu-accelerated-endpoints/ Apple SiliconでAIやっている人に朗報です。vllm-mlxが凄い。 Apple Silicon(Mac)でのLLM実行環境を劇的に進化させる新しいフレームワーク「vllm-mlx」についての解説記事です。これまで高性能な推論サーバーの代名詞であった「vllm」は、Mac環境ではCPU実行に限定されるなどの制約がありましたが、本プロジェクトはApple純正の計算ライブラリ「MLX」をベースにすることで、MacのGPU(Metal)性能を最大限に引き出したvllmライクなインターフェースを実現しています。 概要 vllm-mlxは、Apple Silicon(M1〜M4チップ)にネイティブ対応した、マルチモーダルな推論プラットフォームです。単なるモデル実行用のラッパーにとどまらず、プロダクトレベルの運用に耐えうる高度なメモリ管理機能とスループット性能を備えている点が最大の特徴です。 主な特長 マルチモーダル対応: テキストだけでなく、画像、動画、音声の推論を一つのプラットフォームで統合的に扱えます。圧倒的なパフォーマンス: vllmと同じ「Paged KV Cache(ページングKVキャッシュ)」アーキテクチャを採用。従来のMLX関連ツールと比較して、処理スピードが1.14倍高速化し、メモリ消費量を約80%に節約することに成功しています。高度なサービング機能: 複数ユーザーの同時接続を効率よく処理する「連続バッチ処理(Continuous Batching)」に対応しています。OpenAI API互換: OpenAIクライアントをそのまま代替として利用可能なローカルサーバーを構築できます。MCPツール呼び出し: モデルコンテキストプロトコル(MCP)を介して外部ツールと連携でき、AIエージェントの開発にも適しています。 新人エンジニアに向けた注目ポイント Mac一台で「爆速かつ省メモリ」なLLM環境が手に入ることは、開発効率を大きく高めます。特に、これまで個別に使い分ける必要があった「mlx-lm(言語モデル用)」や...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260204
    Feb 3 2026
    関連リンク マルチモーダルLLMを活用したZOZOTOWN検索の関連性評価手法 ファッションECサイト「ZOZOTOWN」を運営するZOZOの検索基盤部による、マルチモーダルLLM(MLLM)を活用した検索結果の評価手法に関する解説記事です。 検索システムの改善において、新旧のアルゴリズムを比較する「オフライン評価」は不可欠ですが、従来の検索ログを用いた手法には課題がありました。過去のログは既存の検索ロジックの結果に基づいているため、新しいロジック(ベクトル検索など)に対して公平な評価ができず、バイアスが生じてしまう点です。 この課題を解決するため、ZOZOは人間の代わりにMLLMを用いて検索クエリと商品の関連性を判定する手法を導入しました。本手法の主な特徴とステップは以下の通りです。 マルチモーダル情報の活用と基準策定 ファッションにおいて「見た目」は重要な要素です。商品テキストだけでなく画像データもMLLMに入力することで、視覚的な関連性を考慮した高精度な判定を実現しました。また、評価基準を「Highly relevant(非常に関連あり)」「Acceptable Substitute(許容できる代替品)」「Irrelevant(無関連)」の3段階に整理し、曖昧さを排除したプロンプトを設計しています。 ゴールドセットによるモデルの検証 判定の信頼性を担保するため、まず人間が手作業で作成した正解データ(ゴールドセット)を用いて複数のLLMを比較しました。検証の結果、Gemini 2.5 Flashと改善したプロンプトの組み合わせが74.1%という高い精度を記録し、実用レベルにあることを確認しました。 定量評価の自動化とスケーラビリティ 構築した評価基盤を用いることで、数千から数万件のクエリ・商品ペアに対して自動でラベリングを行い、nDCGやPrecisionといった指標を算出します。人間が2時間かかる作業をMLLMなら1分以内で完了できるため、圧倒的なスピードで大規模な評価が可能になりました。 この取り組みにより、既存ロジックのバイアスを排除した「本質的な関連性」に基づく評価体制が整いました。LLMを単なるチャットツールとしてではなく、システムの精度を計測するための「スケーラブルな評価基盤」として活用する、実戦的で非常に参考になる事例です。 引用元: https://techblog.zozo.com/entry/search-quantitative-evaluation-llm H Companys new Holo2 model takes the lead in UI Localization AIスタートアップのH Company(Mistral AIの創設メンバーらによる企業)から、UI(ユーザーインターフェース)要素の特定において世界最高性能(SOTA)を更新した最新モデル「Holo2-235B-A22B Preview」が発表されました。本記事は、GUIエージェントやWebオートメーションの未来を大きく変える可能性を秘めた、この新モデルの技術的な進展を解説しています。 1. UIローカライズにおける新たな金字塔 「Holo2-235B-A22B Preview」は、GUIグラウンディング(画面上の特定の要素がどこにあるかを特定する技術)の難関ベンチマークである「ScreenSpot-Pro」で78.5%、「OSWorld G」で79.0%というスコアを記録しました。これは、AIが画面内のボタンや入力フォームをいかに正確に認識できるかを示す指標であり、現時点で世界トップクラスの精度を誇ります。本モデルはHugging Face上でリサーチリリースとして公開されています。 2. 「Agentic Localization」による精度の追求 従来のモデルが直面していた大きな課題に、4Kなどの高解像度画面における「非常に小さなUI要素の認識ミス」がありました。Holo2はこの課題を、独自の「Agentic Localization(エージェント的ローカライズ)」という手法で解決しています。 反復的な予測の洗練: 一度の推論で場所を決め打ちするのではなく、エージェントが推論を繰り返す(イテレーティブ・リファインメント)ことで、予測結果を段階的に正確なものへと修正していきます。劇的な精度向上: このアプローチにより、モデルのサイズを問わず10〜20%もの相対的な精度向上を実現しました。推論ステップの効果: 単発の推論では70.6%の精度ですが、エージェントモードとして3ステップ実行することで、最も難解なベンチマークの一つであるScreenSpot-Proにおいて78.5%という最高スコアを達成しました。 3. 日本の新人...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260203
    Feb 2 2026
    関連リンク Introducing the Codex app OpenAIは、macOS向けの新ツール「Codex app」を発表しました。これは、複数のAIエージェントを司令塔(コマンドセンター)として一元管理し、複雑で長時間にわたる開発タスクを効率化するためのデスクトップアプリケーションです。従来のIDEやターミナルでは難しかった「複数のエージェントへの指示・監督・協働」を直感的に行えるように設計されています。 新人エンジニアにとっても注目すべき、主な特徴は以下の通りです。 マルチエージェントの並列実行と管理 プロジェクトごとにスレッドを分け、複数のエージェントに異なるタスクを同時に依頼できます。各エージェントの進捗をシームレスに切り替えて確認できるため、コンテキストを失わずに作業を進められます。 安全な試行錯誤を支える「worktrees」対応 エージェントはコードの独立したコピー(作業ツリー)上で動作します。そのため、自分のローカル環境やメインのGitブランチを汚す心配がありません。提案された変更はアプリ内でレビューし、コメントを付けたり、必要に応じて自分のエディタで修正したりすることが可能です。 「スキル」による機能拡張 Codexは単なるコード生成に留まりません。Figmaのデザインをコードに変換する、プロジェクト管理ツール(Linear)でバグを整理する、クラウド(VercelやRender等)へデプロイするといった一連のワークフローを「スキル」として登録し、エージェントに実行させることができます。これらはチーム内で共有も可能です。 オートメーション(自動化) スケジュールに基づいたバックグラウンド実行が可能です。毎日のバグトリアージュやCI失敗の要約作成など、重要だが繰り返しの多い業務をAIに任せ、人間は最終的な確認作業に集中できます。 柔軟な性格設定と高い互換性 エージェントの性格を「簡潔で実用的」なスタイルか「対話的で共感的」なスタイルか選ぶことができます。また、既存のCodex CLIやIDE拡張機能の設定や履歴をそのまま引き継げるため、導入もスムーズです。 最新の「GPT-5.2-Codex」をベースとしたこのアプリは、エージェントに「コードを書かせる」だけでなく「コードを使って仕事を完結させる」ツールへと進化しています。セキュリティ面でもサンドボックス構造が採用されており、安全に高度な自動化を体験できるのが魅力です。現在はmacOS向けに、ChatGPTの有料プランユーザーを対象に提供が開始されています。 引用元: https://openai.com/index/introducing-the-codex-app Selenium作者によるAIと人間のためのブラウザ操作自動化ツール Vibium を使ってみる 本書は、ブラウザ自動化ツールの代名詞である「Selenium」の生みの親、Jason Huggins氏が新たに公開したツール「Vibium」についての紹介記事です。Vibiumは、AIエージェントがブラウザを操作するためのインフラストラクチャとして設計されており、エンジニアの間で大きな注目を集めています。 概要 Vibiumの最大の特徴は、AIと人間の両方が利用できる「ハイブリッドなブラウザ操作ツール」である点です。特にAIエージェントとの親和性が極めて高く設計されています。 MCP(Model Context Protocol)の標準搭載 単一のバイナリ内にMCPサーバーが内蔵されています。これにより、Claude CodeなどのMCP対応クライアントを利用すれば、複雑な設定なし(Zero Setup)でAIにブラウザを操作させることが可能です。モダンな通信プロトコル ブラウザのライフサイクル管理に加え、最新の「WebDriver BiDi」プロトコルをサポートしており、高速で双方向なブラウザ制御を実現しています。マルチ言語対応 AIによる自動操作だけでなく、人間がコードを書いて制御することも可能です。現時点(2026年2月)では、JavaScript/TypeScriptおよびPythonから利用できるSDKが提供されています。 制約・現在の仕様 Vibiumを導入するにあたって、以下の点に留意する必要があります。 対応言語の範囲: 現在公式にサポートされているのはJS/TSとPythonであり、その他の言語については今後の展開を待つ形となります。操作の実装手法: 一部のUI操作(セレクトボックスの選択など)については、現時点ではevaluateメソッドを用...
    Más Menos
    Menos de 1 minuto
Todavía no hay opiniones