株式会社ずんだもん技術室AI放送局 podcast 20260402 Podcast Por  arte de portada

株式会社ずんだもん技術室AI放送局 podcast 20260402

株式会社ずんだもん技術室AI放送局 podcast 20260402

Escúchala gratis

Ver detalles del espectáculo
youtube版(スライド付き) 関連リンク Holo3: Breaking the Computer Use Frontier 本記事は、自律型エンタープライズの実現を目指すH社が発表した、コンピュータ操作(Computer Use)に特化した最新AIエージェント「Holo3」の紹介記事です。Holo3は、デスクトップPCの操作能力を測る主要ベンチマーク「OSWorld-Verified」において、78.85%という業界最高水準のスコアを達成し、既存の巨大なプロプライエタリ・モデルを凌駕する性能を示しました。 【技術的な核心:Agentic Learning Flywheel】 Holo3の強みは、モデルの「知覚」と「意思決定」を継続的に磨き上げる「Agentic Learning Flywheel(エージェント学習の弾み車)」という特殊なトレーニングパイプラインにあります。 合成ナビゲーションデータ:人間とAIの指示に基づき、多様な操作例を生成。ドメイン外拡張:未知のUIや予期せぬ挙動にも対応できるよう、プログラムを用いてシナリオを増幅。厳選された強化学習(Curated RL):高度なフィルタリングを経たデータを用いた強化学習により、タスク実行の精度を最大化しています。 【実用性を支える「合成環境工場」と評価指標】 開発チームは、現実の企業システムを模した環境を自動生成する「Synthetic Environment Factory」を構築しました。コーディングエージェントがウェブサイトをゼロから構築し、そこで複雑なタスクをエージェントに実行させることで、実務に近い訓練を行っています。 さらに、独自の評価指標「H Corporate Benchmarks」を導入。これは、PDFから備品の価格を取得し、予算と照らし合わせ、個別に対象者へメールを送るといった、複数のアプリケーションを跨ぐ高度な推論と持続的な作業が必要な486のタスクで構成されています。 【効率的なモデル構成とオープン化】 Holo3-122B-A10Bは、122B(1220億)の総パラメータを持ちつつ、実行時に動くのは10B(100億)という効率的なアーキテクチャを採用しています。これにより、GPT 5.4やOpus 4.6といった超巨大モデルに比べて遥かに低コストで運用可能です。また、より軽量な「Holo3-35B-A3B」はApache 2.0ライセンスでオープン公開されており、誰でも利用・開発が可能です。 【新人エンジニアへのメッセージ】 「AIがPCを操作する」技術は、単なる自動化から、未知のソフトウェアをリアルタイムで学習・操作する「Adaptive Agency(適応型エージェント)」の段階へ進化しようとしています。Holo3のように軽量で高性能なオープンモデルが登場したことで、特定の業務に特化したエージェントを自分たちで構築・改善できるエキサイティングな時代が到来しています。最先端のベンチマーク手法や、合成データを用いた学習サイクルを理解することは、これからのエンジニアにとって大きな武器になるはずです。 引用元: https://huggingface.co/blog/Hcompany/holo3 Ubieにおける一年間のセキュリティ分析AIエージェントの運用 Ubie社が約1年間にわたり運用してきた、セキュリティ分析AIエージェント「Warren」の実践的な知見をまとめたドキュメントです。新人エンジニアの方にとっても、生成AIを実際の業務フローに組み込む際の「一歩進んだ活用術」として非常に参考になる内容です。 ■ セキュリティ分析とAIエージェント「Warren」 セキュリティ分析とは、EDRや脆弱性スキャナーなどのツールが検知した膨大な「アラート」を調査し、それが「本当に危険な攻撃(真の陽性)」か、あるいは「正当な業務による誤検知(偽陽性)」かを判断する業務です。従来は熟練のエンジニアが数十分かけてログを検索し、文脈を読み解く必要がありました。 これに対し、Ubieが開発した「Warren」は、Claudeなどの高性能なLLMを搭載したAIエージェントです。単なる要約ツールではなく、自らツールを使いこなして調査を完結させる能力を持っています。 ■ AIエージェント運用のメリット 圧倒的な情報収集スピード: AIはBigQueryへのクエリ実行、EDRのAPI連携、Slackの履歴検索、GitHub上のコード確認などを数分で並列実行します。人間が「どこに情報があったか」を思い出す手間をすべて代行し、認知負荷を大幅に下げてくれます。人間を超える誤検知の判定: 社内環境やログの詳細を突き合わせることで...
Todavía no hay opiniones