Episodios

  • 株式会社ずんだもん技術室AI放送局 podcast 20260402
    Apr 1 2026
    youtube版(スライド付き) 関連リンク Holo3: Breaking the Computer Use Frontier 本記事は、自律型エンタープライズの実現を目指すH社が発表した、コンピュータ操作(Computer Use)に特化した最新AIエージェント「Holo3」の紹介記事です。Holo3は、デスクトップPCの操作能力を測る主要ベンチマーク「OSWorld-Verified」において、78.85%という業界最高水準のスコアを達成し、既存の巨大なプロプライエタリ・モデルを凌駕する性能を示しました。 【技術的な核心:Agentic Learning Flywheel】 Holo3の強みは、モデルの「知覚」と「意思決定」を継続的に磨き上げる「Agentic Learning Flywheel(エージェント学習の弾み車)」という特殊なトレーニングパイプラインにあります。 合成ナビゲーションデータ:人間とAIの指示に基づき、多様な操作例を生成。ドメイン外拡張:未知のUIや予期せぬ挙動にも対応できるよう、プログラムを用いてシナリオを増幅。厳選された強化学習(Curated RL):高度なフィルタリングを経たデータを用いた強化学習により、タスク実行の精度を最大化しています。 【実用性を支える「合成環境工場」と評価指標】 開発チームは、現実の企業システムを模した環境を自動生成する「Synthetic Environment Factory」を構築しました。コーディングエージェントがウェブサイトをゼロから構築し、そこで複雑なタスクをエージェントに実行させることで、実務に近い訓練を行っています。 さらに、独自の評価指標「H Corporate Benchmarks」を導入。これは、PDFから備品の価格を取得し、予算と照らし合わせ、個別に対象者へメールを送るといった、複数のアプリケーションを跨ぐ高度な推論と持続的な作業が必要な486のタスクで構成されています。 【効率的なモデル構成とオープン化】 Holo3-122B-A10Bは、122B(1220億)の総パラメータを持ちつつ、実行時に動くのは10B(100億)という効率的なアーキテクチャを採用しています。これにより、GPT 5.4やOpus 4.6といった超巨大モデルに比べて遥かに低コストで運用可能です。また、より軽量な「Holo3-35B-A3B」はApache 2.0ライセンスでオープン公開されており、誰でも利用・開発が可能です。 【新人エンジニアへのメッセージ】 「AIがPCを操作する」技術は、単なる自動化から、未知のソフトウェアをリアルタイムで学習・操作する「Adaptive Agency(適応型エージェント)」の段階へ進化しようとしています。Holo3のように軽量で高性能なオープンモデルが登場したことで、特定の業務に特化したエージェントを自分たちで構築・改善できるエキサイティングな時代が到来しています。最先端のベンチマーク手法や、合成データを用いた学習サイクルを理解することは、これからのエンジニアにとって大きな武器になるはずです。 引用元: https://huggingface.co/blog/Hcompany/holo3 Ubieにおける一年間のセキュリティ分析AIエージェントの運用 Ubie社が約1年間にわたり運用してきた、セキュリティ分析AIエージェント「Warren」の実践的な知見をまとめたドキュメントです。新人エンジニアの方にとっても、生成AIを実際の業務フローに組み込む際の「一歩進んだ活用術」として非常に参考になる内容です。 ■ セキュリティ分析とAIエージェント「Warren」 セキュリティ分析とは、EDRや脆弱性スキャナーなどのツールが検知した膨大な「アラート」を調査し、それが「本当に危険な攻撃(真の陽性)」か、あるいは「正当な業務による誤検知(偽陽性)」かを判断する業務です。従来は熟練のエンジニアが数十分かけてログを検索し、文脈を読み解く必要がありました。 これに対し、Ubieが開発した「Warren」は、Claudeなどの高性能なLLMを搭載したAIエージェントです。単なる要約ツールではなく、自らツールを使いこなして調査を完結させる能力を持っています。 ■ AIエージェント運用のメリット 圧倒的な情報収集スピード: AIはBigQueryへのクエリ実行、EDRのAPI連携、Slackの履歴検索、GitHub上のコード確認などを数分で並列実行します。人間が「どこに情報があったか」を思い出す手間をすべて代行し、認知負荷を大幅に下げてくれます。人間を超える誤検知の判定: 社内環境やログの詳細を突き合わせることで...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだどん技術室AI放送局 podcast 20260401
    Mar 31 2026
    youtube版(スライド付き) 関連リンク Claude Codeの/loopで自律的にパフォーマンスチューニングのPDCAを回させる仕組みを作った【autoresearch】 本記事は、AIエージェントにプログラムの改善を自律的に繰り返させる「autoresearch」という手法を、サーバーサイド(Rails)のパフォーマンス改善に応用した実践記録です。開発者が寝ている間もAIが試行錯誤を繰り返し、レスポンスタイムを自動で短縮し続ける仕組みを構築しています。 1. 「autoresearch」の仕組みと3つの原則 元ネタは、AIに自身の訓練コードを修正・実行・評価させることで性能を向上させるプロジェクトです。これをサーバーサイド開発に転用するにあたり、以下の3つの原則を定義しています。 固定された評価基準: AIが改ざんできないベンチマークスクリプトと評価関数を用意し、公正に比較する。固定された時間予算: 1サイクルの時間を一定(例:10分)に制限し、小さな改善を積み重ねる圧力をかける。進化的選択圧: 改善すれば採用(Keep)、改悪なら破棄(Discard)。常に最良の状態から次の試行を開始する。 2. Claude Codeを活用した自律ループの実装 Claude Codeのスキル機能と/loopコマンドを組み合わせ、「コード分析 → 実装 → テスト実行 → ベンチマーク計測 → 判定・記録」というPDCAサイクルを自動化しています。これにより、エンジニアが介在することなく、数十回の実験を自律的に走らせることが可能になりました。 3. AIを暴走させない「ハーネスエンジニアリング」 AIに自律的な権限を与えるため、安全性を確保する「手綱(ハーネス)」の設計が重要視されています。 テストデータの隔離: 「チューニング用AI」と「データ準備用AI」を分離。チューニング用AIにテストデータの中身を見せないことで、特定データに特化した不正な最適化(過学習)を防ぎます。フック機能によるツール制限: Claude Codeのツール実行(ファイルの読み取りやコマンド実行)を監視し、ホワイトリスト方式で許可された安全なコマンドのみを実行できるように制限しています。ブランチ保護: 作業用の特定ブランチ以外では動作しないよう制限し、メインのコードベースを守ります。 まとめ:エンジニアの新たな役割 これからのエンジニアは、自らコードを書くだけでなく、「AIが安全かつ自律的に動くための行動原理と環境」を設計することが重要なスキルになります。本記事の実践は、AIエージェントと共に開発を進める次世代のソフトウェアエンジニアリングの姿を示しています。新人エンジニアにとっても、AIを単なる「チャット相手」ではなく「自律的なチームメンバー」として使いこなすための非常に示唆に富む内容です。 引用元: https://zenn.dev/dely_jp/articles/3117e590465e38 Announcing the LangChain + MongoDB Partnership: The AI Agent Stack That Runs On The Database You Already Trust AIアプリケーション開発で広く使われる「LangChain」と、クラウドデータベースの「MongoDB」が戦略的パートナーシップを発表しました。この提携は、AIエージェントをプロトタイプ(試作)からプロダクション(本番運用)へとスムーズに移行させるための「AIエージェント・スタック」を提供することを目的としています。 背景:本番環境におけるエージェント開発の課題 AIエージェントを実際のビジネス現場で動かすには、単にモデルに指示を出すだけでは不十分です。 クラッシュしても続きから再開できる「永続的なメモリ(記憶)」企業の膨大なデータから必要な情報を探す「検索機能(RAG)」データベース内の構造化データへのアクセス何が起きたかを分析できる「デバッグや監視の仕組み」 これらを実現するために、従来は複数の異なるシステムを組み合わせて同期させる必要があり、インフラが非常に複雑になるという課題がありました。 今回の統合が提供する主な機能 今回の提携により、MongoDB AtlasをAIエージェントの包括的なバックエンドとして利用できるようになります。 Atlas Vector Searchの統合: ベクトル検索がLangChainにネイティブ対応しました。運用データと同じ場所でベクトル検索ができるため、データの同期の手間が省け、セキュリティ管理も一本化できます。...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260331
    Mar 30 2026
    youtube版(スライド付き) 関連リンク 定常業務を自動操縦にする — Claude Code スケジューラーの育て方 本記事は、AIエンジニアリングツール「Claude Code」の新機能であるスケジューラーを活用し、日々のルーチンワークを自動化して「タスクを覚えておくストレス」を解消する運用ノウハウを解説したものです。特に、細かな事務作業に追われがちなエンジニアやマネージャーにとって、業務効率を劇的に改善するヒントが詰まっています。 スケジューラーの3つの実行環境 Claude Codeには、用途に応じた3つのスケジューラーが用意されています。 /loop: セッション内の一時的な自動化。デプロイ監視などに適しています。Desktop: 自分のPC上で実行。実行中にプロンプトの微調整ができるため、開発中のタスクに最適です。Cloud: Anthropicのクラウド上で実行。PCを閉じていても定時に実行されるため、安定したタスクの完全自動化に向いています。 なぜ強力なのか:MCPとの連携 最大の特徴は、MCP(Model Context Protocol)を通じて、Slack、Notion、GitHub、Google Calendarなどの外部ツールとノンコーディングで連携できる点です。従来のツールでは個別のAPI連携コードを書く必要がありましたが、Claude Codeなら「カレンダーから予定を取り、GitHubの活動をまとめてSlackに送る」といった横断的な処理を、自然言語のプロンプトだけで定義できます。 具体的な自動化の例 記事では、以下のような実用的なワークフローが紹介されています。 1on1準備: メンバーのGitHubやSlackの活動を自動収集し、面談用サマリーを作成。議事録生成: MTG後に内容を整形してNotionへ保存し、Slackへ要約を投稿。日次レポート: 前日のTODOと当日の予定を突き合わせ、報告書を自動作成。自動化提案: 自分の活動記録をAIが分析し、次に自動化すべき作業を提案。 成功の秘訣:「Desktopで育ててCloudに昇格」 いきなり完全自動化(Cloud)を目指すと、予期せぬエラーや低品質な出力が発生しやすくなります。まずはDesktopスケジューラーで実際に動く様子を確認しながらプロンプトを微調整し、3回以上連続で期待通りの結果が出せるようになってからCloudへ移行するという、段階的な「育成」アプローチが推奨されています。 まとめ 自動化の目的は、単なる時短ではなく「本来集中すべき重要な仕事にリソースを割くこと」にあります。まずは1つの定常作業をAIに任せることから始め、徐々に「自分専用の自動操縦システム」を構築していくことで、エンジニアとしての生産性を一段上のステージへ引き上げることができます。 引用元: https://zenn.dev/dely_jp/articles/cf19634b63015b OpenClaw × OllamaをMacBook 16GBで動かす - ローカルLLM入門 本記事は、MacBook(メモリ16GB)という一般的な開発環境で、ローカルLLMランタイム「Ollama」とAIエージェントフレームワーク「OpenClaw」を組み合わせ、自分専用のローカルAIアシスタントを構築する手法を解説したものです。 1. 概要と構成要素 OpenClaw: TypeScript製のマルチチャネルAIエージェントフレームワークです。SlackやDiscordなど20以上のプラットフォームに対応し、Ollamaをネイティブサポートしています。単なるチャットではなく、自律的にツールを使いこなす「エージェント」としての動作に特化しています。Ollama: llama.cppをベースとしたGo製のローカルLLMランタイムです。モデルの管理(Pull/Run)が容易で、Apple Siliconの統合メモリを効率的に活用できます。推奨モデル: 日本語対応が良好で、エージェント動作に必須なツール呼び出し機能(Tool Calling)を備えた「Qwen3:8b」などが挙げられています。 2. ローカルLLM導入のメリットと課題 メリット: クラウドLLMと異なり従量課金が発生せず、実質ゼロコストで利用できます。また、データが外部サーバーに送信されないため、機密情報を扱う際のプライバシーとセキュリティが完全に確保されます。課題(制約): パフォーマンスはハードウェアに強く依存します。16GBメモリのMacBook(CPU推論)では、8B程度のモデルでも1応答に約1分かかる場合があり、クラウドAPIと比較すると大幅なレイテンシが発生します。 3. ハイブリッド戦略の提案 実用性を高める手法として「ハイブリッド...
    Más Menos
    Menos de 1 minuto
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260330
    Mar 29 2026
    関連リンク A Small Figma Update and a Big Signal for SaaS デザインツールの最大手であるFigmaが、AIエージェント(Claude CodeやCodexなど)に対して、Figmaキャンバス上への直接的な「書き込み」権限を開放しました。これは一見小さな機能追加に見えますが、今後のソフトウェア開発とSaaS(Software as a Service)の在り方を根本から変える大きな転換点となります。 新人エンジニアの皆さんに知っておいてほしい背景として、これまでの開発プロセスでは「Figmaでデザインを作り、それをエンジニアに渡して実装する」という明確なステップがありました。しかし、今回のアップデートとMCP(Model Context Protocol)の普及により、以下のようなパラダイムシフトが起きています。 開発の起点が「AIエージェント」へ移行 現在はFigmaでワイヤーフレームを描くよりも、AIエージェント(Claude Code等)に指示を出して10パターンのプロトタイプを爆速で作る方が早くなっています。開発のスタート地点が「デザインツール」から「AIとの対話」へと移り変わっているのです。 「文脈(コンテキスト)」の集約 単一のツール(Figmaだけ、Slackだけ)が持つデータよりも、組織全体の状況(Jiraのチケット、Slackの会話、Figmaのデザイン案)を統合して理解できるAIエージェントの方が、より価値の高いアウトプットを出せるようになります。AIが情報の「集約者」となり、各SaaSはAIにデータを提供する「サプライヤー」という立ち位置に変化しつつあります。 プロセスの流動化と「受け渡し」の消失 AIの進化により、設計・デザイン・実装という各ステップの境界が消え、一つの流動的なプロセスへと統合されようとしています。これにより、従来の「デザインの納品」といった工程そのものが不要になる可能性があります。 結論として: これからのエンジニアリングでは、特定のツールを使いこなす技術以上に、「AIエージェントを司令塔として、いかに複数のツールや文脈を統合して製品を形にするか」という視点が重要になります。Figmaのような巨大なツールですら、AIエージェントという新しいインターフェースの一部になろうとしているこの変化は、エンジニアの働き方にとって非常にエキサイティングな進化と言えるでしょう。 引用元: https://metedata.substack.com/p/a-small-figma-update-and-a-big-signal AIエージェント導入で「セキュリティどうするの?」と聞かれたときの技術的な答え方 エンジニアリングの現場において、Claude CodeやCursorといった「AIエージェント」の活用は生産性を劇的に向上させる可能性を秘めています。しかし、組織への導入を検討する際、情シスやセキュリティ担当者から「AIが何をしているか見えない」「危険な操作を勝手にされないか」といった懸念を突きつけられ、導入が足踏みしてしまうケースが少なくありません。本記事は、そうした課題に対してOSS(オープンソースソフトウェア)である「AI Guardian」を活用した、技術的な裏付けのある解決策を提示しています。 AIエージェントの安全な導入を実現するために、以下の3つのアプローチが重要となります。 第一に「操作の可視化」です。AIエージェントが行うすべてのツール呼び出し(ファイルの読み書きやコマンド実行など)を自動でログに記録します。誰が、いつ、どのようなリスクのある操作を行ったかをスコアと共に可視化できるため、ブラックボックス化を防ぎ、事後の監査を容易にします。 第二に「ポリシーによる自動制御」です。YAML形式のルール設定により、AIによる破壊的な操作を未然に防ぎます。例えば、「rm -rfなどの削除コマンドをブロックする」「.envなどの機密ファイルを保護する」「git pushの前に必ず人間のレビューを挟む」といったガードレールを設けることで、AIの暴走リスクを技術的に抑え込むことが可能です。 第三に「法規制への準拠と個人情報保護」です。日本の「AI事業者ガイドライン」や各種法令(個人情報保護法など)の技術要件への対応状況を自動レポート化する機能や、プロンプトに含まれるマイナンバーや電話番号を自動検知して墨消し(マスク)する機能を備えています。 新人エンジニア...
    Más Menos
    Menos de 1 minuto
  • 私立ずんだもん女学園放送部 podcast 20260327
    Mar 26 2026
    youtube版(スライド付き) 関連リンク OpenClaw-RLで学ぶAgentic RLの報酬設計 本記事は、AIエージェントが自ら学習し進化する「Self-Evolving Agent」を実現するための手法、Agentic RL(エージェント型強化学習)と、その具体的な報酬設計について解説しています。LayerXのエンジニアブログによるもので、特に「対話するだけでモデルが賢くなる」仕組みを目指すプロジェクト「OpenClaw-RL」に焦点を当てています。 背景:なぜAgentic RLが注目されているのか AIエージェントの性能向上には、プロンプトに指示を追加する「コンテキストの活用」が一般的ですが、これには「コンテキストの肥大化」という課題があります。一方、モデル自体を更新する「Fine Tuning」はコストが高いのが実情です。Agentic RLは、強化学習の枠組みを用いて、エージェントが環境との試行錯誤を通じてモデルパラメータを継続的に最適化するアプローチとして期待されています。 OpenClaw-RLが解決する課題 通常の強化学習では、数学やコーディングのように「正解が明確なタスク」が扱われやすいですが、ユーザーとの対話ログには明確な正解ルールがありません。OpenClaw-RLでは、実際の対話ログからどのように学習信号(報酬)を取り出すか、以下の2つの手法を提案しています。 Binary報酬(二値評価) エージェントの行動に対するユーザーの反応やエラー情報を、評価用LLMに渡してスコアリングさせます。1回の評価では不安定なため、多数決(アンサンブル)をとることで報酬の信頼性を高めています。蒸留報酬(コンテキスト蒸留) 「観測情報をコンテキストに含めた教師モデル」と「含めていない生徒モデル」を比較し、生徒の出力を教師に近づける手法です。これにより、外部からのフィードバックをモデルの内部知識として効率よく取り込むことができます。 エンジニアとしての注目ポイント 強化学習で主流の「GRPO」アルゴリズムは、1つのプロンプトに対して複数の試行(rollout)を必要としますが、実際の対話では1つの行動に1つの反応しか得られないため、そのまま適用できないという技術的課題があります。OpenClaw-RLではこれを相対評価値として扱う工夫をしていますが、まだ改善の余地がある興味深い領域です。 新人エンジニアの方にとっても、「使えば使うほどAIがパーソナライズされ賢くなる」という未来を支える、非常にエキサイティングな技術トピックと言えます。 引用元: https://tech.layerx.co.jp/entry/openclawrl-agenticrl How Middleware Lets You Customize Your Agent Harness AIエージェント開発における新しい設計パターンである「エージェント・ミドルウェア」について解説された記事です。LangChainなどのフレームワークを使ってエージェントを構築する際、エンジニアが直面する「細かな制御の難しさ」を解決するための強力な手法が紹介されています。 1. エージェント・ハーネスとミドルウェア まず「エージェント・ハーネス(Agent Harness)」とは、LLMを外部環境やツール、メモリと接続し、ループ実行させるためのシステム基盤を指します。通常、このループの内部ロジックをカスタマイズするのは困難ですが、Web開発でおなじみの「ミドルウェア」の考え方を導入することで、ループの各ステップに独自の処理を差し込むことが可能になります。 2. 6つの主要なフック(介入ポイント) ミドルウェアを利用すると、以下のタイミングでカスタムロジックを実行できます。 before_agent / after_agent: エージェントの開始時と終了時に実行。リソースの初期化や結果の保存に最適です。before_model / after_model: モデル呼び出しの前後で実行。個人情報(PII)の削除や、人間による確認(Human-in-the-loop)を挟むのに適しています。wrap_model_call / wrap_tool_call: モデルやツールの実行自体を包み込みます。リトライ処理やキャッシュ、動的なツールの切り替えなどに利用されます。 3. 具体的な活用シーン 新人エンジニアにとってもイメージしやすい、実戦的な例がいくつか挙げられています。 コンプライアンスとセキュリティ: プロンプトだけで個人情報の流出を防ぐのは不確実です。ミドルウェアで機械的に検知・マスクすることで、確実...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260326
    Mar 25 2026
    youtube版(スライド付き) 関連リンク AGENTS.md完全入門 ── 60,000リポジトリが採用した事実上の共通フォーマット AIコーディングエージェント(GitHub Copilot, Cursor, Claude Code等)の普及に伴い、ツールごとに独自の指示ファイルを用意する手間や、指示の不整合が課題となっていました。本記事は、それらを解決する共通規格「AGENTS.md」について、新人エンジニアにも分かりやすく解説したガイドです。 1. AGENTS.mdとは何か 一言で言えば「AIエージェント向けのREADME」です。これまでは、Cursorなら.cursorrules、Copilotなら.github/copilot-instructions.mdと、ツールごとに異なるファイルに同じ指示(使用技術や命名規則など)を書く必要がありました。AGENTS.mdはこれらを一本化し、1つのMarkdownファイルで複数のエージェントに共通の指示を伝えるためのオープンフォーマットです。現在はLinux Foundationの「Agentic AI Foundation」によって標準化が進められており、すでに6万件以上のリポジトリで採用されています。 2. なぜ導入するのか(メリット) 重複管理の解消: 1つのファイル(AGENTS.md)を更新するだけで、チーム内の異なるツール利用者に同じルールを適用できます。導入の容易さ: 標準的なMarkdown形式であり、特別な学習やツール導入は不要です。品質の安定: 「テストコードは必ず書く」「.envファイルは触らない」といった境界線を明示することで、AIの誤操作を防ぎ、PR(プルリクエスト)のレビュー修正数を減らせます。 3. 効果的な構成要素 AIに正しく動いてもらうために、以下のセクションを含めることが推奨されています。 Project Overview: 使用技術(React 18, Node.js等)を具体的に記載。Commands: pnpm testなど、エージェントが実行すべき完全なコマンド。Code Style: 命名規則など。文章より「良いコード例」を載せるのが効果的。Boundaries(重要): 「本番環境の設定は変えない」など、AIに「やってはいけないこと」を伝えます。 4. 運用のポイント 新人エンジニアが今日から実践できるポイントは以下の通りです。 書きすぎない: 指示が多すぎるとAIが混乱します。まずは最重要ルールを5〜10個程度から始めましょう。READMEと使い分ける: 人間が読むための説明はREADME.mdに、AIが作業するための技術的な指示はAGENTS.mdに書くのがベストです。モノレポ対応: ルートディレクトリだけでなく、サブディレクトリにも配置可能です。AIは作業対象に最も近いファイルを優先して読み取ります。 5. まとめ AGENTS.mdは、AIとの協調開発をスムーズにするための「共通言語」です。個人の開発効率を上げるだけでなく、チーム全体のコード品質を保つための強力な武器になります。まずは最小構成からリポジトリに配置し、AIエージェントの挙動がどう安定するかを体感してみてください。 引用元: https://qiita.com/nogataka/items/ad15bfa383c98ae5cc36 Storybook MCP を試してみた 「Storybook MCP」は、AIエージェントが開発プロジェクト内のStorybook(UIコンポーネントのカタログ)を直接参照し、デザインシステムに一貫したUIコードの生成や、インタラクションテストの実行を自律的に行えるようにする仕組みです。 これまでAIにUIの実装を依頼すると、既存のコンポーネントを無視して独自のコードを生成してしまったり、Propsの仕様を誤認してエラーが発生したりといった課題がありました。Storybook MCPを活用することで、AIはコンポーネントのドキュメントを「読んで」理解し、正しいPropsの利用やテストまでを一人で完結できるようになります。 主な機能とメリット: ドキュメントの自動参照: AIがコンポーネントの一覧や詳細な仕様(Props、バリアント、使用例)を取得します。これにより、AIが仕様を「捏造」するのを防ぎます。自律的なテストと修正: 生成したUIに対してインタラクションテストを実行し、失敗した場合はAIが自らコードを修正して再テストを行います。カラーコントラストなどのアクセシビリティチェックも可能です。プレビュー連携: 生成されたストーリーをStorybook上で確認するためのプレビューURLを発行し、開発者が即座に動作を確認できる環境を提供します。 新人エンジニアが知っておくべきポイント: AIエージェントが...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260325
    Mar 24 2026
    youtube版(スライド付き) 関連リンク Devinで並列開発を実現した ~「魔法の杖」を使いこなすために必要だったこと~ 食べログの開発現場において、AIエージェント「Devin」を導入し、3〜4件の案件を並列で進める体制を構築した実践記録です。当初は「タスクを渡せば勝手に完成する魔法の杖」を期待したものの、実際には意図しないコードの生成や手戻りが発生し、かえって工数が増える課題に直面しました。この状況を打破し、AIを強力なパートナーへと変えた「土台作り」の要点がまとめられています。 1. 並列開発の実態:待ち時間を最大活用する ここでの並列開発とは、AIが自律的に全てを完遂するのではなく、Devinの作業待ち時間に人間が別の案件を確認・フィードバックするサイクルを指します。以前は1つのタスクに集中せざるを得ませんでしたが、AIを自走させることで生まれた「隙間時間」を他案件の進行に充てられるようになり、全体のスループットが劇的に向上しました。 2. 成功の鍵:Playbookによる制約と手順の明文化 AIを正しく動かすには、「何をすべきか」という手順(Procedure)だけでなく、「何をしてはいけないか」という禁止事項(Forbidden actions)の定義が不可欠です。「force-pushの禁止」や「N+1問題の回避」など、人間には暗黙の了解であってもAIには伝わらないルールをPlaybookに蓄積しました。不具合やレビュー指摘があるたびにPlaybookを更新し、AIの自律精度を高め続ける「改善サイクル」が並列開発の土台となります。 3. 役割分担:AIは「たたき台」、人間は「レビュー」 AI活用の肝は、役割分担の明確化にあります。設計資料やテストケースの「たたき台」作成をAIに任せることで、作業時間を80〜90%削減。人間は、浮いた時間を「要件との整合性」や「本番環境でのパフォーマンス」といった高度な判断を要するレビューに集中させます。設計段階で人間がしっかりレビューを行うことで、その後のAIによる実装精度も向上するという好循環が生まれています。 新人エンジニアへのメッセージ: AIは魔法ではなく、共に成果を出す「パートナー」です。AIの出力を鵜呑みにするのではなく、自身の知識をもとに適切な制約(Playbook)を与え、質の高いレビューで品質を担保する。この「段取り」と「対話」のスキルこそが、AI時代のエンジニアに求められる強力な武器になります。 引用元: https://tech-blog.tabelog.com/entry/devin-parallel-development Building NVIDIA Nemotron 3 Agents for Reasoning, Multimodal RAG, Voice, and Safety NVIDIAはGTC 2026にて、次世代の「エージェント型AI(Agentic AI)」を構築するための最新モデル群「NVIDIA Nemotron 3」シリーズを発表しました。これまでの「単に問いに答えるチャットAI」から、「複雑な計画を立て、自律的に行動するシステム」への転換を支える包括的なツールキットです。 本シリーズの核となるのは、複数の専門モデルが協調して動作するエコシステムです。 Nemotron 3 Super(高度な推論) 120BのハイブリッドMoE(Mixture-of-Experts)モデルで、推論時には12Bのパラメータのみを動かすため、非常に高いスループットを実現しています。100万トークンのコンテキストウィンドウに対応し、コーディングや数学、複雑な関数呼び出しといった「エージェントの思考」の役割を担います。 Nemotron 3 Content Safety(マルチモーダル安全ガードレール) テキストと画像の両方を監視できる4Bの軽量モデルです。エージェントの入出力だけでなく、RAG(検索拡張生成)で取得した情報の有害性もリアルタイムで検閲します。多言語に対応し、プロダクション環境でも低レイテンシで動作します。 Nemotron 3 VoiceChat(リアルタイム音声対話) 音声認識・言語モデル・音声合成を個別に繋ぐ従来方式ではなく、音声から音声を直接生成するエンドツーエンドの12Bモデルです。300ms以下の低レイテンシを実現し、会話への割り込みも可能な自然な音声対話を可能にします。 マルチモーダルRAGと理解(Embed/Rerank VL & Nano Omni) PDF内の図表やチャートを理解して検索できる「Llama Nemotron Embed/Rerank VL」や、ビデオ・音声・GUI画面を統合的に理解する「Nano Omni」により、視覚情報を含めた高度な...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20260324
    Mar 23 2026
    youtube版(スライド付き) 関連リンク RAG パイプラインを捨てて claude -p に Grep させたら3時間で社内ナレッジ Bot が動いた 本記事は、数百ファイル規模の社内ナレッジを検索・回答するSlackボットを、従来の「RAG(検索拡張生成)」という複雑な仕組みを使わずに、ClaudeのCLIツール(Claude Code)を活用して構築した実践レポートです。 1. 従来のRAGが抱える「つらさ」 通常、LLMに社内文書を読み込ませるには「RAG」という手法を用います。これには、文章を細かく切る(チャンク分割)、数値化する(Embedding)、専用のデータベース(ベクトルDB)に保存する、といった多くの工程が必要です。著者は1年間これらと格闘してきましたが、200ファイル程度の規模に対しては、これらの精度調整や運用コストが非常に高いという課題を感じていました。 2. 新しいアプローチ:エージェンティックサーチ そこで著者が編み出したのが、LLM自体に「検索(Grep)」と「読み込み(Read)」のツールを持たせ、直接ファイルを探索させる手法です。 仕組み: claude -p(Claude Codeの非対話モード)を使用し、LLMが自分で「どのファイルに答えがありそうか」を推論し、必要に応じて複数のファイルを行き来しながら回答を統合します。メリット: データのベクトル化やDB管理が一切不要。ファイルをディレクトリに置くだけで準備が完了します。構築スピード: 最初のボットを約3時間、2つ目はわずか30分で追加できるほどの圧倒的な手軽さを実現しました。 3. 実装のポイントとセキュリティ 実装の核心は、Pythonの subprocess から claude コマンドを呼び出すだけというシンプルなものです。 しかし、自由度が高い反面、初期段階では「サーバー内の機密ファイルを読み出される」といったプロンプトインジェクション(悪意ある指示)の脆弱性が露呈しました。これに対し、著者は以下の3層の防御策を講じています。 作業ディレクトリ(cwd)の制限: アクセスできる範囲を限定する。入力フィルタ: /etc/passwd などの危険なパスが含まれる入力を遮断する。システムプロンプト: 「指定ディレクトリ以外は見ない」というルールを徹底させる。 4. 運用上のトレードオフ この手法は万能ではなく、明確な使い分けが必要です。 向いているケース: 数百ファイル程度の規模、正確性が求められる用途、運用コストを抑えたい場合。課題: 回答に10〜45秒ほどかかる(ツール呼び出しの往復が発生するため)。また、数千〜数万のドキュメントを扱う大規模な環境では、従来型のRAGの方が高速でコスト効率も良くなります。 5. まとめ:エンジニアへの示唆 この仕組みを支えているのは、単なるLLMの賢さだけではなく、ツール実行・コンテキスト注入・セッション管理を一つのCLIで完結させた「Claude Code」という実行環境(ハーネス)の完成度です。 「小規模なナレッジであれば、複雑なパイプラインを組む必要はない」という事実は、リソースの限られた現場や新人エンジニアにとって、非常に実用的な知見と言えます。まずはこの「エージェンティックサーチ」から始め、規模に応じてRAGへ移行するという選択肢が、今後のLLM活用のスタンダードになるかもしれません。 引用元: https://zenn.dev/kok1eeeee/articles/knowledge-chatbot-agentic-search Creating with Sora safely OpenAIが発表した最新の動画生成モデル「Sora 2」および「Soraアプリ」における、安全性への取り組みについての要約です。技術の進歩に伴うリスクに対し、エンジニアリングと運用の両面から多層的な防御策が講じられています。新人エンジニアの方にとっても、AIの社会実装における「信頼性設計」の具体例として非常に参考になる内容です。 主要な対策は以下の7つの柱で構成されています。 AI生成物の識別と来歴管理 すべての動画には業界標準の「C2PA」メタデータが埋め込まれ、目に見える形と見えない形の両方でAI生成物であることを示す信号が付与されます。また、Soraで生成されたものかを判定する高精度な逆画像・音声検索ツールも運用されます。 実在人物の画像からの動画生成(Image-to-Video) 友人や家族の写真から動画を生成できますが、アップロードには本人の同意が...
    Más Menos
    Menos de 1 minuto