Episodios

  • 株式会社ずんだもん技術室AI放送局 podcast 20251216
    Dec 15 2025
    youtube版(スライド付き) 関連リンク Nemotron 3 Nano - A new Standard for Efficient, Open, and Intelligent Agentic Models NVIDIAが、効率性と性能を両立した新しいAIエージェントモデル「Nemotron 3 Nano 30B A3B」を発表しました。このモデルは、1Mトークンという長文脈に対応し、Mamba-Transformer MoEアーキテクチャを採用することで、従来のモデルと比較して最大4倍の高速化を実現しています。 主な特徴として、31.6Bパラメータ、約3.6Bの活性パラメータ、推論速度の向上、高い精度、Reasoning ON/OFF機能、そしてオープンなデータスタックが挙げられます。 学習には、大規模な事前学習、教師ありファインチューニング、そしてRLVR/RLHFといった強化学習技術が用いられています。また、NVIDIAは、RL環境構築を容易にする「NeMo Gym」も公開しており、開発者がより簡単に強化学習を試せるようにしています。 Nemotron 3 Nanoは、エージェント、推論、ツール利用、チャットタスクに最適化されており、Hugging Faceやbuild.nvidia.comなどで利用可能です。モデルの重み、学習レシピ、データセットも公開されており、研究開発を促進します。 引用元: https://huggingface.co/blog/nvidia/nemotron-3-nano-efficient-open-intelligent-models AIエージェント/MCPサーバー実装ガイドを作成しました SIOS Tech Lab SIOS Tech Labが、AIエージェントとMCP(Model Context Protocol)を体系的に学べる実装ガイドを公開しました。このガイドは、AIエージェント開発の基礎から実践までを網羅しており、201ページの大ボリュームです。 対象読者は、AIエージェント/MCPを学ぶ開発者、および関連プロジェクトのPL/PM。基礎理論を図解で分かりやすく解説し、すぐに動くソースコードも提供することで、初心者でもスムーズに学習を進められます。 ガイドは以下の7つの章で構成されています。 AIエージェントの基本概念ReActによるAIエージェント実現Function Callingによる実装MCPの理論と構造シンプルなMCPサーバー実装MCPの認可機能MCP対応AIエージェント実装 このガイドと解説セミナーを活用することで、AIエージェント/MCPサーバー開発をスムーズに進められるでしょう。 引用元: https://tech-lab.sios.jp/archives/50769 ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃 ChatGPTのメモリシステムは、多くのエンジニアが予想していたRAGやベクトルデータベースを使用せず、シンプルな4層構造で高速性を実現しているという調査結果。各層は、セッションメタデータ、長期記憶(最大33個)、最近の会話サマリー、現在のセッションメッセージで構成されます。 RAGの課題(レイテンシ、精度、複雑性)を回避し、全ての記憶をコンテキストに注入する方式を選択。モデルのスケーリングとコンテキストウィンドウ拡大により、速度と効率性を両立しています。OpenAIの哲学は「強力なモデルに大量のコンテキストを渡せば、モデルが不要な情報をフィルタリングする」というもの。 他のAI(Claude, Gemini)と比較すると、ChatGPTは日常会話の記憶継続性に優れる一方、単一会話の情報量ではGeminiに劣ります。セキュリティ面では、悪意のあるコードを記憶に注入される「Memory Injection」攻撃のリスクがあり、対策が必要です。 この設計は、特に日常会話においては、速度と利便性を優先した結果と言えます。今後のAI開発においては、RAGだけでなく、シンプルなコンテキスト注入やSQLベースのメモリエンジンなど、タスクに応じた最適なアプローチを選択することが重要になるでしょう。 引用元: https://zenn.dev/tenormusica/articles/chatgpt-memory-no-rag-2025 【ずんだもん】ずんだもんのマスコットが登場!「もちぴこ」シリーズで顔文字のようなシュールな表情を造形【プライズ】 「ずんだもん」のマスコットが、オンラインクレーンゲームやアミューズメント施設に登場。表情豊かな「もちぴこ」シリーズで、ストラップ紐付きのぬいぐるみを入手できます。 引用元: https://game.boom-app.com/entry/onlinecranegame-news20251215-10 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)
    Más Menos
    Menos de 1 minuto
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251215
    Dec 14 2025
    関連リンク OpenAI are quietly adopting skills, now available in ChatGPT and Codex CLI OpenAIがAnthropicのSkills機構を取り入れ、ChatGPTのCode InterpreterとCodex CLIにスキルサポートを静かに導入しました。スキルはMarkdownファイルとリソースを含むフォルダで構成され、ファイルシステムへのアクセス能力を持つLLMツールであれば利用可能です。 ChatGPTでは/home/oai/skillsフォルダにアクセスし、PDFやdocxなどのファイルを処理できます。PDF処理では、レイアウトやグラフィック情報を維持するため、PDFをPNG画像に変換してGPTモデルに渡すアプローチを採用しています。 Codex CLIでは、~/.codex/skillsフォルダ内のスキルを認識し、--enable skillsオプションで利用できます。スキルを利用してDatasetteプラグインを自動生成する例も紹介されています。 これらの動きは、AIエージェントの機能拡張において、軽量なスキル定義が重要であることを示唆しており、Agentic AI Foundationによる正式なドキュメント化が期待されます。 引用元: https://simonwillison.net/2025/Dec/12/openai-skills/ 🐸 なぜ今、Agentic Workflowなのか - Graflowの設計思想 本稿は「現場で使えるAIエージェントワークフロー」を目指すオーケストレーションエンジンGraflowの設計思想を、既存フレームワークとの対比を交えて解説しています。著者はエージェント導入の現実課題(本番での挙動制御、並列処理・水平スケール、Human-in-the-Loop(HITL)、長時間処理の再開、グラフの可読性悪化)を挙げ、これらを解決するために「Type B:Agentic Workflow(構造化オーケストレーション+局所的自律性)」に特化する方針を示しています[7]。GraflowはSuperAgentの内部推論をワークフローで細かく表現せず、SuperAgentを「Fatノード」として外部専門フレームワーク(Google ADK、PydanticAI、SmolAgents等)に委譲する責務分離戦略を取る点を強調しています[7][4]。 設計上の特徴と主要機能は次の通りです。1) 実行時に動的タスク生成・分岐を行えるState Machine風の制御(context.next_task/next_iteration/goto)により、事前に全分岐を定義する必要を排し柔軟なループ・ファンアウトを実現する[7]。2) ユーザ制御のcheckpoint/resumeで長時間処理の途中再開が可能(checkpointはS3/ローカル/Redis等に保存)[7]。3) HITLとcheckpointの組合せで承認待ちを非同期に扱い、タイムアウト時に自動checkpointを作ることで人の回答後に再開できる仕組みを提供する[7][6]。4) Redisベースの分散ワーカーによる水平スケールと、ローカル→分散への切替が簡単な実行バックエンドを備える[7]。5) LLM呼び出しは用途に応じて二通りのインジェクションを提供—複雑な推論はinject_llm_agent(SuperAgentラップ)、単発呼び出しはinject_llm_client(軽量・マルチモデル)—でコストと複雑度を使い分けられる[7]。6) DAG的演算子DSL(»、)とタスク内での動的遷移を組み合わせた「DAG × State Machine」ハイブリッド設計により静的可読性と動的柔軟性を両立している[7]。さらに、Dockerハンドラー、TypedChannelによる型安全なタスク間データ共有、並列グループごとの細粒度エラーポリシー(Strict / Best-effort / At-least-N / Critical / カスタム)やLangFuse/OpenTelemetry統合によるトレーシングとランタイムグラフエクスポートなど、プロダクション運用で必要な機能が揃っています[7][8]。 比較として、LangGraphはSuperAgentもワークフローも自前実装するフルスタック路線で、グラフの事前コンパイルや急峻な学習曲線、APIの流動性が問題視されている点を指摘し、Graflowはワークフローに専念して「ベストツールを組み合わせる」アプローチを採るとしています[7][3]。実用例やOSS公開・協力募集(2026年1月公開予定)についても言及されています[7]。 新人エンジニア向けの要点整理: 目的:現場で制御できてスケールするAIワークフロー(Agentic Workflow)を実装するためのライブラリ設計。SuperAgentは外部に任せ、ワークフロー制御に専念する点がキモ[7][4]。使い分け指針:複雑なマルチターン/ツール呼び出しはSuperAgent(inject_llm_agent)、単発処理はLLMClient(inject_llm_client)を使う[7]。実装ポイント:静的に見やすいDAGを演算子で定義しつつ、タスク内部でnext_task等を呼んで動的に遷移することで柔軟性を...
    Más Menos
    Menos de 1 minuto
  • 私立ずんだもん女学園放送部 podcast 20251212
    Dec 11 2025
    関連リンク たった5行で自分専用のClaude Codeを作れる ― Claude Agent SDK詳解 \nAnthropicが2025年9月に正式リリースしたClaude \ Agent SDKは、わずかなコードで本格的なAIエージェントを構築できる強力なフレームワークです。もともと「Claude Code SDK」と呼ばれていましたが、コーディングだけでなくさまざまなエージェント構築に対応できるため改名されました。SDKはAnthropicの本番環境で使われるagent \ harnessをベースにしており、高度な機能を開発者に提供します。\n\n主な特徴として、会話の自動コンテキスト管理(トークン制限を超えないよう圧縮)、豊富な組み込みツール(ファイル操作、コード実行、Web検索など)、そして独自ツールの簡単追加が挙げられます。PythonとTypeScript/JavaScriptで利用可能で、Pythonではpip\ \ install claude-agent-sdkで導入し、APIキーを環境変数に設定します。\n\nSDKの使い方はシンプルで、@toolデコレータにより加算、乗算、累乗、階乗といった数学計算ツールを簡単に定義できます。これらのツールはcreate_sdk_mcp_serverでまとめて登録し、ClaudeAgentOptionsで使用モデルや許可ツールを指定、ClaudeSDKClientで対話ループを実装します。対話は非同期ストリーミングで行われ、リアルタイムに応答が表示されます。\n \nまた、SDKはReActパターンを自然に実現しており、エージェントが「思考→行動→観察」を繰り返しながら複雑なタスクを分解・実行可能です。たとえば、複数の計算ツールを順に呼び出し、結果を組み合わせる処理も自動で行えます。さらに、エージェントは自分のツールの説明や使用例も示せるため、対話の柔軟性が高いです。\n \n本番環境向けには詳細なエラーハンドリングの実装や、権限管理の適切な設定が推奨されます。SDKは単一エージェントだけでなく、複数エージェント(subagents)を並列運用するマルチエージェント対応も可能で、大規模タスクの効率的処理が狙えます。\n \nただし、Claude Agent SDKはClaudeモデル向けに最適化されているため、他の大規模言語モデル(LLM)との互換性は限定的で、マルチモデル対応が必要ならOpenAI \ Agents SDKやLangChainなどの汎用フレームワークが適している場合もあります。\n\nまとめると、Claude Agent SDKは最小限のコードで高度なAIエージェント開発を実現し、ReActパターンや自動コンテキスト管理などの先進機能を備えた、AIエージェント開発の新基準となりうるツールです。新人エンジニアでも理解しやすく、実践的に使える設計であるため、AIエージェント開発を始める際の有力な選択肢となります。” 引用元: https://zenn.dev/acntechjp/articles/cb1be5aff11eca Introducing Polly: Your AI Agent Engineer LangChainのLangSmithに組み込まれたAIアシスタント「Polly(ベータ)」の紹介記事。Pollyはエージェント設計やデバッグを支援する「AIエージェントエンジニア」で、特に人手で解析しづらい長大なプロンプト、何百ステップにもなる実行トレース、数時間〜数日に及ぶマルチターンの会話に強みがある。主な機能は(1)個別トレース解析:失敗箇所や非効率な挙動の特定、(2)スレッド解析:複数回のやり取りを横断した要約や挙動変化の特定、(3)プロンプト設計支援:システムプロンプトの修正、出力スキーマ定義、ツール定義やfew-shot例の追加、長さ最適化など。Pollyの知見はLangSmithのトレーシング(runs/ traces/ threads)に蓄積されたデータに基づき、まずはトレース解析・会話デバッグ・プロンプト改善を提供し、将来的には実験解析やプロンプト最適化機能を拡張する予定。導入はLangSmithでトレーシングを有効化すれば利用可能。新人エンジニアは、複雑なエージェントの失敗原因特定とプロンプト設計の高速化に有用と理解してよい。’ 引用元: https://blog.langchain.com/introducing-polly-your-ai-agent-engineer/ 【アドベントカレンダー2025】AI Agentの「自律性」との向き合い方 データサイエンティスト閔氏による、AI Agentの自律性(Agency)とその設計・運用上の注意点の解説記事です。まずHugging Faceの指標を引用し、レベル0〜3で自律度を整理(レベル0:単なるLLM、レベル1:条件分岐、レベル2:Toolの自律利用、レベル3:複数AgentやTool自作)。自律度が高いほど...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20251211
    Dec 10 2025
    youtube版(スライド付き) 関連リンク Agent Engineering: A New Discipline AIエージェントを開発している皆さん、自分のPCでは動いていたのに、いざ本番環境にデプロイすると予期せぬ挙動をして苦労した経験はありませんか?従来のソフトウェア開発では、入力と出力がある程度予測できましたが、AIエージェントはユーザーがどんな入力をしてくるか分からず、挙動も広範囲にわたるため、開発が非常に難しいのが現状です。 そこで、LangChainのチームは、AIエージェントを本番環境で信頼性高く運用するための新しい開発手法として、「エージェントエンジニアリング」という専門分野を提唱しています。これは、予測不可能な大規模言語モデル(LLM)ベースのシステムを、信頼できるプロダクトへと継続的に改善していくための反復的なプロセスです。そのサイクルは、「構築(Build)」「テスト(Test)」「リリース(Ship)」「観察(Observe)」「改善(Refine)」「繰り返し(Repeat)」が基本となります。ここで大切なのは、リリースがゴールではなく、新たな知見を得てエージェントを改善するための出発点である、という考え方です。 エージェントエンジニアリングを実践するには、主に3つのスキルセットが連携する必要があります。 プロダクト思考: エージェントが「何を解決すべきか」を定義し、ユーザーの課題を深く理解します。具体的なプロンプト作成や、エージェントが期待通りに動くかを評価する指標作りも含まれます。エンジニアリング: エージェントが利用するツール(外部サービス連携など)を開発したり、ユーザーインターフェース(UI/UX)を構築したり、エージェントの実行を安定させるための基盤(エラー処理、メモリ管理など)を作ります。データサイエンス: エージェントの性能や信頼性を測定するシステム(A/Bテスト、モニタリングなど)を構築し、実際の利用データから改善点を見つけ出します。 なぜ今、この分野が必要なのでしょうか? LLMは今や複雑な多段階のタスクをこなせるほど強力になりましたが、その強力さゆえに予測不可能な挙動も増えました。従来の開発では「すべてテストしてからリリース」でしたが、AIエージェントの場合、ユーザーの自然言語入力は「すべてがエッジケース」になり得ます。また、モデル内部のロジックが多いため、従来のデバッグ方法では対応しきれません。「動いている」だけでは不十分で、「意図通りに、適切に動いているか」を常に監視・評価する必要があります。 エージェントエンジニアリングでは、「完璧にしてからリリースする」のではなく、「リリースして現実世界での挙動から学ぶ」という考え方が重要です。まずエージェントの土台を作り、想定シナリオでテストし、すぐにリリースして実際のユーザー入力を観察します。そこから得られた情報をもとに、プロンプトやツール定義を改善し、このサイクルを素早く繰り返すことで、信頼性の高いエージェントシステムを構築できるのです。 AIエージェントは、これまで人間が行っていた複雑な作業をこなす大きな可能性を秘めています。この新しい開発手法をチームに取り入れることで、LLMの真の力を引き出し、信頼できるプロダクトを生み出すことができるでしょう。 引用元: https://blog.langchain.com/agent-engineering-a-new-discipline/ GitHub Copilot サブエージェントによるオーケストレーター パターンの実践 この記事は、GitHub CopilotのrunSubagentという機能を使って、ソフトウェア開発のワークフロー全体を自動化する「オーケストレーターパターン」について、新人エンジニアにも分かりやすく解説しています。 GitHub CopilotのrunSubagentとは? これは、AIエージェントが別のAIエージェントに仕事を依頼できる便利な機能です。まるで、会社で上司が部下に具体的な業務を指示するようなイメージです。 オーケストレーターパターンとは? この記事で紹介されているオーケストレーター(指揮者)エージェントは、ソフトウェア開発の最初から最後まで、すべてを自動で進めるシステムです。具体的には、ユーザーが「こんな機能が欲しい」と要望を出すと、以下の...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20251210
    Dec 9 2025
    youtube版(スライド付き) 関連リンク Donating the Model Context Protocol and establishing the Agentic AI Foundation AI開発大手のAnthropicは、AIアプリケーションが外部システムと連携するための共通規格である「Model Context Protocol(MCP)」を、新たに設立された「Agentic AI Foundation(AAIF)」へ寄付することを発表しました。このAAIFは、オープンソースプロジェクトの管理で知られるLinux Foundationの傘下に設立された基金です。Anthropic、Block、OpenAIが共同で設立し、Google、Microsoft、AWSといった主要なテクノロジー企業もその活動を支援しています。 MCPは、AIと外部ツールやサービスをつなぐ「共通の言葉」のようなもので、発表からわずか1年で目覚ましい普及を遂げました。現在では、10,000を超える公開サーバーが稼働しており、ChatGPT、Cursor、Gemini、Microsoft Copilot、Visual Studio Codeなど、皆さんが普段使うような主要なAI製品や開発ツールに広く採用されています。また、AWSやGoogle Cloudといった大手クラウドプロバイダーも、MCPのデプロイをサポートしており、AIがより多様な機能を利用できる環境を構築しています。AnthropicのAIであるClaudeも、MCPを活用した75以上のコネクタを提供し、AIが複雑なタスクを効率的にこなせるよう強化しています。 Agentic AI Foundation(AAIF)の設立目的は、自律的に動作する「エージェントAI」が、透明性、協力、そして社会全体の利益を重視しながら健全に発展していくための基盤を築くことです。この財団は、戦略的な投資、コミュニティの育成、オープンな標準の共有開発を通じて、AIエコシステム全体のイノベーションを促進していきます。 今回のMCPのAAIFへの寄付は、この重要な技術がこれからも特定の企業に縛られず、オープンソースとして誰もが利用・貢献できる形で発展していくことを確実にするためのものです。今後、Blockの「goose」やOpenAIの「AGENTS.md」といった他の重要なエージェントAIプロジェクトもAAIFに加わる予定で、これによりエージェントAIの基盤技術がオープンな協力体制のもとで進化していくことが期待されます。 新人エンジニアの皆さんにとって、この動きは、将来のAI開発環境がよりオープンで協調的なものになっていくことを示しています。AIが様々なシステムとシームレスに連携し、より賢く、より役立つ存在になる未来に向けて、MCPのようなオープン標準がその実現を支える重要な鍵となるでしょう。 引用元: https://www.anthropic.com/news/donating-the-model-context-protocol-and-establishing-of-the-agentic-ai-foundation Cursor、GPT-5.1-Codex-Max対応でエージェント機能を大幅強化 AIを活用したコーディング支援ツール「Cursor」が、最新のAIモデル「GPT-5.1-Codex-Max」に対応し、開発者の作業を助ける「エージェント機能」を大きく強化しました。これは、皆さんの日々のコーディング作業をよりスムーズで効率的にするための大切なアップデートです。 今回のアップデートでは、主に以下の点が改善されました。 コードの品質向上と効率的なツール利用: Cursorは、新しいGPT-5.1-Codex-Maxモデルが持つ能力を最大限に引き出すため、このモデルに合わせた特別な指示やツールを追加しました。これにより、AIがより賢く、適切なタイミングで必要なツールを選んで使えるようになり、生成されるコードの品質が向上します。 安全なシェル操作の強化: AIがプログラム開発でよく使う「シェル」(コマンドライン操作)を、より安全かつ積極的に利用できるようになりました。ツール名や定義も、より直感的なコマンド名に近づけ、AIが意図しない動作をするリスクを減らし、安心して使えるように工夫されています。 AIの「思考過程」を重視: AIが問題を解決する際の「推論過程」(どのように考えて答えを導き出したか)をきちんと保存し、次に活かせるようにするアラート機能が追加されました。研究では、この「思考過程」が失われるとAIの性能が30%も落ちてしまうことが分かっているため、この改善はAIの安定した高いパフォーマンス維持に非常に重要です。 賢いエラー検出と修正: コードのエラーを見つけて直すためのツールが、すべてのモデルで利用可能になりました。特に新しいCodexモデル...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20251209
    Dec 8 2025
    youtube版(スライド付き) 関連リンク 音声AIの難しいところと音声AIエージェントフレームワーク「LiveKit Agents」の紹介 音声AIエージェントの開発は、一見すると「AIのAPIをつなぎ合わせるだけ」と思われがちですが、実際には多くの技術的な課題が伴います。この記事では、それらの難しさと、それを解決するオープンソースフレームワーク「LiveKit Agents」について、新人エンジニアの方にも分かりやすく解説します。 音声AI開発の主な難しさ 音声AIは、人間の音声をテキストに変換する「STT(Speech to Text)」、テキストを処理して応答を生成する「LLM(大規模言語モデル)」、そして応答テキストを音声に戻す「TTS(Text to Speech)」という3つの技術を組み合わせて作られます。これらをスムーズに連携させる「パイプライン」の構築が最初の大きな壁です。 さらに、以下のような課題があります。 リアルタイム処理: ユーザーが話している最中に割り込んだり、スムーズな会話のために500ミリ秒以内に応答したりする高速性が求められます。安定性: STTやLLM、TTSといった外部APIが一時的に利用できなくなった場合に、自動的に別のAPIに切り替える「フォールバック」の仕組みが必要です。自然な会話: ユーザーの発話の区切り(ターン検出)を正確に判断したり、AIの音声が不自然にならないようにイントネーションや発音を調整したりすることも大切です。プロンプト設計とテスト: LLMに意図通りの振る舞いをさせるための指示文(プロンプト)の作成や、それが正しく機能するかどうかのテストも手間がかかります。セッション管理: 長時間の会話セッションを途切れさせずに維持するためのシステム設計も複雑です。 LiveKit Agentsによる課題解決 「LiveKit Agents」は、リアルタイムコミュニケーションのためのプラットフォーム「LiveKit」上でAIエージェントを効率的に開発するためのフレームワークです。これを利用することで、上記で挙げた多くの難しい課題を簡単に解決できます。 具体的には、数行のPythonコードを書くだけで、STT/LLM/TTSのパイプライン構築、ユーザーの割り込み制御、ターン検出、そしてAIエージェントの安全なシャットダウンなどが実現できます。また、複数のAPIを自動で切り替えるフォールバック機能や、LLMの応答を評価するテスト機能も提供されており、開発者はAIの核心部分である「どのような会話をするか」というロジックに集中できるようになります。 LLMのSpeech to Speech APIについて OpenAIなどが提供するSpeech to Speech APIは、STT/LLM/TTSを一括で処理してくれるため手軽に音声AIを構築できます。しかし、通常のAPIと比較して「コストが高い」「STT精度が限定される」「ユーザーの発話に柔軟なコンテキストを追加しにくい」といった課題があり、商用利用にはまだ慎重な検討が必要です。 まとめ LiveKit Agentsのようなフレームワークを活用することで、音声AI開発の技術的なハードルが大きく下がります。これにより、開発者はサービスの「本質的な価値」や「ユーザー体験」の向上に、より多くの時間を割けるようになるでしょう。音声AI開発に興味のある新人エンジニアの方は、ぜひ活用を検討してみてください。 引用元: https://tacoms-inc.hatenablog.com/entry/2025/12/08/113000 文字も図解も思いのまま!Nano Banana Pro の凄さと、今すぐ使える活用術 皆さん、こんにちは!今回は、GoogleのAI「Gemini」に搭載された、進化した画像生成モデル「Nano Banana Pro」の魅力と活用術についてご紹介します。AI技術に興味がある新人エンジニアの皆さんにとって、クリエイティブな発想を形にする強力なツールになるはずです。 Nano Banana Proは、これまでの画像生成AIの課題を克服し、表現の可能性を劇的に広げました。主な強化ポイントは以下の5つです。 驚異の「文字描写力」: これまでの画像生成AIが苦手としていた「文字化け」がなくなり、日本語でもロゴやポスターの文字を正確に画像内に描けるようになりました。情報が詰まったスライドや複雑な数式も違和感なく生成可能です。最大2Kの高解像度と自由なアスペクト比: 印刷や大画面表示にも耐えうる高画質を実現し、映画のような...
    Más Menos
    Menos de 1 minuto
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251208
    Dec 7 2025
    関連リンク うちのAIがやらかしまして ─ Claude Codeの暴走を防ぐCLAUDE.md運用術 この記事では、AIエージェント「Claude Code」との協働で起こりがちな「うっかりミス」や「意図しない挙動」を防ぎ、より効果的にAIを使いこなすための具体的な運用術が紹介されています。特に、新人エンジニアの皆さんがAIツールを実務で使う際のヒントが満載です。 まず、実際にあったAIの「やらかし」事例が二つ挙げられています。 コードレビューでの誤ったコメント: 「コードレビューを確認して」という指示に対し、AIが「確認して対応する」と解釈し、レビュアーに意図しないコメントを投稿してしまったケースです。原因は、人間側の指示が曖昧だったことでした。Pull Requestに不要なファイルが混入: 作業指示とは関係ない一時的なバックアップファイルが、AIがgit add -A(全ての変更ファイルをステージングに追加するコマンド)を実行した際に、そのままPull Requestにコミットされてしまったケースです。これもAIに任せきりで、最終確認を怠ったことが原因でした。 これらの経験から、筆者は同じミスを繰り返さないための対策をまとめました。その中心となるのが、AIエージェントの振る舞いを定義する「CLAUDE.md」というファイルを使った運用術です。 「CLAUDE.md」を活用した対策のポイント: 曖昧な指示の確認を促す: 指示が不明確な場合、AIが勝手に判断して進めるのではなく、「この指示は具体的にどうすれば良いですか?」と質問を返すようにCLAUDE.mdに設定を追加しました。これにより、人間とAIの間の認識のズレを防ぎます。意図しない挙動の振り返り: AIが期待と異なる動きをした場合、その原因をAI自身に分析させ、再発防止策を提案させます。そして、その対話で得られた教訓をCLAUDE.mdに追記し、AIが次に同じ状況に遭遇した際に適切に対応できるように学習させます。コミット前の最終確認の徹底: 上記の振り返りから、Pull Requestに不要なファイルが混入しないよう、コミット前に以下のコマンドでステージングされているファイルを確認する手順をCLAUDE.mdに明記しました。 git status: 現在の変更状況を確認git diff --cached --name-only: ステージングされているファイルの名前だけを確認し、意図しないファイルが含まれていないかをチェック AIエージェントは非常に強力なツールですが、最初から完璧に動くわけではありません。私たち人間がAIに適切な指示を出し、その挙動を注意深く確認し、時には対話を通じて「成長」を促すことが大切です。AIを単なる道具ではなく、共に成長するパートナーとして捉え、積極的に関わっていくことで、開発効率を大きく向上させることができるでしょう。新人エンジニアの皆さんも、ぜひAIとの協働を楽しんでみてください。 引用元: https://tech.findy.co.jp/entry/2025/12/06/070000 Titans + MIRAS: Helping AI have long-term memory 現在のAIモデル、特に大規模言語モデル(LLM)の基盤である「Transformer」は、入力の中から重要な部分に注目する「アテンション(注意機構)」で革新をもたらしました。しかし、処理する情報の長さが長くなると計算コストが急増し、文書全体を理解したり、ゲノム解析のような非常に長い文脈を扱うのが苦手という課題がありました。 この課題に対し、従来の「リカレントニューラルネットワーク(RNN)」や「状態空間モデル(SSM)」である「Mamba-2」などは、情報を固定サイズに圧縮して効率化を図りました。しかし、これでは超長文の豊かな情報を十分に捉えきれない限界がありました。 Google Researchが発表した「Titans」と「MIRAS」は、この長期記憶の課題を解決する新しいアプローチです。「Titans」はRNNの速度とTransformerの精度を組み合わせた具体的なAIアーキテクチャ(ツール)で、「MIRAS」はこれらのアプローチを一般化するための理論的枠組み(設計図)です。両者は、AIモデルが実行中に新しい情報を学習し、長期的に記憶する「実行時記憶」の能力を大きく向上させます。 特にTitansは、人間の脳が短期記憶と長期記憶を分けているように、情報を要約しつつ重要な文脈を失わない「深層ニューラルネットワーク」を長期記憶モジュール...
    Más Menos
    Menos de 1 minuto
  • 私立ずんだもん女学園放送部 podcast 20251205
    Dec 4 2025
    youtube版(スライド付き) 関連リンク Google Workspace Studio: Automate Workflows with Agentic AI Powered by Gemini Googleは、日々の業務をAIで劇的に効率化する新しいツール「Google Workspace Studio」を発表しました。これは、皆さんが普段使っているGoogle Workspace(Gmail, Drive, Docsなど)のアプリ内で、AIエージェントを簡単に作成・管理できるノーコードのサービスです。 新人エンジニアの皆さんも、これからの仕事に役立つポイントに注目してみてください。 プログラミング不要!誰でもAIエージェントを作れる 「AIって難しそう…」と感じるかもしれませんが、Workspace Studioは、やりたいことを普段の言葉で入力するだけで、Googleの最先端AI「Gemini」が自動的に業務フローを組んでくれるんです。例えば、「毎日の未読メールを要約してGoogle Chatに送ってほしい」と指示するだけで、そのタスクをこなすAIエージェントを数分で作成できます。 いつものGoogle WorkspaceアプリでAIを操作 作成したAIエージェントは、GmailやGoogle Chat、Google Driveといった馴染み深いWorkspaceアプリの中でシームレスに動作します。エージェントの活動を追跡したり、設定を変更したりするのも、使い慣れた環境から離れることなく行えるので、導入も管理も非常にスムーズです。 具体的な業務をAIが自動でこなす! 様々な業務の自動化が可能になります。 会議の詳細、参加者、添付ファイルをもとに要約を生成し、Google Chatに自動共有。会議中のタスク項目を自動で抽出し、必要なら翻訳してチームに共有。重要なメールをAIが自動で検出し、適切な優先度ラベルを付ける。受信メールの添付ファイルをGoogle Driveに自動保存し、その情報をGoogle Sheetsに記録。顧客からのフィードバックに対して、AIが適切なメール返信の下書きを自動作成。 このように、面倒なルーティンワークから少し複雑な判断が必要な作業まで、AIが皆さんの代わりに行ってくれます。 業務効率が向上し、AI活用が身近に このツールは、個人の生産性を高めるだけでなく、チーム全体の業務効率を大きく向上させます。IT部門に頼りきりにならず、現場のメンバーが自分たちのアイデアでAIを活用し、業務改善を迅速に進められる「AIの民主化」にも貢献するでしょう。 安心のセキュリティとプライバシー 皆さんのデータは、あくまでお客様自身の所有物であり、広告目的で利用されることはありません。また、お客様のドメイン外のGoogle汎用AIモデルの学習に使われることもなく、企業レベルの厳重なセキュリティとプライバシー保護が適用されるため、安心して利用できます。 Google Workspace Studioは、2025年12月5日より、Google WorkspaceのBusinessおよびEnterpriseプランのユーザー向けに順次提供が開始される予定です。未来の働き方を体験できる、とてもわくわくするニュースですね! 引用元: https://workspace.google.com/studio/ Human-in-the-Loop な AI エージェントを作るためのソフトウェア設計 Wantedly Engineer Blog ウォンテッドリーが新しくリリースしたスカウト機能「AIエージェントモード」は、採用担当者の方が候補者を探す手間(ソーシング工数)をAIで効率化するものです。この機能では、採用担当者が求める人材の条件を入力するだけで、AIが自動で候補者リストを作成する「ソーシング計画」を提案してくれます。 しかし、AIに全てを任せて候補者リストを作るやり方にはいくつかの課題がありました。例えば、AIが意図しない検索条件を生成してしまう誤動作のリスクや、AIがなぜその判断をしたのか後から検証しにくいという説明責任の問題、そしてAIが学習データから持つ可能性のある偏見(バイアス)を見つけにくいといった点です。採用活動は、応募者のキャリアや企業の信頼に直接関わるため、これらの問題は避けるべきです。 そこでウォンテッドリーでは、「Human-in-the-Loop(HITL)」という設計思想を採用しました。これは、AIによる自動化のプロセスに、意図的に人間の確認や判断のステップを組み込むことで、システムの安全性、説明責任、そして信頼性を高める考え方です。 AIエージェントモードにおけるHITLの具体的な流れは次のようになります。 採用担当者が...
    Más Menos
    Menos de 1 minuto