株式会社ずんだもん技術室AI放送局 Podcast Por 株式会社ずんだもん技術室AI放送局 arte de portada

株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

De: 株式会社ずんだもん技術室AI放送局
Escúchala gratis

Acerca de esta escucha

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)
Episodios
  • 株式会社ずんだもん技術室AI放送局 podcast 20250626
    Jun 25 2025
    関連リンク Gemini CLI: your open-source AI agent Googleは、開発者向けに「Gemini CLI(Command Line Interface)」という新しいオープンソースのAIエージェントを発表しました。これは、GoogleのAIモデルであるGeminiの強力な機能を、皆さんが普段利用しているターミナル(コマンドライン)で直接使えるようにするツールです。 このツールの最大の目的は、開発者の作業を効率化することにあります。コードの生成、プログラムの問題解決(デバッグ)、情報検索、日々のタスク管理など、様々な開発作業をAIの力を借りてよりスムーズに進められるようになります。 Gemini CLIの主な特徴は以下の通りです。 オープンソースであること: Apache 2.0ライセンスで公開されており、誰でもコードの中身を確認したり、開発に貢献したりできます。これにより、ツールの透明性が高く、セキュリティ面でも安心して利用できます。また、開発者が自分のニーズに合わせて機能を拡張できる柔軟性も持っています。Gemini 2.5 Proモデルへのアクセス: 最先端のGemini 2.5 Proモデルを利用でき、100万トークンという非常に大きなコンテキストウィンドウ(一度に扱える情報量)を持つため、複雑なリクエストにも対応できます。充実した無料利用枠: 個人の開発者は、個人用のGoogleアカウントでサインインし、Gemini Code Assistの無料ライセンスを利用することで、1分あたり60リクエスト、1日あたり1,000リクエストまで無料でGemini CLIを使うことができます。これは業界でもトップクラスの利用量です。多様な機能連携: Google検索と連携してリアルタイムな情報を取得し、プロンプトの回答精度を高める「グラウンディング」機能や、独自の拡張機能を追加できる仕組み(Model Context Protocol)も備わっています。また、プロンプトや指示をカスタマイズしたり、スクリプトに組み込んで作業を自動化したりすることも可能です。 さらに、Gemini CLIはGoogleのAIコーディングアシスタント「Gemini Code Assist」と同じ技術基盤を共有しています。これにより、VS Codeなどの統合開発環境(IDE)でも、Gemini CLIと同様の強力なAIエージェント機能(例えば、複雑なタスクを複数ステップで計画・実行する「エージェントモード」)が利用でき、ターミナルとIDEの両方でシームレスなAI開発体験が得られます。 この新しいツールは簡単に導入でき、日々の開発作業を大きく変える可能性を秘めています。 引用元: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/ MUVERA: Making multi-vector retrieval as fast as single-vector search このGoogleの研究ブログ記事は、情報検索(IR)の分野で使われる「マルチベクトル検索」を高速化する新しい技術「MUVERA」について紹介しています。情報検索は、膨大なデータの中からユーザーが知りたい情報(例えばLLM(大規模言語モデル)の「RAG(Retrieval Augmented Generation)」機能で使う知識など)を素早く見つけ出すための重要な技術です。 最近の情報検索では、文章などをコンピュータが扱いやすい数値の並び「ベクトル(埋め込み)」に変換して、ベクトル同士の似ている度合い(類似度)を計算することで、関連する情報を探すのが一般的です。これまでの「単一ベクトル検索」は、一つのデータに一つのベクトルを割り当て、高速に検索できましたが、情報が複雑になると検索の精度に限界がありました。 そこで、より高度な「マルチベクトルモデル」が登場しました。これは、一つのデータに対して複数のベクトルを生成することで、よりきめ細かく情報を表現でき、検索精度を大きく向上させることができます。しかし、たくさんのベクトルを扱い、複雑な方法で類似度(「Chamfer類似度」など)を計算するため、検索に時間がかかってしまうという課題がありました。 MUVERA(Multi-Vector Retrieval via Fixed Dimensional Encodings)は、この「マルチベクトル検索は精度が高いけれど遅い」という問題を解決するための技術です。MUVERAは、複雑なマルチベクトルの情報を「FDE(Fixed Dimensional Encoding)」という、たった一つのシンプルな単一ベクトルに変換します。このFDEは、元のマルチベクトル間の複雑な類似度を、単一ベクトルで使...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250625
    Jun 24 2025
    関連リンク Claude Codeとplaywright mcpを連携させると開発体験が向上するのでみんなやろう この記事では、AI開発ツール「Claude Code」と、ブラウザ操作を自動化する「Playwright MCP」を連携させることで、開発効率が大きく向上するという実践的な方法が紹介されています。 Playwright MCPは、Webブラウザ(Chromeなど)をプログラムから操作するためのツール「Playwright」を、AIアシスタントから利用できるようにしたものです。この連携の最大のメリットは、Claude Codeが生成したコードが実際に動作するかを、その場でブラウザを使って自動的に確認できるようになる点にあります。 これまでのAI開発では、「Claude Codeが『できました!』と言うけれど、実際に動かしてみるとエラーだらけで全然動かない…」という経験が少なくありませんでした。しかし、Playwright MCPと連携させることで、Claude Codeがコードを生成した後、すぐにPlaywright MCPを使ってそのコードをブラウザで実行し、期待通りに動くか確認できるようになります。これにより、開発者がコードを試す前にAIが自己デバッグを行うようになるため、「想像でコードを書く→動かない→修正」という非効率なループから抜け出し、「想像でコードを書く→ブラウザで試す→動くことを確認してから提出」という、よりスムーズで信頼性の高い開発フローを実現できます。特に、WebページのUI(ユーザーインターフェース)の動作確認など、AIが苦手としがちなタスクでの効果が期待できます。 この連携を実現するには、Claude Codeの設定ファイルにPlaywright MCPを認識させるための記述を追加する必要があります。具体的には、~/.claude.jsonや専用の設定ファイルに、Playwright MCPの実行コマンドやブラウザの起動オプションなどを設定します。また、Claude Codeに「Playwright MCPツールだけを使ってブラウザ操作を行うこと」「エラーが発生したらすぐに報告すること」といったルールを明確に指示するために、CLAUDE.mdというファイルに専用のガイドラインを追記することが推奨されています。これにより、AIが余計なコード実行を試みることなく、意図した通りのブラウザ操作に集中するようになります。 このように、Claude CodeとPlaywright MCPを連携させることで、AIを活用した開発の信頼性と効率性を飛躍的に高めることができ、新人エンジニアの方々も安心してAIと一緒に開発を進められるようになるでしょう。 引用元: https://zenn.dev/sesere/articles/4c0b55102dcc84 FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation この研究論文「FilMaster」は、AIを使って本格的な映画を自動で作り出す新しいシステムについて紹介しています。これまで、AIが作る映像は「映画らしさ」が足りず、カメラワークや映像と音のテンポ(映画的なリズム)が単調になりがちでした。これは、プロの映画制作で重要とされる「映画制作の原則」が十分に反映されていなかったためです。 FilMasterは、この課題を解決するために開発されました。このシステムは、以下の2つの主要な考え方に基づいて作られています。 実際の映画から「映画らしさ」を学ぶ: 膨大な量の映画データから、プロが使うカメラワークや演出のノウハウをAIに学習させます。観客目線で「編集作業」を再現する: 映画制作における撮影後の編集(ポストプロダクション)プロセスを、観客がどう感じるかを重視してAIが行うように設計されています。 FilMasterの映像生成プロセスは、大きく2つの段階に分かれています。 1. 参照ガイド付き生成ステージ: ユーザーが入力した内容(例えば「こんなシーンを作りたい」という指示)をもとに、AIが実際のビデオクリップを生成します。この段階では、44万もの映画クリップのデータベースを参照し、そこから最適な「お手本」を探し出して、プロのようなカメラの動きやアングル(カメラ言語)を持つ映像を作り出すのが特徴です。まるで、優秀なアシスタントが過去の名作からヒントを得て映像のアイデアを出してくれるようなイメージです。 2. 生成ポストプロダクションステージ: 生成された「生の映像素材」を、さらに映画らしく編集する段階です。ここでは、...
    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250624
    Jun 23 2025
    関連リンク AI Agent Manager (AAM) として生きていく : 作業環境とワークフローの設計 この記事は、AI Agent(AIアシスタント)が開発現場の主役になる未来を見据え、人間のエンジニアが「AI Agent Manager (AAM)」という新しい役割を担う可能性について解説しています。これは、まるで人間の上司が部下をマネジメントするように、AI Agentを管理する仕事が中心になる、という考え方です。 AAMの仕事は、従来のエンジニアが直接コードを書くこととは少し違います。AI Agentが効率的に開発を進められるように、以下のような管理業務が主な役割になります。 AI Agentに仕事の目的を伝えるプロジェクトやタスクの背景など、必要な情報を丁寧に教えてオンボーディングするAI Agentの進捗を管理する計画や成果物を評価する作業プロセスを改善するためのPDCAサイクルを回す この記事では、AAMとして特に重要な「働く環境の整備」と「ワークフローの設計」という2つのノウハウが共有されています。 1. AI Agentが働く環境の整備 AI Agentの主な作業場所はGitリポジトリになります。人間はリポジトリ外の情報(デザインツールやチャットなど)から多くのヒントを得ますが、AI Agentはそうではありません。そのため、AI Agentに必要な情報を漏れなく与える「コンテキストの付与」が非常に大切です。これには、リポジトリ内にルールやガイドラインをまとめたファイル(例:CLAUDE.md)を置いたり、タスク固有のメモをリポジトリから除外されるフォルダに保存したり、さらに外部の情報源にアクセスできる「MCP Server」と呼ばれる仕組みを充実させたりする方法があります。特に、会社やチーム全体でルールを統一し、AI Agentがどこでも効率的に働けるようにMCP Serverを拡充することが重要だと述べられています。 2. AI Agentのワークフロー設計 AI Agentに仕事をさせるための「手順」を設計することもAAMの重要な仕事です。記事では、リポジトリの初期設定から、タスクの立ち上げ、必要な情報の読み込み、実装方針の検討、依存関係の学習、実際のコード実装、テスト、そして作業の振り返りまで、具体的な8つのステップが提案されています。それぞれのステップで、AI Agentに適切な指示(プロンプト)を与えることが求められます。特に、AI Agentに「カスタムコマンド」としてこれらの指示を登録し、決まった手順で実行させることで、効率的に作業が進むようになります。AI Agentが意図しない動きをした場合は、振り返りを通じてプロンプトやルールを改善していくことが大切です。 将来的に、AAMにはAI Agentの能力を最大限に引き出し、開発の生産性を向上させるスキルが求められます。具体的には、複数のAI Agentが同時に作業できる環境を整えたり、新しいAgentでもすぐに仕事に取りかかれるように準備したり、AI Agentが常に必要な情報を得られるようにしたり、開発コストを最適化したりする能力です。また、AI Agentが正しいコードを書き、質の高いレビューができるように、コマンド設計やワークフローの改善、さらにはAIモデル自体の性能を高める「チューニング」に関する知識も重要になると提言されています。 この記事は、AI Agentが開発の中心となる未来において、エンジニアがどのように活躍し、自身のスキルを磨いていくべきか、新しい視点を提供してくれるでしょう。 引用元: https://qiita.com/icoxfog417/items/f15e92f05b14411fd642 LiteLLMを使ったLLMの集約 & 簡易的なKey管理 + langfuse添え LLM(大規模言語モデル)の利用が広がる中で、OpenAIやClaude、Azure OpenAIなど様々なプロバイダーのLLMを使うと、それぞれAPIの形式が異なったり、APIキーの管理が複雑になったりして困ることがあります。この記事では、こうした課題を解決する「LiteLLM」というツールと、その便利な機能について、新人エンジニアの方にも分かりやすく解説します。 LiteLLMとは? LiteLLMは、複数のLLMプロバイダーへのアクセスを「統一された窓口」として提供するオープンソースのソフトウェアです。これを「LiteLLM Proxy Server」として動かすことで、異なるLLMのAPI形式の違いを意識することなく、OpenAIと同じような形式でリクエストを送れるようになります。...
    Más Menos
    Menos de 1 minuto
Todavía no hay opiniones