一站式多模态研究与播客生成工具

项目简介

这个项目是一个简单的科研和播客生成工作流程，它使用 LangGraph 与谷歌 Gemini 2.5 模型系列的独特功能。它结合了 Gemini 2.5 模型系列的三个实用功能。你可以输入一个科研主题，并且可选地提供一个 YouTube 视频 URL。系统将使用搜索对主题进行研究，分析视频，整合见解，并为你生成带有引用的报告以及关于该主题的短播客。它利用了 Gemini 的一些原生功能。

架构

该系统实现了一个 LangGraph 工作流，包含以下节点：

搜索研究节点：使用 Gemini 的 Google 搜索集成执行网络搜索
分析视频节点：在提供时分析 YouTube 视频（有条件）
创建报告节点：将研究发现综合为一份全面的 markdown 报告
创建播客节点：生成一个双主持人的播客讨论，配有 TTS 音频

工作流

START → search_research → [analyze_video?] → create_report → create_podcast → END

工作流在提供 YouTube URL 时会条件性地包含视频分析，否则将直接进行报告生成。

输出

系统生成：

研究报告：包含执行摘要和来源的全面 markdown 报告
播客脚本：Sarah 博士（专家）和 Mike（采访者）之间的自然对话
音频文件：多说话人语音合成音频文件（ research_podcast_*.wav ）

快速入门

前置条件

Python 3.11+
uv package manager uv 包管理器
Google Gemini API key

安装

克隆并导航到项目：

git clone https://github.com/langchain-ai/multi-modal-researcher cd mutli-modal-researcher

2. 设置环境变量：

cp .env.example .env

编辑 .env 并添加您的 Google Gemini API 密钥：

3 运行开发服务器：

# Install uv package manager curl -LsSf https://astral.sh/uv/install.sh | sh # Install dependencies and start the LangGraph server uvx --refresh --from "langgraph-cli[inmem]" --with-editable . --python 3.11 langgraph dev --allow-blocking

4. 访问应用程序：

LangGraph 将在您的浏览器中打开。

╦ ┌─┐┌┐┌┌─┐╔═╗┬─┐┌─┐┌─┐┬ ┬ ║ ├─┤││││ ┬║ ╦├┬┘├─┤├─┘├─┤ ╩═╝┴ ┴┘└┘└─┘╚═╝┴└─┴ ┴┴ ┴ ┴ - 🚀 API: http://127.0.0.1:2024 - 🎨 Studio UI: https://smith.langchain.com/studio/?baseUrl=http://127.0.0.1:2024 - 📚 API Docs: http://127.0.0.1:2024/docs

5. 传递一个 topic ，可选地传递一个 video_url 。

示例：