一站式多模态研究与播客生成工具
项目简介
这个项目是一个简单的科研和播客生成工作流程,它使用 LangGraph 与谷歌 Gemini 2.5 模型系列的独特功能。它结合了 Gemini 2.5 模型系列的三个实用功能。你可以输入一个科研主题,并且可选地提供一个 YouTube 视频 URL。系统将使用搜索对主题进行研究,分析视频,整合见解,并为你生成带有引用的报告以及关于该主题的短播客。它利用了 Gemini 的一些原生功能。

架构
该系统实现了一个 LangGraph 工作流,包含以下节点:
- 搜索研究节点:使用 Gemini 的 Google 搜索集成执行网络搜索
- 分析视频节点:在提供时分析 YouTube 视频(有条件)
- 创建报告节点:将研究发现综合为一份全面的 markdown 报告
- 创建播客节点:生成一个双主持人的播客讨论,配有 TTS 音频
工作流
START → search_research → [analyze_video?] → create_report → create_podcast → END
工作流在提供 YouTube URL 时会条件性地包含视频分析,否则将直接进行报告生成。
输出
系统生成:
- 研究报告:包含执行摘要和来源的全面 markdown 报告
- 播客脚本:Sarah 博士(专家)和 Mike(采访者)之间的自然对话
- 音频文件:多说话人语音合成音频文件(
research_podcast_*.wav)
快速入门
前置条件
- Python 3.11+
- uv package manager uv 包管理器
- Google Gemini API key
安装
- 克隆并导航到项目:
git clone https://github.com/langchain-ai/multi-modal-researcher cd mutli-modal-researcher
2. 设置环境变量:
cp .env.example .env
编辑 .env 并添加您的 Google Gemini API 密钥:
3 运行开发服务器:
# Install uv package manager curl -LsSf https://astral.sh/uv/install.sh | sh # Install dependencies and start the LangGraph server uvx --refresh --from "langgraph-cli[inmem]" --with-editable . --python 3.11 langgraph dev --allow-blocking
4. 访问应用程序:
LangGraph 将在您的浏览器中打开。
╦ ┌─┐┌┐┌┌─┐╔═╗┬─┐┌─┐┌─┐┬ ┬ ║ ├─┤││││ ┬║ ╦├┬┘├─┤├─┘├─┤ ╩═╝┴ ┴┘└┘└─┘╚═╝┴└─┴ ┴┴ ┴ ┴ - 🚀 API: http://127.0.0.1:2024 - 🎨 Studio UI: https://smith.langchain.com/studio/?baseUrl=http://127.0.0.1:2024 - 📚 API Docs: http://127.0.0.1:2024/docs
5. 传递一个 topic ,可选地传递一个 video_url 。
示例:
- topic :给我概述一下 LLMs 像是一种新型操作系统的想法。
- video_url :https://youtu.be/LCEmiRjPEtQ?si=raeMN2Roy5pESNG2
项目地址
https://github.com/langchain-ai/multi-modal-researcher
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)
一站式多模态研究与播客生成工具最先出现在每时AI。