一句话生成大片,颠覆你的视频创作方式!
🔥 项目亮点
- • 全流程AI驱动:从创意到成片,只需输入一句话
- • 六大创作场景:电影混剪、鬼畜视频、AI音乐、跨文化喜剧、小说可视化、科技新闻
- • 百万级爆款案例:在B站创造19万点赞、100万播放的惊艳作品
🎬 六大核心功能
1. 电影级智能混剪
案例:《蜘蛛侠:纵横宇宙》高燃卡点混剪
- • 自动识别音乐节拍(如13秒/22秒精准卡点)
- • 从2小时原片智能提取<1分钟高光片段
- • 支持风格切换(如输入”太空浪漫”vs”人类勇气”生成不同版本)
📌 用户提示词示例:
“聚焦格温打鼓的粉色特效与迈尔斯空中列车追逐戏,保留蛛丝摆荡和打斗特写”
2. 爆款鬼畜视频生成
案例:《马保国AI研究员》学术版鬼畜
- • 武术术语→科研黑话智能转换(”接化发”变”实验复现”)
- • 保留原视频标志性语气(”大意了没有闪!”)
🎯 技术突破:
语音克隆误差率<3%,语句流畅度提升60%
3. AI音乐视频创作
案例:《审稿破防神曲》派大星演唱版
- • 根据主题自动生成歌词(如学术投稿血泪史)
- • 支持指定音色克隆(海绵宝宝声线)
💡 创新点:
MIDI文件自动标注,歌词校准准确率92%
4. 跨文化喜剧改编
案例:美国脱口秀→中国相声
- • 幽默本地化(”咖啡续杯梗”变”茶馆加水”)
- • 自动匹配捧哏/逗哏语音风格
🌍 文化适配:
笑话转化保留核心笑点,文化适配度达89%
5. 小说可视化改编
案例:《庆余年》开篇AI改编
- • 自动提取小说关键场景
- • 智能匹配影视素材库镜头
📖 叙事连贯性:
场景过渡自然度评分4.8/5.0
6. 科技新闻速递
案例:OpenAI GPT-4o发布会速览
- • 自动提取关键信息点
- • 精准对齐人物讲话与画面(如1:09生成” relativity漫画”)
⏱️ 效率提升:
10分钟长视频→1分钟精华版,信息保留率95%
🛠️ 技术架构
核心引擎:
- • 视觉检索:ImageBind + VideoRAG
- • 语音合成:CosyVoice + Fish Speech
- • 多模态理解:MiniCPM-V + Whisper
💻 立即体验
git clone https://github.com/HKUDS/AI-Creator.git python main.py
📌 小贴士:
- • 仅需下载所需模型(鬼畜创作仅需fish-speech)
- • 支持中英文双语提示词输入
使用方法
克隆与安装
git clone https://github.com/HKUDS/AI-Creator.git conda create --name aicreator python=3.10 conda activate aicreator conda install -y -c conda-forge pynini==2.1.5 ffmpeg pip install -r requirements.txt
模型下载
# 确保已安装 git-lfs (https://git-lfs.com) git lfs install
# 下载 CosyVoice cd tools/CosyVoice huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models
# 下载 fish-speech cd tools/fish-speech huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
# 下载 seed-vc cd tools/seed-vc huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints
# 下载 DiffSinger cd tools/DiffSinger huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints
# 下载 MiniCPM cd tools git lfs clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
# 下载 Whisper cd tools git lfs clone https://huggingface.co/openai/whisper-large-v3-turbo
# 下载 all-MiniLM-L6-v2 cd tools git lfs clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
# 下载 ImageBind cd tools mkdir .checkpoints cd .checkpoints wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
🌟 为方便使用,我们提供了多种模型,您可以根据项目需求选择下载。
| 功能类型 | 视频示例 | 所需模型 |
|---|---|---|
| 相声改编 | 英文脱口秀 → 中文相声 | CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
| 脱口秀改编 | 中文相声 → 英文脱口秀 | CosyVoice, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
| 鬼畜 TTS | 小明剑魔鬼畜视频 | fish-speech |
| 鬼畜 SVC | AI 音乐视频 | DiffSinger, seed-vc, MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
| 节奏剪辑 | 《蜘蛛侠:纵横宇宙》混剪 | MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
| 小说可视化 | 《庆余年》小说改编视频 | MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
| 新闻摘要 | OpenAI GPT-4o 图像生成新闻 | MiniCPM, Whisper, ImageBind, all-MiniLM-L6-v2 |
大语言模型 (LLM) 配置
`# AI-Creator\environment\config\config.yml
输入您的 LLM API 密钥
llm:
api_key:
base_url: `
注意:模型名称可能因 LLM 服务商而异,请确保在 environment/config/llm.py 中正确指定。
对于仅支持单一模型的 API(如官方 GPT 系列),所有模型名称应替换为对应支持的模型(如 gpt-4o-mini)。
输入配置
`# 预先配置视频输入参数(rhythm_agent/news_agent/comm_agent/cross_talk/mad_svc/mad_tts).yml 文件
例如:AI-Creator\environment\config\cross_talk.yml
cross_talk:
reqs:'生成一段中文相声剧本,内容需基于客观事实,背景设定在中国,避免使用其他国家案例。剧本长度约 40-50 句。'
audio_path:'dataset/cross_talk/英文脱口秀1.wav'
dou_gen:'dataset/cross_talk/郭德纲'
peng_gen:'dataset/cross_talk/付航'
output:"dataset/user_output_video/cross_talk_video.mp4"
video_source_dir:"dataset/user_video/" `
视觉检索增强:角色图片库
`在 dataset\video_edit\face_db 目录下,添加需要识别的角色图片以增强视觉检索
角色图片文件夹结构应如下所示,注意文件夹名称必须与角色名一致(如 Spiderman/Batman/Superman...):
face_db
├── Spiderman ── image01.png
└── Batman ── image02.png `
命令行运行
`# 完成配置后,运行以下指令:
python main.py
控制台将提示:
请描述您想制作的视频类型: `
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)
一句话生成大片,颠覆你的视频创作方式!最先出现在每时AI。
