太酷了!直接跟虚拟人物对话!AI 虚拟助手Persona Engine (人格引擎)!
大家好,我是每日给大家推荐优秀开源项目的小G!
今天,我要给大家介绍一个能够让你的数字角色焕发新生的神奇工具——Persona Engine。想象一下,你的角色不仅拥有生动的表情和实时动画,还能通过AI驱动的声音、个性和对话与你互动。这不仅仅是一个项目,这是将你的创意变为现实的魔法!
它结合了大语言模型,Live2D,自动语音识别,文本转语音,实时语音克隆。达到了直接跟虚拟人物对话的能力。当然可以直接集成到 OBS 里面做AI虚拟主播
项目简介
Persona Engine是一个全能工具包,它巧妙地结合了Live2D、大型语言模型(LLMs)、自动语音识别(ASR)、文本到语音(TTS)以及可选的实时语音克隆(RVC),为VTubing、动态流媒体和创新的虚拟助手应用提供了完美的解决方案。如下图所示:

看看它作为桌面伙伴有多有用!😊
下面仔细数一数到底有哪些特色功能
好的,没问题!作为你的资深编辑小助手,我已经仔细研究了这个项目,并为你精心准备了一篇微信公众号文章。力求信息准确、风格活泼、引人入胜!
文章标题:【开源爆款】告别千篇一律的AI!快来给你的大模型注入“灵魂”吧!✨
(文章顶部可以放一张代表“个性化AI”或“代码与创意结合”的吸睛图片)
小G大家好,我是每日给大家推荐优秀开源项目的小G!👋
是不是感觉现在的大语言模型(LLM)有时候聪明得惊人,但聊久了又觉得…嗯…有点“呆板”?好像跟谁聊天都一个味儿?🤔 咱们开发者和创作者,总想搞点不一样的,想要 AI 不仅能干活,还得有“个性”,对吧?
想象一下,你能轻松“捏”出一个专属的 AI 角色:一个严谨的法律顾问、一个幽默风趣的段子手、甚至是一个充满奇思妙想的艺术家助手?
别说,今天推荐的这个项目 —— Handcrafted Persona Engine,就是来实现这个梦想的!它让你告别那些“没有感情”的通用回复,真正为你的 AI 注入独一无二的“灵魂”!这项目简直是为追求个性化 AI 体验的我们量身定做的,必须往下看!👇
✨ 项目主角登场:Handcrafted Persona Engine ✨
简单来说,Handcrafted Persona Engine (我们叫它“手工定制化 Persona 引擎”吧!) 是一个非常酷的框架。它的核心使命就是帮助开发者创建、管理和运用具有特定个性特征、知识背景和互动风格的大语言模型(LLM)角色(Persona)。
它能做什么?
- 🎭 Live2D 头像集成:
- 加载并渲染 Live2D 模型(
.model3.json)。 - 包含特别定制的 “Aria” 模型。
- 支持情绪驱动的动画(
[EMOTION:name])和 VBridger 标准唇形同步参数。 - 专为情感、闲置和眨眼动画提供专用服务。
- 查看详细的 Live2D 集成与绑定指南,了解自定义模型要求!
- 加载并渲染 Live2D 模型(
- 🧠 AI 驱动对话:
- 连接到兼容 OpenAI 的大语言模型(
LLM)API(本地或云端)。 - 指导您使用自定义的
personality.txt文件。 - 具有改进的对话上下文和会话管理,以实现更稳健的交互。
- 优化可选的特殊微调模型(见概述)。
- 连接到兼容 OpenAI 的大语言模型(
- 🗣️ 语音交互(需要 NVIDIA
GPU):- 通过麦克风监听(使用
NAudio/PortAudio)。 - 使用 Silero
VAD检测语音片段。 - 使用 Whisper
ASR理解语音(通过Whisper.NET)。 - 包含专门的“打断检测”功能,以更优雅地处理用户中断。
- 使用小型快速 Whisper 模型进行中断检测,以及更大、更精确的模型进行转录。
- 通过麦克风监听(使用
- 🔊 高级文本到语音(
TTS)(需要 NVIDIAGPU):- 复杂的管道:文本规范化 -> 句子分割 -> 音素化 ->
ONNX合成。 - 使用自定义
kokoro语音模型让文本栩栩如生。 - 使用
espeak-ng作为未知单词/符号的备用。
- 复杂的管道:文本规范化 -> 句子分割 -> 音素化 ->
- 👤可选实时语音克隆(
RVC)(需要 NVIDIAGPU):- 集成
RVCONNX模型。 - 实时修改
TTS语音输出,使其听起来像特定的目标声音。 - 可禁用以提高性能。
- 集成
- 📜 可定制字幕:
- 显示语音文本,可通过
UI配置样式选项。
- 显示语音文本,可通过
- 💬 控制
UI及聊天观众:- 专用
UI窗口用于监控引擎状态。 - 查看延迟指标(LLM,TTS,音频)
- 实时调整
TTS参数(音调、速率)和轮盘赌设置。 - 查看和编辑对话历史。
- 专用
- 👀 屏幕感知(实验性):
- 可选的视觉模块使 AI 能够“看到”并从指定的应用程序窗口中读取文本。
- 🎡互动轮盘(实验性):
- 一个可选的、可配置的屏幕轮盘赌,用于互动娱乐。
- 📺 流媒体输出(
Spout)- 将视觉(头像、字幕、轮盘)直接发送到 OBS Studio 或其他
Spout兼容软件。 - 使用独立的、可配置的
Spout流(无需窗口捕获!)。
- 将视觉(头像、字幕、轮盘)直接发送到 OBS Studio 或其他
- 🎶音频输出:
- 通过
PortAudio清晰播放生成的语音。
- 通过
- ⚙️ 配置:
- 主要设置通过
appsettings.json(详情请见安装指南)。 - 通过控制
UI实时调整一些设置。
- 主要设置通过
- 🤬 脱口秀过滤:
- 基本关键词列表 + 可选基于机器学习(
ML)的LLM响应过滤。
- 基本关键词列表 + 可选基于机器学习(
如何安装使用
安装和使用Persona Engine非常简单。
目前主要支持Windows 10/11 或 Linux(推荐Ubuntu)这两个系统
在安装主程序之前,你需要先装好 .NET Runtime和GPU套餐系列!因为核心功能(语音识别、语音合成、视频编码)需要配备支持 CUDA 的 NVIDIA GPU。
同时需要下载Whisper ASR 模型、LLM模型和espeak-ng
请按照详细的安装和设置指南进行操作(https://github.com/fagenorn/handcrafted-persona-engine/blob/main/INSTALLATION.md),这将帮助你安装必要的先决条件、下载模型、配置并运行引擎。项目提供了详尽的指导,确保即使是新手也能轻松上手。
项目链接
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)