【开源】自部署视频、音频转文档服务
- 发布时间
AI 视频图文创作助手:让内容创作更高效的开源神器
📖 项目简介
AI 视频图文创作助手 是一款完全开源、无需登录、可本地部署的 Web 工具,旨在帮助内容创作者、知识工作者、教育工作者等群体,将 视频和音频内容一键转化为结构化文档,支持输出为小红书风格笔记、公众号文章、知识总结、思维导图等多种格式。
项目基于 AI 大模型实现语音识别与自然语言处理,结合 ffmpeg wasm 技术在浏览器端实现音视频处理,保护隐私的同时大大降低了部署与使用的门槛。
本项目采用 MIT License 授权,开箱即用,轻量部署,一个强大的 AI 内容创作助手。
✨ 核心功能亮点
✅ 完全开源
- 项目采用 MIT 许可证,意味着任何个人或组织都可以免费使用、修改、发布。
- 前后端代码可完全本地部署,无需依赖任何云服务,安全可靠。
🔒 强隐私保障
- 使用过程中无需注册登录,避免账号密码泄露风险。
- 所有处理过程均在本地执行,任务记录不上传服务器,数据隐私有保障。
💻 浏览器端音视频处理
- 借助
ffmpeg wasm
,在浏览器中直接解析音视频文件,无需用户安装 ffmpeg 或依赖服务端处理,提升可用性和跨平台性。
🎯 多文档风格支持
- 可一键生成如下多种格式的文档:
- 小红书图文风格
- 公众号文章风格
- 知识总结(结构化)
- 思维导图风格
- 视频内容摘要
🤖 AI 智能问答
- 基于视频内容生成结构化文本后,用户可继续通过 AI 对话模块进行二次提问与深度解析,进一步挖掘内容价值。
🎬 字幕导出
- 支持将识别后的音频内容导出为标准字幕文件(如
.srt
),可用于视频剪辑或辅助理解。
🐳 一键 Docker 部署
- 项目支持一键 Docker 构建部署,完整封装后端与前端流程,极大简化上手难度。
🔜 未来功能计划
- 📷 关键帧智能提取:自动提取视频中的重点画面,实现真正“图文并茂”。
- 🎙️ 本地音频识别:支持 fast-whisper 模型在本地部署,进一步降低依赖与成本。
- 🎨 前端重构:将使用 React 重构前端 UI,提升交互体验与加载性能。
🖼️ 项目界面展示
首页界面
- 极简设计,突出功能入口。

加载与任务详情页
- 动态展示进度,操作直观。

结果页
- 支持不同文档风格展示。
- 一键导出字幕/文本。

可基于已生成内容二次创作和微调
- 不满意结果,可以AI对话式二次调整

🧱 项目部署与运行(Docker方式)
1、 构建镜像
make docker-image
2️、 配置环境变量
请根据项目根目录下的部署文档或 variables.env.example 完善配置文件 variables.env。
3️、 修改前端环境变量
在 env.development 中设置 API 接口地址:
VITE_API_BASE_URL=http://0.0.0.0:8080
4️、 启动项目
make run
处理流程简述图

👨💻 创作者初心
项目作者在项目文档中坦言:
“我开发这个应用是出于个人需求——喜欢看视频但又希望能提炼成笔记记录下来。市面上没有满足我隐私和效率需求的工具,于是就自己动手做了一个。整个过程耗时一个月,测试成本也才五块钱。”
这正是开源的魅力——从个体需求出发,逐渐成长为大众有用的工具。