【开源】自部署视频、音频转文档服务

AI 视频图文创作助手：让内容创作更高效的开源神器

📖 项目简介

AI 视频图文创作助手 是一款完全开源、无需登录、可本地部署的 Web 工具，旨在帮助内容创作者、知识工作者、教育工作者等群体，将 视频和音频内容一键转化为结构化文档，支持输出为小红书风格笔记、公众号文章、知识总结、思维导图等多种格式。

项目基于 AI 大模型实现语音识别与自然语言处理，结合 ffmpeg wasm 技术在浏览器端实现音视频处理，保护隐私的同时大大降低了部署与使用的门槛。

本项目采用 MIT License 授权，开箱即用，轻量部署，一个强大的 AI 内容创作助手。

✨ 核心功能亮点

✅ 完全开源

项目采用 MIT 许可证，意味着任何个人或组织都可以免费使用、修改、发布。
前后端代码可完全本地部署，无需依赖任何云服务，安全可靠。

🔒 强隐私保障

使用过程中无需注册登录，避免账号密码泄露风险。
所有处理过程均在本地执行，任务记录不上传服务器，数据隐私有保障。

💻 浏览器端音视频处理

借助 ffmpeg wasm，在浏览器中直接解析音视频文件，无需用户安装 ffmpeg 或依赖服务端处理，提升可用性和跨平台性。

🎯 多文档风格支持

可一键生成如下多种格式的文档：
- 小红书图文风格
- 公众号文章风格
- 知识总结（结构化）
- 思维导图风格
- 视频内容摘要

🤖 AI 智能问答

基于视频内容生成结构化文本后，用户可继续通过 AI 对话模块进行二次提问与深度解析，进一步挖掘内容价值。

🎬 字幕导出

支持将识别后的音频内容导出为标准字幕文件（如 .srt），可用于视频剪辑或辅助理解。

🐳 一键 Docker 部署

项目支持一键 Docker 构建部署，完整封装后端与前端流程，极大简化上手难度。

🔜 未来功能计划

📷 关键帧智能提取：自动提取视频中的重点画面，实现真正“图文并茂”。
🎙️ 本地音频识别：支持 fast-whisper 模型在本地部署，进一步降低依赖与成本。
🎨 前端重构：将使用 React 重构前端 UI，提升交互体验与加载性能。

🖼️ 项目界面展示

首页界面

极简设计，突出功能入口。

加载与任务详情页

动态展示进度，操作直观。

结果页

支持不同文档风格展示。
一键导出字幕/文本。

可基于已生成内容二次创作和微调

不满意结果，可以AI对话式二次调整

🧱 项目部署与运行（Docker方式）

1、构建镜像

make docker-image

2️、配置环境变量

请根据项目根目录下的部署文档或 variables.env.example 完善配置文件 variables.env。

3️、修改前端环境变量

在 env.development 中设置 API 接口地址：

VITE_API_BASE_URL=http://0.0.0.0:8080

4️、启动项目

make run

处理流程简述图

👨‍💻 创作者初心

项目作者在项目文档中坦言：

“我开发这个应用是出于个人需求——喜欢看视频但又希望能提炼成笔记记录下来。市面上没有满足我隐私和效率需求的工具，于是就自己动手做了一个。整个过程耗时一个月，测试成本也才五块钱。”

这正是开源的魅力——从个体需求出发，逐渐成长为大众有用的工具。