logo

【开源】自部署视频、音频转文档服务

发布时间

AI 视频图文创作助手:让内容创作更高效的开源神器

📖 项目简介

AI 视频图文创作助手 是一款完全开源、无需登录、可本地部署的 Web 工具,旨在帮助内容创作者、知识工作者、教育工作者等群体,将 视频和音频内容一键转化为结构化文档,支持输出为小红书风格笔记、公众号文章、知识总结、思维导图等多种格式。

项目基于 AI 大模型实现语音识别与自然语言处理,结合 ffmpeg wasm 技术在浏览器端实现音视频处理,保护隐私的同时大大降低了部署与使用的门槛。

本项目采用 MIT License 授权,开箱即用,轻量部署,一个强大的 AI 内容创作助手。


✨ 核心功能亮点

✅ 完全开源

  • 项目采用 MIT 许可证,意味着任何个人或组织都可以免费使用、修改、发布。
  • 前后端代码可完全本地部署,无需依赖任何云服务,安全可靠。

🔒 强隐私保障

  • 使用过程中无需注册登录,避免账号密码泄露风险。
  • 所有处理过程均在本地执行,任务记录不上传服务器,数据隐私有保障。

💻 浏览器端音视频处理

  • 借助 ffmpeg wasm,在浏览器中直接解析音视频文件,无需用户安装 ffmpeg 或依赖服务端处理,提升可用性和跨平台性。

🎯 多文档风格支持

  • 可一键生成如下多种格式的文档:
    • 小红书图文风格
    • 公众号文章风格
    • 知识总结(结构化)
    • 思维导图风格
    • 视频内容摘要

🤖 AI 智能问答

  • 基于视频内容生成结构化文本后,用户可继续通过 AI 对话模块进行二次提问与深度解析,进一步挖掘内容价值。

🎬 字幕导出

  • 支持将识别后的音频内容导出为标准字幕文件(如 .srt),可用于视频剪辑或辅助理解。

🐳 一键 Docker 部署

  • 项目支持一键 Docker 构建部署,完整封装后端与前端流程,极大简化上手难度。

🔜 未来功能计划

  • 📷 关键帧智能提取:自动提取视频中的重点画面,实现真正“图文并茂”。
  • 🎙️ 本地音频识别:支持 fast-whisper 模型在本地部署,进一步降低依赖与成本。
  • 🎨 前端重构:将使用 React 重构前端 UI,提升交互体验与加载性能。

🖼️ 项目界面展示

首页界面

  • 极简设计,突出功能入口。

加载与任务详情页

  • 动态展示进度,操作直观。

结果页

  • 支持不同文档风格展示。
  • 一键导出字幕/文本。

可基于已生成内容二次创作和微调

  • 不满意结果,可以AI对话式二次调整

🧱 项目部署与运行(Docker方式)

1、 构建镜像

make docker-image

2️、 配置环境变量

请根据项目根目录下的部署文档或 variables.env.example 完善配置文件 variables.env。

3️、 修改前端环境变量

在 env.development 中设置 API 接口地址:

VITE_API_BASE_URL=http://0.0.0.0:8080

4️、 启动项目

make run

处理流程简述图

AI 视频图文创作助手处理流程

👨‍💻 创作者初心

项目作者在项目文档中坦言:

“我开发这个应用是出于个人需求——喜欢看视频但又希望能提炼成笔记记录下来。市面上没有满足我隐私和效率需求的工具,于是就自己动手做了一个。整个过程耗时一个月,测试成本也才五块钱。”

这正是开源的魅力——从个体需求出发,逐渐成长为大众有用的工具。