FunClip

FunClip是什么

FunClip是由阿里巴巴达摩院通义实验室开发并开源的一款AI驱动的智能视频剪辑工具，基于FunASR Paraformer系列模型，专注于通过语音识别技术实现视频内容的自动化编辑。它集成了工业级的中文语音识别模型（如Paraformer-Large）、说话人分离技术（CAM++）以及热词优化功能，旨在简化视频剪辑流程，尤其适用于需要从长视频中快速提取片段、生成字幕或区分多说话人场景的需求。

其开源性质允许用户免费部署本地服务或通过在线平台（如ModelScope）体验，支持中文为主（未来计划扩展多语言），并兼容命令行与图形化界面操作，是专业视频编辑和内容创作者的效率工具。

FunClip主要功能

自动化语音识别（ASR）
利用Paraformer-Large模型实现高精度语音转文字，支持中英文音频，一体化预测时间戳，快速定位视频内容。
热词定制化
通过SeACo-Paraformer架构，用户可设置特定关键词（如专业术语、人名）作为热词，提升识别准确率，尤其适用于专业领域内容。
说话人识别与分离
集成CAM++模型，自动检测并标记不同说话人，用户可精准裁剪指定发言者的片段，适用于会议记录或多角色访谈。
多段自由剪辑
支持选择多个文本段落或说话人片段进行裁剪，提供灵活的编辑能力，可导出多个独立视频文件。
自动字幕生成
剪辑后自动生成全视频及目标片段的SRT字幕文件，支持自定义字幕样式与时间轴调整，便于后期编辑。
双模式操作
- Gradio交互界面：通过浏览器访问本地部署的服务，可视化操作上传视频、选择片段和调整参数。
- 命令行调用：支持脚本化操作，适合批量处理或集成到其他工作流中。
智能剪辑扩展
整合大语言模型（如Qwen、GPT），支持基于语义提示的自动化剪辑，例如根据内容摘要提取关键片段。

如何使用FunClip

方法一：本地部署（Gradio界面）

环境准备
- 安装Python 3.8+和Git。
- 克隆仓库并安装依赖：
```
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
pip install -r requirements.txt
```
- （可选）安装ImageMagick以支持字幕嵌入。
启动服务
运行以下命令启动Gradio服务：
```
python funclip/launch.py
```
浏览器访问 [http://localhost:7860](http://localhost:7860) 即可使用。
操作步骤
- 上传视频文件（支持MP4、AVI等格式）。
- 点击“识别”生成语音转写文本及说话人标记。
- 选择目标文本段落或说话人ID，调整时间偏移和字幕参数。
- 点击“裁剪”或“裁剪并生成字幕”导出结果。

方法二：在线体验

访问ModelScope魔搭社区的在线Demo，直接上传视频并操作，适合快速体验（需注意文件大小限制）。

方法三：命令行调用

示例命令：

# 语音识别阶段
python funclip/videoclipper.py --stage 1 --file input.mp4 --output_dir ./output

# 视频裁剪阶段
python funclip/videoclipper.py --stage 2 --file input.mp4 --output_dir ./output --dest_text "需要裁剪的文本"

适用于自动化处理或集成到脚本中。