折腾一下whisper语音识别 | 青椒的学习笔记

cpp

发布日期: 2025-08-22

文章字数: 629

阅读次数:

最近好奇抖音上的“录音转文字翻转视频”是如何实现的。

背景

研究了一下，发现常见的做法是使用剪映的一键生成功能：
它会先对录音进行语音转文字，得到字幕文件，然后根据字幕渲染出文字翻转的动态效果。
不过我尝试后觉得效果并不理想：

当然，也有 AE 的 Typemonkey 插件（或类似插件）可以生成翻转大字动画。流程是：

于是我想到：直接用 Whisper 语音识别生成字幕+时间戳，再利用 HTML Canvas 做动画渲染。
HTML 动画部分基本靠 AI 辅助实现，不算难，重点放在本地部署 Whisper 上。

最先尝试的是 Python 版 Whisper（openai/whisper）：

后来发现了 Whisper.cpp（ggml-org/whisper.cpp），支持 GPU 编译，效率提升显著。
实测：10 分钟的音频只需 2 分钟以内 就能完成识别。

克隆仓库：

git clone https://github.com/ggml-org/whisper.cpp
cd whisper.cpp

使用 CMake + Visual Studio 编译 GPU 版本：

cmake -B build -DGGML_CUDA=1
cmake --build build --config Release

运行测试：

.\build\bin\Release\main.exe -m models\ggml-medium.bin -f test.wav --output-srt

会生成带有时间戳的 .srt 字幕文件。

青椒

https://zhkgo.github.io/2025/08/22/%E6%8A%98%E8%85%BE%E4%B8%80%E4%B8%8Bwhisper%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB/

本笔记所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源青椒 !

cpp

本篇

最近好奇抖音上的“录音转文字翻转视频”是如何实现的。背景研究了一下，发现常见的做法是使用剪映的一键生成功能：它会先对录音进行语音转文字，得到字幕文件，然后根据字幕渲染出文字翻转的动态效果。不过我尝试后觉得效果并不理想：这是付费功能

2025-08-22 青椒

cpp

简介主要搭建了一个最最简单的lua与c++交互的demo。可以从demo中学习到，如何引入lua头文件、库目录。如何实现c++调用lua代码，以及lua调用c++代码。目录结构预览通常在创建项目时，需要对项目有个大概设想，东西怎么存放是个

2025-07-19 青椒

cpp lua