ByteCat

0%

语音识别

发表于 2020-11-15 更新于 2024-01-09

Whisper是OpenAI开源的一个语音识别模型，支持多达99种语言的语音转文本，并且识别能力已达到人类水准。

音频格式转换

发表于 2020-11-15 更新于 2023-06-15

使用pydub实现音频的格式转换。

音乐的人声分离

发表于 2020-11-15 更新于 2024-01-10

在音频处理技术的革新浪潮中，声音分离技术正逐渐成为音乐创作和音频分析的关键工具。

立体声的左右声道分离

发表于 2020-11-15 更新于 2023-06-15

基于scipy库的左右声道分离。

音频分割

发表于 2020-11-15 更新于 2023-06-15

按照时间戳对音频进行切分。

音频降频

发表于 2020-11-15 更新于 2023-06-15

有时候我们需要对音频降频。

从视频中提取音频（2）

发表于 2020-11-15 更新于 2023-06-15

利用moviepy将视频中的音频给提取出来。

从视频中提取音频（1）

发表于 2020-11-15 更新于 2023-06-15

利用ffmpy将视频中的音频给提取出来。

将语言模型以gradio形式发布

发表于 2020-11-14 更新于 2024-11-14

Gradio是一个用于构建交互式界面的Python库，可以帮助我们快速地创建和部署Web应用程序。

阅读理解模型

发表于 2020-11-14 更新于 2023-05-16

给定上下文与问题，从上下文中抽取答案。