博客 | 第 2 页 | AI资源网

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。 Whisper是通过收集来自多个...

所有文章

1年前 (2024)

so-vits-svc是基于VITS的开源项目，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variation...

所有文章

1年前 (2024)

AI大模型是“人工智能预训练大模型”的简称，是指具有大量参数和复杂结构的机器学习模型。这些模型可以应用于处理大规模的数据和复杂的问题。包含了“预训练”和“...

所有文章

1年前 (2024)

跟AI绘画一样，音乐产业正在将AI作为一种辅助工具，而不是代替人类艺术家。人工智能（AI）正在越来越多地应用于音乐、电影和绘画等艺术领域。在当下的应用中...

所有文章

1年前 (2024)

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。基本都是因为图片分辨率太高，或者音频格式不对。 ...

AI 视频

1年前 (2024)

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型...

所有文章

1年前 (2024)

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源co...

所有文章

1年前 (2024)

2023年初ChatGPT引发人工智能热潮，虚拟人产业在AI赋能下商业价值轮廓逐渐清晰。在人工智能和虚拟现实技术融合发展的大背景下，中国的数字人技术厂商正在积极...

AI 视频

1年前 (2024)

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）...

所有文章

1年前 (2024)

本篇是关于AI主播虚拟人的Wav2Lip技术实现与评测，后续还会有其他的相关技术实现与评测。本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核...

AI 视频

1年前 (2024)