语音、视频转文字神器:开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型,它是一种通用的语音识别模型,可以用于语音识别、语音翻译和语言识别等任务。 Whisper是通过收集来自多个...

胎教级SO-VITS-SVC使用教程:人工智能生成歌曲

so-vits-svc是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variation...

AI里的大模型,你了解么

AI大模型是“人工智能预训练大模型”的简称,是指具有大量参数和复杂结构的机器学习模型。这些模型可以应用于处理大规模的数据和复杂的问题。包含了“预训练”和“...

6个AI音乐软件推荐,让你学会人工智能AI作曲

跟AI绘画一样,音乐产业正在将AI作为一种辅助工具,而不是代替人类艺术家。人工智能(AI)正在越来越多地应用于音乐、电影和绘画等艺术领域。在当下的应用中...

SadTalker数字人常见问题3

SadTalker数字人制作工具,用自带的图片音频可以生成,而用自己的图片、音频生成视频就不行。   基本都是因为图片分辨率太高,或者音频格式不对。  ...

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网,同类型的AI短视频层出不穷,更有好莱坞明星说中文的短视频,不断地出爆款,那么现在我们就开始学习如何制作一个同类型...

【开源项目】Flow Matching 语音合成

CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入语音合成领域,下面是voicebox的一个工作流程图   Matcha-TTS是第一个开源co...

数字人直播哪家强?中国数字人平台分析大全

2023年初ChatGPT引发人工智能热潮,虚拟人产业在AI赋能下商业价值轮廓逐渐清晰。在人工智能和虚拟现实技术融合发展的大背景下,中国的数字人技术厂商正在积极...

Insanely Fast Whisper:超快的Whisper语音识别脚本

项目简介 这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术,可以在不到10分钟内转录300分钟(5小时)...

AI虚拟主播数字人技术实现Wav2Lip

本篇是关于AI主播虚拟人的Wav2Lip技术实现与评测,后续还会有其他的相关技术实现与评测。本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语音(这里的核...
1 2 3 4 40