南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

2023-06-07 12:41:55 来源: 博客园

孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。

本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。


(资料图)

Sadtalker配置

之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。

和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。

对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。

Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。

进入到Stable-Diffusion的项目目录:

cd stable-diffusion-webui

启动服务:

python3.10 webui.py

程序返回:

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  Version: v1.3.0  Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  Installing requirements  Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  LatentDiffusion: Running in eps-prediction mode  DiffusionWrapper has 859.52 M params.  Running on local URL:  http://127.0.0.1:7860

代表启动成功,随后http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装,输入插件地址:github.com/Winfredy/SadTalker

安装成功后,重启WebUI界面。

接着需要手动下载相关的模型文件:

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。

接着配置一下模型目录的环境变量:

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此,SadTalker就配置好了。

edge-tts音频转录

之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。

这里使用edge-tts库进行文本转语音操作:

import asyncio    import edge_tts    TEXT = """    As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it.    My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.    Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.     You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.    Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.    At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day.     In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.     With this I fare thee well.    """    VOICE = "en-HK-YanNeural"  OUTPUT_FILE = "./test_en1.mp3"      async def _main() -> None:      communicate = edge_tts.Communicate(TEXT, VOICE)      await communicate.save(OUTPUT_FILE)      if __name__ == "__main__":      asyncio.run(_main())

音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。

随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。

本地推理和爆显存问题

准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860

这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。

生成效果:

SadTalker会根据音频文件生成对应的口型和表情。

这里需要注意的是,音频文件只支持MP3或者wav。

除此以外,推理过程中Pytorch库可能会报这个错误:

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这就是所谓的"爆显存问题"。

一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此,就解决了推理过程中的爆显存问题。

结语

和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。

标签:

南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官

06-07 12:41:55

天天时讯:汽车博主蔡某败诉拒向特斯拉道歉被法院强制执行

上证报中国证券网讯(记者俞立严)6月6日,特斯拉在社交媒体发布声明,

06-07 11:57:50

为i做e,成年人的最高礼遇|世界要闻

「你是i人还是e人?」最近的你,也许常常被问及这个问题。今年四月,一

06-07 11:21:06

我来告诉你滴滴出行是怎么成为网约车司机的

最近,滴滴出行如何成为网约车司机,引起了很多网友的关注。相信很多朋

06-07 10:08:03

视讯!夏日热浪来袭 亲子露营开趴

6月2日,中山·东区露营汽车音乐嘉年华现场,一位家长站在孩子中间举起

06-07 09:55:03

6月7日生意社POM基准价为12300.00元/吨|天天资讯

6月7日,生意社POM基准价为12300 00元 吨,与本月初(12950 00元 吨)相

06-07 09:11:47

我想看王守仁_我王守真就爱看这个什么意思弹幕王守真的梗是怎么来的啊

想必现在有很多小伙伴对于我王守真就爱看这个什么意思,弹幕王守真的梗

06-07 08:39:06

【全球热闻】公共营养师有用吗

公共营养师证现在属于国家认可的职业技能等级类的证书,毋庸置疑肯定是

06-07 08:21:42

焦点!新股上市涨停规则_最近新股一般几个涨停

1、新股中签后有几个涨停,这个视个股而定,有的新股只有两三个涨停,

06-07 07:46:51

2020年普通话考试报名时间_采用什么样的考试方式

解答:1、1月普通话报名时间:1月2日,截止时间已满;确认时间:1月7日

06-07 07:24:17

安德烈·沃德·哈蒙德|环球观热点

1、安德烈·沃德·哈蒙德,演员,参演电影《超能计划》。2、。文章到此

06-07 07:02:35

无影剑_关于无影剑介绍

1、《无影剑》是梁德华执导,舒淇、李俊锋、霍建华、贾乃亮主演的动作

06-07 06:22:59

终结上海15连胜 江苏钜马夺得中国棒球联赛成都站冠军

2023年中国棒球联赛成都站5日结束,江苏钜马以4:1终结了前一站冠军上海

06-07 06:20:41

中银保险河北分公司开展案件风险排查 夯实合规管理基础

为完善案件与风险管理体系,建立责任明晰、协调有序的案防长效机制,实

06-07 05:40:09

每日信息:波罗的海干散货运价指数录得3月中以来最大单日涨幅

波罗的海干散货运价指数录得3月中以来最大单日涨幅:波罗的海干散货运

06-07 05:03:21

经济法包括哪些法律规范_经济法包括哪些法律 当前消息

1、经济法包括《反不正当竞争法》、《拍卖法》、《招标投标法》《消费

06-07 04:26:54

第一次的完整过程视频(第一次的完整过程)

1、是太淡定了点。2、不过第一次也能理解。3、有什么疑问的话可以去做

06-07 04:13:40

father的音标怎么写?(father的音标) 世界观焦点

1、你好。2、father的音标是:英[ˈfɑ:ðə(r)]美[ˈfɑðɚ]。3、—

06-07 03:35:54

资讯:弗吉尼亚州6岁孩童枪击老师 其母认罪

本文来源于:美洲华联社【美洲华联社6月5日洛杉矶报道】作为与检察官达

06-07 02:42:12

西安科技大学高新学院有哪些专业 西安科技大学高新学院专业排名

西安科技大学高新学院各专业一年学费多少钱中国各高校由于办学性质以及

06-07 02:05:22

梁建章:中国的高房价困境|世界微头条

房价和教育是养育孩子最主要的两个成本,中国的生育成本相对于收入几乎

06-07 01:52:13

家→杭二→未来?高考前最后一课,杭二中班主任给学生留了一份作业

00:55潮新闻客户端记者戴欣怡今天(6月6日)是高考前最后一天,在杭州

06-07 01:23:48

环球速讯:生命一号的作用与功效_生命一号

1、作用:促进青少年生长发育,促进骨骼生长。2、补充大脑营养,改善记

06-07 00:36:14

公孙胜的性格特点及情节_公孙胜的性格特点

1、法术高强。2、功成身退七星聚义、戴宗智取公孙胜、斗法破高廉、芒砀

06-06 23:58:50

国内铜供需总体保持良好,短期CU2307合约可能宽幅区间波动金十期货6月6日讯,美国ISM服务业数据低于预期,导致加息预期降温

国内铜供需总体保持良好,短期CU2307合约可能宽幅区间波动金十期货6月6

06-06 23:45:17

西安市第一医院新院区全面开诊_看热讯

6月6日,在第28个“全国爱眼日”到来之际,西安市第一医院新院区全面开

06-06 23:10:44

宇宙的意思(宇的意思) 今日观点

宇宙的意思,宇的意思这个很多人还不知道,现在让我们一起来看看吧!1、

06-06 22:54:48

每日精选:海南省严打12类违法行为 共办理案件1706宗 罚没款3500余万元

新海南客户端、南海网6月6日消息(记者蒙健)为有效净化市场消费环境,

06-06 22:17:48

湖北交投鄂西生态新镇投资有限公司的国企担当——深耕绿色恩施 缔造红色新镇 天天最资讯

通讯员张娜王郑湖北交投鄂西生态新镇投资有限公司(简称新镇公司)作为

06-06 22:09:41

南安市政府召开常务会议|天天速看

南安市政府召开常务会议

06-06 20:41:16

环球今头条!盐城供电:开启500千伏变电集中监控运行新时代

最近,盐城供电公司500千伏变电运检中心优化调整方案,压实压紧工作责

06-06 20:31:25

天天快看:绝味食品(603517.SH)拟每股派0.18元 于6月14日分红

智通财经讯,绝味食品(603517 SH)公告,公司2022年年度权益分派拟:每

06-06 19:49:17

昭阳 X7-14 评测:轻薄超能,易用体验,高能旗舰“标杆”之作! 全球热推荐

这也太轻薄了!有点不太像‘商用本’!当笔者拆开联想昭阳X7-14包装,

06-06 19:13:47

全球百事通!高合智能交互大灯再进化 萌宠灯语点亮“慧心”

机甲汪、妙妙喵、科幻兔三位小可爱正式上线高合HiPhiX、HiPhiZ智能灯语

06-06 18:31:59

管理提升增效益 合作共赢促发展-全球今日报

近日,为进一步促进不动产管理业务规范化管理、专业化发展和市场化运营

06-06 18:09:15

行事露骨是什么意思_露骨是什么意思

1、释义:比喻用意十分显露,语不含蓄,毫无掩饰或假装的状态。2、拼音

06-06 17:46:54

天舟五号货运飞船完成与空间站组合体再次交会对接-天天讯息

前期撤离空间站组合体、已独立在轨飞行33天的天舟五号货运飞船,于北京

06-06 15:19:11

世界视讯!6月6日兖矿国泰醋酸乙酯价格持稳

6月6日,兖矿国泰化工有限公司今日装置运行正常,厂家竞拍销售,今天报

06-06 15:10:00

五矿地产指油塘项目回笼资金会用于香港再投资 全球速看料

五矿地产指油塘项目回笼资金会用于香港再投资,香港,现楼,油塘,美元债,

06-06 13:21:19

两情若是长久时又岂在朝朝暮暮情感_两情若是长久时又岂在朝朝暮暮什么节日

1、只要两情至死不渝,又何必贪求卿卿我我的朝欢暮乐呢。2、出自《鹊桥

06-06 12:35:57

“高”看长沙②|土拍又熔断 观沙岭为何总是“闪闪惹人爱”?

红网时刻新闻6月6日讯(记者康希岳瑾)观沙岭,长沙首批8个重点城市更

06-06 11:31:43

苹果新款15英寸MacBook Air正式发布 约9200元起售

今年的WWDC非常值得关注,除了iOS17等重磅内容以外,苹果是首款头显设

06-06 11:17:50

每日视讯:美国前副总统彭斯提交文书参加总统竞选

美国前副总统彭斯提交文书参加总统竞选---中新社华盛顿6月5日电美国前

06-06 10:41:14

观速讯丨天舟五号货运飞船完成与空间站组合体再次交会对接

目前,空间站组合体状态良好,后续将继续按计划开展各项工作。

06-06 10:16:40

世界简讯:带翻译的英语慰问信

带翻译的英语慰问信(精选3篇)带翻译的英语慰问信篇1亲友生病或是受了

06-06 08:55:25

离别是一种美丽的痛作文600字|天天聚看点

离别是一种美丽的痛作文600字今天是冬至。在平顶山拥挤又狭小的火车站

06-06 08:30:15

像《钢铁侠》贾维斯!苹果Vision Pro头显完全抛弃手柄:直接手势操作|天天资讯

以前大家在看《钢铁侠》电影时,都想拥有一个像贾维斯那样的超级计算机

06-06 07:14:43

从一舱难求到降速航行 全球集运市场的最差时间或许已经过去 全球热点评

本文来源:时代周报作者:特约记者戴榆海运出口集装箱运价整体呈现剧烈

06-06 06:23:04

确定入党积极分子情况范例_确定入党积极分子情况

1、本人从事组织发展工作,希望可以帮到你。2、积极分子考察表是党组织

06-06 05:09:50

全球焦点!传祺影家族来了!助力年轻人轻松开启用车生活!

“要颜值有颜值,要空间有空间,要性能有性能,而且不止省油,购车福利

06-06 04:16:37

天天时讯:汽车博主蔡某败诉拒向特斯拉道歉被法院强制执行
为i做e,成年人的最高礼遇|世界要闻
我来告诉你滴滴出行是怎么成为网约车司机的
视讯!夏日热浪来袭 亲子露营开趴
6月7日生意社POM基准价为12300.00元/吨|天天资讯
我想看王守仁_我王守真就爱看这个什么意思弹幕王守真的梗是怎么来的啊
【全球热闻】公共营养师有用吗
焦点!新股上市涨停规则_最近新股一般几个涨停
2020年普通话考试报名时间_采用什么样的考试方式
安德烈·沃德·哈蒙德|环球观热点
无影剑_关于无影剑介绍
终结上海15连胜 江苏钜马夺得中国棒球联赛成都站冠军
中银保险河北分公司开展案件风险排查 夯实合规管理基础
每日信息:波罗的海干散货运价指数录得3月中以来最大单日涨幅
经济法包括哪些法律规范_经济法包括哪些法律 当前消息
第一次的完整过程视频(第一次的完整过程)
father的音标怎么写?(father的音标) 世界观焦点
资讯:弗吉尼亚州6岁孩童枪击老师 其母认罪
西安科技大学高新学院有哪些专业 西安科技大学高新学院专业排名
梁建章:中国的高房价困境|世界微头条
家→杭二→未来?高考前最后一课,杭二中班主任给学生留了一份作业
环球速讯:生命一号的作用与功效_生命一号
公孙胜的性格特点及情节_公孙胜的性格特点
国内铜供需总体保持良好,短期CU2307合约可能宽幅区间波动金十期货6月6日讯,美国ISM服务业数据低于预期,导致加息预期降温
西安市第一医院新院区全面开诊_看热讯
宇宙的意思(宇的意思) 今日观点
每日精选:海南省严打12类违法行为 共办理案件1706宗 罚没款3500余万元
湖北交投鄂西生态新镇投资有限公司的国企担当——深耕绿色恩施 缔造红色新镇 天天最资讯
南安市政府召开常务会议|天天速看
环球今头条!盐城供电:开启500千伏变电集中监控运行新时代
天天快看:绝味食品(603517.SH)拟每股派0.18元 于6月14日分红
昭阳 X7-14 评测:轻薄超能,易用体验,高能旗舰“标杆”之作! 全球热推荐
全球百事通!高合智能交互大灯再进化 萌宠灯语点亮“慧心”
管理提升增效益 合作共赢促发展-全球今日报
行事露骨是什么意思_露骨是什么意思
天舟五号货运飞船完成与空间站组合体再次交会对接-天天讯息
世界视讯!6月6日兖矿国泰醋酸乙酯价格持稳
五矿地产指油塘项目回笼资金会用于香港再投资 全球速看料
两情若是长久时又岂在朝朝暮暮情感_两情若是长久时又岂在朝朝暮暮什么节日
“高”看长沙②|土拍又熔断 观沙岭为何总是“闪闪惹人爱”?
苹果新款15英寸MacBook Air正式发布 约9200元起售
每日视讯:美国前副总统彭斯提交文书参加总统竞选
观速讯丨天舟五号货运飞船完成与空间站组合体再次交会对接
世界简讯:带翻译的英语慰问信
离别是一种美丽的痛作文600字|天天聚看点
像《钢铁侠》贾维斯!苹果Vision Pro头显完全抛弃手柄:直接手势操作|天天资讯
从一舱难求到降速航行 全球集运市场的最差时间或许已经过去 全球热点评
确定入党积极分子情况范例_确定入党积极分子情况
全球焦点!传祺影家族来了!助力年轻人轻松开启用车生活!
【全球新要闻】深藏不露退戈_深藏不露的意思
X 广告
行业动态
X 广告

Copyright ©  2015-2022 海峡植物网版权所有  备案号:皖ICP备2022009963号-10   联系邮箱:396 029 142 @qq.com