淘宝图片制作教程 免费淘宝图片处理软件( 五 )


3.3 电竞场景中的美颜在内容生产中美颜作为一项基础功能,已经被人们广泛接受,但是常规美颜在电商场景中存在一些问题,比如过度美化,商品变色,背景模糊,资源消耗大等等;在PixelAI美颜中,我们使用了Face3D重建来保障形变的自然,使用AI肤色模型来保证美颜不会伤害到背景和商品 。
3.4 HDR10端到端系统随着采集和显示设备的发展,HDR 10Bit逐渐有一些应用,我们觉得HDR10有三项核心技术:第一是动态范围 。在低照度、曝光过度场景下帮助我们看清内容;第二是色域空间 。支持BT2020提升色彩还原;第三是10bit位深 。HDR对我们的商品还原会非常有帮助,因为电商直播和短视频中最核心的是还原商品而不是美化商品 。
但HDR是一个端到端的系统,需要考虑到各种设备的兼容,所以我们做了一些适配来提升用户体验,比如普通相机拍出的内容就用普通通道传输解码,而一些高端设备支持HDR10,可以把内容做10Bit压缩,传输,在对端根据播放设备能力,做HDR To SDR、10Bit To 8Bit的转换来保证质量,对于好的手机就可以得到最好的HDR体验,一般手机也能得到基础的HDR体验 。图中可以看到HDR技术使照片颜色更接近实物颜色 。
04 音频技术提升体验和生产力
第三个观点是视频技术提升体验和生产力 。音频在过去几年都伴随视频出现,而在去年Clubhouse的发布,大家觉得音频可以独立玩,这对音频技术来说是一个很好的启发 。除此以外,音频的技术还可以辅助我们做内容的生产、审核及各种音频处理,个人认为音频会是后续很重要的生产力 。
4.1 业务:用户数和时长对内容业务来说,最核心的是用户数和时长 。对于技术来说,如何提升消费体验,提升主播生产效率,做好平台治理工作是核心工作 。在这几个方面音频都可以起到非常重要的作用 。
在主播角度,音频技术可以来做口播自动剪辑、来客提醒(不用一直守在电脑旁边)、开播辅助、字幕和配乐生成 。在用户角度,音频的互动可以支持连麦、游戏、猜价格、语音评论 。在平台角度,音频可以监管黄暴政、盗播、盗链、检测空镜 。
分享几个典型案例 。第一,音频技术提高音质体验 。这是一个简单的音频传输系统,采集、预处理、AEC/ANS/AGC、编码、网络传输(FEC/NACK技术)、对端(Jitter Buffer/NETEQ)、解码、重采样 。要实现高音质体验,我们在每个环节都需要做非常细致的工作:采集中做高保真,双声道处理(Alidenoise、回声抑制、智能美声),编码中做自适应码率(HE-AAC),传输过程要保障传输质量QOS(FEC/NACK),接收中还需要原音频数据(PLC/NETEQ),播放中应用各种音效技术(3D音效、空间音效、重低音)来提升收听体验 。
直播内容中,对音频的适配也非常重要 。(陈老师提到一个例子:如果是音乐直播间,用普通模板做音质会很差,所以需要几套针对不同类型直播间的声音模板 。)在这样的系统上,我们支持淘宝直播,语音聊天室等业务 。
4.2 AliDenoise——让声音更清晰淘宝自研的AliDenoise技术是一个智能降噪技术,可以使声音更清晰 。传统的降噪是根据时域傅里叶变换 维拉增益来做,痛点是对非平稳噪声抑制差,在低信噪比失效,而AliDenoise根据端到端的语音降噪,用数据驱动方式,基于先验信噪比方法做模型训练 。还有Cache Buffer的流式处理以及1D卷积 模型小型化的工作,核心优势是降噪能力强、语音保真度高(我们做了一些竞品对比,AliDenoise的主客观指标都超过竞品)、极轻量小模型(1.6M的模型可以在普通手机实现降噪,且CPU消耗只有6%)、延时可控(可根据设备能力做延时调节) 。

推荐阅读