目录
主流防挡脸弹幕实现原理
点播
 直播
本文实现方案
实现原理
面临的问题
实践调优过程
选择机器学习模型
初版实现
重写toBinaryMask
多线程优化
降低分辨率
启动条件优化
 判定画面是否有人
发布构建优化
运行效果
总结
过程
CPU 数值指主线程占用
经验
首页 科技周边 人工智能 Web 端实时防挡脸弹幕(基于机器学习)

Web 端实时防挡脸弹幕(基于机器学习)

Jun 10, 2023 pm 01:03 PM
web 浏览器 机器学习

防挡脸弹幕,即大量弹幕飘过,但不会遮挡视频画面中的人物,看起来像是从人物背后飘过去的。

机器学习已经火了好几年了,但很多人都不知道浏览器中也能运行这些能力;

本文介绍在视频弹幕方面的实践优化过程,文末列举了一些本方案可适用的场景,期望能开启一些脑洞。

mediapipe Demo(https://google.github.io/mediapipe/)展示

Web 端实时防挡脸弹幕(基于机器学习)

主流防挡脸弹幕实现原理

点播

up 上传视频

服务器后台计算提取视频画面中的人像区域,转换成 svg 存储

客户端播放视频的同时,从服务器下载 svg 与弹幕合成,人像区域不显示弹幕

 直播

  1. 主播推流时,实时(主播设备)从画面提取人像区域,转换成 svg
  2. 将 svg 数据合并到视频流中(SEI),推流至服务器
  3. 客户端播放视频同时,从视频流中(SEI)解析出 svg
  4. 将 svg 与弹幕合成,人像区域不显示弹幕

本文实现方案

客户端播放视频同时,实时从画面提取人像区域信息,将人像区域信息导出成图片与弹幕合成,人像区域不显示弹幕。

实现原理

  1. 采用机器学习开源库从视频画面实时提取人像轮廓,如Body Segmentation(https://github.com/tensorflow/tfjs-models/blob/master/body-segmentation/README.md)
  2. 将人像轮廓转导出为图片,设置弹幕层的 mask-image(https://developer.mozilla.org/zh-CN/docs/Web/CSS/mask-image)

 对比传统(直播SEI实时)方案

优点:

  • 易于实现;只需要Video标签一个参数,无需多端协同配合
  • 无网络带宽消耗

缺点:

  • 理论性能极限劣于传统方案;相当于性能资源换网络资源

面临的问题

众所周知,JavaScript 的性能较差,因此不适合用于处理 CPU 密集型任务。由官方demo变成工程实践,最大的挑战就是——性能。

本次实践最终将 CPU 占用优化到 5% 左右(2020 M1 Macbook),达到生产可用状态。

实践调优过程

选择机器学习模型

BodyPix (https://github.com/tensorflow/tfjs-models/blob/master/body-segmentation/src/body_pix/README.md)

精确度太差,面部偏窄,有很明显的弹幕与人物面部边缘重叠现象

Web 端实时防挡脸弹幕(基于机器学习)

BlazePose(https://github.com/tensorflow/tfjs-models/blob/master/pose-detection/src/blazepose_mediapipe/README.md)

精确度优秀,且提供了肢体点位信息,但性能较差

Web 端实时防挡脸弹幕(基于机器学习)

返回数据结构示例

[{score: 0.8,keypoints: [{x: 230, y: 220, score: 0.9, score: 0.99, name: "nose"},{x: 212, y: 190, score: 0.8, score: 0.91, name: "left_eye"},...],keypoints3D: [{x: 0.65, y: 0.11, z: 0.05, score: 0.99, name: "nose"},...],segmentation: {maskValueToLabel: (maskValue: number) => { return 'person' },mask: {toCanvasImageSource(): ...toImageData(): ...toTensor(): ...getUnderlyingType(): ...}}}]

MediaPipe SelfieSegmentation (https://github.com/tensorflow/tfjs-models/blob/master/body-segmentation/src/selfie_segmentation_mediapipe/README.md)

精确度优秀(跟 BlazePose 模型效果一致),CPU 占用相对 BlazePose 模型降低 15% 左右,性能取胜,但返回数据中不提供肢体点位信息

返回数据结构示例

{maskValueToLabel: (maskValue: number) => { return 'person' },mask: {toCanvasImageSource(): ...toImageData(): ...toTensor(): ...getUnderlyingType(): ...}}

初版实现

参考 MediaPipe SelfieSegmentation 模型 官方实现(https://github.com/tensorflow/tfjs-models/blob/master/body-segmentation/README.md#bodysegmentationdrawmask),未做优化的情况下 CPU 占用 70% 左右

const canvas = document.createElement('canvas')canvas.width = videoEl.videoWidthcanvas.height = videoEl.videoHeightasync function detect (): Promise<void> {const segmentation = await segmenter.segmentPeople(videoEl)const foregroundColor = { r: 0, g: 0, b: 0, a: 0 }const backgroundColor = { r: 0, g: 0, b: 0, a: 255 } const mask = await toBinaryMask(segmentation, foregroundColor, backgroundColor) await drawMask(canvas, canvas, mask, 1, 9)// 导出Mask图片,需要的是轮廓,图片质量设为最低handler(canvas.toDataURL('image/png', 0)) window.setTimeout(detect, 33)} detect().catch(console.error)

降低提取频率,平衡 性能-体验

一般视频 30FPS,尝试弹幕遮罩(后称 Mask)刷新频率降为 15FPS,体验上还能接受

window.setTimeout(detect, 66) // 33 => 66

此时,CPU 占用 50% 左右

解决性能瓶颈

Web 端实时防挡脸弹幕(基于机器学习)

分析火焰图可发现,性能瓶颈在 toBinaryMask 和 toDataURL

重写toBinaryMask

分析源码,结合打印segmentation的信息,发现segmentation.mask.toCanvasImageSource可获取原始ImageBitmap对象,即是模型提取出来的信息。尝试自己编写代码,将ImageBitmap转换为遮罩(Mask),以代替使用开源库所提供的默认实现。

实现原理

async function detect (): Promise<void> {const segmentation = await segmenter.segmentPeople(videoEl) context.clearRect(0, 0, canvas.width, canvas.height)// 1. 将`ImageBitmap`绘制到 Canvas 上context.drawImage(// 经验证 即使出现多人,也只有一个 segmentationawait segmentation[0].mask.toCanvasImageSource(),0, 0,canvas.width, canvas.height)// 2. 设置混合模式context.globalCompositeOperation = 'source-out'// 3. 反向填充黑色context.fillRect(0, 0, canvas.width, canvas.height)// 导出Mask图片,需要的是轮廓,图片质量设为最低handler(canvas.toDataURL('image/png', 0)) window.setTimeout(detect, 66)}

第 2、3 步相当于给人像区域外的内容填充黑色(反向填充ImageBitmap),是为了配合css(mask-image), 不然只有当弹幕飘到人像区域才可见(与目标效果正好相反)。

globalCompositeOperation MDN(https://developer.mozilla.org/zh-CN/docs/Web/API/CanvasRenderingContext2D/globalCompositeOperation)

此时,CPU 占用 33% 左右

多线程优化

我原先认为toDataURL是由浏览器内部实现的,无法再进行优化,现在只有优化toDataURL这个耗时操作了。

虽没有替换实现,但可使用 OffscreenCanvas (https://developer.mozilla.org/zh-CN/docs/Web/API/OffscreenCanvas)+ Worker,将耗时任务转移到 Worker 中去, 避免占用主线程,就不会影响用户体验了。

并且ImageBitmap实现了Transferable接口,可被转移所有权,跨 Worker 传递也没有性能损耗(https://hughfenghen.github.io/fe-basic-course/js-concurrent.html#%E4%B8%A4%E4%B8%AA%E6%96%B9%E6%B3%95%E5%AF%B9%E6%AF%94)。

// 前文 detect 的反向填充 ImageBitmap 也可以转移到 Worker 中// 用 OffscreenCanvas 实现, 此处略过 const reader = new FileReaderSync()// OffscreenCanvas 不支持 toDataURL,使用 convertToBlob 代替offsecreenCvsEl.convertToBlob({type: 'image/png',quality: 0}).then((blob) => {const dataURL = reader.readAsDataURL(blob)self.postMessage({msgType: 'mask',val: dataURL})}).catch(console.error)

Web 端实时防挡脸弹幕(基于机器学习)

可以看到两个耗时的操作消失了

此时,CPU 占用 15% 左右

降低分辨率

继续分析,上图重新计算样式(紫色部分)耗时约 3ms

Demo 足够简单很容易推测到是这行代码导致的,发现 imgStr 大概 100kb 左右(视频分辨率 1280x720)。

danmakuContainer.style.webkitMaskImage = `url(${imgStr})

通过canvas缩小图片尺寸(360P甚至更低),再进行推理。

优化后,导出的 imgStr 大概 12kb,重新计算样式耗时约 0.5ms。

此时,CPU 占用 5% 左右

Web 端实时防挡脸弹幕(基于机器学习)

启动条件优化

虽然提取 Mask 整个过程的 CPU 占用已优化到可喜程度。

当在画面没人的时候,或没有弹幕时候,可以停止计算,实现 0 CPU 占用。

无弹幕判断比较简单(比如 10s 内收超过两条弹幕则启动计算),也不在该 SDK 实现范围,略过

 判定画面是否有人

第一步中为了高性能,选择的模型只有ImageBitmap,并没有提供肢体点位信息,所以只能使用getImageData返回的像素点值来判断画面是否有人。

画面无人时,CPU 占用接近 0%

发布构建优化

依赖包的提交较大,构建出的 bundle 体积:684.75 KiB / gzip: 125.83 KiB

所以,可以进行异步加载SDK,提升页面加载性能。

  1. 分别打包一个 loader,一个主体
  2. 由业务方 import loader,首次启用时异步加载主体

这个两步前端工程已经非常成熟了,略过细节。

运行效果

Web 端实时防挡脸弹幕(基于机器学习)

总结

过程

  • 选择高性能模型后,初始状态 CPU 70%
  • 降低 Mask 刷新频率(15FPS),CPU 50%
  • 重写开源库实现(toBinaryMask),CPU 33%
  • 多线程优化,CPU 15%
  • 降低分辨率,CPU 5%
  • 判断画面是否有人,无人时 CPU 接近 0%

CPU 数值指主线程占用

注意事项

  • 兼容性:Chrome 79及以上,不支持 Firefox、Safari。因为使用了OffscreenCanvas
  • 不应创建多个或多次创建segmenter实例(bodySegmentation.createSegmenter),如需复用请保存实例引用,因为:
  • 创建实例时低性能设备会有明显的卡顿现象
  • 会内存泄露;如果无法避免,这是mediapipe 内存泄露 解决方法(https://github.com/google/mediapipe/issues/2819#issuecomment-1160335349)

经验

  • 优化完成之后,提取并应用 Mask 关键计算量在 GPU (30%左右),而不是 CPU
  • 性能优化需要业务场景分析,防挡弹幕场景可以使用低分辨率、低刷新率的 mask-image,能大幅减少计算量
  • 该方案其他应用场景:
  • 替换/模糊人物背景
  • 人像马赛克
  • 人像抠图
  • 卡通头套,虚拟饰品,如猫耳朵、兔耳朵、带花、戴眼镜什么的(换一个模型,略改)
  • 关注Web 神经网络 API (https://mp.weixin.qq.com/s/v7-xwYJqOfFDIAvwIVZVdg)进展,以后实现相关功能也许会更简单

本期作者

Web 端实时防挡脸弹幕(基于机器学习)

                                                                               刘俊   

哔哩哔哩资深开发工程师

以上是Web 端实时防挡脸弹幕(基于机器学习)的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

Rimworld Odyssey如何钓鱼
1 个月前 By Jack chen
Kimi K2:最强大的开源代理模型
1 个月前 By Jack chen
我可以有两个支付帐户吗?
1 个月前 By 下次还敢

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Laravel 教程
1602
29
PHP教程
1506
276
币安官网唯一入口 正确地址 币安官网唯一入口 正确地址 Aug 06, 2025 pm 11:33 PM

币安官网唯一正确入口为域名结尾为.com的官方网站,且无任何多余符号或子目录;2. 验证官网真实性需检查SSL证书、通过官方社交媒体核对域名并警惕钓鱼链接;3. 常见诈骗手段包括仿冒域名、虚假客服诱导及非官方渠道的APP下载陷阱;4. 安全访问建议包括启用双重验证、使用浏览器书签保存官网地址并定期检查设备授权情况,以确保账户安全完整。

币安官方app最新官网入口 币安交易所app下载地址 币安官方app最新官网入口 币安交易所app下载地址 Aug 04, 2025 pm 11:27 PM

币安(Binance)是全球知名的数字资产交易平台之一,为广大用户提供安全、稳定、便捷的加密货币交易服务。通过币安App,您可以随时随地进行市场行情查看、买卖交易及资产管理。

欧易OKx官网 v6.135.0 安卓版下载安装 欧易OKx官网 v6.135.0 安卓版下载安装 Aug 06, 2025 pm 11:39 PM

确认官网地址为www.okx.com,手动输入以防钓鱼;2. 确保安卓系统5.0以上,预留100MB空间并开启“允许未知来源”权限;3. 通过官网下载Android版v6.135.0的APK文件,建议校验SHA256哈希值;4. 点击APK文件安装,手动允许“继续安装”或“信任此来源”;5. 授予存储、网络等必要权限;6. 安装完成后在桌面打开欧易OKX图标即可。

Succinct(PROVE币)是什么?如何运作?PROVE代币经济与价格预测 Succinct(PROVE币)是什么?如何运作?PROVE代币经济与价格预测 Aug 06, 2025 pm 06:42 PM

目录什么是Succinct(PROVE)谁创建了Succinct(PROVE)?哪些风险投资支持Succinct(PROVE)?Succinct(PROVE)的工作原理SP1zkVM和Prover网络OPSuccinct技术跨链验证PROVE代币经济学代币详情代币分配代币实用程序潜在代币持有者PROVE代币价格预测PROVE代币的上市前交易活动社区对PROVE代币价格的预测为什么要选择Succinct?Succ

Blockstream推出Simplicity,为以太坊(ETH)Solidity带来全新替代方案 Blockstream推出Simplicity,为以太坊(ETH)Solidity带来全新替代方案 Aug 06, 2025 pm 08:45 PM

目录针对不同架构的差异化路径专用智能合约编程语言的崛起‍由AdamBack领军的Blockstream正式推出了专为比特币设计的原生智能合约语言Simplicity,为以太坊的Solidity提供了全新的竞争选择。作为比特币二层网络Liquid的缔造者,Blockstream在加密领域拥有深厚背景,其领导者AdamBack更是比特币发展史上的关键人物。此次发布的Simplicity语言,旨在为比特币生态引入更强的可编程能力。根据该公司周四向Cointelegraph透露的消息,Simplicit

世界十大货币交易平台 币圈十大交易软件app下载 世界十大货币交易平台 币圈十大交易软件app下载 Aug 06, 2025 pm 11:42 PM

Binance:以高流动性、多币种支持、多样化交易模式及强大安全系统着称;2. OKX:提供多元交易产品、布局DeFi与NFT、具备高性能撮合引擎;3. Huobi:深耕亚洲市场、注重合规运营、提供专业服务;4. Coinbase:合规性强、界面友好、适合新手且为上市公司;5. Kraken:安全措施严格、支持多种法币、透明度高;6. Bybit:专注衍生品交易、低延迟、风控完善;7. KuCoin:币种丰富、支持新兴项目、持有KCS可享分红;8. Gate.io:上线新币频繁、具Copy Tr

欧交易所最新版app下载安装地址2025版 欧交易所最新版app下载安装地址2025版 Aug 07, 2025 pm 09:48 PM

欧交易所是一款全球领先的数字资产服务平台,为广大用户提供多样化的数字产品交易与金融服务。其官方应用程序设计友好,操作便捷,致力于为用户创造一个安全、稳定的交易环境。

智能合约 —— 区块链上的自动执行协议 智能合约 —— 区块链上的自动执行协议 Aug 06, 2025 pm 11:48 PM

智能合约是存储在区块链上的自动执行程序,其核心在于通过代码实现“如果…那么…”逻辑,以去中心化、不可篡改的方式执行协议。1. 编写代码:使用Solidity等语言定义合约逻辑;2. 编译:将代码转换为机器可读的字节码;3. 部署:通过交易将字节码发布到区块链并生成唯一地址;4. 触发执行:当预设条件满足时,合约自动运行;5. 记录结果:所有操作被永久记录在链上,确保透明可查。它解决了传统协议中的信任、效率、成本、透明度和执行风险问题,广泛应用于DeFi、供应链、版权管理、投票、保险和游戏等领域。

See all articles