如何在微软Edge浏览器上一键观看高清视频?

2023-09-15 17:02:15

编者按:视频是当下最流行的媒体形式之一。但由于视频压缩、网络不稳定等原因,我们常常可以看到互联网上的很多视频其画面质量并不理想,尤其是在浏览器端,这极大地影响了观看体验。不过,近期微软 Edge 浏览器推出了一项新功能,一键就可以让浏览器中的视频变为高清版。这项神奇功能背后的技术秘诀是什么?今天,让我们一起来了解一下微软 Edge 视频超分辨率功能的“秘密武器”——来自微软亚洲研究院的智能视频增强工具集 DaVinci 2.0。


近期,微软 Edge 浏览器推出了一项新功能——视频超分辨率(VSR)。用户只需在 Edge 浏览器中开启 VSR 功能,就能够在浏览器端观看高清视频。即使是几十年前的360P、480P老电影,或者在网络不稳定被迫降低视频画质的情况下,用户也可以时刻享受高清体验。

VSR 功能的背后是来自微软亚洲研究院的智能化视频增强工具集“达芬奇(DaVinci)”。该功能在不占用网络带宽的情况下即可在用户端实时消除视频压缩的伪影,提高视频分辨率,从而整体提升用户浏览视频的视觉体验。

微软 Edge 视频超分辨率示例。针对低于 720P 分辨率的视频,开启 Edge 中的视频超分辨率功能,视频质量有了明显提升。

现在,就跟着微软 Edge 的节奏,让视频高清起来吧!

第一步,打开微软 Edge 浏览器;第二步,单击 Edge 地址栏中的高清图标并选择增强视频的切换开关;第三步,播放视频,享受高清体验。(注:视频超分辨率由 Edge 自动启用,用户可自行决定启用或禁用该功能)

启用或禁用视频超分辨率功能的流程

启用或禁用视频超分辨率功能的流程

*值得注意的是,受限于模型计算代价较高的限制,该功能目前仅针对具有相对高端显卡的台式机用户开放测试(需要 Edge Stable 版本不低于117,Edge Canary 版本不低于119)。同时,微软 Edge 团队也在不断努力,希望可以将该功能逐步开放给所有具有独立显卡、集成显卡的用户。

从特定视频域到开放域的挑战

据微软 Edge 团队调查,近四成用户曾表示在 Edge 浏览器观看视频时,网页上的视频质量较低,通常为 360P 或 480P,非常影响用户体验。为此,微软 Edge 团队希望与微软亚洲研究院开展合作,借助创新技术来提升 Edge 网页端所有低清视频的质量,给用户以高清体验。2022年微软亚洲研究院推出的智能视频增强工具集“达芬奇(DaVinci)”,能够实现视频超分辨率、视频插帧、压缩视频超分辨率等功能,很好的满足了微软 Edge 团队的需求。

DaVinci项目链接:https://github.com/microsoft/DaVinci

然而,在将 DaVinci 算法模型应用到产品的过程中存在着不小的挑战。DaVinci 1.0 主要是针对特定领域进行的训练,有明确的训练目标;特定领域的数据分布一致,所以模型的优化过程更加容易,优化的上限也更高;而且,高质量的垂直领域的数据更易于收集,可以获得大量公开的训练数据。但进入到 Edge 应用场景下的开放域(open domain),技术难度呈指数级增加。在开放域中,视频类别众多,视觉差异较大,比如用户在 Edge 中打开的可能是包含动物、植物、建筑、车辆等众多元素在内的影视、动画、视频会议等各种不确定类型的视频。要让一个模型补充不同类别视频的细节,是 DaVinci 首先要面对的难题。

与此同时,模型的容量是否足够大,可以支撑真实场景下的大量数据,并捕捉到不同的数据模式?如何定义开放域?开放域需要包含哪些特定领域的数据?评估指标是什么?这些都是 DaVinci 模型需要克服的问题。

更适合开放域视频的超分辨率算法

DaVinci 1.0 视频超分辨率模型的目的是在从低质量(LQ)或低分辨率的对应帧预测的高质量(HQ)帧的过程中来学习映射函数。然而,为了从高质量的训练数据集生成对应的低质量/低分辨率的视频帧,现有方法大多是使用预定义的算子(如,双三次下采样,bicubic down-sampling)来模拟退化过程,得到 LQ 输入。这就限制了模型在真实视频场景上的通用性,特别是对于具有高压缩率的视频流数据。所以在 DaVinci 2.0 的视频超分辨率技术中,微软亚洲研究院的研究员们将视频压缩也纳入到模型中,并通过运行具有不同压缩策略的几个流行视频编解码器来合成 LQ-HQ 视频对,以训练模型。

同时,受到大语言模型的启发,研究员还利用自监督的 LQ-HQ 复原范式(restoration paradigm),使用来自不同类别的15万个视频片段对模型进行了预训练。通过进一步考虑来自不同编码器的视频压缩伪影类型,使得 DaVinci 模型可以显著恢复具有大范围低质量的不同视频内容。

为了进一步提高模型的视觉质量,研究员们采用两阶段训练策略。其中,第一阶段旨在恢复结构信息(如,对象的边缘和边界),第二阶段则针对高频纹理(如,树叶和毛发),使用视觉感知和生成对抗性目标进行优化。

由于当前该领域中的现有指标,如 LPIPS(Learned Perceptual Image Patch Similarity, 学习感知图像块相似度)和 FVD(Fréchet Video Distance,弗雷歇视频距离)不能完全反映人类的视觉偏好,因此研究员们构建了一个端到端流水线(pipeline),用于视频增强任务的主观评估,以便更好地了解改进后的 DaVinci 模型性能,评估它在开放域视频场景中所发挥的作用。

具体而言,就是让参与者在十个类别中标注出他们对真实场景视频数据不同方法的偏好。参与者不仅要考虑每个视频帧的静态质量,还要考虑动态质量,这对于改善用户体验尤为重要。该流水线评估方法表明,相比于浏览器中默认的双线性放大,超过90%的用户更喜欢使用 DaVinci 2.0 模型来提升视频质量。

在微软亚洲研究院与微软 Edge 团队的通力合作下,Edge 浏览器的 VSR 功能基于 DaVinci 2.0 超分辨率模型,可以提升所有不确定内容类型的视频质量,并且在不产生伪影的情况下,提高视频清晰度,为 Edge 用户提供丝滑、高清的视频体验。

从视频超分辨率到视频生成

尽管 DaVinci 1.0 并没有涉及到如此大规模的低质量数据预训练,但 DaVinci 2.0 在 Edge 浏览器中的成功应用,证明了模型具有从低质量预训练到大规模高清数据应用的高泛化能力。这也进一步促进了微软亚洲研究院研究员们将创新技术应用到更多开放域场景的探索。

“DaVinci 2.0 对视频增强功能的创新,实现了对开放域视频图像细节的补充。基于视频帧间具有本质关联的特性,DaVinci 最终实现了高清结果。接下来,我们希望对技术进行更深入的探索,最终达到从0到1的创造,”微软亚洲研究院高级研究员傅建龙表示。

在以视频为主流媒介的大趋势下,微软亚洲研究院希望未来还可以给用户提供自动生成视频、创建个性化视频内容的工具。在全方位为用户提供极致的视频观看体验的同时,也帮助用户从事更复杂、更具创造力的内容创作工作。

更多推荐

基于图的基础推荐方式

文章目录1.基于图的基础推荐方式1.1链路预测(LinkPrediction)1.2什么是路径1.3基于路径的基础链路预测1.4图游走算法DeepWalk1.4.1Word2Vec1.4.2DeepWalk原理1.4.3DeepWalk代码示例1.5图游走算法Node2Vec1.5.1Node2Vec原理1.5.2No

视频编辑SDK:轻松打造专业级视频处理能力

视频编辑SDK是一款强大的技术工具,可以帮助开发者轻松实现视频剪辑、特效处理等功能。美摄科技作为业内知名的视频技术公司,其视频编辑SDK凭借独特的功能和易用性,受到了广大开发者的欢迎。美摄科技的视频编辑SDK支持多种视频格式导入,可实现视频剪辑、拼接、变速、调色等基本功能。同时,它还提供了丰富的特效插件,如文字、滤镜、

python基础

一,什么是pythonPython是一种高级、通用且解释型的编程语言,由GuidovanRossum于1991年首次发布。它具有简洁的语法、清晰的代码结构和强大的功能,被广泛应用于各种领域,包括软件开发、数据分析、人工智能、网络编程等。以下是Python的一些特点和优势:简单易学:Python具有直观、简洁的语法,易于

GDPU 数据结构 天码行空2

实验内容用顺序表实现病历信息的管理与查询功能。具体要求如下:利用教材中定义顺序表类型存储病人病历信息(病历号,姓名,症状);要求使用头文件。设计顺序表定位查找算法,写成一个函数,完成的功能为:在线性表L中查找数据元素x,如果存在则返回线性表中和x值相等的第1个数据元素的序号;如果不存在,则返回-1。函数定义为intLi

数据结构之-----二叉树

目录本章内容如下:1:树的相关概念与结构2:二叉树的概念与结构3:二叉树的链式结构与实现文章正式开始,让我们一起学习树吧!!一:树的概念树是一种非线性结构,与我们前面所学的顺序表与链表不同,数据元素的对应是1对多的关系,只有一个根结点,且除了根节点其它的结点有且仅有1个前驱结点(父结点)。我们可以将一棵树看作由很多个结

计算机和编程语言初见

学习程序设计的目的是什么呢?不一定要做出一个软件或系统出来,更重要的是理解计算机是如何工作的以及它的长处和短处。计算机本身是无意识的,因此我们要求它为我们做事时:应该将步骤细化、“直”化(规律化);其实计算机什么也不会,我们必须手把手地教他一步一步的做。而计算机的某个优点也正是如此——听话,你叫它往东它绝不往西。然后我

Stellar Toolkit for MySQL 9.0 Crack 3in1

面向数据库管理员的MySQL工具包StellarToolkitforMySQL是一款三合一软件套件,用于修复损坏的MySQL和MariaDB数据库、从MySQL数据库的InnoDB和MyISAM表恢复数据以及分析MySQL数据库日志文件。该软件还可以以最高的安全性和完整性相互转换MySQL/MariaDB、MSSQL(

【跟晓月学数据库】基于book库的mysql进阶实战

前言上篇文章中,我们已经导入了book库,如果你还没有导入book库,参考:【跟晓月学数据库】使用MySQLdump对数据导入导出这篇文章,主要是基于book库的操作,希望对你有用。🏠个人主页:我是沐风晓月🧑个人简介:大家好,我是沐风晓月,阿里云社区专家博主😉😉💕座右铭:先努力成长自己,再帮助更多的人,一起加

运营商大数据精准营销获客?

多年来,大数据运营商一直致力于为企业提供互联网大数据精准营销的新项目,并以确保自身信息安全为前提。例如,如果移动用户查看了任何网站,在网页上搜索了任何关键词,登录了应用程序,给任何人打了电话,以及隶属地区、性別,所有这些都由运营商存储,那么企业可以提供需求,运营商可以根据客户行为找到准确的意向客户。高质量的新客户可以基

定义爬虫规则和数据存储

定义爬虫规则是指确定爬虫程序应该如何访问和提取网页数据的规则。这些规则包括确定要爬取的网页的URL、确定要提取的数据类型和位置、确定爬取的深度和频率等。爬虫规则通常由以下几个方面组成:起始URL:确定爬虫程序开始爬取的网页URL。URL过滤规则:确定哪些URL应该被爬取,哪些URL应该被忽略。可以使用正则表达式或其他方

支持向量机(SVM)案例分析

支持向量机(supportvectormachines,SVM)是一种二分类模型,所谓二分类模型是指比如有很多特征(自变量X)对另外一个标签项(因变量Y)的分类作用关系,比如当前有很多特征,包括身高、年龄、学历、收入、教育年限等共5项,因变量为‘是否吸烟’,‘是否吸烟’仅包括两项,吸烟和不吸烟。那么该5个特征项对于‘是

热文推荐