【专利解密】ZTE:怎么“浓缩”视频?——视频摘要技术

作者: 海纳百川
2019-04-23 {{format_view(4642)}}
相关舆情
AI解读
生成海报
【专利解密】ZTE:怎么“浓缩”视频?——视频摘要技术

摘要:近年来新兴起了一种视频媒体处理技术——视频摘要技术,也称为视频压缩或者视频总结技术,该技术可以在保持原有的信息量和关键事件的同时,将一段很长的视频浓缩到几分钟甚至是几秒钟以内,因此将该技术称为视频“摘要”技术。

现代科技文献信息浩如烟海,想要快速分辨出一篇文献是否是自己要寻找的,可以通过查看文献的摘要进行辨别,那想要快速分辨出一段视频是否是自己要寻找的怎么办?

近年来新兴起了一种视频媒体处理技术——视频摘要技术,也称为视频压缩或者视频总结技术,该技术可以在保持原有的信息量和关键事件的同时,将一段很长的视频浓缩到几分钟甚至是几秒钟以内,因此将该技术称为视频“摘要”技术。

ZTE在2017年9月14日向国知局提交了一份专利申请(申请号:CN201710827915.3),该专利要求保护一种视频摘要技术

为便于向读者介绍该技术,小编将会把专利中的内容落脚到更为具体一些的场景下进行介绍,若您对该技术有兴趣,可以去查找该专利的申请文件继续研究。

先来了解一下视频。

视频是由多个帧图像所组成的,这些帧图像按照一定的时间间隔进行播放就可以形成视频,换言之,可以将视频可以拆解为按照时间顺序排列的多个帧图像。

再来了解一下视频中的运动目标,运动目标指的是在视频的每一个帧图像中的动态的目标,是视频文件的组成部分,可以依靠帧图像来呈现。

请参见图1,图1示出了三个运动目标A、B、C、D的运动轨迹的整合表现,其中:

运动目标A从原视频的第1帧开始到第9帧结束;

运动目标B从原视频的20帧开始到28帧结束;

运动目标C从原视频的46帧开始到49帧结束;

运动目标D则是从第47帧开始到第50帧结束。

图1

可以看到,四个运动目标的起止帧都不相同,因此,其相应的运动轨迹所囊括的原始帧的集合也不尽相同。

视频我们已经了解了,那怎么“浓缩”视频形成视频摘要呢?

ZTE的这份专利提供了这样一种思路,通过以下三个步骤实现:

(1)确定视频中各运动目标的相对位置;

(2)确定运动目标在视频摘要中的位置;

(3)将视频中个各运动目标按照在视频摘要中的位置进行合成。

那么,上述的(1)、(2),都是如何实现的呢?

请继续往下看~

(1)如何确定视频中各运动目标的相对位置?

为了确定运动目标的运动轨迹在摘要视频中的相对位置,可以通过判断不同的运动目标的运动轨迹中,是否存在相同的原始帧号,当存在相同的原始帧号时,根据相同的原始帧号,确定对应的运动轨迹之间的相对位置。

即具备相同的原始帧号的运动轨迹在摘要视频中的相对位置与在原视频中的相对位置一致。

也就是说,不同的运动轨迹存在相同的原始帧号,对于两个不同的运动目标而言,其运动轨迹有共同的原始帧,那么两个运动目标至少在原视频中同时出现过。

这样的话就可以保留这两个运动目标之间的位置关系,也就是确定两个运动目标的原始帧号和在对应原始帧中的位置,即可确定这两个运动目标的相对位置。

就如图2中运动目标A、B,其两者在原视频中有相同帧,也就是A和B具有相同帧号,因此确定其两者的原始帧号(运动目标A:1-9;运动目标B:20-28),便能确定其两者的想相对位置。

图2

(2)如何确定运动目标在视频摘要中的位置?

需要了解的是,视频中的运动目标的相对位置关系有两种:

第一种是,两个运动目标有相同的原始帧。

第二种是,两个运动目标没有相同的原始帧。

对于第一种,由于帧图像具有时间性的特点,基于该特点确定视频摘要的第一帧便能按照时间顺序依次确定运动目标在视频摘要中的位置。

即,运动目标的运动是连续的,那么这些帧号也是连续的,所以选择任何一个相同帧来确定运动目标的运动轨迹的起始帧,该起始帧即为摘要视频的第一帧。

请参考图3,图3示出了图1中的运动目标C、D合称为一个摘要视频的示意图。

图3

对于第二种,表示各运动目标的运动轨迹在原视频中没有同时出现过,都是各自出现在不同的帧中,可以根据摘要视频的时长限制,确定各个运动目标的初始帧在摘要视频中所对应的位置(若视频“浓缩”得厉害,则运动目标安排得更为紧凑),进而可以确定摘要视频中的起始帧(第一帧)。

在这一情况下,可以不必限定各运动目标的运动轨迹在摘要视频中的位置,运动目标的运动轨迹之间可以进行进一步的压缩,即为了尽可能缩短摘要视频的时长,各运动轨迹的相应原始帧的间隔不会大于在原视频中的间隔。

可参见图4,图4示出了图1中运动目标A、B、C三者合成后的摘要视频的示意图:

图4

最后,值得一提的是,摘要视频的合成过程还可以是在已合成的摘要视频中,插入新的运动目标的运动轨迹,在这种情况下,已合成的摘要视频也可视为运动目标的运动轨迹,当然这里的轨迹可能是多个运动目标的运动轨迹的组合。

在这种情况下,则可以确定插入的新运动目标的起始帧在摘要视频中对应的位置,然后将新运动目标的运动轨迹插入摘要视频中。

需要明白的是,该专利提供的视频摘要技术可以避免目前主流视频摘要技术的缺点,如关键帧(key frame)法的视频压缩程度大而丢失内容多的缺点,视频跳读(videoskim)法的保留内容多而压缩程度小的缺点,实现同时兼顾压缩率的高水平和保留内容数量多,进而保证视频摘要具有好效果的问题。

随着5G的商用,以后视频的数量将成爆炸性增长,在巨量的视频中如何找到自己想要的那一个视频呢?自然可以依靠今天介绍的这个视频摘要技术来实现。(校对/团团)

责编: 茅茅
专利解密

热门评论

全球半导体进出口(1-7月):7月日本设备出口环比下降7.2%,韩国集成电路出口环比下降13.2%