理论教育 视频搜索技术:Tag关键词标记及其应用

视频搜索技术:Tag关键词标记及其应用

时间:2023-06-22 理论教育 版权反馈
【摘要】:Tag是一种关键词标记,可以将视频文件标注关键词,利用搜索技术检索所有拥有Tag标记的视频文件,并按照一定规则将地址反馈给用户。下面以百度为例,对网络视频内容的获取技术、分类机制、检索技术等做简要介绍。在网络视频内容的获取技术方面,百度视频搜索并不获取真正的 “视频内容”,而是获取和保存网络视频的页面链接。

视频搜索技术:Tag关键词标记及其应用

与传统网页搜索不同,视频文件属于非结构化信息 (Unstructured Information),视频资料的搜索技术有别于传统网页搜索。按照搜索技术可以将视频搜索分为两类:通过文件名或标签 (Tag)进行搜索和通过视频内容进行搜索。

1.通过文件名或标签进行搜索

现在,大多数网络搜索在查找多媒体文件时是通过视频文件的名字或其他标签,如视频文件的标题、作者、摘要关键词等。Tag是一种关键词标记,可以将视频文件标注关键词,利用搜索技术检索所有拥有Tag标记的视频文件,并按照一定规则将地址反馈给用户。通过Tag技术搜索,可以将非结构化的视频文件转化成结构化信息进行检索。

2.通过视频内容进行搜索

该技术是对视频内容进行分析处理,转换成结构化索引,再通过内容进行检索。主要表现为通过对视频资料进行数字化处理,然后利用语音识别技术提取文件中有用的内容进行标记,最终通过检索展现给用户,并实现关键帧定位。

采用内容搜索方法,可通过判别相关度来对数据进行检索和筛选,根据用户输入的词、句子或段落,通过模式识别或概念匹配的方式,找出在内容上最接近的搜索结果提供给用户,用户可以按相关度排序来找到自己满意的结果。这项技术可以避免许多单纯依赖关键字检索出现的错误查询结果,同时又能够查到那些可能不包含具体关键字,但包含相关概念的文档。通过概念来检索的方法可以让用户发现一些事前他们不知道的信息。搜索技术的差异性将直接决定搜索的准确性和人工处理的成本,用户体验也会产生较大差异。(www.daowen.com)

下面以百度为例,对网络视频内容的获取技术、分类机制、检索技术等做简要介绍。

在网络视频内容的获取技术方面,百度视频搜索并不获取真正的 “视频内容”,而是获取和保存网络视频的页面链接。相关的技术主要有定向抓取和网页数据挖掘技术。与百度的其他搜索类产品类似,百度视频搜索使用自己的网络爬虫对网络上的视频链接进行抓取,并通过对主要的视频网站进行定向抓取来提高搜索效率。另外,百度旗下的视频搜索,可以共享百度网页搜索的资源,在海量网页中分析和提取视频链接。

在网络视频内容的分类机制方面,百度视频搜索根据用户需求类型建立自己内部的分类机制。首先根据内容的题材、形式,网络视频被分为电影电视剧、综艺节目、动漫等,然后再由计算机根据视频来源、视频文本描述模式、视频时长等特征,自动进行分类。

在网络视频内容的检索技术方面,目前百度主要采用的是文本检索,但是对query做了一定的语义分析处理。为了扩大搜索的查全率和查准率,百度视频搜索的当前索引对象主要包括页面文本信息、扩展信息和视频属性。具体来说,包括:(1)对视频所在网页的结构进行分析,识别并提取网络视频的通用描述字段,如视频标题、视频Tag和视频内容描述等文本。对这些描述文本,会进行全文索引。(2)对于影视剧等类型的视频,会根据其内容,索引响应的导演、演员等扩展信息。(3)对视频的清晰度等属性进行提取,并进行索引。

除了上述手段保证视频搜索的效率之外,百度始终秉承 “让用户更便捷地获取信息,找到所求”的核心理念,一直对用户满意度做持续的优化。对用户体验的优化,主要基于专家分析、用户行为分析与用户反馈,一方面针对bad case不断迭代改进,另一方面积极创造更多提升用户满意度的产品形式和策略。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈