安妮发自凹非寺
量子位出品|公众号
不用再害怕视频剖析数据集视频小、场景少和没标明的问题了,一个大规模视频剖析数据集来了↓↓↓
如今,复旦学院和美图开源了教程类行为视频数据集COIN(video),内含11827条教程类视频,涉及日常生活12个领域里的180个任务的视频内容。
所谓教程类视频,通常都集中在小吃、美妆和家居DIY等领域。例如,美妆博主教你化装、美食博主教你做蛋糕,都属于教程类视频的范畴。
美图表示,COIN为业界规模最大、最多样性的教程类视频数据集。
之后,在复杂场景下视频动作时序定位()、视频行为剖析与理解问题的研究中,不妨试试这套资源。
目前,论文COIN:ALarge-scaleforVideo早已被CVPR2019接收。
△COIN数据集概览
分层结构
论文介绍说,现有教程类行为视频数据集在规模性和多样性都存在较大的局限性,无法应用于现实中的复杂场景,而COIN数据集就不会出现这些难堪的情况。
据研究人员统计量子视频,COIN中的视频均来自,共包含180个任务的11827个视频片断,每段视频平均长2.36分钟,视频总时长为476个小时。
不仅数据集,研究人员还开发出配套的工具箱,给每一条视频都加上了有效注释,描述了视频中涉及的动作和时间点。所以,除了数据量大,对数据的注释也不少,共有46354个带注释的视频段。
怎样去组织如此多的数据?
研究人员表示,她们在COIN数据集中使用了“分层结构”。将整个数据集分为3个层次,即领域()、任务(task)和步骤(step)。
△COIN数据集的分层结构
在第一层(领域层)研究人员主要将数据集根据场景将数据简略归纳为12个领域,即护工和护理、车辆、休闲生活、小机械、电器、家庭、科学和手工、植物与猕猴桃、零食与啤酒、菜品、运动、家务。
第二层(任务层)中,上述各分类进一步细化,精细到具体的目的。例如“更换灯泡”与“安装风扇”的二级分类都归属与“电器”领域下。
到了第三层(步骤层),主要细化到了完成任务的具体动作步骤,举个反例,“移除灯座”、“取出旧灯泡”、“安装新灯泡”与“安装灯座”等步骤都被界定到“更换灯泡”任务下了。
一环连一环,数据集中的层次结构层层递进、逐步深入。
作者团队
论文的作者来自北大学院和美图公司,一作为北大手动化系的博士四年级在读生Tang量子视频,主攻计算机视觉方向,尤其是视频动作剖析。
△一作Tang
今年,Tang朋友作为一作的论文-forGroup还被ACMMM18会议接收,被评为口头报告论文。
复旦学院手动化系的fú、YuZheng、Zhang、鲁继文和周杰也参与了研究。
据悉,论文二作丁大钧来自美图社交产品事业群视觉算法组。在平日的工作中,美图视觉算法组通过深度学习算法,理解图象和视频内容中的语义信息,给社区中推荐、搜索、反作弊和垃圾过滤等功能提供技术支持。
传送门
论文地址:
项目主页:
地址:
—完—
真挚急聘
量子位正在招募编辑/记者,工作地点在上海中关村。期盼有才华、有热情的朋友加入我们!相关细节,请在量子位公众号()对话界面,回复“招聘”两个字。
量子位·头条号签约作者
վ'ᴗ'ի追踪AI技术和产品新动态