极链科技目标检测获Open Images第一,ECCV 2020挑战赛第二

  • 来源: 驱动号 作者: AiChinaTech   2020-09-01/16:01
  • 近日,极链科技在Google AI推出的2020 Open Images Challenge大规模目标检测竞赛和国际顶会ECCV 2020 VIPriors挑战赛目标检测赛道中分别获得第一名、第二名的佳绩。

    目标检测算法是计算机视觉任务中的重要手段,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有非常重要的现实意义,因此各种通用目标检测算法竞赛每年也会持续召开。

    Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。Google在本届挑战赛中更是开放了最新的Open Images V6,希望可以进一步刺激人们对真实场景的理解。

    ECCV作为全球三大计算机视觉顶会之一,同样十分关注目标检测领域。ECCV 2020 VIPriors Object Detection挑战赛采用COCO数据集作为训练集以及验证、测试各5000张用于榜单排名。与其他比赛不同的是,该比赛禁止使用任何额外数据集以及预训练模型,即所有模型必须“train from scratch”。初衷是鼓励探索能够高效学习的AI神经网络,降低神经网络训练过程中的人力标注成本和计算资源消耗。

    在以上两个国际赛事能够取得好的成绩,极链科技主要使用最新的多阶段目标检测算法,以下做详细说明。

    首先,Baseline框架选用Backbone + FPN + DCNv2 + Cascade RCNN,这套组合可以说是最近各种国内外目标检测比赛的常客,不需要做过多解释,这里主要说明一下针对上述两个比赛(以下简称Open Images和VIPriors)在其他模块上的选择。由于两个比赛性质的不同:Open Images数据量较大且允许额外数据、VIPriors数据量较小且不允许预训练及额外数据,对于这些特性我们在算法选择上会有相对的侧重点。

    关于Open Images,在参考了前几年获胜队伍的思路后,我们认为取得好成绩的关键在于额外数据以及强大的Backbone。举个例子,去年前四名的队伍都使用了Objects365做为额外数据集,而没有使用任何额外数据的第五名团队最终成绩与第一名团队差了几乎5个百分点的mAP。另一方面,由于Open Images数据量非常大(加上Objects365后更大),在选择Backbone时不难想象越复杂的网络最终的效果越好。基于这两点,我们的最终提交由以下五个模型组成:

    l Baseline w/ ResNet-152

    l Baseline w/ Res2Net-152

    l Baseline w/ ResNeSt-152

    l Baseline w/ ResNeSt-152 + Libra

    l Baseline w/ ResNeSt-152 + Libra + GCB

    每个模型都使用了Open Images + Objects365一起训练以及Multi-Scale Training & Testing,最终融合策略在比较了NMS, Soft-NMS, NMW, TkV,以及WBF后采用了阈值为0.55的WBF。

    关于VIPriors,由于其数据量较小(训练集~6000,验证集~5000),我们主要选择以ResNet-50为主的模型(Baseline同上)并将重心放在数据增广上。最终提交使用基于Albumentations, AutoAugment, MixUp, GridMask, Stitchers, Mosaics等不同数据增强组合训练的模型且增加训练时长至72~108周期,相比于传统的在COCO上的1x(即12周期)或2x(即24周期)训练策略增加了4至9倍。应主办方要求,详细的思路已经以报告形式上传至https://arxiv.org/abs/2007.08849

    目前,多阶段目标检测算法也应用于极链科技的明星产品——视频结构化数据引擎“金目系统”。该系统利用极链科技自研的VideoAI技术,专注于影视剧和综艺等文娱领域的视频理解,识别视频中的8大数据维度:明星、物体、品牌、场景、表情、动作、地标、事件,并支持基于文本的内容识别(OCR),生成可商业化的结构化标签数据。目前已批量支持互联网广告营销、内容安全审核、智能安防、政企服务等多个应用领域。

    极链科技作为一家成立于2014年,以计算机视觉技术驱动的科技公司,不仅在国际国内各大计算机视觉领域竞赛中屡获佳绩,在商业化落地上的表现也是可圈可点,合作伙伴包括爱奇艺、芒果TV、斗鱼直播等一线流量平台,明略科技、艺恩等国内领先的数据服务商,以及具备视频识别技术需要的政企机构。

    极链科技聚焦AI在互联网、旅游、安防等领域的商业化落地。未来,极链科技将继续加大投入包括目标检测、人像分割、场景识别等在内的计算机视觉技术在更多细分场景的应用落地,助力产业智能化。


    评论 {{userinfo.comments}}

    {{money}}

    {{question.question}}

    A {{question.A}}
    B {{question.B}}
    C {{question.C}}
    D {{question.D}}
    提交
    文章数: {{userinfo.count}}
    访问量: {{userinfo.zongrenqi}}

    驱动号 更多