首页新闻手机家电数码电脑财经大模型直播

AI领域的风口内容审核能成为下一个么？

来源：驱动号作者： AiChinaTech 2020-02-26/17:00 访问量：

正文

一直以来，由于相关法律法规的规定，视频中不能含有血腥暴力画面，很多视频up主在上传血腥暴力视频前，会将视频中涉及到血液的颜色改为蓝青紫等颜色。还有一些没有做改色的up主，在人工审核的失误下，也会侥幸过审。甚至一些视频因为内容的特殊性，比如游戏录屏、或者衣着时尚、遮蔽较少，就会进入审核，需要系统来检测是否违规视频的发布机制。再比如近年来大火的快手、抖音等短视频app，作为当下年轻人最喜爱的互动交流媒体，每日的短视频生产成千上万，如何能够用AI技术高精准的审核这些视频，也成为了各大AI企业值得思考的问题。

人工智能和深度学习下的识别和推理

传统意义上的深度学习算法以有监督的方式进行训练，以识别特定类别的事物。在一个典型的任务中，可能会训练DNN以可视化的方式识别一定数量的类。例如一张只有苹果和香蕉的图片，深度学习算法在获得大量数据和质量的数据时，非常擅长进行精确、低错误率和可信的分类。当第三个未知对象出现时，DNN识别就会出现问题。如果引入了训练集中不存在的未知对象，例如橙色，DNN 网络将被迫猜测，并将橙色分类为捕获未知对象的最接近类别一个苹果。基本上用苹果、香蕉训练的DNN的世界完全由苹果和香蕉组成，机器想不到水果篮里还有其他的水果。

在训练过程中，如果 DNN 能够将项目分类为“苹果”，“香蕉”或“什么都没有”，算法的开发人员可以确定是否还有尚未有效学习识别的类别。也就是如果水果图片继续反馈“零”，那么开发人员可能需要添加另一类“水果”来进行识别，例如橘子。

以AI创业公司Neurala为例，在2017年宣布在深度学习软件方面取得重大进展，其Lifelong DNN软件能够能够在边缘学习增量对象。在此之前，如果一个AI系统学会了一定数量的对象，并且需要再学习一次，那么它必须针对所有对象再训练一次。这种传统方法需要利用强大的服务器，通常是云上的服务器。

Neurala的Lifelong DNN既能在运行中学习，也能在边缘学习的能力意味着 Neurala 的新方法可以直接在设备上学习，从而不会有云上学习的所有缺点。此外，它消除了网络延迟，提高了实时性能，并在需要时确保隐私。最重要的是，它将促进一系列无云应用的开发。对此吴恩达也评价了从云到“边缘”转化的技术，认为这会加速消费级IoT，带来新的赢家。

Lifelong DNN 的机制和人类的学习方式类似：我们在潜意识中不断检查我们的预测是否符合现实世界。例如，如果有人跟你开玩笑调整了你办公椅的高度，你马上就能意识到。那是因为随着时间的推移，你学习到了办公椅高度的“模型”，一旦模型有变，你会立即意识到异常。

人类不断检查我们的分类是否符合实际情况。如果没有，我们的大脑就会注意到并发出警报。对人来来说，我们不仅可以认识苹果、香蕉和苹果，还可以推理“我还以为是苹果，但实际上不是。”

商业化视频审核下的多维度识别

当前，视频审核多用于在商业化视频中，而商业化视频的数据特点，对算法系统的处理速度、效率和准确率提出了较高的要求。商业化视频算法的总体框架分为五层：1、视频输入层进行视频源的管理；2、视频处理层进行镜头分割、采样、增强和去噪等工作；3、内容提取层主要分析视频中内容、语义等信息，进行目标检测、跟踪和识别等来检测目标在视频中的时间、空间、位置等维度；4、语义融合层进行目标轨迹融合、识别结果融合、特征表示融合、高层语义融合等；5、在数据输出层，进行结构化数据管理，方便后续数据检索与应用。

视频内容识别维度多样，包括场景、物体、人脸、地标、Logo、情绪、动作、声音等。不同维度的算法结构有所区别。人脸识别算法结构为：输入视频后进行镜头分割，在进行人脸检测、跟踪、人脸对齐，根据质量评估过滤，进行特征提取和特征比对识别，最后进行识别结果融合，输入最终识别结果。

在场景识别算法结构中，首先对输入视频进行镜头分割采样，有所不同的是只需进行时间间隔分割的采样，再对视频进行场景类别的初分类，预处理之后进入卷积神经网合阶段，卷积神经网络通过对不同的数据集进行预训练，得到不同的特征和描述，将这些特征进行融合、降维处理得到特征表示后，对不同场景如高频场景、次级场景和新增场景，进行分类处理，最终对识别结果进行融合。

在物体、Logo识别算法结构中，有所不同的是需要多尺度提取特征，跟踪识别物体轨迹，并关注物体类别，对结果进行优化。

在地标识别算法结构中，分为三步，第一，通过基础网络(VGG,ResNet等)获得特征图(一般为最后一层卷积或池化层);第二，从特征图中提取特征(例如R-Mac,SPoC,CroW,GeM等)并用ROI Pooling,PCA 白化，L2-归一化等方式处理，一般最终维度为256,512,1024,或2048;用kNN,MR,DBA,QE,Diffusion等方式将得到的特征对数据库内的特征进行后处理获得最终特征；训练模型一般损失函数采用contrastive loss或triplet loss,最终比对一般采用余弦或欧式距离。

以国内的AI初创企业极链科技Video++为例，其推出的神眼系统通过人工智能技术，打造了一个全栈式智能内容安全审核引擎。该系统能对视频、图片、文本的内容进行审核，查找出里面的政治敏感内容、暴力恐怖内容以及色情内容等等不合规的部分。作为一个检测系统，神眼有着独特的AI算法，可以逐帧检测，跟踪轨迹流。并且在输出阶段，有着三次审核流程，可以确保结果的准确性。

小结：如今人工智能正逐渐渗透到各行各业中，针对视频内容抄袭和重复、不良视频内容编辑后二次传播的问题，越来越多的企业作出了自己的解决办法。从长期的视角来看，AI机器审核要更为重要。现在的审核多为先AI机审，有问题的再进行人工审，AI机审会审核掉大多数的内容，并且随着算法的不断升级和对人工审核的神经学习，AI机审会变得越来越智能。计算机的处理速度和知识储备也都远在审核人员之上，即使是当下的视角，AI机器审核也拥有着独特的地位，或许在视频发展迅速的未来，AI内容安全审核会成为互联网下一个重要风口。

{{cmoun}}人已赞

评论 {{userinfo.comments}}