创业笔记 151：头条内容安全的做法

2018-04-05by Luca

前几天晚上，向一位了解今日头条内容安全审核的朋友学习，做了些笔记。可以结合 https://36kr.com/p/5114077.html 阅读。

通常的审核流程是：

用户发布（此时仅用户自见）；
进入安全模型矩阵（做风险识别）
高风险（进入语种识别、人工审核流程）/ 低风险（进入质量模型，判断推荐或不推荐）

部分召回策略：

VV（Video View，播放数，是指在一个统计周期内，视频被打开的次数之和）超过阈值，对视频做召回；
用户举报（国内有效举报低于 2%，国外能达到 6%）；
通过评论是否有问题，反向判断视频是否需要召回。

安全模型举例（头条有超过 20 个安全模型）：

色情
低俗
暴恐
领导人
好坏二分类（兜底模型，对历史人工审核过的做训练）
高危视频消重（截图，通过相似度比对做召回，例如对此前暴力动漫的做法）
OCR 图文
违禁品

质量模型举例：

黑屏静帧
年龄识别（例如最近快手被批评的低龄孕妇事件）
轮播图片识别
颜值识别
画质识别

关键指标体系：

进审量（条/天）
进审率
盲审抽样率、一致率（所谓盲审，是不同人的人工审核结果对比）
人效（条/小时）
审核平均延时

头条风险量化分析：

事故发生次数分析；
风险视频分级、影响面统计：对违规视频进行危险分级，统计不同的 VV 总数，控制 VV/DAU 到合理范围；
模拟事故分析：往工作流倒入违规视频，测试现有体系能否召回 100%；
进审率有没有达到预期。

直播审核（截帧池）：

开启直播后，每分钟截图 N 张，通过安全打分策略，判断高中低危；
盲区：截图间隔，看不到的时间段。

直播安全策略可以考虑的因素：

图像（封面、截帧）
文本（标题、评论）
观众人数
观众增长率
分享次数
被举报次数

甲方常见安全审核团队人员分工（只有大规模厂商有能力这样搭建架构）：

安全产品、安全运营
ai算法，后台工具研发
初审、复审、质检、标注
舆情监控
招聘、培训

对甲方安全审核团队而言，审核这件事挺烦挺痛的：