加拿大多伦多大学公民实验室的研究人员发布报告,分析了腾讯审查微信图像的技术。 研究人员发现,微信采用了两种不同的算法过滤朋友圈中的敏感图片:一种是基于光学字符识别(optical character recognition)的文字检测方法,该方法用以过滤包含敏感词的图片;另一种是基于图像相似度的对比,该算法用以过滤与微信不良图片数据库中的图片相似或吻合的图片。微信采用的文字识别算法与大部分文字识别算法有所相通,即其对包含文字的图像进行灰度化(grayscale)和通过斑点合并(blob merging)来识别文字。微信基于图片相似度的的图片过滤算法并没有使用机器学习来判别目标图片是否属于某个不良图片类别。 在研究这两种不同算法的同时,研究人员发现用以检测不良内容的技术同样可以被用来反审查。文字识别算法和图片相似度检测算法并非万无一失,算法的弱点让用户得以通过编辑图片,使经过编辑的图片与原敏感图片在能够被普通读者识别理解的同时欺骗机器算法,从而不被过滤。
试用申请