索尼AI团队在中国北京通过施普林格·自然旗下的《自然》杂志,把一项最新研究成果展示给大家。他们构建了一个“公平的以人类为中心的图像基准”,也就是所谓的FHIBE,这个数据库有1万多张人类图像。研究者特意强调,这1万张图像的数据来源非常规范,都是经过参与者同意后收集的。这个数据库里包含了来自81个国家和地区、1981个不同个体的照片。照片上不仅有参与者自己标注的详细信息,比如年龄、发色、肤色还有祖先血统,还涉及到年龄、代词类别等等。他们还给参与者详细说明了项目和潜在的风险,让大家能够做出知情同意,整个过程也符合全面数据保护法规。这样一来,这个数据库就成了评估AI偏见的可靠资源。研究团队把FHIBE和27个现有的人类计算机视觉应用数据集进行了比较。结果发现,FHIBE在多样性和同意机制上做得更好。因为它收集了更多自我申报的信息,还包含了一些通常代表性不足的人群。 这篇论文的记者孙自法在11月6日的中新网报道里提到,计算机视觉在自动驾驶车辆到面部识别技术这些领域里应用广泛。但是很多AI模型训练用的数据有问题,有时候是未经同意就收集的网络图片。人们早就发现这些模型可能会反映出性别歧视、种族歧视或者其他刻板印象的偏见。 索尼AI团队通过这次研究证明了FHIBE数据集的可靠性。它可以帮助评估现有的AI模型在计算机视觉任务中的表现,揭示出更多之前大家都不知道的偏见。作者也提醒大家说创建数据集很有挑战性而且成本很高,但FHIBE或许代表着迈向更可信AI的一步。