Meta开源可用来侦测AI歧视问题的FACET资料集

2023 年 9 月 1 日

Meta

Meta於本周开源了FACET（FAirness in Computer Vision EvaluaTion）资料集，以供不同的电脑视觉模型来评估它们在分类、侦测、实例分割与视觉定位等任务中，可能出现的偏差或歧视，以协助模型进行改善。

FACET是由3.2万张照片所组成，内含5万个人，每一张照片都由人类专家依照与人类相关的属性手动进行标记，由专门的人类注译员负责标记人口属性，包括性别与年龄等族群特徵，肤色及发型等生理特徵，以及诸如棒球选手或医生等分类，也包含了来自SA-1B资料集中6.9万名戴口罩民众的人口属性标记。

图片来源_Meta

此一资料集可用来协助回答某些问题，像是当某些表现的刻板印象多为男性属性时，AI模型是否能提供更好的辨别；开放辞汇检测模型能否够更好地侦测到那些被认为应该更年轻一些的背包客；标准检测模型是否难以侦测或分割肤色较深的人口；以及倘若上述牵涉到的是一名卷发人口，各种问题是否会被放大。

Meta以FACET来评测该公司所开发的DINOv2模型与SEERv2模型，以及OpenAI的OpenCLIP模型，整体而言，OpenCLIP在性别上的表现优於其它模型，而DINOv2则在年龄与肤色上有较佳的判断力。

Meta AI团队指出，FACET得以更深入地发现模型於类别等级上的潜在偏差，举例来说，以性别偏见最严重的「护士」类别来说，SEERv2与OpenCLIP的偏差比DINOv2更为明显，原因可能是SEERv2主要针对未经策画的社交媒体内容进行预训练，使得资料缺乏多样性，而OpenCLIP则采用经过CLIP模型过滤的网页爬梳资料，而放大了原本即存在的职业与性别的关联性。

FACET的开源将有助於研究人员执行类似的标竿测试，以理解自己的模型中所存在的偏差，亦可用来监控为了解决公平问题而采取的缓解措施所造成的影响。