斯坦福NLP名课带学详解 | CS224n 第19讲 – AI安全偏见与公平（NLP通关指南·完结）

2023年5月31日上午3:03 • 人工智能 • 阅读 93

斯坦福NLP名课带学详解 | CS224n 第19讲 - AI安全偏见与公平（NLP通关指南·完结）

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/36
本文地址：https://www.showmeai.tech/article-detail/257
声明：版权所有，转载请联系平台与作者并注明出处
*收藏ShowMeAI 查看更多精彩内容

ShowMeAI为 斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了 中文翻译和注释，并制作成了GIF动图！视频和课件等资料的获取方式见文末。

; 1.Bias in the Vision and Language of Artificial Intelligence

2.Prototype Theory

Bananas
Stickers
Dole Bananas
Bananas at a store
Bananas on shelves
Bunches of bananas
Bananas with stickers on them
Bunches of bananas with stickers on them on shelves in a store

…We don’t tend to say Yellow Bananas

Prototype Theory
分类的目的之一是减少刺激行为和认知上可用的比例的无限差异
物品的一些核心、原型概念可能来自于存储的对象类别的典型属性 (Rosch, 1975)
也可以存储范例 (Wu & Barsalou, 2009)

Doctor —— Female Doctor
大多数受试者忽视了医生是女性的可能性，包括男性、女性和自称女权主义者的人

Human Reporting Bias
murdered 是 blinked 出现次数的十倍
我们不倾向于提及眨眼和呼吸等事情

Human Reporting Bias
人们写作中的行为、结果或属性的频率并不反映真实世界的频率，也不反映某一属性在多大程度上是某一类个体的特征。
更多关于我们处理世界和我们认为非凡的东西的实际情况。这影响到我们学习的一切。

Data 数据
Reporting bias 报告偏见：人们分享的并不是真实世界频率的反映
Selection Bias 选择偏差：选择不反映随机样本
Out-group homogeneity bias 外群体同质性偏见：People tend to see outgroup members as more alike than ingroup members when comparing attitudes, values, personality traits, and other characteristics
Interpretation
Confirmation bias 确认偏见：倾向于寻找、解释、支持和回忆信息，以确认一个人先前存在的信念或假设
Overgeneralization 泛化过度：根据过于笼统和/或不够具体的信息得出结论
Correlation fallacy 相关性谬误：混淆相关性和因果关系
Automation bias 自动化偏差：人类倾向于喜欢来自自动化决策系统的建议，而不是没有自动化的相互矛盾的信息

; 3.Biases in Data

Selection Bias 选择偏差：选择不反映随机样本

Out-group homogeneity bias 外群体同质性偏见：在比较态度、价值观、个性特征和其他特征时，往往群体外的成员认为比群体内的成员更相似
这有些难以理解：意思就是左边的四只猫之间是非常不同的，但是在狗的眼里他们是相同的

Biases in Data → Biased Data Representation
你可能对你能想到的每一个群体都有适当数量的数据，但有些群体的表现不如其他群体积极。

Biases in Data → Biased Labels
数据集中的注释将反映注释者的世界观

4.Biases in Interpretation

Biases in Interpretation
Confirmation bias 确认偏见：倾向于寻找、解释、支持和回忆信息，以确认一个人先前存在的信念或假设

Biases in Interpretation
Overgeneralization 泛化过度：根据过于笼统和/或不够具体的信息得出结论（相关：过拟合）

Biases in Interpretation
Correlation fallacy 相关性谬误：混淆相关性和因果关系

Biases in Interpretation
Automation bias 自动化偏差：人类倾向于喜欢来自自动化决策系统的建议，而不是没有自动化的相互矛盾的信息

会形成反馈循环
这被称为 Bias Network Effect 以及 Bias “Laundering”

Human data perpetuates human biases. As ML learns from human data, the result is a bias network effect.
人类数据延续了人类的偏见。当ML从人类数据中学习时，结果是一个偏置网络效应。

; 5.BIAS = BAD ??

统计以及 ML中的偏差
估计值的偏差：预测值与我们试图预测的正确值之间的差异
“偏差”一词b(如y = mx + b)
认知偏见
确认性偏差、近因性偏差、乐观性偏差
算法偏差
对与种族、收入、性取向、宗教、性别和其他历史上与歧视和边缘化相关的特征相关的人的不公平、不公平或偏见待遇，何时何地在算法系统或算法辅助决策中体现出来”

如何避免算法偏差，开发出不会放大差异的算法

6.Predicting Future Criminal Behavior

Predicting Future Criminal Behavior
算法识别潜在的犯罪热点
基于之前报道的犯罪的地方，而不是已知发生在哪里
从过去预测未来事件
预测的是逮捕的地方而不是犯罪的地方

Prater (白人)额定低风险入店行窃后，尽管两个武装抢劫;一次持械抢劫未遂。
Borden (黑色)额定高危后她和一个朋友(但在警察到来之前返回)一辆自行车和摩托车坐在外面。
两年后，Borden没有被指控任何新的罪行。Prater因重大盗窃罪被判8年有期徒刑。
系统默认认为黑人的犯罪风险高于白人

; 7.Automation Bias

以色列启动 Faception
Faception是第一个科技领域的率先面市的，专有的计算机视觉和机器学习技术分析人员和揭示他们的个性只基于他们的面部图像。
提供专业的引擎从脸的形象识别”高智商”、”白领犯罪”、”恋童癖”，和”恐怖分子”。
主要客户为国土安全和公共安全。

“Automated Inference on Criminality using Face Images” Wu and Zhang, 2016. arXiv
1856个紧密裁剪的面孔的图像，包括”通缉犯”ID特定区域的照片
存在确认偏差和相关性偏差

8.Selection Bias + Experimenter’s Bias +Confirmation Bias + Correlation Fallacy +Feedback Loops

; 9.(Claiming to) Predict Internal Qualities Subject To Discrimination

Wang and Kosinski, Deep neural networks are more accurate than humans at detecting sexual orientation from facial images, 2017.
“Sexual orientation detector” using 35,326 images from public profiles on a US dating website.
“与性取向的产前激素理论(PHT)相一致，男同性恋者和女同性恋者往往具有非典型的性别面部形态。”

在自拍中，同性恋和异性恋之间的差异与打扮、表现和生活方式有关，也就是说，文化差异，而不是面部结构的差异
See our longer response on Medium, “Do Algorithms Reveal Sexual Orientation or Just Expose our Stereotypes?”
Selection Bias + Experimenter’s Bias + Correlation Fallacy

10.Selection Bias + Experimenter’s Bias + Correlation Fallacy

; 11.Measuring Algorithmic Bias

评估公平性和包容性
分类评估
- 为每个创建（子组，预测）对。跨子组比较
例如
- 女性，面部检测
- 男性，面部检测

“机会平等”公平准则：子组的 recall 是相等的
“预测平价”公平准则：子组的 precision 是相等
选择评价指标的可接受的假阳性和假阴性之间的权衡

12.False Positives and False Negatives

False Positives Might be Better than False Negatives
Privacy in Images
Spam Filtering

缺乏对数据和模型中的偏见来源的洞察力
缺乏对反馈循环的洞察力
缺乏细心，分类的评价
人类偏见在解释和接受结果

; 13.It’s up to us to influence how AI evolves.

14.It’s up to us to influence how AI evolves. Here are some things we can do.

; 15.Data

了解您的数据：偏差，相关性
从类似的分布放弃单一训练集/测试集
结合来自多个来源的输入
对于困难的用例使用held-out测试集
与专家讨论其他信号

没有一个数据集是没有偏差的，因为这是一个有偏差的世界。重点是知道是什么偏差。

16.Machine Learning

Bias Mitigation 偏差缓解
删除有问题的输出的信号
- 刻板印象
- 性别歧视，种族歧视，*-ism
- 又称为”debiasing”

Inclusion
添加信号所需的变量
- 增加模型性能
- 注意性能很差的子组或数据片

; 17.Multi-task Learning to Increase Inclusion

与宾夕法尼亚大学WWP合作
直接与临床医生合作
目标
系统警告临床医生如果企图自杀迫在眉睫
几个训练实例可用时诊断的可行性
Benton, Mitchell, Hovy. Multi-task learning for Mental Health Conditions with Limited Social Media Data. EACL, 2017.

内部数据
电子健康记录
- 病人或病人家属提供
- 包括心理健康诊断，自杀企图，竞赛
社交媒体数据
代理数据
Twitter 媒体数据
代理心理健康诊断中使用自称诊断
- 我被诊断出患有 X
- 我试图自杀

18.Adversarial Multi-task Learning to Mitigate Bias

考虑到真正正确的决策，分类器的输出决策应该在敏感特征之间是相同的。

; 19.Case Study: Conversation AI Toxicity

19.1 Measuring and Mitigating Unintended Bias in Text Classification

; 19.2 Conversation-AI & Research Collaboration

Conversation-AI
ML 提高大规模在线对话
Research Collaboration
Jigsaw, CAT, several Google-internal teams, and external partners (NYTimes, Wikimedia, etc)

19.3 Perspective API

; 19.4 Unintended Bias

19.5 Bias Source and Mitigation

偏见造成的数据不平衡
经常袭击了有毒的身份所占比例评论
长度问题
添加维基百科文章中假定的无毒数据来修复这种不平衡
原始数据集有127820个例子
4620个补充的无毒例子

; 19.6 Measuring Unintended Bias – Synthetic Datasets

挑战与真实数据
现有数据集是小 and/or 有错误的相关性
每个例子是完全独特的
Approach：”bias madlibs”：一个综合生成的模板化数据集进行评估

19.7 Assumptions

数据集是可靠的
和产品相似的分布
忽略注释器偏见
没有因果分析

; 19.8 Deep Learning Model

深度学习模型
CNN 架构
预训练的 GloVe 嵌入
Keras 实现

19.9 Measuring Model Performance

; 19.10 Measuring Model Performance

19.11 Types of Bias

Low Subgroup Performance
模型在子组注释上的性能比在总体注释上差
Metric : Subgroup AUC

Subgroup Shift (Right)
该模型系统地对来自子组的评价打分更高
Metric: BPSN AUC
(Background Positive Subgroup Negative)
Subgroup Shift (Left)
该模型系统地对来自子组的评价打分较低
Metric: BNSP AUC
(Background Negative Subgroup Positive)

; 19.12 Results

20.Release Responsibly

目前还没有模型发布时报告模型效果的 common practice
What It Does
一份关注模型性能透明度的报告，以鼓励负责任的人工智能的采用和应用
How It Works
这是一个容易发现的和可用的工件在用户旅程中重要的步骤为一组不同的用户和公共利益相关者
Why It Matter
它使模型开发人员有责任发布高质量和公平的模型
Intended Use, Factors and Subgroups

; 21.Moving from majority representation… to diverse representation… for ethical AI

22.Thanks

; 23.视频教程

可以点击 B站查看视频的【双语字幕】版本

【双语字幕+资料下载】斯坦福CS224n | 深度学习与自然语言处理(2019·全20讲)

24.参考资料

ShowMeAI 深度学习与自然语言处理教程（完整版）

ShowMeAI 斯坦福NLP名课 CS224n带学详解（20讲·完整版）

Original: https://blog.csdn.net/ShowMeAI/article/details/124669846
Author: ShowMeAI
Title: 斯坦福NLP名课带学详解 | CS224n 第19讲 – AI安全偏见与公平（NLP通关指南·完结）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548135/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pycharm错误: Jupyter command `jupyter-notebook` not found.

Pycharm安装jupyter后无法找到的问题 PS：输入jupyter notebook后出现 Available subcommands: console execute k…

人工智能 2023年7月6日
0068
Canny边缘检测算法原理

Canny算子是在边缘检测的三个指标和三个准则的基础上发展起来的一种很有效的边缘检测方法三个指标：好的检测好的定位最小响应 3个准则：信噪比准则定位精度准则单边缘响应准则 can…

人工智能 2023年6月18日
0063
【机器学习】随机森林 – Random forest

文章目录一、随机森林是什么？ * 1. 随机森林是一种集成学习算法 2. 随机森林的基学习器是决策树二、随机森林 – Random Forest | RF 三、构造随机森林的 …

人工智能 2023年6月15日
0073
pytorch–常用激活函数使用方法（21个）

1、torch.nn.ReLU() 数学表达式 ReLU的函数图示如下: 优点：（1）收敛速度比 sigmoid 和 tanh 快；（梯度不会饱和，解决了梯度消失问题）（2）计算复…

人工智能 2023年6月23日
0096
R语言把dataframe中的NA值替换为0

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0070
数学符号、公式的英语读法

先简单的，1+2=3 用英语说 One plus two equals three. 基本数学符号 1. 加减乘除 “+”当作运算符加号时读作plus，比…

人工智能 2023年6月4日
0078
前端面试–贡献给刚毕业的你们

对于刚毕业准备找工作的你，来看看最近面试的一些问题，都是问的基础知识点，对于一些公司的工作岗位面试题还是很简单的，对于一些大厂招聘或许会问一些框架类，基本上下面举例的面试题中，对于…

人工智能 2023年6月29日
0064
论文翻译：2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks

论文地址：基于分层递归神经网络的嵌入式设备轻量化在线降噪引用格式：Schröter H, Rosenkranz T, Zobel P, et al. Lightweight On…

人工智能 2023年6月4日
0076
海康工业相机SDK+OpenCV实例(1)：海康SDK和OPENCV的安装与编译

海康工业相机SDK+OpenCV实例(1) 海康SDK和OPENCV的安装与编译文章目录海康工业相机SDK+OpenCV实例(1) 海康SDK和OPENCV的安装与编译前言 …

人工智能 2023年7月19日
00120
Pandas知识点-详解分组函数groupby

Pandas知识点-详解分组函数groupby 在数据分析时，经常需要将数据分成不同的群组，pandas中的groupby()函数可以完美地完成各种分组操作。分组是根据DataFr…

人工智能 2023年7月6日
0072
截至到2022年12月12日，知网最新改进 YOLO 核心论文合集 | 22篇创新点速览

截至到2022年12月12日，知网最新改进YOLO核心论文合集本篇博文仅供学习交流，不对文章质量进行评价，请尊重每一位同学的科研成果🤝。文章目录截至到2022年12月12日，…

人工智能 2023年7月30日
0072
win10 使用TensorRT部署 yolov5-v4.0（C++）

### 回答1： Tensor RT_是一个高性能的深度学习推理库，可以帮助您在 NVIDIA GPU 上加速深度学习推理。要在 _C++_中 _部署 YOLOv5，您需要进行以下…

人工智能 2023年7月19日
0042
最近3篇蛋白质及其组学知识图谱Nature子刊文章解决生物学核心问题

第一篇文章 2022年1月31日Alberto Santos 最新发表在《自然生物技术》上的文章 ” A knowledge graph to interpret cl…

人工智能 2023年6月1日
00122
基于VS2017+OpenCV，C++搭建NanoDet-Plus轻量级目标检测模型并训练（一）

1.绪论官方GitHub地址：https://github.com/RangiLyu/nanodet中文知乎地址： https://zhuanlan.zhihu.com/p/44…

人工智能 2023年7月10日
0045
Android/iOS内嵌Unity开发示例

目录前言背景正文环境新建工程 Unity导出 Android接入如何使用作为Activity 总结 1.Android调用Unity 2.Unity调用Android…

人工智能 2023年7月1日
0089
matplotlib之直方图

文本以及后续的系列文章中均会使用到numpy这个库，numpy是Python的一种开源的数值计算扩展，主要用来生产一些随机数作为绘图的原始数据。具体和安装matplotlib类似，…

人工智能 2023年7月15日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31