结构性机甲旋风土豆（2/2）

好书推荐：灵气复苏：觉醒？不！这是修仙！全宇宙最后一个人类全能兵王她把男主玩崩了灵气复苏,无敌虎王！篮球大帝三国：开局继承三个系统我娘胎就1万级,外面最高30级熟练度：千万次修炼明左斗罗：无限抽奖系统（魂兽：开局抽到神级武魂）

上面的解释说明，相关＜干预＜反事实（即解决反事实问题的方法可以处理干预和相关问题，反之不成立）。传统的机器学习方法是处理相关性问题的，而因果推断关注反事实层。因此因果推断能解释的事情，将比传统的机器学习方法更“高级”，也更贴合日常的需要

2. 基础理论

2.1 业界流派

因果推断是根据一个结果发生的条件对因果关系得出结论的过程。存在两种研究方法[5]

实验性研究：通过大量随机对照实验（Rct）得出结论。因果推断的难点在于反事实，因此对照实验需要“足够随机”。对上面的例子而言，我们需要在实验组和对照组中确保喝酒的比例是均等的。这是代价昂贵且费时费力的。

观测性研究：对于已有的观测数据，通过建模进行因果关系的研究。这种方式对数学的要求较高且存在准确率的问题，但可操作性强。

显然，实验性研究是理论上最完美的方式，但实际中我们不可能穷举类似“喝酒状态”这种影响因和果的因素，随机对照试验的成本是极大的，仅存在理论的可能。业界的研究重点是，如何优化观测性研究的方法，使其准确度逐步逼近实验性研究。

当前，观测性研究存在两大流派，分别是pearl创立的结构因果图模型（Scm）和Rubin创建的潜在结果模型（Rcm）。[6][7]

2.2 变量定义与说明

为了便于后续介绍，这里先对因果推断的常用变量做一个说明。黑色粗体为重要定义，treatment Effect是衡量干预效果的指标，也是我们期望优化的目标以及模型的输出[5][7][8][9]

2.3 因果分析流程

介绍推断的具体方法之前，我们先说明因果分析的流程。如下图，主要有两个步骤[1][10]：

Identification（因果识别）：基于观测数据，输出不同干预下的统计分布（即“原因因子”状态不同时结果因子的分布），以分布的gap作为衡量因果关系的依据。Scm模型主要解决这部分问题（并不是说Scm不能做后续的推断）

Estimation（因果推断）：根据统计结果，做反事实的推断，以反事实与观测的gap作为效果大小的衡量，这个过程叫Estimation。Rcm模型重点在这部分

想减肥想减肥好吃，防护服减减肥进去刺骨寒风