实验能得到确定的因果关系吗?

本文预计阅读时间28分钟。

从分析处理的角度,心理学的主要研究方法包括实验研究和描述研究两大类,实验研究试图探讨事物之间的因果关系,描述研究基本停留在描述事物或事物之间的关系。

在探讨这个问题之前,我们需要先明确两个概念,什么是实验,什么是因果关系。

因果关系是具有一定概率性的

人们常常会讨论原因和结果:“我为什么会得病?”“他为什么会这么做?”所以我们会很自然的认为,因果关系就是指的某个事件(原因A,下同)引起了另一个事件(结果B,下同),于是我们会对这个世界进行观察,从而得到我们心中认为的A和B。但是实际上,因果关系比我们自然认为的要复杂的多。

让我们看一个直观的例子。一个熊孩子在家里大喊大叫,家长给他了一些惩罚,孩子不再大喊大叫。我们可以很自然地认为,家长的惩罚让孩子停止了大喊大叫。如果家长没有给孩子惩罚,但是孩子的大喊大叫让家里的宠物出现了应激,从而咬了孩子,孩子停止了大喊大叫。同样,我们可以很自然地认为,家中宠物的应激行为让孩子停止了大喊大叫。

从上面这个例子,我们可以了解,同样的结果似乎可以由不同的原因引发。如果说,同一个事件能否引发不同的结果呢?似乎也是可以的。2019年底,新冠疫情爆发之后,面对同样的事件,有的人会焦虑和恐慌,害怕自己感染了这个病毒,害怕到出现了类似的躯体症状;但是另外有些人一点都不慌(比如我),天天想着出去逛。同样的原因可以引发不同的结果。

所以,Shadish等人认为,因果关系不是完全确定的。不同的事件之间相互作用,如果其中一个因素发生了变化,那么先前认定的因果关系就会发生改变。所以,因果关系是具有一定概率性的。

因果关系真的存在吗?

在18世纪,Hume提出了确定因果关系的标准:(1)原因和结果(cause and effect)在空间上和时间上是密切相关或邻近的;(2)原因的出现先于结果;(3)原因与结果之间存在着必然联系(post hoc ergo propter hoc)。但是正如刚才所说的,必然联系并不一定存在。在此后,Hume本人反驳了他自己的理论,“我们无法得知因果之间的关系,只能知道某些事物总是联系在一起……我们并不能看明白联结这些理性背后的理性是为何,我们只能观察到这些事物本身,并且发现这些事物总是通过一些经常的联结而在我们想象中归类。”因此,我们并没有理由确信一件事物可以造成另一件事物,我们相信因果关系并非因为它是自然的本质,而是因为我们的习惯和人性所致。甚至Russell等人将因果关系认为是一种迷信。

Hume等人的自然法则解释理论认为,因果关系并不是一种必然。跟随Hume的自然法则解释理论,有一些人认为,这个世界是由可能世界(possible worlds)组成的。用最通俗的话解释这个概念,就是我们常说的,“必然存在于偶然之中。”

与可能世界相对的,是现实世界(actual world)。现在0点20分,我正坐在寝室的电脑前面,我的舍友在后面打游戏,热水壶里的水在沸腾,我打算十分钟后爬床睡觉。我认为这所有的一切都是真实存在的,我确信我生活在的这个世界是具有一定的边界的。我生活在武汉市,它在地球上,地球在太阳系,太阳系在宇宙之中。除了宇宙,没有其他的更远的边界了。我也确定,这是一个单一的、包容的世界。

如果我们换种想法去思考这个世界。我看到昨天天气预报的降水概率是45%,但是昨天真的下雪了(下雪也是一种降水),我也可以说,昨天的降水概率是1。我们无法对概率和可能做出定义,实际上我们也是这么去用了。Lewis思考了Leibniz提出的可能世界,他认为,我们居住的现实世界只是众多的可能世界中的一个,众多的可能世界是独立的、不重叠的。

换句话说,这个世界的运转是没有任何法则的,也许这个世界本身就处于一种巧合之中,我们的观察和测量完全只是一种随机的结果,人类目前所作的只是对当前世界的概括和总结。就像太阳东升西落,千百年来人们总结的规律,也许明天太阳就会从西边升起东边落下;我们只能说,明天早晨太阳有可能从东边升起,至于明天太阳是不是从东边升起西边落下,抱歉,没有人真的知道。Russell讲过一个火鸡问题,

这只火鸡发现,他在火鸡农场的第一天早上九点会被喂食。但是,作为一名出色的归纳主义者,他没有做出结论。他收集了许多关于他在早上9点被喂食的观察结果,不管是在什么情况下,周三和周四,温暖和寒冷的日子,阴雨天和干燥的日子,他一直记录。每一天,他都会在他的列表中加入一条观察的事实。最后,他的归纳得到了满足,他进行归纳推断得出了结论,“我总是在9点的时候被喂食。”在平安夜时,他没有被喂食,而是被割了喉,毫无疑问证明这个结论是错误的。具有真实前提的归纳推断导致了错误的结论。

This turkey found that, on his first morning at the turkey farm, he was fed at 9 a.m. However, being a good inductivist, he did not jump to conclusions. He waited until he had collected a large number of observations of the fact that he was fed at 9 a.m., and he made these observations under a wide variety of circumstances, on Wednesdays and Thursdays, on warm days and cold days, on rainy days and dry days. Each day, he added another observation statement to his list. Finally, his inductivist conscience was satisfied and he carried out an inductive inference to conclude, “I am always fed at 9 a.m.”. Alas, this conclusion was shown to be false in no uncertain manner when, on Christmas eve, instead of being fed, he had his throat cut. An inductive inference with true premises has led to a false conclusion. (via Alan Chalmers, What is this thing called Science, 2nd edition, University of Queensland Press, St. Lucia, 1982)

寻找原因的过程会面临虚假的相关

太阳东升西落,我们相信太阳明天也会升起,因为它过去不断地在早晨升起;我们相信天鹅都是白色的,因为我们观察到的所有的天鹅都是白色的。但是,我们相信的任何事情,都有可能是错的。Hume也认为,我们不应该用经验来的归纳来推理我们未来尚未经历过的事件。

Skinner在研究操作性条件反射时,他使用了他自己制作的设备进行实验,后人称之为Skinner’s box。它的原理非常简单,如下图所示,实验动物被关在这样的一个箱子里,箱子有个食盘,当动物做出符合期望的行为时,食盘中会出现食物。如果将图中的小老鼠放入这个Skinner箱中,小老鼠会通过试错和强化,逐渐学会按压图中的控制杆获得食物。

Skinner于是想,能不能对Skinner箱进行设置,设置为每15秒都会落下一粒食物。也就是说,不管动物做什么,每隔15秒,它都会得到食物。研究中的被试换成了8只鸽子。Skinner最后得到了6只反应特别强烈的鸽子:一只鸽子在两次食物掉落时转两到三圈,另一只反复将头伸到箱子上方的一个角落,第三只似乎将头放到杆下面并反复抬起头……

Skinner的鸽子形成了这种虚假的因果关系,即,他们需要做些什么(原因),食物才会掉落(结果)。那么人呢?Bruner和Revuski解答了这个问题。

他们设计了一个人类实验,每名参与者需要坐到电报机的键盘前,当参与者按到正确的键后,红灯闪烁并响铃,同时他们会得到5美分。Bruner设置每10秒钟按3号键会闪烁红灯并响铃,但是,参与者们却形成了一套独特的按键顺序,并且一遍又一遍地重复。

寻找原因是一个艰难的过程。人们往往希望能掌握流行病的原因,从而对原因加以控制,消除这个原因事件或降低它的影响,来降低疾病的危害。但是事实并不总是这样。在这个过程中,人们往往会“创造性地”发现许多并不存在的虚假相关。

古希腊的Hippocrates提出了一种说法,人的生存依赖四种体液:血、粘液、黄胆汁、黑胆汁,这四种体液中,血液占据主导地位,它过剩很容易导致疾病。(插句嘴,胆汁质、多血质、抑郁质、粘液质这四种气质划分即是Hippocrates的贡献,这种划分貌似已经废弃。)Benjamin Rush是一名在《独立宣言》上签字的医生,他觉得血液过剩是爆发疾病的原因。在国家独立后,宾夕法尼亚州流行了黄热病,他大量使用放血疗法,治疗这些患有流行病的病人。

中世纪时,大量使用放血疗法,“治好了”相当一部分人的病,似乎Rush的做法没有什么问题。有一位记者发现,死在Rush手下的人非常多,于是写了一篇文章,说,Rush为减少人类人口数量做出了突出的贡献。显而易见,当时的人无法理解这位记者的行为,甚至动用了法律武器来维护Rush的尊严。正巧,Washington也病了,Rush的学生给国父放血,Washington在治疗后死于失血性休克。

很显然,在这个例子中,Rush将血液过多作为疾病发生的原因,那么恢复健康就只需要放掉多余的血液即可让人恢复健康。但是似乎结果并不让人感觉到合理。Hamilton使用了临床观察的方式,发现接受放血的人死亡率更高。这是不是可以说明,放血真的会增加死亡?

并不能。让我们再看一个例子。

另外一个例子是Plutchik等人提出的。人们在古代时,疟疾的流行是非常要人命的。人们经过各种尝试后发现,低洼地区的污浊空气是造成疟疾流行的原因,所以人们将城市建造在丘陵的顶部。虽然疟疾没有消失,但是它降低到了在当时的一个可以接受的水平。随着奎宁的使用,人们发现,奎宁可以消除血液中的寄生虫,也可以治愈疟疾患者。奎宁的有效性被人解释为,奎宁可以消除血液中的寄生虫。

但是,这作为一个影响了近代人类的公共卫生问题,事情不会到此结束。进一步的研究发现,寄生虫由特定的蚊子传播。人们开始思考如何控制蚊子的活动,但是疟疾逐渐从世界上的大部分地区消失,人类并没有做什么。在这个过程中,人们逐渐深入,找到了发生了疟疾的原因。但是,这样的原因真的是原因吗?

Occam’s Razor

也许,流行病的发生是社会的、经济的、生物等因素的平衡。我们到现在仍然无法完全描述出来这些条件,但是,我们可以了解到一些主要的因素。

有一些人,去攻击Hume理论的硬核(hardcore),他们认为,这个世界是必然的,是符合规律发展结果的;他们否认偶然,或者将偶然认为是人的主观观念,或者把偶然归结为必然。他们被称为必然论者(necessitarianism),其中马克思主义(marxism)在历史观上也是此种的形而上学。

不管怎么样,目前的主流依旧是Hume的自然法则解释理论。根据Hume的理论,我们不知道因果关系到底是什么,所以我们需要一种可以操作的定义。Newton发现苹果因为某种神奇的力量落到了地上,他发现,自然也许存在某种神奇的力量,驱使高处的物体落到地上,他把这种力量叫做重力。

Newton自己不知道重力是什么,但是这并不影响他和其他人理解重力。他只需要告诉别人重力怎么测量,什么时候能再次产生:“物体在地球表面附近自由下落时,会出现一竖直方向的加速度g。产生这一加速度g的力被称为重力。”这就是重力的操作性定义,这是一种可观察、可测量、可检验的重力定义。

刚才我们提到过,这个世界是不可知的。也许,当我们在对这个世界进行探索时,上帝给我们呈现我们想要的结果;也许,我们像Russell的火鸡,知道每天9点会有食物出现,但是不知道天上掉下来食物的原因是农场主想把他们做成感恩节的火鸡;也许,我们这个世界是完全随机的,我们所谓的规律只是我们像Skinner的鸽子一般,得到的只是随机的结果。那,我们这个世界是否真正存在呢?

Durandus of Saint-Pourçain提出,不要浪费现有的资源;如果同一个问题有许多理论,每种理论都能做出相当的预测,那么越简单的越好。Ockham频繁的引用他的话,简单地说,若无必要,勿增实体。如果我对数据得到两个回归方程,其中一个是y_1=0.0012x^2+1.248x+0.0013,另一个是y_2=1.4x,这两个方程的解释能力相当,那么,作为研究者,我最应该选择y_2而不是y_1

那么我们前面所说的,三种对于现实的不可知的可能性凭空为我们的结论添加了条件,遵循简单原则,这些假设也就暂且被我们放到一边了。既然我们无法知道我们这个世界是否存在,那么我们也修改一下我们对于科学的理解吧。科学就是用来解释和预测世界的一种假设或理论,它没有办法证实,但是我们可以一遍又一遍地重复。

也就是说,科学是有用的,它可以帮助我们(1)测量和描述;(2)理解和预测;(3)应用和控制。那么,这个世界所有的规律都是人主观认为的,这个世界并不存在客观的规律。所以,我们只需要关心最少的条件,在最少的条件下得到较为适用的假设。

归纳能否认识世界?

Popper主张,形而上学非常有意义,而且它非常重要;归纳并不能通向确定性,它只是我们过去经验的总结。无论有多少支持某个普遍结论的观察结果,也许此刻以后的每一次观察结果都有可能不再支持它,就像Russell的火鸡。

想象我们经常使用的设备,比如现在外面正在运行的车辆。不管你在炎热的天,还是寒冷的天成功启动它,总有一天它会无法启动。也许有一天,它将会永远都无法启动,因为机械总有老化的一天。那么我们能不能认为,我的车成功启动的次数越多,它在下一次成功启动的可能性越小?可以的。换句话说,支持归纳得到的结论的次数越多,下一次成功预测未来的可能性越小。

似乎很反直觉。是的,我们永远都不能确定一个理论是否是真实的。正如前面所列举的例子,Newton的理论获得了前无古人后无来者的归纳性支持。Popper于是认为,没有什么方法能确定一个归纳理论的真实性,甚至没有任何办法来判断一个理论为真的可能性;但是可以推翻一个理论。Popper认为科学是先提出可以证伪的理论,然后再试图严格地证伪它。即使这个理论被证实了,也不能说它是正确的,它只是被巩固了(corroborated),所以它暂且成立。

确定真理不是科学的目标。所以,用归纳来认识世界是不成立的。所以我们需要一个更加合理的方法论来认识这个世界,我们把这个方法论叫做科学。

这样的方法论是否会出错?

Weizenbaum (1976) 通过一个醉汉寻找丢失钥匙的逸闻说明了这一相同的观点。一位跪在路灯下的醉汉受到了警察的询问。醉汉解释说他正在找他丢失在某个黑暗地方的钥匙。警察问他为什么不在丢失的地方找,醉汉回答说,在路灯下光线好。科学在某种程度上就如同那醉汉,它在它的工具能够提供最好解释的地方寻找真理……心理学家们知道,如果他们呆在路灯的光线范围之内,直到一个新的突破产生一个更亮的灯,那么科学的进展尽管缓慢但却必定会发生。

Weizenbaum (1976) makes this same point using an anecdote about a drunkard looking for lost keys. The drunkard, kneeling under a streetlight, is approached by a police officer. The drunkard explains he is looking for his keys, which he lost somewhere over there in the darkness. When the police officer asks why he isn’t looking over there, the drunkard replies that the light is better here under the lamppost. Science is somewhat like the drunkard, since it looks where its tools provide the best illumination. … Psychologists know that scientific progress comes about, slowly but surely, if they stay within the rays of the streetlight until a new breakthrough yields a more powerful light.

这段话是我特别喜欢的关于科学的解释。是的,只有实证方法能确定。根据Hume提出的三条标准,有人提出了关于因果关系的操作性定义:(1)原因与结果正相关;(2)在时间上,原因在前,结果在后;(3)当宣称A与B之间存在因果关系时,就有可能排除两事物之间关系存在的其他的可能解释。所以我们再看,使用实验的方法,能否满足这一操作性定义?除了(3),应该都可以满足。

那么第三条呢?正如前文所说,我们无法确定除了A和B之外有其他的可能。John Mill提出了他认为的可以实验性地确定原因的基础。他认为,因果关系需要有:

(1)一致的方法(method of agreement),即有A就有B。
(2)差别的方法(method of difference),如果没有A,B就不会出现。
(3)联合一致与差别的方法(joint method of agreement and difference),即下图。
(4)伴生变化的方法(method of concomitant variation),即,在A的多种水平下,B在数值上会发生变化,即A与B可以写成函数的关系,y=f(x)

你说的很好,可是,使用这样的方法探寻因果是否会出错呢?

有句俗话说得好,“完美是留给上帝的。”生而为人,不可能做到百分百的完美;我们看待这个世界是极度主观的,我们只有去观察这个世界,这个世界才有可能在我们的世界中存在;但是我们的观察往往带有主观色彩。Rosenthal曾经做过这样一个实验,他随便将一些小白鼠随便分成两组,一组的笼子上贴上“聪明鼠”的标签,一组的笼子上贴上“愚笨鼠”的标签。他让他的学生训练小老鼠走迷宫,并进行记录。他的学生们的记录发现,聪明鼠走迷宫比愚笨鼠更快。

Rosenthal发现,我们每个人可能会无意识地去证明我们印象中的某些事情,所以我们所见的不一定是事实。在此之后,科学家们广泛使用单盲(参与者不知道自己属于哪一组)、双盲(参与者和实验者都不知道哪一组是实验组)或三盲(参与者、实验者和数据处理者都不知道哪一组是实验组)的方式进行实验。

所以,我们选用科学的方法论的目的就是为了减少错误,但是科学的方法本身并不完美。我们前面讨论过,我们的世界可能是随机的。这种可能性是无法被排除的,所以我们会引入一类错误、二类错误和三类错误的概念。在一般情况下,我们会将一类错误设定为5%的水平,即,出现随机结果的概率在5%以内。后面我们会详细讲述这三个错误,在这里只需要知道,科学的方法本身也会带来错误,但是这个错误是可控的。

如何进行实验呢?

我们可以发现,从Mill的观点来看,实验的方法确实可以得到确定的因果关系。

实验是一种方法,它是具有一定的顺序的。Anderson曾经提出过一个“实验金字塔”,从下到上依次为:

(1)概念框架;(2)现象;(3)行为;(4)测量;(5)设计;(6)统计推论。在Anderson的金字塔里,越在下面的越基本。下面一层是上一层的前提,越在上面的越不重要,各个层次之间联系成一个整体,共同构成了一个实验。

所以,在实验的整个过程中,概念框架是重中之重。选择什么问题进行研究,如果这个不能确定,接下来的一切都将毫无价值。在这个阶段,需要完成对于支撑理论的研究,相关文献的综述,并且找到自变量、因变量和误差变量。同样,使用不同的概念框架,也会影响对结果的解释;从本质上说,对实验结果的解释是超越统计的推论。每个研究者的概念框架和知识体系不同,这就意味着对于同样的结果,不同的人会有不同的解释,这对于推动科学的进步很重要。

在设计完概念框架后,需要对现象进行界定。我们的研究目的往往是某种现象,比如社会态度、语言隐喻等,但是我们不能直接研究这些现象,在这一步,我们需要确定合适的研究行为。观察到的行为不一定是我们想研究的现象,通过行为推理现象也需要涉及到普遍性的问题。对于前者,我们需要对影响自变量和因变量的误差与混淆变量进行界定和说明控制的方法;对于后者,我们需要考虑希望的实验结果的可推广性。像Ebbinghaus的记忆实验中,他将无意义音节作为了记忆的全部内容。但是,记忆不只是无意义音节,所以他在这一步里并没有做好。

行为是实验的中心环节。实验者只能测量外显的行为,在这一步,实验者需要确定测量的物种、任务、测量设备、程序、反应的测量等等,也需要遵循简单和可推广原则,正如前文所述。这些选择同时还决定了测量数据使用的统计检验方式,实验者也需要在事前做出规划。在这一步所选用的方式也决定了下一步测量的信度和效度;信度是测量的可重复性,效度是指自变量引起结果的程度,这两个是测量中需要规划的核心概念。

测量是一种将行为与统计联系起来的一种方式,是将客观世界中的东西转换成为人可以认识的主观世界。通过测量,我们将行为转变成为可以使用符号和数字来理解的东西。如果测量的不严格,似乎实验的方法也只是一种严格控制的相关。

然后我们讲,组织、安排、转化为实验程序的实验设计非常重要。如果没有一个好的设计,那么后面的只是Garbage in, garbage out. (输入垃圾,输出垃圾)在很多情况下,一些实验者“为了实验做实验”,换句话说,实验者因为要显示自己的逼格,从而选择做实验。在实验的设计阶段,最重要的是使用统计知识来预判实验的成功概率,如果预判的检验功效(power)低,或者预判的效应量(effect size)低,那么这个实验最好选择不做。其次需要设计好额外变量的控制方式。最后一步就是统计推论检验。

统计推论检验并不是一个很重要的问题,我们需要进行统计检验,目的在于确定得到的实验结果是否是由于随机因素产生的;但是进行统计检验的前提是进行恰当的设计。统计检验也需要来帮助解释一些比较麻烦的混淆结果的因素,包括在实验过程中参与者可能出现的练习、适应、迁移等因素。

相关不代表因果

似乎是这样的。如果两个变量X和Y存在相关,那么它可能存在五种关系:

  1. X引起了Y(直接因果)
  2. Y引起了X(反向因果)
  3. M引起了X和Y
  4. X引起了Y,Y又引起了X(循环因果)
  5. X和Y没有关系,相关只是巧合

也就是说,相关性中存在着可能存在的因果关系,而实验的方法只是一种严格限定条件的相关,直接确定X与Y的关系。

那么,不用实验的方法可以确定因果吗?也许是可以的,毕竟不是任何东西都可以通过实验的方法来得知;使用回归方程y=f(x_1, x_2, \ldots, \varepsilon),如果控制只有x_1发生改变,其他变量保持不变,y发生了改变,理应认为这个x_1具有因果关系;其他变量也一样。如果没有办法做出控制或操纵,那么仅通过回归方法对于因果的解释,往往是一种较为可能的educated guess。

Popper:我说了什么?

让我们看一个有趣的例子:为什么中国能控制住新冠肺炎疫情,全球却至今未能控制? – 知乎用户的回答 – 知乎。看过这个例子,我们会发现,这位作者只采用了“证实”的方法,也使用了前文所述的归纳方法。所以它是事实么?

如果我们按照worldometers.info提供的2020年12月31日的数据,进行统计控制,会发现,不同的方法会得到不同的结果。懂的都懂,对吧。提供SPSS文件,有兴趣可以自行运行查看结果。

不过,又一个有趣的问题出现了。我前面说的这些东西可以证伪吗?Popper的观点可以证伪吗?

所以,这个问题的答案是什么呢?

确定的因果关系指的是绝对的概率,这个概率指的是100%。正如前文所述,我们无法得到一个绝对的100%,所以我们使用任何方法都无法得到确定的因果关系。但是,我们使用科学的方法,正在逐渐趋近于这个100%。我们对这个世界掌握的越多,理论上,出现Russell的火鸡被割喉的概率就会越低;但是似乎也并不是这么绝对,总有许多的反常识的现象出现。

当人类出现之后,人类会尝试理解这个世界,尝试掌握这个世界,试图“析万物之理”。但是,这个理解是主观的,是以人为第一视角的理解。我们对于这个世界如此确定,出现Russell的火鸡的概率相当之低,但是这样的可能性是存在的。如果有一天,我们发现了我们所了解的并不能解释这个世界;如果有一天,我们发现我们正处于一台超级计算机的模拟之中,我们无法跳脱这个世界——那么整个科学大厦将会崩塌。也许,相信超自然力量的存在,相信这个世界不可知,对于整个人类来说是有一定作用的。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据