日常行动的合理决策问题思考,自然辩证法论文

　　一、引言
　　
　　作为行动者与决策者，我们在现实生活中时刻都在进行着各种决策活动，并在此基础上得到实现某个具体的行动目标的相关策略或计划。我们可以通过自己的思考决定晚餐吃什么，也可以通过自己的思考决定应该报考哪所大学。可以说，现实生活中的决策是面向我们的日常行动的。因此，如何合理地决策就成为了我们日常行动的合理性的一个主要前提。那么，有没有理论可以帮助我们思考这个问题呢？一般说来，经典意义上的决策理论可以为我们提供较为便捷的选择。但是，经典决策理论考察的是抽象意义上的行动，其理论预设与前提都是理想状态下的情形，而当我们思考日常行动的合理决策问题时，我们需要一种更切合实际的决策理论。

　　二、理想决策与日常决策
　　
　　作为众多具有认知能力的物种之一，人类的理性能力或推理能力都是受到诸多限制的。经典意义上的决策理论中所描述的“理性人”模型只是一种对行动者的理想化处理，现实生活中的行动者是不可能具备该模型中的计算水平和计算速度的，而人类的许多先天限制使得我们只能是“有限理性”的生物。因此，真实世界中的决策理论应该是一种基于有限认知资源和能力的决策理论。

　　相应的，在经典决策理论中出现的“理性”概念，以及众多对于行动的合理性原则的阐述，都会因为这种现实化的要求而相应地进行调整。理性的理想状态是不可能出现在现实生活当中的，而我们每天使用的合理性原则都只是实际状态的理性的表现。

　　简单地来说，经典的决策理论告知我们应该考量每一个决定的所有逻辑上的可能后果，然后进行评价，通过对这些价值或是效用的期望的计算来对我们所有的选择进行排序，之后在众多竞争的选择中挑选最优的那一个，这个过程就保证了我们行动的合理性。对此几乎所有的经济学、博弈论、决策论等基础理论都持相同的看法，这是因为我们讨论的是理性的理想状态。在这种状态下，行动者可以得到所有的相关信息并能够进行透彻的理解，同时预计所有可能出现的后果会带来的效用，并最终通过计算加以排序。G〕作为一种理想化的模型，这样的预设无疑是有效的，因为它带给我们选择行动的标准，并且对于许多对现实化要求并不严苛的场合而言，它还可以被直接运用到决策过程中，尤其当行动者处于一些不确定的决策环境时，这样的决策理论会提供很大的帮助。但是，上述经典意义上的决策理论所构建的只是一种理想化的模型，而并非基于真实生活，其最主要的两个预设对于日常行动中的行动者而言都太强了，“理性人”与“最优化”只能是理想状态下合理决策的前提，而真实世界中的决策理论应该建立在对理性的实际状态的理解之上。

　　首先，作为进化的产物，人类不具备经典决策理论所要求的“理性人”的理性能力。一方面，我们无法知晓作出一个决策所需的全部信息；另一方面，即使有了上述信息，作为有限理性的行动者，我们也无法进行全部的相关运算和处理。因此，从认知能力上讲，经典决策理论关于合理决策的“理性要求”是日常行动者所无法达到的。

　　其次，不仅理性能力的要求无法在日常生活中.得以实现，“期望效用极大”原则也同样如此。究其原因，一方面是由于行动者自身的理性能力的限制，行动者无法穷尽所有的可能行动，也无法完全测度所有可能行动的期望效用，因此，所谓的最优行动只存在理论上的可能性。除非人为地将候选的行动集合缩小，同时将对每个行动效用的计算和排序的难度降低，否则很难在日常生活中实施这种最优行动。另一方面，正如波洛克所说，最优化原则并没有告知行动者哪些行动是候选行动，即经典决策理论对于如何挑选考察对象或排序对象并没有明确的说明。因此，“期望效用极大”原则只是一种理论上的建构。〔3]

　　在上述对于经典决策理论的两个前提的反思的基础上，波洛克指出了真正的合理行动所应该考察的对象不应当是单个行动，而应当是相互联系的行动组合。相应的，作为有限理性的行动者，其日常行动中的合理性应该是由一种慎思之后得到的可错可改的计划去体现的。与此同时，波洛克还指出，最优化原则需要对单个行动的期望效用k行排序从而实现效用极大，这种要求也同样难以实现，因为不同的单个行动的效用之间的比较关系并不满足传递性，而这一特性也决定了单个行动很难成为真正意义上的最优选择，因而行动者只能选择某些占优的单个行动的组合。

　　于是，用行动组合取代单个行动成为理性选择的对象，在日常行动的决策中是很常见的。波洛克举了三个方面的情况来代表三种支持上述说法的理由：第一类情况即上文所提到的不满足传递性的单个行动的组合；第二类情况主要是指，现实生活中单个行动的效用有时会相互影响，因此在这种情况下，我们无法单独去考量单个行动的期望效用，而只能通过对行动组合的期望效用的考察去实现行动的合理性；第三类情况则是指那些在现实生活中必须通过两个以上行动相互协同才能完成的事情，这类决策情景往往需要行动者综合一组行动去实现最终的目标，从而嬴得相对较高的效用。⑷从上述分析可以看出，不管是波洛克给出的这些针对最优化原则的批评，还是我们关于日常行动合理性的一些基本判断，或人类自身的有限理性能力，都表明了一个事实：在真实世界中，日常行动的合理性原则不符合经典决策理论的要求，现实生活中的行动者也并未按照经典决策理论而行动。因而日常行动的合理决策应当有一套更为符合实际，更具操作性的准则。那么，决策理论作为一门很有代表性的1案又该如何，这都是值得深思的问题。而波洛克的另外两个很有创见的理论对回答这类问题极具启发性。

　　三、“可废止推理”与“局部化的全局计划”
　　
　　在思考真实的行动者，包括某种意义上的人工智能的决策问题时，波洛克给出了两个很有创意的想法，分别被称为可废止推理（Defeasible Reason-ing）与局部化的全局计划（Locally Global Planning）0波洛克之所以使用这两个理论作为自己的决策理论的基础，很大程度上是因为他希望自己的决策理论可以通过人工智能体系班行验证，因此这两个理论都带有很强的技术色彩，都能够算法化与程序化。但是本文关注的更多的是波洛克在这两个理论中所展示出的行动哲学思想，因此在后续的论述中将主要针对其哲学意义展开讨论。

　　1.可废止推理
　　
　　早在古希腊时期，亚里士多德就指出除了三段论式的推理以外，在人们的日常推理中还存在着非三段论式的推理形式。波洛克所热衷的这种“可废止推理”正是亚里斯多德提到的这类非三段论的推理方式中的一种，这种推理形式在人工智能领域已经有过不少讨论了。

　　“可废止推理”中的“废止”是针对演绎推理的那种无法废止的特性而言的。一直以来，演绎推理都是逻辑推理中最为严格和标准的类型，这种推理模式保证了前提真、结论真的良好性质，因此无论是在科学研究，还是日常生活中都广泛地被人们所采纳。但是，日常生活中我们很多时候不一定会采用演泽推理，而采用其它的推理方式。演绎推理的性质告诉我们，如果对所作推理中涉及的任意一个前提不予怀疑或废止，我们也没有理由去怀疑或废止该推理所得的结论。然而，与这样的一种不可废止的推理相对的就是波洛克所强调的可废止推理。

　　顾名思义，可废止推理是指行动者在基于背景知识或者外在信息的基础上作出了某种推理，并得到了相应的结论，可是新的信息和证据的出现使得行动者们不得不调整或者更改之前的结论，这样的一种推理过程中所涉及到推理模式就是典型的可废止推理。也就是说原有推理中的任意前提都可以被新的信息所推翻或者反驳，从而修正结论。〔5〕与演绎推理相比，可废止推理能够在不更改部分前提的情况下，只因为新信息的加人而更改结论；但演绎推理是不可能做到这一点的。于是，这一特性使得这种推理方法非常适合表征日常行动中的行动者的思维过程，以及人工智能体系在处理实际决策问题时的运算过程，而且上述思想在机器语言中也比较容易实现。

　　2.局部化的全局计划
　　
　　如果说前一种理论主要是为了展现有限理性能力的行动者的理性状态特点，那么接下来的这一理论就是直接批判经典决策理论中最核心的原则--最优化原则。波洛克认为之所以经典决策理论不能作为实际决策问题的合理性标准，其根本原因就在于经典决策理论要求行动者在合理决策时必须寻求一个最终的最优解。但是在实际生活中，我们的日常行动根本就达不到这样的合理性要求，而且很多时候所谓的最优解在日常行动中也是根本无法实现的。在波洛克看来，真实的决策过程不应该是对最优解的追求，而是一个不断向更优解演进的过程，而这一过程对于某个具体的行动者而言很有可能是无穷的。那么，结合上一节我们已经提及的原因，波洛克进一步指出，在真实世界的决策中，合理决策的考察对象不应该是单个行动，而应该是计划。

　　在波洛克的决策理论和行动理论中，计划是一个很重要的核心概念。行动哲学对于计划一般有以下两点认识：第一，行动者对于在当下处境中所采取的行动的所有可能后果都有足够的了解；第二，计划的重要性在于它可以帮助行动者实现目标。t6〕一般说来，在针对某个具体的决策问题时，由于本身环境的制约，我们认为第二点是能够得到满足的，因为此时行动者所面对的可行行动集较小，候选行动也就在行动者的认知能力范围之内。但是，如果当行动者面对一个较为复杂的、只有局部的情形可预测的决策环境时，上述第一点要求是无法得到满足的，此时的行动者所能实现的最多只是一种局部的最优决策。而对于第二点，我们需要通过对计划的评估去权衡实现某个目标的价值，如果实现该目标带来的收益大于相应的计划成本，那么这样的计划就是可行的。

　　波洛克一般把计划分为局部计划和全局计划。

　　其中，局部计划指的是那些针对有限的、部分的目标而言的计划，这些计划关注的只是我们认知的世界中极小的一部分。相应的，全局计划指的是与我们所处的整个世界状态相关的决策计划。一般说来，全局计划是要通过一个相对庞大和复杂的计划去实现所有的目标。这种决策过程可以用马尔科夫决策理论来予以说明，在马尔科夫决策中，行动者需要设计一个最优的全局计划，使得在整个马尔可夫链上的各个节点处的期望值最大。而每一个节点代表的是行动者所处世界的一种可能状态，节点之间的联结代表的就是行动者使得世界从一个可能状态过渡到另一个可能状态的行动，而决策的结果是最终找到一种最优的机制，使得在任何一种可能状态下我们采取的都是最优的行动，从而也就得到了一种串接起所有可能状态的最优行动。很显然，这也是一种上述意义上的全局计划。但是，这样一种基于马尔可夫过程所建立起来的计划理论，虽然在逻辑上可行的，但是在实际的决策过程中，尤其是面对着很复杂的决策环境时，其可行性很小，很多时候已经完全超出了正常行动者的决策能力范围。

　　那么，我们应该怎样运用计划这个工具去处理真实世界中的决策问题呢？波洛克就给出了所谓的“局部化的全局计划”的理论。具体来说，在决策之初，我们有一个对于决策目标最基本的认识，这个认识可以只是关于某个局部的，而与这个认识相应的一个计划就构成了最基础的计划。那么，此时最初的这个计划既是一个局部计划，也是一个全局计划。当然，波洛克在论述时也习惯将全局计划称为总计划（Master Plan），从而与局部计划（Local Plan）相对应。那么“局部化的全局计划”就是指在原有的最初总计划的基础上，因为新信息的引人而对原有计划进行局部的调整，这样的调整会使得原有的总计划的期望效用发生变化，而这种变化就是这种计划调整所带来的边际期望效用，如果边际期望效用为正，那么此时的局部计划的调整就是可取的，原有的总计划加上发生调整的新的局部计划就构成了新的总计划，而很显然新的总计划的期望效用是高于原先的总计划的。[8〕于是，就如同堆积木一样，随着局部计划的不断调整，总计划的期望效用越来越高。相应的，总计划的优化性也越来越高。那么直到能够保证我们的行动目标得以实现的总计划形成，行动者都在通过上述的这种不断调整局部计划、不断优化总计划的方法实现着合理决策。这种方法除了比较切合真实世界的决策过程之外，还拥有技术优势，因为这一套方法在机器上是比较容易实现的。

　　综合上述两个理论，我们巳经有了很充分的基础去重新思考在前一节提出的问题，即真实世界中的行动者们在日常行动中到底是如何进行合理决策的？

　　四、基于计划的合理决策
　　
　　通过上一节对波洛克的两种理论的论述，我认为其理论思路对思考和解决真实世界的决策合理性问题至少有以下四个方面的启发：第一，决策的对象是一组行动，而不是单个行动；第二，解读一组行动的决策机制最有效的手段是计划；第三，评价单个计划的标准不是简单的期望效用，而是这个计划对于决策者的总体计划的贡献程度；第四，可错可改的优化过程是日常行动的合理决策的表现。

　　基于此，我们便有了一个全新的决策思路：一种基于计划的决策模型，其中计划取代原先的单个行动，成为了行动者们在日常行动中进行合理决策的对象。那么，在这个思路上最优化原则是否适用于计划呢？如果单个行动无法通过期望效用的测度与比较进行最优化处理，那么计划能否取代单个行动成为最优化的对象呢？答案是否定的，虽然计划与单个行动存在明显差别，但是通过测度每个计划的期望效用并加以比较的最优化办法依然有其不可回避的问题。那些单个行动最优化处理中所遇到的基本问题此时依然存在，如哪些计划是我们需要考察的对象这样的问题仍然无法说明，而如果考察的样本太大，也将会超出行动者们的计算能力范围。不仅如此，计划最优化机制自身也存在一些问题，比如所谓的最优计划在真实世界中在某种意义上根本就是不存在的，因为我们总能找到比现有计划更好的计划，例如在原有的计划上加上一个与之无关，但是又有附加效用的计划，那么新计划的效用显然更大。虽然前后计划的目标可能会不一致，但是在日常行动中，我们经常会顺带着去做一些事情，在同样的行动过程中去实现多个目标是很常见的事情，而且这也是行动合理性的一种体现。因此，计划如何帮助我们去实现日常行动的合理决策，就成为了这种新的决策理论中最核心的问题。换言之，如果前述的最优化原则无效，那么我们是否可以通过其它的方法去实现计划的优化和合理化，并帮助我们最终实现决策的合理化？

　　其实，要回答上面的问题，我们可以先回到对计划的涵义的探讨上。一般说来，计划所涉及的是一系列行动的组合，它一般应该包括该行动组合的目标和实现该目标的基本步骤。然后，行动者在这个基本步骤之上进行逐步的细化，形成一个又一个的子计划，从而使其在每个决策场景中都有一个基本的计划与之对应，而这些已经被采纳的子计划的总和就构成了行动者的总计划。根据波洛克的理论，这个总计划的期望效用与之前单个计划的期望效用不同，这个期望效用不仅可以通过局部计划的期望效用加总来测度；而且，由于前后总计划的期望效用可以用新加人的子计划的边际期望效用去测度，因此前后总计划的效用之间的比较是有意义的，也是可行的。因此，在这种思路之下，计划的期望效用之间的比较就可以回避之前最优化过程中的种种问题，因为前后比较的对象很明确，就是原有的总计划与新的总计划，而优化的过程就是通过这样不断的比较去实现的，于是也就不会出现最优化过程中期望效用因为比较对象难以确定且数量巨大而无法发挥其作用的问题了。而且，计划在我们的决策过程中同样是处于一种可废止的状态当中，原有的计划可以因为行动者的理性认知而停止并经过调整后重新启动。于是，根据上一节中提到的两种理论，我们可以以计划为主要考察对象，通过合理地去采取和调整计划来实现日常行动的合理决策。

　　不仅如此，在实施的过程中，由于行动者处于一个开放的信息环境中，他可以根据新的经验和证据去不断调整自己的信念以及目标等等。因此行动者的总计划从一开始就处于一种开放的状态当中，它可以根据新的信息的获取而不断得到修正，原有的计划总会被一个较好的计划所取代。所以，也正是在这个意义上，波洛克说真实世界中的行动者所追求的不会是所谓的最优的行动，而是较好的行动，并且不断地去调整这个较好的行动使之更好。

　　行动者在这里不再是一个最优计划者‘而应该是一个在不断的学习过程中演化的计划者。因此，这种基于计划的决策理论在日常行动的决策中可以成为合理性的标准。换言之，当我们在日常行动中进行合理决策时，所要实施的行动的合理性是由与之相对应的保证其实施的总计划的合理性所体现。日常行动的合理性从这种以计划为主体的合理决策中派生出来并得到保证。

　　结语：经典决策理论现实化的可行性==关于经典决策理论的现实化问题，在行动哲学以及社会科学的哲学中一直都是大家关注的热点问题之一。对于这个问题的理解，一般有三种主要的态度：第一种态度认为经典决策理论处理的就是一种抽象意义上的最优决策问题，因此对它的现实化处理是很难取得什么突破性的进展的，这一点是由这种理论的初衷所决定的；第二种观点则相对乐观，即认为经典决策理论在理想化状态下为我们的决策过程提供了很好的帮助，但是这并不意味着这样的理论不可以进行现实化的处理，我们可以在经典决策理论的基础上对它进行很多有意义的补充和调整；第三种观点的态度相对中立，这种观点一般不讨论决策理论本身的发展和演进，而更加关心行动者究竟是如何决策的，并认为行动者们在决策过程中所表现出的优良品质和习性对我们研究现实决策具有很好的启发作用。

　　本文试图在第二种研究进路上作出一点突破，虽然所借用的许多理论工具来自于人工智能的前沿领域，但是随着人工智能体系的发展，人工智能将越来越接近真实的行动者，因此这些理论工具对于真实世界的模拟和描述是恰当的，作为我们反思日常行动者们的合理决策问题的理论依据也是适合的。而且，相比于其它社会科学色彩更浓厚的决策理论，这样的思考也未尝不是一种更有意思的尝试，因为这种思路不仅可以在哲学的层面指导我们思考与日常行动相关的合理性问题，其最大优势更在于它的反思和尝试可以通过机器语言在人工智能体系中得到验证，一旦机器可以按照我们所说的理论对日常行动进行合理决策，这种理论与实证相结合的论证方式就更有说服力。有破有立，或许才是经典决策理论现实化的真正出路。

　　参考文献
　　
　　〔1〕Rubinstein. A. Modeling Bounded Rationality[M]. Cambridge,MA: MIT Press, 1998: 7-10.
　　〔2〕Fudenberg. D. and Tirole, J. Came Theory [M]. Cambridge,MA: MIT Press, 1991: 4-6.
　　〔3〕〔4〕Pollock. J. Thinking about Acting: Logical Foundations forRational Decision Making [M]. New York: Oxford UniversityPress, 2006: 143' 164, 172-174.
　　〔5〕Pollock. J. Defeasible Reasoning [J]. Cognitive Science, 1987（11）： 481-483.
　　〔6〕Bratman. M. Intentions, Plans, and Practical Reason [M].Cambridge, MA: Harvard University Press, 1987: 28-30.
　　〔7〕〔8〕Pollock. J. Plans and Decisions [J]. Theory and Decision,2005（57）： 86-88,98-102.