【李亚明】“价值对齐”还是“理由对齐”？—人工智能伦理设计的元伦理学反思-中国社会科学院哲学研究所

2020年2月14日

首页
本所概况
哲学所简介

中国社会科学院哲学研究所是我国哲学学科的重要学术机构和研究中心。其前身是中国科学院哲学社会科学部哲学研究所。历任所长为潘梓年、许立群、邢贲思、汝信（兼）、陈筠泉、李景源、谢地坤。中华人民共和国成立前，全国没有专门的哲学研究机构。为了适应社会主义改造和建设事业发展的需要... ... <详情>
现任领导
更多+

张蕾

党委书记

张志强

党委副书记，所长

刘志明

党委常委，纪委书记，副所长

周丹

党委常委，副所长
更多+

王立胜

党委书记、副所长

冯颜利

党委书记、副所长

张志强

党委书记、副所长

王立胜

党委书记、副所长
组织机构
更多+
研究室

习近平文化思想研究室

马克思主义哲学原理研究室

马克思主义哲学史研究室

中国马克思主义哲学研究室

中国哲学研究室

东方哲学研究室

西方哲学史研究室

现代外国哲学研究室

美学研究室

伦理学研究室

科学技术哲学研究室

逻辑学研究室

智能与逻辑实验室
编辑部、图书资料室

《哲学研究》编辑部

《哲学动态》与《中国哲学年鉴》编辑部

《世界哲学》编辑部

图书资料室

职能处室

人事处

办公室

科研处

社团学会

研究中心
党建工作
历史沿革

哲学研究所现行的领导体制是党委领导下的所长负责制。此前曾实行过党支部、党的领导小组、党总支、党委、机关党委、分党组、联合党委等领导形式。
1955年4月，哲学所成立第一届党支部，周宜明担任支部书记，下半年党支部增设宣传委员和组织委员，李奇担任宣传委员，鲁孝文担任组织委员。<详情>

党建专栏
更多+
离退休工作
更多+
哲学研究所举办离退休干部2025年度秋季讲坛...

闵家胤同志讣告

哲学研究所举办离退休干部2025年度夏季讲坛...

哲学研究所举办离退休干部2025年度春季讲坛...

哲学研究所春节前夕走访慰问离退休干部
工会、青年工作
更多+
展现女性哲人独特风采聚焦女性哲人睿智力量——...

关于做好我所甲型H1N1流感防控工作的通知

青年哲学论坛暨哲学所建所55周年系列学术报告会
研究学人
已故名家
更多+
- 潘梓年
- 金岳霖
- 贺麟
- 杜任之
- 容肇祖
- 沈有鼎
- 巫白慧
- 杨一之
荣誉学部委员
更多+
徐崇温

陈筠泉

姚介厚
学部委员
更多+
李景源

赵汀阳
本所同仁
在职学者

正高级

副高级

中级

初级

离退休学者
科研工作
学科建设
更多+
马克思主义哲学

中国哲学

西方哲学

东方哲学

伦理学

逻辑学

科学技术哲学

美学

文化哲学
学术动态
更多+
国家社科基金项目“以现实问题为导向的《资本论》...

国家社科基金项目“斯宾诺莎《梵蒂冈抄本》编译研...

中国社会科学院重大创新项目“中华文明‘五个突出...

研究阐释中华文明突出特性构建中国哲学自主知识体系

哲学研究所贾泽林、王柯平、詹文杰获2024年翻译界...
论著评介
更多+
田时纲译《自我评论》

胡士颍著《〈阿毘达摩俱舍论〉之有情论哲学》

侯杰耀著《社会选择与社会正义：当代分配正义的规...

田时纲译《狱中札记（第一卷）：历史唯物主义和克...

《中国哲学年鉴2024》出版
学术争鸣
更多+
【欧阳英】论正义社会及其原初性内涵——孔子与柏...

【周丹】中国式现代化蕴含的价值观及其国际传播

【晏扩明葛瑶】发达工业社会的消费逻辑批判——鲍...

【周丹】抗日战争伟大胜利的哲学阐释

【闫培宇】“第二个结合”的世界历史意蕴
获奖、成果
学术期刊
人才培养
博士后
更多+
中国社会科学院博士后工作管理规定

《中国社会科学院博士后工作管理规定》实施细则

中国社会科学院博士后经费使用与管理办法

哲学研究所关于博士后工作的管理办法

2012年中国社会科学院哲学研究所博士后流动站...
青年哲学论坛
更多+
青年哲学论坛
访问学者
更多+
中国社会科学院哲学研究所国内访问学者招收简章
中英美暑期哲学学院
更多+
PHILOSOPHY SUMMER SCHOOL IN CHINA REPORT 2025 S...

中英美暑期哲学学院第24期高级研讨班在京重启

中英美暑期哲学学院第24期高级研讨班（道德责任与...

中英美暑期哲学学院第24期高级研讨班（道德责任与...

中英美暑期哲学学院第22期高级研讨班在首都师范大...
图书档案
图书馆简介

哲学专业书库的前身是哲学研究所图书馆，与哲学研究所同时成立于1955年。1994年底，院所图书馆合并之后将其划为哲学所自管库，从此只保留图书借阅流通业务，不再购进新书。

2009年1月16日，作为中国社会科学院图书馆体制机制改革的重要举措之一，哲学专业书库正式挂牌。
<详情>
哲学学科服务
更多+
中文社会科学常用核心期刊目录来源

中国社会科学院哲学研究所图书室馆藏哲学书刊简况

哲学书库——几代馆人竭尽心力完整系统收藏书

图书室藏书凝聚着科研人员的心血与汗水
特色馆藏
更多+
【高颖兰倩】四库底本《记纂渊海》考略

傅兰雅与《格致汇编》
哲学系
哲学系简介

哲学系以中国社会科学院哲学研究所为依托，成立于1978年。中国社会科学院哲学研究所为国家级专业研究学术机构。1955年成立中国科学院哲学社会科学部后，哲学所便开始招收培养研究生，因“文革”一度停止招生。自1978年中国社会科学院成立以来...<详情>
哲学系动态
更多+

第二届“中华传统文化民生奖学金”楼宇烈民生奖学...
招生信息
更多+

2026年哲学院全国统考招收硕士研究生招生名额情况（接收推免生后）

中国社会科学院大学哲学院2026年预推免研究生招生复试结果

2026年哲学院接收推免研究生招生复试名单及复试安排

中国社会科学院大学哲学院2026年硕士研究生招生专业目录

2026年中国社会科学院大学哲学院硕士研究生招生入学考试参考书目
表格下载
更多+

中国社会科学院大学硕士研究生招生思想政治素...

报考导师意向表

中国社会科学院大学研究生招生体格检查表

2025年中国社会科学院大学哲学院哲学专业博士...

中国社会科学院大学哲学院2025年博士研究生招...

您当前的位置：首页>科研工作>学术争鸣>伦理学

学术争鸣

【李亚明】“价值对齐”还是“理由对齐”？—人工智能伦理设计的元伦理学反思

发布时间： 2025-07-31

【

字号 +字号 -】

摘要：“价值对齐”被视为人工智能伦理治理的重要方案，该方案蕴含着一种信念，即在对齐了人类价值的情况下，人工智能所做出的行为抉择就会符合人类有关“正确”行为的标准。坚持“正确”可以依赖于“价值”的元伦理学立场，面对着诸多理论困境，如无法对价值给出可分析的解释，难以在道德判断中容纳义务，无法对行为本身的价值给出论证等，以上理论难题直接导致了当代人工智能“价值对齐”面对的现实困境。元伦理学中的另一种立场以“正确”来解释“价值”，进而又通过“理由”来解释“正确”。该方案为价值提供了一种可分析的解释，在道德考量中以简明的方式平衡了后果和义务；揭示了原则在实践推理中发挥作用的方式，有效避免了以“价值”指示“正确”的那类理论所面对的困难。人工智能伦理设计中已存在多种形式的“对齐”人类“理由”的尝试，这类尝试有助于探究促使人工智能系统做出正确行为的根本因素，同时澄清了“价值”在人工智能道德推理中发挥作用的方式。

关键词：人工智能;价值对齐;人工智能伦理;正确;理由

在人工智能伦理治理中，“价值对齐”是当前的主导范式。人们普遍认为，与人类的价值充分“对齐”足以引导人工智能在复杂情况中做出符合人类期望的行为决策。由联合国教科文组织发布的《关于人工智能伦理的建议》中就曾指出，价值在塑造政策措施和法律规范方面发挥着强大的激励作用，激发了理想的行为，并代表了原则的基础[1]。

然而，依据“价值”确定“正确”的推理方式在元伦理学层面面对着诸多困境，在20世纪初至今的伦理学研究中受到了广泛争论。人工智能伦理设计中出现的如道义论与后果主义无法恰当平衡，已有道德原则难以普遍应用等现实问题，均与这些元伦理学困境直接相关。反思有关“价值”与“正确”关系的另一立场：即以“正确”确定“价值”的立场，将对现实问题提供重要启发。20世纪末，有学者借助“理由”概念对这一立场进行了重新表述。在支持和反对“理由基础主义”的论证中，这一立场进而得到了非常深入的阐释。以“理由”指示道德上的“正确”有效避免了以“价值”指示“正确”所面对的困难。“理由对齐”能够为“价值对齐”提供重要的解说，为人工智能伦理设计提供具有实践可操作性的思路。

一、以“价值”指示“正确”所面对的困难

通常人们认为，规范概念有两大类。第一类是评价性的，例如，善与恶，高尚或有价值；第二类是道义性的，例如，正确和错误，理由、应当、责任、义务或禁止等。关于哪一类概念在规范性判断中更为根本，各种重要的伦理学理论持有不同观点。认为一类概念更加根本，就意味着可以凭借这类概念对另一类概念做出合理的解释说明，因而，这类概念也就可以被视为规范性判断的根本依据。摩尔（G.E.Moore）有关“善”的论述开启了20世纪以来的元伦理学探讨，提出“善”在道德考量中具有最为根本性的地位。在《伦理学原理》（1903年）中，摩尔甚至用“善”来给“正确”下定义，即所谓“正确”就是产生最大程度的“善”。如果这一观念能够得到充分辩护，也就为人工智能“价值对齐”提供了理论基础。然而，这类观点面对很多理论困难。

以“善”来定义“正确”的观念会受到摩尔在同一本著作中提出的“开放问题论证”的质疑。“开放问题论证”指的是，如果以某种非道德的性质来定义“善”，就会使原本“封闭”的问题变得“开放”：我们总是可以有意义地追问“快乐就是善吗？”我们也可以有意义地追问任何其他自然性质“就是善吗？”于是，对什么是善这个问题的回答成为不确定。如果“促进快乐”等产生“善”的特性不是“善”本身，那么基于同样的逻辑，“正确”也不等同于产生“正确”的那些特性。这些性质只是使“正确”成为“正确”的一种性质。罗素在对《伦理学原理》的评论中提出，即便可以证明某种行为会产生最佳结果，我们仍可能追问为何要采取这种行为。考虑到这个问题，摩尔在《伦理学》（1912年）中修改了他的观点，提出能够促进“善”并非“正确”的定义，而是使行为成为“正确”的唯一属性[2]。即便同第一种观点比，摩尔的第二种观点已发生很大改变，但“善”可以用来指示行为的“正确性”这一点没有改变。20世纪很多重要的哲学理论均支持这一观念。

认可“正确性”依赖于“善”，导致“正确性”的判断标准自然地倾向于行为结果。摩尔在《伦理学原理》中提出，“正确”意味着“不会造成比任何可能的替代方案更少的善”[3]。“如果我们的行为使得整个世界实际上变得更糟，那么这种行为必然是错误的。”[3]约瑟夫（H.W.B.Joseph）认为，如果一项行为有助于实现善，无论这种善是以幸福、福祉还是其他价值来定义，那么它就被认为是正确的。并且他认为这意味着，一项行为的正确性往往取决于其产生良好结果的能力。拉什达尔（H.Rashdall）在《价值的可共度性》一文中主张，“善”是“逻辑上首要的概念”，而“正确”仅仅意味着“倾向于促成善的事物”[4]。对他而言，结果具有的“善”甚至高于善良意志具有的“善”：善良意志或许比它所意愿的任何结果都具有无限多的价值；但除非那个结果是善的，否则这种意志本身也不能说是善的[4]。认可“价值”的优先性意味着允许人工智能道德行动者无需诉诸“正确行为”的概念而对环境和事态做出价值判断，这一立场在人工智能的伦理训练中同样导向了基于后果主义的训练方案，即一个行为是“正确”的，当且仅当（并且因为）该行为在它所能掌控的所有可行选择中，会带来最好的结果，

后果主义类型的伦理理论被认为最有可能成为机器伦理的基础，其在人工智能行动者训练中的优势就在于，一方面，后果主义本质上具有算法性；另一方面，人工智能的计算能力有望在很大程度上化解后果主义理论一直以来面对的一项重大质疑。后果的不确定性曾导致后果主义理论长期受到诟病：人类行动者往往处于一种贫乏的认知地位，实际上不可能知道其所有可能行动的后果，甚至，其欲望的对象未必真的对其有益。人工智能则具有解决这一问题的潜力，在最大程度上实现对人有益的结果。这样的结果类似于雷尔顿（Peter Railton）所提出的“客观化的主观利益”。雷尔顿假设存在一个对自身和环境拥有充分信息，有能力全面而生动地思考他所有可能的选择及其结果，并且没有工具理性层面的任何错误的行动者，这样一个行动者认为其应当欲求的，才是行动者的真正利益。雷尔顿称之为行动者的“客观化的主观利益（Objectified Subjective Interest）”。相比人类自身，人工智能无疑能够在更大程度上实现“客观化的主观利益”。

然而，即便能够更充分地计算作为结果的“价值”，秉承“价值”优先性的人工智能却不能同样好应对另一类针对后果主义的诘难，即有些“正确”的行为恰恰是没有价值的。出于义务的行为通常并不会导致最大的“善”，甚至不会产生任何价值，但我们都有理由依据义务行事。依照罗素的观点，“正当的行为是能产生最大可能的善的行为”与“能产生最大可能的善的行为产生最大可能的善”并不是同义反复[5]。康德阐释的义务就是意志依据道德法则的必然行动，排除了一切出自偏好的根据。即便某一行动没有任何价值，一个行动仍然可能是某人的义务，因而应当被选择。

为应对作为“正确性”判断标准的“价值”同义务相冲突的问题，“理想功利主义”（Ideal Utilitarianism）曾提出了这样的解决方案，即义务也可以被赋予价值，并且其价值可以高于后果产生的价值，因此，“正确的理论应当禁止那些有足够高的概率违反义务的行为，不论其后果如何……”[6]。将有义务的行为视为具有内在善，有望对后果和义务之间的平衡给出合理方案。例如，针对后果主义可能要求关押无辜“替罪羊”以减少社会动荡这一有争议的意见，理想功利主义会回应说，关押无辜者本身就是一件非常糟糕的事，而且确实比它所能减少的社会动荡要糟糕得多。因此，关押无辜者是错误的，如此，他们也就可以得出不违背义务的结论[7]。“行为具有内在价值”的观念对于旨在通过将义务纳入价值论框架来应对相关质疑的后果主义而言至关重要。然而，这里需要注意的是，持这一立场必须承认行为本身是有价值属性的，进而关于某行为的义务或相关道德原则本身是有价值属性的。

行为本身的价值很难得到论证。正如罗斯（R.D.Ross）提出的，“善”是动机和结果的属性，而不是行为的属性。一种行为可以是内在正确或错误的，但绝不是内在善或恶的[8]。众所周知，任何一种在某种情境下正确的行为，都可能在另一些情境下成为非常不道德，甚至是非常荒谬的行为。反之亦然。撒谎是坏行为，但通过撒谎以避免伤害他人感情的行为则显然具有道德价值。坐视一个人失去生命是坏行为，但如果以拯救许多人的生命为前提，对该行为道德价值的判断就会有所不同。

在当代“价值对齐”问题研究中，研究者以两种不同的方式理解“价值”。一方面，价值被理解为人类所珍视和渴望的东西，即人类的偏好；另一方面，价值被理解为伦理原则。这两种理解方案对应着行为结果的价值和行为本身的价值。在以“善”指引“正确”的思路之下，我们对于正确性的探究不可避免地依赖于行动具有的这两个维度的价值。然而，如前文所述，如果行为的价值只能来自于后果，而不具有内在价值，那么就难以确保人工智能行动者在现实道德判断中平衡义务和后果，得出符合常识的结论；如果假设行为具有内在价值，不同境遇中我们对于同一行为价值判断迥异的现实，又很可能导致关于应当/不应当做出某项行为的伦理原则成为错误的行为指导。

更加根本的问题在于，这类立场中的“善”是某种独立的、不可知、不可分析的属性，因而只能得自直觉。如拉什达尔认为一项行为、规则、政策或制度的道德性完全取决于其导致的状态或事态的价值或善，而这些价值是“由道德或实践理性直观地辨别和相互比较的”[9]。摩尔更为直白地表达了价值本应是不言自明的这一观念[2]。的确，人们往往很容易识别某事物为善，但并非所有人都称同样的事物为善。不愿意解释他们所赋予的事物的“善”究竟是什么，就会在“善”的现实应用中带来困惑。例如，很多人工智能伦理研究者都曾明确提出，专家直觉常常不是自洽的，并且是有偏见的[10]。如果直接用以训练人工智能系统，就会犯“自然主义的谬误”。何况专家直觉也会有分歧，这往往导致人工智能无法做出选择[11]。

以上就是以“价值”指示“正确”所面对的主要困难，这些困难是人工智能“价值对齐”须回应的元伦理学挑战。在20世纪的元伦理学争论中，曾产生了另外一种解释“价值”和“正确”之间关系的方案。这类方案用“正确”来指示“价值”，用“理由”来指示“正确”。其所提供的解释能够有效避免上述种种理论困境，推进我们对于“正确行为”的理解。

二、“推诿论证”：确认“正确”的另一路径

“推诿论证（Buck Passing Account）”通过“道义性概念”阐释“评价性概念”，体现了同摩尔相对的另一种元伦理学立场。该理论将对价值的解释推诿给价值以外的性质，从而对“价值”给出了一种“还原论”说明，即如果一事物具有的某种价值以外的“低阶属性”会在适当情况下，给行动者提供对该事物做出积极反应的恰当理由，那么就可判定该事物具有“价值”这一“高阶属性”。“推诿论证”为“价值”提供明确的、可分析的解释，同时为确认“正确”提供了一种更加具有实践可操作性的方案。当代引起大量关注的“推诿论证”是斯坎伦（Thomas Scanlon）在《我们彼此负有什么义务》（1998年）一书中提出来的。在斯坎伦提出其观点之前，也曾出现过非常类似观念。

甚至有人认为，就将价值理解为一种“支持态度”而言，我们可以合理地将这一思路的起源归于康德。康德曾提出，“实践上的善……是通过理性表象来决定意志的东西，因此不是由主观原因决定的，而是客观地决定的……是由对所有理性存在者都有效的理由来决定的”[12]。这种理论以“道义性概念”理由来阐释“评价性概念”善，对两类规范性概念的关系提供了一种不同于摩尔的理解。直觉主义者尤因（A.C.Ewing）也提出过类似观点。尤因在《善的定义》（1947年）中将“善”定义为应当成为“赞成态度”（Pro-attitude）的目标的东西[13]。他提出“赞成态度”旨在涵盖对某物的任何有利态度，例如选择、欲望、喜爱、追求、认可或钦佩等等。当某物本质上是善的，在其他条件相同的情况下，它本身就是我们应当欢迎的东西，如果它存在，我们就应当为之欣喜，如果不存在，我们就应当努力去创造它。我们应当认可对它的获取，应当将失去它视为一种剥夺，如果它有可能到来，我们就应当期待而不是害怕，避免阻碍其产生的东西，等等[13]。所谓“善”就是有“理由”赞成。

20世纪末，作为对摩尔元伦理学思想的反思，斯坎伦在《我们彼此负有什么义务》（1998年）中提出了和尤因类似的观点，即珍视某物就是认为自己有理由对它持有某种积极的态度，并以某种方式对它采取行动。斯坎伦提出，“善和价值纯粹是形式上的、高阶的属性，具有某些低阶属性，正是这些基本的低阶属性，在为以某些特定方式对其采取行动提供了理由的同时，为我们对某对象持有某种评价态度提供了理由。道义性概念“理由”相对于“善”而言是更加根本性的概念，并优先于“善”。正因如此，这一理论被称为“推卸责任”的解释。当我们评估“价值”时，完全可以把论证的责任推卸给那些证明其价值的基础。将某物视为有价值就是认为自己对某物具有某些类型的理由，如钦佩、尊重、保存和保护的理由，促进的理由，以及以某些特定方式行动的理由等。

在对价值给出不同于摩尔的说明的同时，斯坎伦也对如何判断“正确”做出了进一步反思：如果某些价值以外的“低阶特征”提供了行动理由，那么，我们就无需依据“价值”而得到“正确”，而是可依据“理由”得到“正确”。通过对“理由”的探讨，斯坎伦想要驳斥一种错误观点，即除了源自“产生价值的属性”的理由之外，一物的“价值”本身会为我们的行动或为我们对其持有积极态度增添理由。当一个事物是好的，它具有一些基本属性，这些属性为我们提供了采取行动或采取积极评价态度的全部理由。例如，是一个度假区所具有的风景优美、设施完善，或气候宜人等属性，而不是该度假区具有的价值，让我们认为应当前往该度假区。即便该度假区具有价值，这种价值也不会在诸多“低阶属性”带来的理由之外，增加我们对其持有积极态度的理由。又比如，头疼是不好的，但这种价值判断并不会为我们看医生的正确行为抉择增添额外理由。疼痛这一“低阶属性”已经给出了充分理由。

不是善或价值本身提供的理由，而是其他属性提供的理由。这种解释的优势在于，显示了道德价值并非仅仅是主观的或随意的，而是“可知”和“可分析”的，它们均基于能够被分享和讨论的理由。摩尔等直觉主义者往往不能清晰界定价值，对于价值排序也存在分歧。这种情况在人工智能系统的伦理设计中导致很多困难。而“推诿论证”则通过对“善”的还原解释，为解决上述问题提供了一种方案。

“推诿论证”也能够在道德判断中更好地平衡后果和义务。行为的价值可以通过支持它的理由得到说明；同时，行为的正确性，也就是它的规范效力，也来自于支持它的理由。因此，在后果和义务中，“推诿论证”不会偏向某一方。在当代规范性研究中，“理由”概念受到越来越多的重视。人们普遍认可，理由在规范性论证中能够承担重要作用。其中部分观点甚至认为，理由在规范理论中起着根本性的解释作用，多数，以至所有其他规范事实都是以关于理由的事实为基础的。斯坎伦所持有的“理由基础主义（Reasons Foundamentalism）”就是这类观点中的最强版本，虽然该理论引起非常多的争议，但因其受到关注之多，即便持有相反立场的规范性研究也不能忽视对该理论的探究。“理由基础主义”对每一个规范性属性和关系进行量化，声称关于这些属性或关系的事实在根本上全面地基于关于理由关系的事实。同样支持理由基础主义的帕菲特（Derek Parfit）提出，其他重要的规范属性和规范关系均可还原为理由而得到解释，而理由本身则是不可还原的[14]。在规范性属性和关系的类别中，理由是最根本的。理由优先于关于某人应当做什么的事实，同样也优先于价值。

对理由进行考量有助于澄清道德原则的应用方式。我们曾基于各种所珍视的价值，为人工智能制定了诸多道德原则，用于指导它们的行为。然而，任何道德原则均不具有绝对的效力，需要依据特定情境对原则是否能够应用做具体考量。人类的道德判断具有灵活性和情境适应性，而人工智能严格依据预设规则和算法行动，无法像人类一样在复杂情境中通过综合考量做出道德决策，在具体情境中缺乏权衡能力，由此常常导致错误决策。这一状况对人工智能伦理设计构成了显著困扰。

道德原则意在告诉我们应当/不应当做什么。例如，不应当撒谎。任何道德原则所描述的仅仅是行为的某一个特征，例如撒谎，而未涉及其他可能具有重大道德意义的特征。但在现实情境中，我们决定是否要做出的任何一种行为都具有多重特征，被描述为撒谎的行为同时也可能是拯救无辜生命的行为。我们有不应当撒谎的原则，也有应当在可能的条件下拯救无辜生命的原则，在针对某一行为做出抉择的时候，同时可以被描述为X、Y和Z行为，会受到一些原则的支持，同时受到另一些原则的禁止。罗斯在《正当与善》中提出，很难为某人应当做什么制定出模态上充分的条件，是因为关于某人应当做什么的事实实际上是以不同因素之间的竞争为基础的，而这些因素可能会朝着不同的方向起作用。在这种情况下，我们需要依据具体情境，以及具体行动者具有的特殊规范性关系和事实，在X、Y和Z之中选择某些作为我们行动的理由，进而做出行为抉择。理由揭示了行动具有的各种不同属性与行动者之间的关系，以及它们之间的权重比较，因而是良好推理的前提。

在技术研究界，不希望人工智能以极其字面的方式遵循指令是研究者们的普遍共识。至少在西方哲学传统中，每一种主要的道德理论都可能在某些已知的情境下形成强烈的反直觉的道德判断，或者存在明显的证据不足，难以提供充分论证，不能应对伦理原则的冲突等问题。道德原则是抽象的、普遍性的，不包含对于所有适用条件和适用前提的描述，不能够照顾到特定个体的特殊价值排序和个体所处的具体情境。与道德原则不同，基于理由的慎思明确了道德原则的前提条件和我们对冲突的道德原则进行选择的方法。“道德不仅告诉我们以某种方式待人，如不要伤害他人”等原则，道德“还给予我们一些这样去做的理由”[15]。在理由抉择的过程中，被许可/不许可的各种行动并非因为其本身具有的价值而被许可/不许可，行动具有的诸多属性同行动者之间的关系决定了行动是否被许可，对于具体境遇中规范性要素的明确考量为我们判断正确行为提供了更加充分的依据。

三、人工智能伦理抉择中的理由权衡

对齐人类“理由”的尝试通过引导人工智能学习人类理由抉择的方法，促使人工智能做出道德上正确的行动。曾有人工智能伦理设计研究者指出，康德和斯坎伦契约主义的道德理论中所要求的理解“理由”的能力远远超出了大多数现有的人工智能行动者的能力[16]。同时，也有观点认为，对于那些存在正确答案且可以通过推理和权衡证据而回答的问题，人工智能有能力做出比人类更好的回答，至少超级智能能够比人类更准确地做出回答。

在人工智能系统伦理训练中，以“理由”为基础的“正确性”判断已经得到采用。无论最终是否能够为人工智能系统构建非常完善的理由推理知识体系和训练体系，“理由对齐”至少可被视为一个非常具有前景的努力方向：一方面，行动理由是一个行动者就某一具体事态向另一个行动者主张的理由。理由权衡的过程能够引导人工智能关注具体行动者及其特殊境遇，从而将涉及的人类行动者尊重为具有内在价值的实体，同时得出更恰当的行为抉择；另一方面，如果说以“价值”指引“正确”的思路仅仅导向了对于“行为结果”和“行为本身”的价值的关注，“理由”的权衡则能够揭示恰当的“行为动机”对于引导正确行为的重要意义，进一步保证行为结果的合目的性。

（一）尊重人类行动者的行动性

只有一个要在某具体情境中做出行动的主体才可能主张理由。当我们说某物具有价值，我们无需指明施动者。即便周围无人采取任何行动，无人有机会采取任何行动，也无人可以说有理由采取行动，具有价值的某物仍旧是具有价值的。然而，一个独立于行动者，并等待行动者去获取的理由则并不存在。如果我们说某一种情形产生了行动的理由，我们就必须将该理由分配给某个行动者。在反思个体行动者有何恰当的行动理由时，该行动者具有的特定关系以及面对的具体情境就被赋予了道德权重，尊重这些特定的关系和具体的情景就是对于行动者内在价值的尊重，因为这是行动者行使行动性的前提条件。

种种具体的关系和情境，而非价值，决定我们对特定事态应采取的态度或行为。正如某人的贫困本可以为处于适当位置的任何行动者提供理由，但这并不意味着这些特征已经提供了理由。这就是为什么辛格的援助理论受到很多批评。我们不能合理地要求所有人对某个贫困的人进行援助，直到变得和他一样贫困为止。每个有能力援助的人和某贫困的人可能有不同的关系，不同关系决定了其可以合理持有的不同态度。友谊、亲属关系和各种形式的特殊关系都是行动者判断“正确”行为的依据。我们可以对贫困这一现象做出统一的价值判断，但在不同个体的道德慎思中，这一价值将被赋予不同的道德权重。这类似于斯坎伦曾经说到过的“有价值”和“重视”之间的区别。“说我重视我的孩子是很自然的；但如果我说他们是有价值的（除了在每个人都有价值的意义上），那就太奇怪了”[17]。我们珍视自己的孩子超过别人的孩子，但我们并不认为自己的孩子比别人的孩子更有价值。有价值或无价值本身并不是直接给出理由的特征。相比价值，具体情境中的特殊关系同理由判断之间存在更直接的联系。

以理由为导向的推理支持特殊义务，同样支持普遍性的义务。理解理由的能力被视为理性行动者的典型特征，也是他们内在价值的来源。尊重一个理性行动者，就要对他们的这种能力做出充分回应，即以理由与之进行论辩。这种论辩关注特殊理由，如我曾经帮助过你是我现在要求你帮助的特殊理由，同时，只有具有普遍性的特殊理由才能成为辩护性理由，如“对于曾经施以援手的人，所有人都必然负有更多的援助义务”，因此，考虑到我曾帮助过你，你对于我负有更多援助义务。由此得出的道德推理具有普遍性的权威性，在现实场景中也更具有说服力。

理由是一个特定行动者向另一个特定行动者所主张的，这意味着在互动中形成的决策才有可能是道德上正确的。“自下而上”的人工智能训练方法就是对这一原则的响应。“自上而下”的方法将明确的伦理原则植入程序或机器，再通过分析其计算要求寻找能够执行这一理论的算法。与之不同，“自下而上”的方案基于实例而推进，更加注重与人类的互动，从而使其伦理目标超越了价值和原则。模拟对人工实体的进化压力的方法通过与其他人工智能体的反复互动，来发展人工智能体的道德行为，因而无需从上层进行道德理论的编码[18]。有设计者曾提出，一个人工智能行动者不应采取其理性上认为与另一行动者的道德行动方案相矛盾的行动方案，除非得到知情同意[19]。知情同意使得来自经验的理由能够具有某种普遍性。

合理的行动理由来自于对涉及的所有行动者可能持有的理由的权衡，因此，训练集的选取和设计同样关系到这类训练的成败。当代科技的特点是每个个体的决策都可能影响同该行动毫无关系的人，如异种器官移植除了影响接受者，还可能造成全社会范围内的跨物种感染；基因编辑会使人类基因池受到改变；特定算法的应用塑造着所有人的世界观。人工智能得到的经验反馈的范围当然应不仅限于技术使用者，也应包括处于特定情境中的非直接用户的反馈。其训练集还要包括各种不同的价值观，并包含各种不同的人际关系。人们当然不可能在道德上完全达成共识，实际操作中，各方只需就规定特定主题或关系集的原则达成一致即可[16]。一致认可的原则就是处于不同规范性关系中，拥有不同规范性事实的个体均没有合理的理由反对的原则。

（二）关注行动动机的道德意义

具体情境中的理由抉择的过程，不仅揭示了应当怎样尊重一个人类行动者，而且为行为动机赋予了特殊的道德意义。行动者所认可的行动理由，就是他认为支持其行为或至少不能排除其行为的那些因素，而动机的形成正是对那些因素的回应。动机反映了行动者实际上对于理由的权衡和抉择，反映了这些理由实际上如何被用于确定其行为的可许可性。斯坎伦曾在《道德之维》中提出，在很多情况下，道德上正确的判断来自于动机而非结果[15]。在《正当与善》一书中，罗斯曾宣称，无论一行为可能具有何种内在价值……都应归因于其动机的本质，而非行为本身是正当还是不正当[8]。在很重要的意义上，“有价值的行为”或“正确行为”所施加的约束都不仅在于你做了什么，还在于做事的方式，尤其是动机。

动机也能够显示“有价值的行为”和“正确行为”的范围在何处重叠，显示“评价性概念”和“道义性概念”间存在着能够得到明确表述的联系。“理由基础主义”提出，有一类行动既可以被判定为有理由为之，同时也可以被判定为具有价值，它们是“具有价值的正确行动”。使一行动成为“具有价值的正确行动”的是，促使行动者做出该行动的动机理由与其应当据以行动的规范性理由之间存在恰当的匹配。直观地说，行动者出于使行动正当的理由去做这件事使行动具有价值。例如，我并非为了骗取一个人的信任，而是出于真正的关心，在他受伤的时候打电话慰问了他，就是有价值的正确行动。当然，一个人无需为了所有对其而言具有规范性的理由而行动，只需为了其中足够多的理由行动，就能做出具有道德价值的行为。

对行为动机的分析能够有效避免人工智能的错误行为，从而在很大程度上为作为结果的价值提供保障。一方面，即便对于人工智能，行为结果也并非可充分预期，如研究者曾援引元伦理学讨论中的观点“一旦承认必须考虑后果，那么在社会影响的计算中随意停止于任何一点都是武断的”[20]。这里表达的态度是，除非我们清楚了解自身行为的全部后果，否则就不能说知道应当做什么，因此，“在未考察其对人类整体福祉的影响之前就对行为的道德性做出判断是不合理的”[20]。另一方面，我们要求人工智能实现的结果常常最终被证明并非我们真正想要的结果。正如迈达斯国王的故事就是一个警示[21]。在这个虚构的场景中，主人公得到了他所要求的东西——他触摸到的一切都变成了金子——而不是他真正想要的。人工智能被编程为解决某些技术问题的工具，并且它的直接目标就是解决这个技术问题。结果就会使人工智能形成这样一种信念，即解决这个问题的最有效行动就是正确的行动。例如，如果人工智能的唯一目标是制造尽可能多的回形针，并且会竭尽全力抵制任何改变这一目标的企图，那么它可能使用所有可能的资源，将地球乃至越来越多的太空区域改造成回形针制造工厂。这显然不是我们设计这台机器的初衷。然而，在实践中避免这样的结果可能极其困难。人工智能善于完成局部任务，这一特征导致非预期结果增加。

目标是实践推理的起点，而不是实践推理的结论。要“正确地”达成目标，人工智能可能需要理解指令背后的意图，人工智能需要更完整的人类语言和互动模型，以及对人类文化、制度和实践的理解，这些将使得人工智能能够理解术语的隐含意义[22]。因此，技术研究界将大量注意力投入到缩小“指令-意图差距”的任务上是正确的。作为结果的价值可以通过作为动机的价值而得到校正。对动机的关注能够有效限制结果的不确定性，最大程度地避免以伦理上错误的方式实现本应价值无涉的技术目标。如果人工智能被要求制造尽量多的发动机，为实现这个目标，他可能收集汽车、船舶、飞机上使用的铁作为原料，虽然制造了更多发动机，但它造成了更严重的破坏。如果他清楚人类的动机是通过更多的发动机驱动汽车、船舶、飞机，就能够明确取用材料的范围至少不包括汽车、船舶、飞机。目标只是形成动机的考量因素，而恰当的行为动机应包含对目标的反思。

鉴于人类的目标的表达可能总会存在缺陷，“意图对齐”已经被用于确保人工智能行为背后的意图与人类真正的目标一致[23]。例如，逆强化学习可以让人工智能“对激励人们行动的因素进行建模，而非对行动本身进行建模”[24]，不会预先指定旨在最大化的奖励函数，而是专注于“从观察到的最优行为中提取奖励函数的问题”[25]。与依赖固定奖励信号的传统强化学习不同，来自人类反馈的强化学习所收集到的反馈信号是动态的，机器能够辨别哪些行为更有可能满足人类的动机，并根据人类反馈持续更新其行为策略，增强了机器理解行为动机的能力，提升了机器的智能水平。从而在特定任务中的表现随着时间的推移而不断提升。人工智能系统在发展过程中不可避免地会形成自身的价值追求，即实现设计者意图完成的有限的局部任务，但设计者无法预先对人工智能实现这一结果的方式做出足够充分的限定。对齐人类动机能够对人工智能实现特定结果的方式构成有效约束。

四、结语

在人工智能价值对齐研究领域，研究者尝试依据“价值”来确定“正确”。这一立场在元伦理学层面的困难正是人工智能伦理设计中现实困境的来源。元伦理学中的对立立场认为，“价值”是由“正确”所确定的，而“正确”可以由“理由”来确定。以“理由”解释何为正确的行为，能够有效平衡后果主义和义务论；并解释道德原则如何应用于具体情境中的个体行动者，明确道德原则的使用方式和前提条件。

结合人工智能伦理设计领域的前沿方法，进一步阐释以“理由”解释“正确”的理论方案，揭示了这类理论的现实意义。理由的论辩和权衡涉及个体行动者必须考虑的特殊规范性关系和和规范性事实，将个体行动者行使行动性的具体境遇考虑在内，充分尊重了每个个体的内在价值。“理由抉择”也能够揭示行为动机具有的道德意义。相比于关注行为后果或行为本身，关注作为理由权衡结果的“行为动机”进一步保证了行为的合目的性，同时更具有实践上的可操作性。“理由对齐”能够对“价值对齐”面对的困难做出解释，并提供解决的方案，促使人工智能系统在更大程度上做出“有价值的行动”和“正确的行动”。

【参考文献】

[1]The General Conference of the United Nations Educational,Scientific and Cultural Organization.Recommendation on the ethics of artificial intelligence[EB/OL].(2023-11-23).https://unesdoc.unesco.org/ark:/48223/pf0000381137.

[2]MOORE G E.Ethics[M].Oxford:Oxford University Press,1912.

[3]MOORE G E.Principia ethica[M].Cambridge:Cambridge University Press,1903.

[4]RASHDALL H.The commensurability of all values[J].Mind,1902,XI(1):145-161.

[5]RUSSEL B.Russell on ethics:selections from the writings of Bertrand Russell[M].Oxon:Routledge,1999.

[6]D’ALESSANDRO W.Deontology and safe artificial intelligence[J].Philosophical Studies,2024(13):1-24.

[7]ORSI F.David Ross,ideal utilitarianism,and the intrinsic value of acts[J].Journal for the History of Analytical Philosophy,2012,1(2):1-21.

[8]ROSS W.D.The right and the good[M].Oxford:Oxford University Press,1930.

[9]RASHDALL H.Ethics[M].London:T.C.&E.C.Jack,1913.

[10]SCHWITZGEBEL E,CUSHMAN F.Expertise in moral reasoning?Order effects on moral judgment in professional philosophers and non-philosophers[J].Mind&Language,2012,27(2):135-153.

[11]HOOKER J N,KIM T W.Toward non-intuition-based machine and artificial intelligence ethics:a deontological approach based on modal logic[C]//AAAI&ACM Conference on Artifical Intelligence,Ethics,and Society.[S.l.]:AAAI,2018.

[12]GREGOR M,TIMMERMANN J.Groundwork of the metaphysics of morals[M].Cambridge:Cambridge University Press,2011.

[13]EWING A C.The definition of good[M].London:Macmillan,1947.

[14]PARFIT D.On what matters(volumes 1)[M].Oxford:Oxford University Press,2011.

[15]SCANLON T.Moral dimensions:permissibility,meaning,blame[M].Cambridge:Harvard University Press,2008.

[16]GABRIEL I.Artificial intelligence,values,and alignment[J].Minds and Machines,2020,30(3):411-437.

[17]SCANLON T.What we owe to each other[M].Harvard:Harvard University Press,1998.

[18]FORESTA D.Consequentialism&machine ethics:towards a foundational machine ethic to ensure the right action of artificial moral agents[EB/OL].(2020-03-17).https://philpapers.org/archive/DELCM-4.pdf.

[19]KIM T W,HOOKER J,DONALDSON T.Taking principles seriously:a hybrid approach to value alignment in artificial intelligence[J].Journal of Artificial Intelligence Research,2021(70):871-890.

[20]RASHDALL H.The theory of good and evil:a treatise on moral philosophy(vol 1)[M].Oxford:Oxford University Press,1907.

[21]RUSSEL S.Human compatible:AI and the problem of control[M].Bristol:Penguin UK,2019.

[22]HADFIELD M D,HADFIELD G K.Incomplete contracting and AI alignment[C]//Proceedings of the 2019AAAI/ACM Conference on AI,Ethics,and Society.[S.l.]:AAAI,2019.

[23]YI X,YAO J,WANG X,et al.Unpacking the ethical value alignment in big models[EB/OL].(2023-10-26).https://arxiv.org/abs/2310.17551.

[24]V A S QUEZ D,OKAL B,ARRAS K.Inverse reinforcement learning algorithms and features for robot navigation in crowds:an experimental comparison[EB/OL].(2014-11-06).https://doi.org/10.1109/IROS.2014.6942731.

[25]NG A.RUSSELL S.Algorithms for inverse reinforcement learning[J].International Conference on Machine Learning,2000,1(2):2

原载：《电子科技大学学报(社科版)》2025年第3期

分享到

友情链接 中国社会科学网哲学中国网中国儒学网上海社会科学院哲学研究所清华大学哲学系更多>>

地址：北京市东城区建国门内大街5号邮编：100732

电话：（010）85195506 传真：（010）65137826 E-mail：philosophy@cass.org.cn

微信

《哲学中国》

《哲学研究》

《哲学动态》

《世界哲学》

首页

本所概况

党建工作

研究学人

科研工作

学术期刊

人才培养

图书档案

哲学系

点击搜索

伦理学

【李亚明】“价值对齐”还是“理由对齐”？—人工智能伦理设计的元伦理学反思

发布日期： 2025-07-31