中山大学粤港澳大湾区数字经济与数据科学实验室

新闻动态

2个立项！中山大学岭南学院申报数字经济核心教材编写项目成功获批立项

研究成果

04/22

2026

中山大学林建浩团队|| 多源数据驱动的金融大语言模型文本分析与交易策略

多源数据驱动的金融大语言模型文本分析与交易策略作者：樊嘉诚：中山大学岭南学院吴俊樊：招商证券资产管理有限公司林建浩：中山大学岭南学院文章刊发：《计量经济学报》2026年第2期摘要：金融市场中信息来源多元且结构复杂, 如何对其系统整合并形成可交易的投资信号, 已成为资产定价研究与实践中的核心问题. 本文基于多源数据和金融大语言模型, 构建了一个涵盖新闻、股价、宏观分析及信号生成模块的智能决策系统, 以 2020–2024 年沪深300 指数成份股为样本, 系统评估了大语言模型生成的投资决策信号的预测能力. 首先, 根据买入、持有和卖出信号构建了三类投资组合, 净值曲线与风险收益指标分析表明, 买入信号组合的超额收益 (23.83%) 显著优于持有信号 (6.96%) 和卖出信号 (-15.08%), 验证了方向性信号具备有效的收益预测能力. 其次, 本文引入买入评分机制, 对买入信号进行细粒度分类并构建投资组合. 结果显示, 高评分的多头组合累计超额收益高达 99.20%, 夏普比率为 0.65, 换手率仅为 41.16%, 表明买入评分对未来收益具有显著的增量预测能力且具有一定的持仓持续性. 最后, 本文利用券商深度研究报告对大语言模型进行微调, 进一步实现了投资策略性能的显著提升. 本文系统展示了金融大语言模型在实证资产定价中的应用潜力, 验证了其在投资信号识别、策略构建及模型微调方面的有效性, 为人工智能赋能金融决策提供了可行路径.关键词：大语言模型，实证资产定价，经济金融文本分析1.研究背景及意义在金融市场中，投资者情绪与市场预期往往蕴含于新闻报道、研究报告等非结构化文本中。随着信息来源日益多元、数据结构日趋复杂，如何系统整合海量信息并形成可交易的投资信号，已成为资产定价领域的核心难题。传统文本分析方法依赖预设情感词典或词频统计，将高维语义压缩为低维特征，不仅难以捕捉跨渠道、跨时间的信息联动，更无法充分刻画文本的复杂性与时变性，难以适应市场叙事的动态演化。与此同时，我国正在加快建设全国统一大市场，深化要素市场化改革。作为要素市场的重要组成部分，金融市场是经济运行的“血液系统”，对于实体经济发展的影响直接且重要。随着改革深化以及逐步开放，我国资本市场与外部市场的联动性日趋增强，但市场内部的信息处理效率和资源配置效率仍有待提升。在此背景下，如何有效利用前沿人工智能技术提升金融市场的信息处理能力和定价效率，具有重要的理论价值和现实意义。作为人工智能技术的代表性成果，大语言模型在自然语言处理领域展现出卓越性能，为经济金融文本分析提供了新的研究视角与方法路径。借助大语言模型，从海量、多源、异构文本中提取投资相关信息成为可能，其优势主要体现在三类互补能力上：一是对经济叙事和市场预期的近似刻画能力，使模型能够从新闻、公告、研究报告及宏观评论中提取有效信息；二是对多源信息的整合能力，使模型能够将分散的、多样化的文本信息映射到统一的语义空间，并在零样本或少样本条件下对新文本进行分析和理解；三是推理与规则归纳能力，使模型能够识别事件之间的因果联系，总结一般性规则或模式。因此，构建基于大语言模型的智能投资决策系统，不仅有助于提升资产定价的效率和准确性，也为深化金融要素市场化改革、促进资本市场高质量发展提供了新的技术路径。2.主要内容本文基于2020—2024年沪深300指数成份股数据，围绕多源信息驱动的金融大语言模型在投资决策中的应用展开系统研究，并从信号预测能力、评分机制有效性及模型微调优化等多个维度进行深入探讨。在方法层面，文章首先构建了涵盖新闻分析、股价分析、宏观经济分析和信号生成的模块化智能决策系统，通过文本嵌入与大语言模型技术对海量财经新闻、市场数据及宏观研报进行结构化处理与语义整合。其中，新闻模块对财经报道进行主题分类与去重摘要，生成结构化的月度新闻总结，有效捕捉市场情绪和企业动态的变化趋势。股价模块识别关联公司并计算风险收益指标，通过对比目标公司与关联公司及市场指数的表现差异，模块生成月度股价总结，为投资决策提供量化的市场依据。宏观经济模块负责捕捉宏观环境变化对投资决策的影响，从通货膨胀、经济增长、货币和财政政策等维度提炼关键信息，生成宏观背景总结。信号生成模块则整合上述信息输出投资决策和建议，并对投资建议进行量化评估。在实证检验层面，文章首先介绍了样本数据构成及模型设定，随后运用投资组合分析方法系统评估大语言模型生成信号的实际预测能力。具体而言，实证检验涵盖以下内容：第一，基于三类投资信号构建等权与市值加权投资组合进行基准检验，验证方向性信号对市场收益的区分能力。第二，引入买入评分机制构建高评分多头与低评分空头组合，检验细粒度评分的增量预测能力及持仓持续性。第三，基于评分排序构建沪深300指数增强策略，并在考虑交易成本与实际调仓约束下评估策略稳健性。第四，开展多源数据消融实验与稳健性检验：通过依次剔除新闻、股价及宏观信息评估各数据源贡献度；替换大语言模型基座、调整文本去重阈值及变换样本筛选标准，强化结论可靠性。第五，利用券商深度研究报告进行金融领域微调，对比无监督预训练与有监督问答微调对模型决策能力的提升效果，深入探讨金融知识增强对信号质量的优化机制。3.主要结论与政策建议本文的研究得出以下主要结论：一是基于大语言模型的智能投资决策系统能够有效整合新闻、股价和宏观经济等多维度信息，生成具有显著预测能力和区分度的投资信号。二是买入评分机制对未来收益具有显著的增量预测能力，且高评分组合具有良好的持仓持续性。三是消融实验表明，新闻和股价信息对策略效果影响最大，而宏观经济信息作用相对有限。四是经过无监督预训练微调和有监督问答微调后，买入与卖出信号的累计收益差进一步提升，表明金融知识增强有效提升了模型的市场判断能力和信号识别精度。基于上述研究发现，本文提出以下政策建议：第一，构建高质量、可共享的金融微调语料库，推动人工智能技术在金融领域的应用。建议监管机构和行业协会牵头，整合券商研究报告、财经新闻、公司公告等多源数据，构建标准化、高质量的金融语料库，支持科研机构和市场参与者开展模型训练与优化。第二，制定针对智能投资决策系统的透明度和可解释性标准。人工智能技术面临着算法黑箱问题，应建立完整的“人工智能+金融”披露制度，要求机构投资者在使用智能投顾或算法交易系统时，充分披露模型的决策逻辑、数据来源和风险特征，保障投资者的知情权和选择权，维护市场公平与稳定。第三，加强对中小投资者的教育和保护，促进智能投顾服务的普惠发展。大语言模型等AI技术不仅能够服务机构投资者，也能够通过智能投顾等形式帮助个人投资者提升决策质量，降低非理性交易行为。建议监管部门在规范行业发展的同时，鼓励金融机构开发适用于个人投资者的智能投顾工具，推动金融信息服务的智能化升级，实现金融科技发展成果的更广泛共享。4.边际贡献与未来拓展本文的边际贡献主要体现在以下两个方面：在方法论层面，本文设计并实现了一个基于大语言模型的模块化智能投资决策系统。该系统将新闻分析、股价分析、宏观经济分析和信号生成功能模块化解耦，不仅具备良好的可扩展性和用户适配性，还引入了具有可解释性的投资信号与细粒度评分机制。这种架构设计突破了传统文本分析方法的局限，实现了对多源异构数据的系统性整合。在应用层面，本文构建了针对金融语境的大语言模型微调方案。利用深度研究报告生成的问答数据对模型进行微调，显著增强了其对金融文本的理解和投资信号识别能力。这一方案为金融领域的模型定制化提供了可复现的技术路径，有助于推动通用大语言模型向专业金融模型的转化。未来研究可从以下方向深入推进：首先，构建跨语言、跨市场的全球化资产配置模型，提取跨市场共性特征，提升智能投资决策系统的多语言与跨市场泛化能力，为投资者提供全球资产配置建议。其次，结合更大规模、更高质量的金融微调语料库，进一步增强大语言模型的金融知识。同时，探索提示词工程、检索增强生成等技术对策略稳定性的影响，以在更大样本规模和更长时间跨度下检验模型的泛化性与稳健性。最后，加强模型可解释性研究和人机协同决策机制探索。5.写作、投稿、修改的过程和心得体会在生成式人工智能技术与金融多源数据分析创新融合的背景下，我们聚焦于大语言模型在多源异构数据整合与资产定价中的应用，围绕智能投资决策系统的构建展开了系统性研究。写作过程中，团队反复推敲与打磨，从提示词逻辑设计到模块化架构搭建，力求精准刻画多源信息融合的决策机制。鉴于《计量经济学报》在计量经济学领域的权威性和严谨标准，我们选择向该刊投稿。论文返修期间，编辑部老师展现出专业和细致的工作态度，外审专家的修改意见直击问题核心，从智能体概念的明确界定、前沿文献的系统梳理到讨论分析的深度拓展提出了富有建设性的指导，对我们完善研究框架提供了重要帮助。衷心感谢《计量经济学报》编辑部的辛勤付出！期待贵刊在人工智能与计量经济学的交叉领域继续深耕，不断提升学术影响力。樊嘉诚 , 吴俊樊 , 林建浩. 多源数据驱动的金融大语言模型文本分析与交易策略. 计量经济学报, 2026, 6(2): 304-324.‍‍Jiacheng FAN , Junfan WU , Jianhao LIN. Text Analysis and Trading Strategies with Multi-Source Financial Large Language Models. China Journal of Econometrics, 2026, 6(2): 304-324.
03/16

2026

人工智能时代的行为科学

作者：杨　扬　中山大学岭南学院孙乐轩　中山大学岭南学院陈良源　中山大学国际金融学院林建浩　中山大学岭南学院文章刊发：《计量经济学报》2025年第6期摘要：人工智能的快速发展对行为科学的研究内容和研究范式带来了深远影响，本文系统总结了这一变化所产生的三个值得关注的研究方向：第一，与人工智能交互过程中的人类态度行为研究以及人工智能对人类决策和偏好的影响机制；第二，围绕大语言模型自身行为特征和偏好模式开展的行为实验研究；第三，人工智能技术带来的方法论创新，包括利用AI智能体代替人类被试进行问卷调查和实验研究以及基于多智能体构建动态交互系统的复杂系统研究。文章最后讨论了人工智能与行为科学的交叉研究所面临的挑战与未来发展方向。关键词：人工智能，行为科学，人机交互，大语言模型，基于智能体的实验01. 引言人工智能技术的飞速发展已经深刻渗透到人类社会经济生活以及各学科领域的科学研究中, 正逐渐成为推动科学进步和产业结构变革的重要驱动力 (洪永淼和史九领, 2024; 谢宇和索菲娅阿维拉, 2025), 为各领域的科学研究范式带来了重要革新 (洪永淼和汪寿阳, 2021,2023, 2024; 程兵, 2023; Charness et al., 2025). 在行为科学领域, 人工智能亦带来了多个层面的深刻影响. 作为一种新兴技术, 人工智能正在根本性地改变人类的决策环境、决策交互对象以及决策机制本身, 从而对人类在决策过程中的各个环节产生了深刻影响, 甚至推动了人类决策范式的重构 (米加宁等, 2025). 从决策前的预期形成阶段来看, 人工智能通过提供个性化推荐、智能预测等服务, 改变了人类获取信息的方式和对未来的预期; 在信息处理环节, 人工智能算法的介入使得信息筛选、分析和解读过程发生转变, 影响着人类对信息的理解和判断; 在最终的决策做出阶段, 智能系统的建议和辅助功能进一步塑造了人类的选择行为. 这些变化不仅体现在个体层面的认知和行为模式上, 还扩展到群体决策、组织行为等更广泛的社会层面. 由此引发了一个全新而重要的研究问题: 人工智能究竟如何影响人类决策,其作用机制是什么? 对这一问题的探索不仅具有重要的理论价值, 对于理解数字时代人类行为的新特征具有关键意义, 同时也具有显著的实践价值, 为设计更好的人机交互系统、制定相关政策法规提供科学依据.同时, 研究者们发现快速迭代的人工智能系统所表现出的行为特征展现出与人类越来越高的相似性和一致性. 这一发现提供了一个全新的方法论思路: 研究者可以利用人工智能系统代替人类被试作为传统行为科学调查和实验研究的对象, 从而生成模拟的研究数据. 这种方法不仅可以大幅降低研究成本, 提高实验效率, 还能够避免伦理约束、样本获取困难等传统实验研究中的常见问题, 使得研究者能够进行更大规模、更复杂的实验设计. 另一方面, 人工智能在决策能力上展现出的复杂度和丰富度也为计算社会科学带来了革命性的进展. 在基于代理人的建模 (agent-based modeling, ABM) 中, 传统模型通常依赖基于简单决策规则的“模型代理人”, 这种简化往往难以准确反映真实世界中决策主体的复杂行为. 而具有高级决策能力的人工智能系统可以替代这些简单的模型代理人, 组成更加庞大、复杂和动态的决策系统, 从而更准确地模拟经济市场的运行机制、社会网络的演化过程以及各种复杂社会现象的涌现规律. 这种方法为宏观经济建模、社会动态预测、政策效果评估等重要问题提供了新的研究工具.人工智能正在从多个维度更新行为科学领域的研究. 本文旨在全面梳理和分析人工智能为行为科学带来的全新研究内容和研究方法, 为相关领域的研究者提供研究应用上的参考和前瞻性思考. 本文剩余部分的安排如下: 第二部分将梳理与人工智能交互过程中的人类态度和行为研究; 第三部分总结关于人工智能对人类行为和偏好的影响研究; 第四部分聚焦于“AI 行为科学” 这一新兴领域的研究方法和主要发现, 即人工智能特别是大语言模型自身所呈现出的行为和偏好特征; 第五部分将重点讨论人工智能带来的新型行为研究方法及应用;第六部分将分析这些新发展对传统行为科学理论框架的挑战和未来的发展方向.02与人工智能交互过程中的人类态度与行为研究人类在与人工智能的交互过程中所呈现的态度和行为变化已成为全新的研究领域. 与人工智能的交互可以分为单向交互和双向交互两类. 在单向交互中, 人工智能作为被人类使用的工具是一种被动的存在, 此时重点关注人类对人工智能的态度和反应, 例如人类面对人工智能究竟是展现出积极的态度还是厌恶的心理, 以及有哪些因素影响了这些心理. 在双向交互中, 人工智能可以作为一个主体, 在交互过程中也能对人类的决策产生影响, 此时更加关注两者的互动会带来人机协同还是会引发新型的人机竞争.2.1 与人工智能单向交互中的人类态度研究在人工智能技术迅速发展和快速应用的背景下, 新技术、新产品的成功部分取决于用户是否愿意采用它们. 因此, 人类对人工智能的态度和心理反应成为了研究者关注的重要问题. 人类一方面会对其带来的生产力提升产生积极态度, 另一方面也会因就业岗位冲击和数据安全等问题而产生担忧. 研究者通过问卷调查了解用户对人工智能的信任、接受或采纳程度, 或者是基于实验情景考察人类对于人工智能的心理反应.Gillespie et al. (2025) 基于 2024 年 11 月至 2025 年 1 月间开展的一项覆盖了 47 个国家和地区的 48340 名受访者的在线调查研究发现, 在人工智能技术加速渗透的背景下, 全球超过半数的受访者仍对其持保留态度. 值得关注的是, 中国受访者对人工智能的信任度和接受程度显著高于全球平均水平, 超 80% 的中国受访者对人工智能应用持乐观态度.人类对人工智能的态度取决于具体应用情境. 在某些情境下, 人类倾向于选择或信任人工智能提供的服务. 在具体应用中, Logg et al. (2019) 发现, 在数值估计和预测任务中, 人类更倾向于采取算法的建议而不是自己的主观意见. 人类在猜纸牌游戏中也更倾向于相信人工智能的建议 (Sharan and Romano, 2020). 这主要是由于此类任务更强调效率和结果的准确性, 人工智能更容易被接受. 类似的情况也适用于专业知识缺乏的情境, 尤其是在人工智能擅长而人类相对不擅长的领域, 如识别卫星拍摄的照片或者从大量过往数据中提炼有用信息等, 人类将更信任人工智能. 此外, 在质量控制不严或者执行人员良莠不齐的环境中, 人类会认为由人工智能执行标准化的任务分配过程更加公平, 因此人工智能可以成为人类的可靠替代 (Bai et al., 2022).在使用人工智能的过程中, 人类可能会过度依赖人工智能的算法推荐, 而出现所谓的自动化偏差 (automation bias) 现象. 例如, 汽车的自动化程度越来越高, 尤其是高级驾驶辅助系统使得自动驾驶成为可能, 而过度依赖自动驾驶造成车祸惨剧的事情时有发生. 自动化偏差现象还广泛存在于医疗、航空等领域. 例如, 医生可能接受临床决策支持系统 (clinical decision support system, CDSS) 的建议而改变原本正确的判断 (Goddard et al., 2012). 个体的经验和态度是产生人工智能自动化偏差的关键因素 (Horowitz and Kahn, 2024), 尤其是那些只具有浅层知识的人, 往往自认为很了解人工智能, 以致无法认识到应用程序的局限性和问题, 因此更容易受到自动化偏差的影响.与此同时, 研究也发现相当数量的人类对人工智能的可靠性等方面持有负面态度, 倾向于避免或不信任人工智能提供的建议或服务, Gillespie et al. (2025) 研究显示, 尽管 66% 受访者已形成了规律性使用人工智能的习惯, 但仍有 58% 的受访者认为人工智能不可信赖. 当人工智能表现优于人类的情况下, 人类仍然对人工智能持负面怀疑态度的现象, 被称为人工智能厌恶或算法厌恶 (algorithmaversion). 由于人工智能厌恶心理, 在可以选择的情况下, 人类会避免使用算法驱动的产品或服务. 例如, 在医疗保健中, 与人类医生相比, 患者通常不太愿意接受医疗人工智能做出的决定 (Longoni et al., 2019). 在人力资源管理中, 求职者倾向于选择人力资源经理做出的人事决策, 而不是人工智能做出的人事决策 (Newman et al., 2020). 进一步地, 一旦发现人工智能给出的建议存在错误, 人类对其信任度会迅速下降, 且往往超过人类犯同样错误时对其信任的下降幅度. 这主要是由于人类更倾向于认为算法缺乏灵活性、无法处理复杂情境或者不具备人类的直觉和判断力 (Dang and Liu, 2024). 因此, 促进人工智能的拟人化和透明度有助于减轻公众的人工智能厌恶心理, 提升对新技术的接受程度.人类对于人工智能究竟是偏好还是厌恶受到多种因素的影响, 包括人类处理相关任务的能力经验、人工智能的准确性、具体的应用场景以及人类掌握的控制权大小. 有研究认为, 在涉及自身利益时人类更倾向于坚持自己的主观判断, 其中人工智能的能力和人类的个性化需求是两个关键影响因素 (Qin et al., 2025). 只有当人工智能的能力被认为高于人类、且不需要考虑人类个体的个性化需求时, 人类才会更偏好人工智能决策. 而当任一条件不满足时, 人类还是会偏好人类决策, 呈现出人工智能厌恶的态度. 例如, 在线上咨询中, 即使智能客服比人类客服对平台相关规则的了解更全面, 但由于顾客的个性化需求较高, 人类依然倾向于选择与人工客服而非智能客服进行交流.2.2 与人工智能双向交互中的人类行为研究随着人工智能技术的逐渐成熟和广泛应用, 需要关注人类与人工智能双向交互的行为研究, 包括人机竞争与人机协作两种关系. 人机竞争 (human-AI competition) 指的是在特定任务或领域中, 人类与人工智能直接进行比较或对抗, 以评估各自的能力或性能. 强调 “比较” 与 “对抗”, 目的是为了识别人类与人工智能之间的优势与劣势, 从而明确哪些任务可以由人工智能代替人类来完成. 目前, 人工智能在众多任务中的表现已超越了人类, 例如国际象棋、医疗咨询和人才管理等这些具有明确规则、模式和目标的任务 (Boussioux et al., 2023). 人机协作 (human-AI collaboration) 指的是人类和人工智能系统共同完成任务, 各自发挥优势, 相互配合, 以此达到比任何一方单独工作更好的效果. 人机协作强调的是一种协同关系, 而不是简单的替代或控制 (Choudhary et al., 2025). 例如, 客服人员利用人工智能提供的知识库、自动回复建议等, 能够更快更准确地解决客户问题. 又如, 医生可以借助人工智能分析医学影像识别病灶, 最终结合人工智能的建议和自己的临床经验做出判断. 在人机协作中, 任务往往被分解成不同的子任务, 由人类和人工智能分别承担各自擅长的部分, 人类和人工智能之间共享信息, 互相协作.基于人机竞争和人机协作两个概念, 人工智能赋能人类团队的方式包括以下两种 (Choudhary et al., 2025). 一是智能化替换型赋能, 即由人工智能替代部分人类进行工作, 二是智能化加强型赋能, 即新增人工智能来辅助提高整个团队的表现. 其中, 模式一的核心在于人类决策者之间的预测误差相似度较高, 通过使用人工智能替换集体中的一个人类决策者, 从而提升整体决策的准确性. 模式二的核心在于通过增加决策主体来提升预测判断的多样性, 从而降低集体判断误差, 提升集体的决策质量. 因此, 在针对一项特定任务时, 应该根据团队中现有人类团队成员之间的预测误差相似度来判断应该选择采用智能化替换型模式还是智能化增强型模式.此外, 在人类行为会对人工智能产生的影响方面, 研究发现人类的反馈和提示也可以增进人工智能的性能表现, Boussioux et al. (2023) 通过实验研究发现, 使用思维链提示法 (chain-of-thought prompting) 可显著提升模型在算术、常识和符号推理等任务上的表现. 思维链提示法是一种大语言模型的提示方法, 使用者在向人工智能模型提出任务的同时也向其演示人类解决此类问题的思考过程, 引导人工智能模仿人类的思维方式给出答案. 他们的研究发现, 人类在使用大语言模型生成广告创意方案的过程中, 对大语言模型的两种提示方式将影响它的性能表现. 第一种是通过提示词同时生成多个不同的广告方案; 第二种是思维链提示法, 先让大语言模型生成第一个广告方案, 接着人类再进一步给出提示要求生成第二个不同的方案, 进而再提示让其生成第三个不同于前面的已有方案以此类推. 研究发现, 这种思维链提示法既保留了不同广告方案的独特性, 又提高了此类创意任务的工作效率. 这意味着人工智能自身的能力固然重要, 但能够巧妙引导人工智能思考和改进的人类用户更是完成任务的重要合作者.03.人工智能对人类行为和偏好的影响研究经过与人工智能的互动, 人类的行为和偏好也可能会发生变化. 已有文献针对这一问题展开研究, 分别发现了正向和负向的两类影响.3.1 人工智能对人类行为和偏好的积极影响人工智能通过分析大量数据并提供决策支持和优化建议, 有助于提升人类决策的准确性, Callaway et al. (2022) 设计了一项策略探索型的序贯决策任务, 并且设计任务中远期结果比眼前结果对参与者的总收益更为重要. 通过实验发现, 人工智能可以在参与者的决策过程充当智能导师的作用, 通过为参与者提供反馈信息的方式, 来引导参与者形成 “长远意识”, 在策略探索中学习最优策略, 从而提升其在实验任务中的表现. 该实验结果指出, 使用智能导师引导的策略学习能有效引导人类在决策中做基于长期目标的规划. 另一项研究是关于人工智能在提升人类围棋能力中的作用. 继 2016 年 AlphaGo 战胜围棋大师李世石之后, 基于与 AlphaGo 类似的深度强化学习算法的人工智能围棋程序 APG 于 2017 年面世. 该应用可用于围棋对弈、学习、研究、对局复盘, 被很多专业围棋选手用于学习和训练, Choi et al. (2025) 分析了 APG 程序对职业围棋选手决策质量所产生的影响. 研究结果表明, 年轻选手及技能水平较低的选手在人工智能辅助学习下展现出更为显著的进步.除了可以在上述具有客观优劣标准的决策问题中提升人类决策质量之外, 在一些个性化决策问题上, 人工智能也能够根据用户偏好提供定制化服务或建议, 提升用户效用. 例如, 在日程管理应用中, 人工智能助理可以总结用户的偏好和习惯, 并据此提供个性化的建议, 帮助个人更有效地管理时间, 并提高其总体生活质量. 在教育领域, 欧盟联合研究中心研究发现生成式人工智能可以根据学生的学习习惯和能力定制课程, 从而提高学习效率 (Tuomi et al., 2023; Navajas et al., 2025).在一些更为复杂的系统性决策问题上, 如通勤出行领域, 人工智能也可以帮助人类提升决策效率和质量. 例如, 新加坡建立的智能交通系统可通过遍布城市的传感器收集交通流量、车速、道路状况等实时数据, 利用算法进行数据分析并预测不同路段的交通流量. 依据这些预测信息交通管理部门可以动态调整交通信号灯的时长, 优化交通流量, 提高城市的交通运行效率.人工智能技术的发展也能通过促进不同人类群体间的互相理解, 从而对社会文化的包容性产生积极影响. 人工智能算法可以实时准确地翻译口头或书面语言, 帮助来自不同地区和文化的客户和合作伙伴打破语言障碍, 建立联系和交流. 同时, 通过及时解释不同文化背景中特定语言和行为的意图和含义, 人工智能还可进一步帮助改善不同语言文化背景群体之间交流时的互动关系. 人工智能可以帮助提升人类对来自其他文化背景群体的理解和同理心, 减少社会偏见, 促进形成更为包容的社会文化.3.2 人工智能对人类行为和偏好的消极影响第一, 当人类过度依赖人工智能给出的优化建议时, 将忽视自己的判断能力, 从而导致决策自主性减弱, 甚至某些技能可能会逐渐退化, Sundaresan and Guler (2025) 基于美国医院采用的智能决策支持系统研究发现, 算法的推荐越准确和有用, 越可能损害医护人员的经验学习. 这主要是因为人员过于依赖算法提供建议, 而非依靠自身经验去调动并内化知识. 人工智能能够迅速提供解决方案, 可能会导致人类的探索欲、创造性和独立思考能力下降.第二, 人工智能可能会降低人类在互动中对他人的情感关注和评价. 为研究与人工智能的互动经历会对人类对他人的评价产生何种影响, Tey et al. (2024) 让实验参与者与一个系统分配的对象共同为一幅图像起一个尽可能有趣的标题. 参与者被随机分配到两个实验组中, 合作对象实际上均为人工智能, 但实验通过两组提示词来操控参与者对合作对象的属性做出不同的判断: 在人工智能组中参与者会知道其合作对象是一个聊天机器人, 而在人类组中参与者会默认合作对象是一个人类. 研究发现, 在人工智能组中, 参与者在与合作者的互动中会表现得更加苛刻, 更注重任务本身, 投入的情感关注较少, 这使得他们在与人工智能交流时, 更像是一种 “工具性” 的交流, 而不像和人类交流时那样充满情感和互动性. 在为画像拟写标题的任务完成后, 每个参与者被要求对合作对象拟定的图像标题打分. 结果显示, 人工智能组的参与者对合作对象作品的评分更低. 这表明在与人工智能进行互动之后, 人类在评价他人时会变得更加苛刻.第三, 人工智能的学习依赖于人类收集的数据, 然而使用这些数据不可避免地包含人类的偏见和价值观, 可能放大算法偏见. 例如, 在智能投资顾问领域, 机器人顾问给出的建议高度依赖其训练数据. 如果人工智能模型的训练数据在某些维度上不具有充分的代表性, 那么这些模型就可能无法准确反映其他人群的投资偏好, 从而给出具有偏误的投资建议. 在针对投资者对不同类型投资产品偏好的调查中, Fedyk et al. (2024) 对比了人类与 GPT-4 的回答, 发现人类调查对象的性别比例相对均衡, 即调查结果覆盖了男女群体的意见; 而 GPT-4 的回答中却默认自己是年轻且高收入的男性个体, 这可能是由于模型训练素材主要来自年轻男性在投资论坛上的发言. 因此, 在没有为大语言模型提示特定特征或微调的情况下, 其生成的投资建议可能会有比较严重的算法偏见问题.第四, 社交媒体上的个性化推荐系统可能会加剧受众的信息茧房问题, 导致观点极端化 (Meng, 2024). 其原因在于, 人工智能可能通过互动反作用于人类认知, 形成 “偏见反馈循环”, Glickman and Sharot (2025) 据此提出了 “人类初始判断→人工智能学习并放大偏见→有偏人工智能输出影响人类新判断→人类偏见进一步强化” 的循环过程, 并在人机互动的情感判断任务验证了这一偏见放大效应. 具体而言, 实验开始时人类对模糊表情归类为 “悲伤” 的比例是 53%, 然后人工智能会将这一微小偏见放大至 65%, 经过与人工智能互动后, 人类重新对 “悲伤” 判断比例又增加 13.6%, 并且会随互动次数显著累积. 这种算法放大偏见可能导致不公平的结果, 例如人工智能生成的职业形象会强化性别、种族刻板印象, 甚至在招聘或司法领域放大现有的歧视问题.04.对大语言模型自身决策行为特征的研究行为科学不再局限于关注人类行为, 也开始关注基于大语言模型构建的 AI 智能体的行为特征. 由于大语言模型实现了对自然语言的深度处理能力, 在文字信息接收和生成方面能够较好地与人类能力对齐. 如果将大语言模型视为经济社会中的一个决策主体, 研究者们进而关注在面对同样以文本形式呈现的决策问题时, 大语言模型与人类的行为决策在各个维度上是否存在差异.4.1 大语言模型的重要能力大语言模型具备三个重要能力: 上下文学习能力、指令遵循能力以及逐步推理能力. 其中, 上下文学习能力指模型能够通过给定的自然语言指令和任务示例, 生成预期的输出, 而无需额外训练或梯度更新, 这种能力在 GPT-3 等大语言模型中表现明显. 指令遵循能力指的是通过对多任务数据集进行指令微调, 大语言模型能够遵循新任务的指令, 在新任务上表现良好, 展现出改进的泛化能力. 当模型规模达到一定程度时, 这种能力会显著提升. 逐步推理能力指的是借助思维链提示法, 大模型可以利用中间推理步骤来解决复杂的多步推理任务, 如数学问题等 (Wei et al., 2022).4.2 大语言模型偏好行为特征的度量及与人类特征的比较大语言模型本质上是通过学习文本之间的统计关联而从海量文本数据中发掘出隐含的规律和模式, 进而展现出类似人类思维逻辑和行为决策的 “涌现” 能力. 正是由于上述能力, 相关研究表明, 大语言模型在回答人格问卷时表现出与人类相似的人格特质, 甚至会产生独特的个性和看似情绪化的反应. 行为学家们通过给 AI 智能体提供禀赋、信息、偏好等设定, 然后在不同场景的模拟中探索它们的行为, 发现智能体的行为特征与人类非常相似, 即在行为特征上大语言模型也突破性地展现出通过 “图灵测试” 的趋势 (林建浩和孙乐轩, 2025), Meng (2024) 表示, 一系列围绕 GPT 呈现出的偏好和行为特征展开的探索研究, 标志着一个新的研究方向 “AI 行为科学” 的出现. 以下是分析大语言模型行为特征的五个典型研究维度.4.2.1 理性水平Chen et al. (2023) 在实验中, 让 GPT 在四个领域 (风险、时间、社会及食物偏好) 做出预算决策, 再根据显示偏好理论的理性标准, 通过评估 GPT 决策的一致性来衡量其经济理性水平. 他们的研究发现, GPT 在各领域的决策中表现出比人类被试更高的理性水平. 进一步地, Bini et al. (2025) 发现大模型在不同行为实验中表现出的理性水平呈现不同规律: 对于研究人类偏好的实验性问题, 随着模型先进程度的提升或参数规模的扩大, 大模型的回答会变得越来越不理性且更具人性化特征; 而对于探究人类信念的实验性问题, 越先进且参数规模越大的大模型所生成的回答在总体上越具有理性特征.4.2.2 人格特征传统行为研究中常用大五人格理论对人类个性进行测验, 包括开放性 (Openness)、责任心 (Conscientiousness)、外向性 (Extraversion)、宜人性 (Agreeableness) 和神经质 (Neuroticism). 这五大人格特征能够显著预测个体的教育成就、社会经济地位、健康情况以及人际关系等, Mei et al. (2024) 测度了 ChatGPT-3 和 ChatGPT-4 的五大人格特征, 发现 ChatGPT-4 在所有五个维度上与人类受访者的中位数水平具有相似性.4.2.3 心智理论能力心智理论 (theory of mind) 能力, 指一个人能够理解和推断他人心理状态的能力 (Kosinski, 2024; Strachan et al., 2024). 这些心理状态包括: 信念 (beliefs), 即知道他人相信什么; 欲望 (desires), 即理解他人想要什么; 意图 (intentions), 即知道他人打算做什么; 感受 (feelings), 认识到他人的情绪和感知. 心理理论水平曾被认为是人类独有的能力, 而实验研究发现近年的大语言模型已涌现出与人类相当的心智理论能力.Kosinski (2024) 和 Strachan et al. (2024) 分别使用一系列不同的心智理论测量方法对不同大语言模型进行了测试, 并与人类表现进行比较, Kosinski (2024) 的研究结果表明, 旧的大语言模型无法正确完成任何测试任务, GPT-3 可以完成约 20% 的任务, 而 GPT-4 开始涌现出心智理论能力, 正确完成了约 75% 的典型心智理论测试任务, 达到 6 岁人类儿童的水平. 此外, Strachan et al. (2024) 通过在研究中测试大语言模型不同维度的心智理论能力, 包括预判错误信念、反讽、失言、暗示、奇怪故事等 5 个具体场景, 这其中既有对人类认知要求较低的能力, 如理解他人的间接请求, 也有对认知要求较高的能力, 如识别和表达误导或讽刺等复杂心理状态. 他们的研究发现 GPT-4 在几乎全部测试中均表现和人类同等的水平, 有时甚至超出人类水平.4.2.4 行为偏好1) 投资偏好Fedyk et al. (2024) 通过针对实际投资者的问卷调查和对大语言模型的模拟调查, 对比发现 GPT-4 能够准确捕捉不同人群在投资偏好上的差异. 基于来自 1272 名投资者关于股票、债券和现金这三种投资选择间偏好排序的调查问卷结果, Fedyk et al. (2024) 在提示词中输入性别、年龄和收入信息, 让 GPT-4 回答相同的问题, 当这一过程重复运行了 1200 次后, 得到的数据显示, GPT-4 能够准确捕捉人类的投资偏好, 对股票的评价最高, 其次是债券, 然后是现金, 这和对真实投资者进行问卷调查得到的结果完全一致. 此外, GPT 也可以较好地捕捉不同人类群体之间存在的偏好异质性. 例如, 在问卷调查中, 女性对股票的偏好低于男性, 而 GPT-4 生成的数据也呈现出了同样的性别差异.2) 跨期选择中的偏好Goli and Singh (2024) 发现 GPT-3.5 和 GPT-4 等大语言模型在跨期选择中的偏好和表现比人类更短视. 他们在实验中让大语言模型回答人类时间偏好测试中的一系列经典问题: 在两个选项中选择, 一个是更早但更小的奖励, 另一个是更晚但更大的奖励. 研究结果表明, 与人类决策者不同, GPT-3.5 表现出对更早奖励的绝对偏好, GPT-4 虽然会受利率变化影响而在两者中做出不同选择, 但整体上仍然比人类更缺乏耐心, 更倾向于选择更早的奖励.3) 预期形成在预期形成方面, 研究将 AI 智能体形成的预期与人类决策主体的同类预期进行对比, 发现 AI 智能体在给定情景中形成的预期信念与人类的预期相近. 例如, Lin et al. (2025) 提出了一套利用大模型智能体模拟人类宏观经济预期的一般性框架, 通过引入模块化设计构建了不同类型的大模型智能体以分别模拟不同人群的宏观预期形成, Hansen et al. (2024) 的研究结果表明大语言模型给出的预测和人类的预测高度相似, 且大语言模型生成的预测往往比人类预测更准确, Bybee (2023) 发现利用 GPT 模型阅读新闻文本而生成的总体预期指标不仅与现有调查指标的变化相匹配, 更重要的是与文献中指出的人类理性预期偏差相匹配, 展示了 GPT 模型作为研究群体预期工具的潜力. 与人类预期偏差表现一致的是, GPT 模型生成的同类预期指标与未来收益同样呈出负相关性, 即可以较好地模拟与人类预期类似的偏差. 进一步地, Zarifhonarvar (2025) 研究了如何运用多种大型语言模型生成家庭的通胀预期, 通过设计包含不同人口特征和信息披露的实验, 比较不同类型大模型在接收政策信号后的预期更新差异, 并对比了其反应模式与人类受访者的异同, 从而为央行测试和优化货币政策沟通策略提供了低成本、高效率的模拟工具, Jiang et al. (2024) 发现, 基于 GPT-4o 生成的调查数据与 2024 年美国大选结果呈现高度一致性, 其准确程度远超大选前其他民意调查得到的结果.4.2.5 行为异质性最后, 虽然大语言模型能够在一定程度上模拟人类行为, 但是现有研究也普遍发现大语言模型的回应更加集中, 缺乏异质性, 而这一行为特征可能与大语言模型的训练过程及对齐方式有关. 例如, Chen et al. (2023) 根据 GPT 在风险、时间、社会及食物偏好等领域的决策数据估计出 GPT 偏好参数, 发现这些偏好参数的分布与人类相应的参数分布相比, 表现出较低的异质性, Rio-Chanona et al. (2025) 指出, 在使用大语言模型模拟实验室市场实验时, 通过提高温度参数并赋予大语言模型多期记忆窗口, 可使其群体行为呈现类似人类的有限理性与趋势追随特征, 显示其 “类人” 程度可通过参数调控, 然而, 其整体异质性仍低于人类被试, 表现为策略分布更集中、极端类型更少, Lin et al. (2025) 发现智能体模拟生成的宏观经济预期分布及预期形成背后的思考路径均比人类被试更为同质化, Wang, Morgenstern and Dickerson (2025) 验证当利用身份提示让大语言模型扮演不同人口群体时, 模型输出的多样性显著低于相应的人类样本, 相同身份下回复趋于雷同, 缺乏真实群体内部的差异与交叠, 这种 “扁平化” 特征源于训练目标对高似然输出的奖励, 使模型在个体层面难以复现人类因经历、立场交织而产生的丰富异质性.4.3 大语言模型行为特征的驱动因素观察到大语言模型在多方面呈现出和人类相似的行为特征后, 学者们进一步关心的问题是它为何会具备和人类如此相似的特征. 对此, 文献尝试做出的解释为: 大语言模型模拟并生成类人预期或信念的能力源于其对自然语言文本中隐含的认知结构和世界模型的学习能力以及与人类相似的学习方式 (Bybee, 2023). 简而言之, 大语言模型是一种基于统计关联的生成系统, 其输出依赖于文本之间的联结关系, 而非基于逻辑演绎的推理陈述. 这种机制与行为经济学中 “联想记忆 (associative memory)” 或 “选择性回忆 (selective recall)” 的概念有着一定程度的契合, 说明大语言模型在模拟人类预期形成方面具备认知机制方面的合理性. 因此, 大语言模型能够模拟人类信念, 不仅是因为它们掌握了语言表达的表层形式, 更在于其在深层结构上复刻了人类通过叙事、经验、联想和回忆等来构建其对世界理解的过程 (Bybee, 2023; Lin et al., 2025).然而, 关于为什么大语言模型在不同维度的表现跟人类行为类似或不同尚待进一步的研究探索. 如何训练大语言模型以使其在各维度接近人类行为的有效方法是一项复杂的挑战, 需要计算机科学家和行为科学家紧密合作.05.基于人工智能技术的实验研究方法创新随着越来越多的研究证据表明大语言模型与人类在行为决策特征上具有相当程度的相似性, 一些研究开始尝试将大语言模型作为实验被试, 替代人类参与者完成行为实验. 目前有两类传统的行为研究方法受益于上述思路, 一类是基于大语言模型智能体模拟的调查研究和微观实验, 另一类是基于多智能体的宏观经济和宏观社会实验研究.5.1 传统问卷调查研究的替代——基于大语言模型的调查研究传统研究中, 为了解人类对特定问题的态度和看法或在特定场景中的行为反应, 最常采用的方法之一是大规模的问卷调查研究. 然而, 问卷调查研究有两个局限性. 第一, 执行成本较高, 限制了数据采集量. 为了保证结果的有效性和可靠性, 需要保证样本的代表性和足够的样本量, 因此往往也需要足够多的受试者, 经济成本较高. 第二, 进行长期跟踪研究的难度大, 常导致大部分问卷数据仅适用于静态分析方法, 限制了分析的维度和深度.基于大语言模型应用的新型调查方法为解决上述问题提供了可能, 其主要流程可以概括为以下两个步骤:第一步, 基于个体特征构建参与者角色. 通常是利用手工采集的个体层面数据, 创建反映真实人类参与者特征的合成角色. 例如, Hansen et al. (2024) 发现 SPF 调查 (the survey of professional forecasters) 的专业预测者通常被视为理性的代理人, 他们依靠广泛的数据分析、定量模型和专业判断来生成预测. 大多数预测者为行业专家或研究人员, 在宏观经济预测方面具有丰富的经验. 该研究首先从费城联储的致谢中整理出预测者的姓名, 利用这些姓名和公开可用的信息, 构建了一个独特的个人预测者的特征数据集, 包括教育背景、职位、所属机构、毕业学校、学位和专业角色等, 为每位预测者创建了详细的档案.第二步, 将个体身份特征和调查问卷输入大语言模型. 基于与人类参与者完全一致的实时宏观经济数据和调查框架, 设定大语言模型扮演的预测者身份特征. 这里需要选择具体的大语言模型, 并在提示词中输入包含个体特征、实时数据和历史预测的具体信息, 再让大语言模型回答相关问题.类似地, Bybee (2023) 利用新闻文本来构建问卷参与者, 并要求大语言模型在阅读新闻文本之后填写对相关问题的预期, 这种预期信息对许多宏观政策制定和投资决策都具有重要意义. 具体做法是向 GPT-3.5 输入《华尔街日报》的历史新闻样本, 并提示其根据每篇文章的文本生成对各种金融和宏观经济变量的预期. 由于 OpenAI 会按 Token 数量计费, 因此处理数据规模庞大的《华尔街日报》新闻文本会产生高昂的费用. 为了降低处理成本, 作者并没有使用《华尔街日报》新闻文本的全样本数据, 而是从每个月的数据中随机抽取 300 篇文章组成一个抽样样本, 以此样本作为模型的输入.部分研究将基于大语言模型得到的调查结果, 与根据真实大规模问卷调查获得的数据进行对比, 证实了 AI 智能体能近似模拟不同类型经济主体的预期或信念 (Hansen et al., 2024; Jiang et al., 2024; Lin et al., 2025), 在预期偏差上也能较好地代表人类 (Bybee, 2023). 这些研究都表明了基于 AI 智能体的预期生成方法在代替传统调查问卷方法上的潜力, 有望成为研究预期的新型工具, 为宏观研究或政策研究提供有效参考依据. 正如洪永淼和汪寿阳 (2023) 所预判的那样, 基于人工智能或由人工智能辅助的经济决策可提供更有效的资源配置方案、改进政策评估精准性, 以及提升经济决策的科学性等.这些研究结果为大语言模型在行为研究中的应用指出了一个具有基础意义的结论: 大语言模型是可以用来模拟人类信念的有效工具. 进一步地, 由于信念是人类决策的基础, 上述结果进而指向了一个全新的实验研究思路——利用智能体进行行为实验.5.2 传统行为实验研究的替代——基于多智能体的实验研究行为经济学经常关心人类在冲突或合作环境中呈现出的行为决策特征以及个体行为带来的经济系统演化. 两种经典的实验研究方法常被用于此方向的研究: 一是人类行为实验, 在行为实验中设定一些决策或博弈环境, 包括经典的独裁者博弈、囚徒困境、最后通牒博弈、公共物品博弈等, 并邀请大量人类被试参与实验, 在实验环境中收集他们的决策行为数据, 以分析人类参与者决策背后的行为偏好、策略习惯等; 二是基于代理的仿真模拟实验, 又称基于代理的建模 (agent-based modelling, ABM), 此方法针对一些个体决策之间存在复杂互动的系统, 由于无法直接求解出理论结果, 通过模拟由代理个体 (individual agents) 组成的系统来研究其行为与相互作用. 模型中, 每个代理代表一个独立实体, 被预设了特定的属性、行为规则和决策能力. 代理之间的交互和环境的影响共同决定了系统的整体行为. 通过对群体中不同类别的个体决策分别进行建模, 再通过数值模拟模型的动态运行过程, 生成大量个体互动中的决策数据, 用于观察和分析复杂性决策系统的动态演变过程.然而, 基于人类行为的实验通常依赖于人类被试在特定时间地点参与, 具有成本高、实验时长受限、数据量较小等约束. 基于仿真模拟的实验也存在一系列局限. 大语言模型能力的突破能够为这两种行为研究方法带来新的进展.5.2.1 基于大语言模型构建的 AI 智能体行为决策实验大语言模型也可以用于开展行为实验. 和传统行为实验采集被试行为决策数据的过程非常类似, 可以将每一个智能体视为一个实验被试, 通过在提示词中对实验环境、决策问题、收益机制等做出清晰的描述, 得到大语言模型生成的行为互动决策数据. 这就是基于大语言模型的一种新的行为科学研究范式——让 AI 智能体直接参与行为实验, 提供实验数据.Lu et al. (2024) 发现基于大语言模型构建的 AI 智能体在决策时展现出了与人类类似的公平偏好, 甚至比真实的人类参与者更倾向于合作. 例如, 在 “独裁者博弈” 实验中, GPT-3.5 作为分配者时, 几乎不会选择独占全部资源, 而是表现出类似人类的公平分配倾向. 此外, 大语言模型还能用于模拟人机混合博弈环境, Lei et al. (2024) 发现, 人类玩家在与人工智能互动时, 行为动机和与其他人类互动时不同. 例如, 在欺骗人工智能时不会像欺骗真人对手那样产生道德负担. 这一现象为研究人工智能介入社会互动提供了新的视角, 也引发了关于人机合作伦理的讨论.针对此类基于大语言模型开展的实验研究, Wang, Yao and Zhang (2025) 就实验的设计与实施流程提出七项通用策略, 旨在规范该类研究的实验设计, 增强研究的可复制性和通用性. 所提出的七项策略包括: 1) 使用默认温度参数并固定随机种子; 2) 除非研究需要, 避免在提示词中为代理分配人设角色; 3) 使用典型的激励方案以便与人类实验进行比较; 4) 对于特别复杂的任务, 在提示词中融入示例和理解性问题; 5) 对于包含多个问题的任务, 使用多轮对话; 6) 在可行性允许的情况下, 尽量使用开放式回答格式; 7) 报告无效回答的比例.5.2.2 基于多智能体的复杂经济系统模拟实验传统宏观经济学理论研究通常是基于代表性主体进行研究, 将经济系统抽象成单一个体进行预期和决策. 然而, 现实世界中经济主体存在异质性, 并且主体的相互交互才构成了复杂的经济系统. 因此, 基于经济主体代理人的仿真模拟建模研究逐渐兴起, 即允许异质性主体在非均衡情况下进行交互 (Axtell and Farmer, 2025), 该模型广泛应用于市场、产业组织、公共政策等诸多领域, 帮助了解集群波动、市场影响、系统性风险和房地产市场等重要市场现象和运行规律.ABM 发展分为两阶段, 早期研究依赖于预先确定的规则, 对经济主体行为假设过于简化, 而近期研究基于学习的模型 (learning-based models) 主要通过大规模行为数据进行训练. 但是 ABM 也存在以下局限性: 第一, 为每个代理设定决策机制非常困难, 需要大量的专家知识和复杂的模型校准; 第二, 采用定制的神经网络会导致模型参数急剧增加, 训练难度极大; 第三, 现有模型通常只关注当前时期的个体情况, 难以考虑过去时期、经济变动以及多种经济因素的影响.由于 AI 智能体在推理、规划和决策方面展现了出色的能力, 具有类人行为, 其预期决策与人类高度接近. 因此, 借助大语言模型可以突破现有 ABM 的局限性, 构建能够模拟人类决策行为的经济代理人, 以提高模拟结果的准确性和现实性, 从而为宏观经济研究提供一个更有效的工具. 这种基于多智能体的宏观经济实验研究, 既能够再现经典的宏观经济现象和规律, 也为未来宏观经济学研究提供了一种新的方法和范式 (Li et al., 2023).一个典型的 ABM 模型由以下几个部分组成: 代理 (agent), 是系统中的基本个体, 每个代理都有自己的属性和行为规则; 环境 (environment), 是代理活动的空间或网络, 可能影响代理的行为; 交互规则 (interaction rules), 是代理之间、代理与环境之间的相互作用规则; 时间步 (time steps), 是系统按离散的时间步推进, 模拟出系统的动态变化过程. 因此, 基于大语言模型构建多智能体的宏观经济学实验研究通常也需要设置相应的模块, 具体流程可以分为以下三个步骤.第一, 基于提示词工程和添加不同模块等方式构建多智能体, 实现复杂经济系统的角色扮演. 通常可以划分为感知模块和记忆模块, 其中感知模块使智能体能够在现实经济环境中扮演异质性经济主体, 促成宏观经济现象的涌现. 例如, Li et al.(2023) 利用大语言模型的语义意识和真实世界知识能力, 为每个智能体赋予了真实世界档案, 包括姓名、年龄和工作. 记忆模块则是让智能体能够记住之前所做的决策和历史信息, 使得经济系统可以多期运行. 经济环境中的决策是一项连续性任务, 历史经验和经济动态对现在的决策起着关键作用, 记忆模块的加入可以帮助智能体充分考虑市场动态, 并获得有价值的决策见解.第二, 搭建经济系统, 通过设定经济场景或者效用函数来明确智能体之间的交互行为, 也可称之为 “行为模块”. 这一步通常是赋予智能体特定的角色任务, 让它进行行为决策. 例如在讨论财政收入和税收影响时, 通常需要模拟个人在现实生活中做出的两个关键决策: 工作和消费. 这两个决策随后会影响政府的财政收入, 并影响劳动力和消费市场的动态. 如在关注公共信息传播如何影响群体预期时, 智能体的行为决策就涉及是否要转发信息以及如何形成预期等. 在这一过程中, 通常将关键经济变量的变化融入提示词中, 加入典型的经济关键词, 以确保大语言模型能够充分感知经济环境的动态, 并在决策中运用相关的经济原理.第三, 进行情景模拟, 通过智能体的个体反应加总成经济效应, 为政策决策提供参考. 例如, 在预测疫情传播与公共卫生策略时, 让 GPT-4 扮演多个社区居民, 并根据疫情状况决定是否外出、是否佩戴口罩、是否接种疫苗等行为, 可以评估在什么时候采取什么程度的策略能够更好地减少疫情传播. 在涉及敏感议题的对话中, 研究者让 GPT-4 充当 “对话协调者”, 实时提供措辞优化建议, 帮助人类参与者以更友好的方式表达观点. 结果表明, 在人工智能的介入下, 讨论的对抗性显著降低, 参与者更容易达成共识. 这一应用为人工智能辅助社会沟通提供了新的可能性, Li et al. (2023) 对比了传统 ABM 模型与多智能体系统在模拟通货膨胀率、失业率、GDP 增长率等方面的表现. 结果显示, 基于多智能体的模拟表现出更稳定且数值合理的宏观经济结果, 也符合菲利普斯曲线和奥肯定律.基于上述流程, 研究者得以观察更为复杂和丰富的系统演化. 进一步地, 郝俞植和谢丹阳 (2025) 在上述流程中通过更多调整, 同时使用基于多个不同 LLM 的智能体生成样本, 以更好地模拟社会中不同认知能力水平的群体, 提升样本的代表性.基于大语言模型多智能体的复杂系统研究具有多类用途 (Lu et al., 2024). 第一是开展宏观经济实验, 以解析社交网络结构的形成和演变. 社交网络塑造了现代社会的信息流动, 人类的关系网络如何形成、信息如何传播、群体如何互动, 都是行为科学的核心问题, Park et al. (2023) 基于大模型智能体构建了一个虚拟 “小镇”, 25 个由 ChatGPT 驱动的 AI 智能体在虚拟小镇中生活和交流, 结果这些 AI 智能体自发生成了类似人类社会中的社交行为, 例如组织一场聚会. 除此之外, 大语言模型还可以用于模拟社交网络的生长过程. 研究者让 AI 智能体在模拟社交平台上自主选择 “好友”, 并分析它们形成的网络结构, Park et al. (2023) 的研究结果显示, 智能体在某些情况下可能因继承了训练数据中的偏见而表现出社交偏见, 从而在社交网络形成的过程中与其他个体进行具有特定倾向性的非随机链接. 例如, 智能体可能更倾向于和具有特定性别或职业标签的用户建立联系, 更倾向于选择特定名字的用户成为好友等. 这一现象指出了人工智能在社交网络研究中的潜在应用.第二是模拟信息传播与舆论演变, 例如舆论如何扩散、群体如何达成共识等问题. 传统研究通常借助统计模型、社交实验或基于规则的计算机模拟, 但这些方法难以捕捉人类交流的复杂性. 大语言模型的引入, 使得社会动力学研究能够更贴近真实世界的互动模式. 研究者开始利用大语言模型构建虚拟社群, 让 AI 智能体之间进行社交互动, 模拟舆论的传播过程. 例如, Piao et al. (2025) 基于大语言模型智能体打造了一个大规模的社会模拟器, 为超过 1 万个智能体生成了社会生活, 模拟了它们之间以及与环境的 500万次交互. 该模拟器可被用于研究极化现象、煽动性信息的传播等关键社会问题.第三是用于政策影响预评估研究. 传统的政策影响预评估主要依赖三类方法: 一是基于历史数据的统计建模, 通过回归分析、时间序列等方法预测政策效果; 二是基于理性人假设的经济学模型, 如 DSGE 模型、CGE 模型等, 通过数学推导分析政策传导机制; 三是小规模的实地试点或随机对照试验, 在局部区域测试政策效果后推广. 然而, 这些方法分别存在一定局限性: 统计建模依赖历史规律, 难以捕捉政策创新带来的结构性变化; 经济学模型基于简化假设, 忽略了个体行为的异质性和社会交互的复杂性; 实地试点成本高昂、周期漫长, 且存在伦理约束和政治风险, 同时小规模试验结果的外部有效性有限. 此外, 传统方法难以模拟政策实施过程中的动态反馈效应、群体行为涌现和多重均衡现象, 对于涉及复杂社会系统的政策评估力不从心. 而基于多智能体的社会模拟器可为政策预评估提供另一种解决方案, 通过模拟具有复杂认知能力的个体, 基于个人经历、价值观念和社会背景做出差异化决策, 可以在短时间内生成大规模的虚拟社会, 通过生成智能体间的大规模互动产生宏观层面的社会现象, 实现从微观行为到宏观结果的涌现过程. 例如 Piao et al. (2025) 基于大规模社会模拟器, 尝试研究全民基本收入政策 (UBI) 的效果.大语言模型和 ABM 的结合, 正在为复杂系统研究带来深刻变革. 从社交网络分析到博弈实验, 从舆论传播到流行病建模, 多智能体展现出了强大的模拟能力, 为研究者提供了新的工具和方法.06.挑战与展望随着人工智能技术的快速发展, 行为科学研究正经历着全新的时代变革. 当前, 人工智能已经影响行为科学领域形成三类主要研究方向: 研究与人工智能交互过程中的人类态度以及人工智能对人类行为决策和偏好的影响机制、研究大模型作为行为主体所呈现出的决策和偏好特征、研究基于前沿人工智能技术的实验模拟方法. 这些创新应用在为研究者提供强大工具的同时, 也带来了新的挑战和机遇.6.1 人工智能技术对行为科学研究的挑战人工智能驱动的行为科学研究面临三大挑战: 首先是数据真实性与样本代表性问题. 基于大语言模型的调查和实验研究虽然能够快速获取大量数据, 但模型回答可能受训练数据偏见影响, 在反映人类认知与行为的复杂性、多样性方面存在偏差. 并且, 由于大语言模型时常出现幻觉, 进一步降低实验调查数据的可靠性. 其次是算法透明度与可解释性挑战. 人工智能大模型的 “黑箱” 特征使研究者难以理解在与人类互动中 AI 行为决策的具体机制, 基于 AI 的研究结论缺乏可解释性, 影响科学可信度和相应发现的可推广度. 最后是行为科学研究中的伦理边界与隐私保护问题. AI 技术使得大规模精确行为建模成为可能, 也会同时引发严重的隐私和伦理担忧, 要求相应领域在科学探索与伦理规范间建立新的平衡机制并形成共识推广.6.2 人工智能技术为行为科学研究带来的机遇尽管面临上述挑战, 人工智能时代的行为科学研究仍展现出广阔的发展前景, 三个研究方向有望成为人工智能时代行为科学研究的重心. 其一, 人机协同行为及其演化将成为核心议题. 研究重心将从静态的 “人机互动” 转向动态的 “人机协同进化” 模式, 深入探究人机协作环境中的决策形成机制. 通过构建更加复杂、动态、智能的虚拟社会系统, 探索如何平衡人工智能与人类在社会决策中的角色, 以满足决策效率、社会平等、人类自主等多元化的决策目标, 这将成为学术界和社会治理领域的重要议题.其二, 基于高频高维数据以及智能算法的行为干预科学的发展. 越来越多高维高频人类行为数据的采集和分析将推动个性化行为干预科学的发展, 基于人工智能的个性化行为干预方案研究将得到越来越多的重视, 并在健康促进、教育优化、消费者保护和社会行为引导等领域发挥重要作用.其三, 人工智能算法与多模态行为数据的结合将推动行为科学研究进入超微观层面. 人工智能算法的强大信息挖掘能力, 结合融合了文本、语音、视觉、生理信号等多种信息的多模态数据, 有望推动人类行为研究突破传统时代的微观决策层面, 进入生物电、大脑反应的超微观层面, 实现对人类偏好形成、决策生成等内在机制研究上的突破性进展.参考文献程兵, (2023). 以 ChatGPT 为代表的大语言模型打开了经济学和其他社会科学研究范式的巨大新空间 [J].计量经济学报, 3(3): 589–614.Cheng B, (2023). Artificial Intelligence Generative Content (AIGC) Including ChatGPT Opens a NewBig Paradigm Space of Economics and Social Science Research[J]. China Journal of Econometrics, 3(3):589–614.郝俞植, 谢丹阳, (2025). 基于多个 LLM 代理的经济和公共政策分析框架 [J]. 计量经济学报, 5(3): 615–630.Hao Y Z, Xie D Y, (2025). A Multi-LLM-Agent-Based Framework for Economic and Public PolicyAnalysis[J]. China Journal of Econometrics, 5(3): 615–630.洪永淼, 史九领, (2024). 人工智能的政治经济学分析 [J]. 学术月刊, 56(1): 43–59.Hong Y M, Shi J L, (2024). The Political Economic Analysis of Artificial Intelligence[J]. AcademicMonthly, 56(1): 43–59.洪永淼, 汪寿阳, (2021). 大数据如何改变经济学研究范式?[J]. 管理世界, 37(10): 40–55.Hong Y M, Wang S Y, (2021). How is Big Data Changing Economic Research Paradigms?[J]. Journalof Management World, 37(10): 40–55.洪永淼, 汪寿阳, (2023). 人工智能新近发展及其对经济学研究范式的影响 [J]. 中国科学院院刊, 38(3): 353–357.Hong Y M, Wang S Y, (2023). Impacts of Cutting-edge Artificial Intelligence on Economic ResearchParadigm[J]. Bulletin of Chinese Academy of Sciences, 38(3): 353–357.洪永淼, 汪寿阳, (2024). ChatGPT 与大模型将对经济学研究范式产生什么影响?[J]. 计量经济学报, 4(1):1–25.Hong Y M, Wang S Y, (2024). How Will ChatGPT and Large Models Influence the Research Paradigmin Economics?[J]. China Journal of Econometrics, 4(1): 1–25.林建浩, 孙乐轩, (2025). 大语言模型与经济金融文本分析: 基本原理、应用场景与研究展望 [J]. 计量经济学报, 5(1): 1–34.Lin J H, Sun L X, (2025). Text Analysis in Economics and Finance with Large Language Models:Fundamentals, Applications, and Future Prospects[J]. China Journal of Econometrics, 5(1): 1–34.米加宁, 李大宇, 董昌其, (2025). 大语言模型引致知识生产方式变革与决策范式的重构 [J]. 管理世界, 41(7):40–58.Mi J N, Li D Y, Dong C Q, (2025). Large Language Models Driving the Transformation of KnowledgeProduction and the Reconstruction of Decision-Making Paradigms[J]. Journal of Management World,41(7): 40–58.谢宇, 索菲娅阿维拉, (2025). 基于大语言模型的生成式人工智能的社会影响 [J]. 经济学 (季刊), 25(2):273–292.Xie Y, Avila S, (2025). The Social Impact of Generative LLM-based AI[J]. China Economic Quarterly,25(2): 273–292.Axtell R L, Farmer J D, (2025). Agent-based Modeling in Economics and Finance: Past, Present, andFuture[J]. Journal of Economic Literature, 63(1): 197–287.Bai B, Dai H, Zhang D J, Zhang F, Hu H, (2022). The Impacts of Algorithmic Work Assignment onFairness Perceptions and Productivity: Evidence from Field Experiments[J]. Manufacturing & ServiceOperations Management, 24(6): 3060–3078.Bini P, Cong L W, Huang X, Jin L J, (2025). Behavioral Economics of AI: LLM Biases and Corrections[J].Available at SSRN 5213130.Boussioux L, Chen H, Fan M, Jain A. (2024). Socratic Iterative Prompt Engineering: Enhancing Large
03/05

2026

鲁晓东副院长出席广东省高质量发展大会并作报告

新春伊始的广东省高质量发展大会，是全省锚定高质量发展航向的年度首场重要盛会，为全年经济工作定调领航，更是凝聚全省各界力量、激活产业发展动能、推动经济社会发展提质增效的关键部署。 2月24日，2026年广东省高质量发展大会“数字经济与贸易新业态”分会场在广州举办，中山大学岭南学院副院长鲁晓东教授受邀出席，并作《中山大学数字经济人才培养的实践探索》主题报告，为广东数字贸易发展注入人才培养新思路。本次分会场汇聚政府机构、国际商会、行业协会、高校以及广物控股、腾讯、亚马逊、汇丰、网易、希音、赛维时代、思谋科技等企业代表共200余人参加，从“看实力、看标杆、看生态、看未来”四个维度，聚焦数字经济与贸易新业态融合发展，鲁晓东副院长的报告成为产教融合议题的重要分享环节。鲁晓东在报告中指出，数字经济是广东高质量发展的核心新引擎，当前行业面临技术与经管知识脱节的人才结构性缺口，恰逢国家“数字中国”战略推进、广东从“人口红利”向“人才红利”转型的关键阶段，中山大学作为湾区高水平大学，肩负起培养数字经济人才的时代使命。他介绍，中山大学以培养数字经济领军人才为核心定位，打破学科壁垒，推动经济金融理论与人工智能、大数据等核心数字技术深度融合，依托岭南学院广深两地办学的双重优势打造湾区特色培养体系，设立全国首批数字经济专业硕士项目，和“金融学+计算机”双学士学位项目（邹至庄班）。学院从学风建设、师资建设、课程体系、教材建设、案例建设、实践环节等六大核心要素构建完善培养体系，升级课程架构并增设人工智能方向，强化实践教学让学生深入企业解决实际问题，同时推行双导师制整合校内师资与企业专家资源，牵头成立省级数字经济学会，构筑产学研用协同创新生态，通过师资与培养体系的双重革新，推动教育链、人才链与产业链、创新链深度衔接，为广东数字经济发展输送复合型领军人才。此次分享不仅充分展现了中山大学在数字经济人才培养领域的先行探索与创新成果，更从高校视角为广东深化产教融合、破解数字经济人才瓶颈提供了实践路径与参考方案，获得与会各界的高度关注与认可。作为粤港澳大湾区高水平人才高地建设的重要力量，中山大学岭南学院将持续发挥人才培养与科研创新优势，深化与产业界的协同合作，持续为广东加快推动贸易数字化、促进数字经济与实体经济互促双强输送高素质复合型领军人才，助力广东在数字经济与贸易新业态发展中持续领跑，为全省高质量发展注入源源不断的高校智慧与人才活力。

>> 更多

数字经济周报

2026/04/30

一、产业动态1.Manus并购案被禁！外资安全审查释放合规信号 4月27日，中国外商投资安全审查工作机制办公室依法依规对外资收购Manus项目作出禁止投资决定，要求当事人撤销该收购交易。该案涉及人工智能关键技术、数据安全、人员与核心业务跨境转移等问题，触发外商投资安全审查。相关解读认为，Manus早期研发和技术团队主要在中国，后续通过总部迁至新加坡、核心资产外移等方式与中国业务切割，形成“洗澡式出海”的合规风险。此次决定表明，关键技术和数据相关企业在跨境资本运作中，需要接受实质大于形式的穿透式审查。该案也释放出明确信号：高水平开放并不意味着放松安全边界，依法监管有助于维护数据安全和产业安全，也为合规外资提供更加稳定的制度预期。（来源：央视新闻）2.全国首例AI模型侵权案披露，模型结构和参数保护获司法明确 4月23日，北京市朝阳区人民法院召开新闻通报会，披露全国首例AI模型侵权案“变身漫画特效”案详情。案件中，原告某科技公司在短视频App上线相关漫画特效后，被告上线视觉效果高度相似的“少女漫画特效”。法院认为，被告特效构成对原告产品的实质替代，损害其竞争利益，构成不正当竞争，判决赔偿经济损失及合理开支共160万元，二审维持原判。该案明确，通过数据训练和优化调校形成的人工智能模型参数与结构，能够带来创新优势和经营收益，属于反不正当竞争法保护的竞争利益，对AI产业创新保护和类案审理具有参考意义。（来源：北京日报客户端）3.全球首个具身智能世界模型架构在深圳发布 4月22日，自变量机器人发布了全球首个世界统一模型架构的具身智能基础模型：WALL-B。基于世界统一模型，WALL-B解决了传统VLA架构在模块间数据搬运上的bug点——在极低数据消耗下，把视觉、听觉、语言、触觉模块全面打通，让机器人不仅具备原生多模态能力，也开始真正理解物理世界的规律。不仅如此，WALL-B还让机器人拥有了更强的自主预测、零样本泛化以及在真实环境中持续生存的能力。（来源：量子位、数据要素社）4.广东发布全国首个省级政务AI一体化体系，创新工场正式实体化运作 4月27日，在广东省人工智能应用对接大会“人工智能+”公共服务专题对接会上，广东省政务人工智能服务平台线上线下一体化运作体系正式发布，打造国内首个省级政务AI线上线下一体化运作体系。平台对标国家“人工智能+”行动部署，成立专项工作专班，出台协同办公、政务服务两大领域应用方案，落地粤政易、粤省事两大智能助手，实现供需匹配、服务优化、经验复用、算力集约、底座可控。（来源：广东政数）5.长沙城市可信数据空间上线 4月23日，2026年长沙数据要素市场化配置改革成果发布会在湖南大数据交易所举行，长沙城市可信数据空间正式上线，标志着长沙市数据基础设施建设实现关键突破。该空间围绕数据流通中“不愿供、不敢供、不能供”等难题，内置智能合约分润机制，推动“谁贡献、谁受益”；通过隐私计算、区块链等技术实现数据“可用不可见”、调用全程留痕；同时提供开放兼容的数据连接服务和一站式上架服务，降低企业参与数据流通的门槛。此次上线有助于推动数据资源从分散沉淀走向可信流通，为长沙完善数据要素市场化配置体系、促进数字经济与实体经济融合提供重要支撑。（来源：湖南日报）二、行业政策1.国家数据局发布关于举办2026年“数据要素×”大赛的通知 4月27日，国家数据局等部门发布通知，将共同举办2026年“数据要素×”大赛，主题为“数据赋能乘数而上”。本届大赛设置16个行业领域赛道和1个数据基础设施专业赛道，覆盖工业制造、现代农业、商贸流通、交通运输、金融服务、医疗健康、城市治理、绿色低碳等重点方向。赛事分为地方分赛和全国总决赛两个阶段，鼓励企业、行政事业单位、科研院所、高校等主体参赛，并支持产学研用联合组队。通知明确，获奖项目将有机会获得政策激励、宣传展示、产融对接、供需对接和人才支持等权益，推动数据要素在多行业场景中加快应用和价值转化。（来源：国家数据局）2.《“数智赋能宁夏·惠及千行万家”全民数字素养与技能提升行动实施方案（2026-2030年）》发布 4月23日，宁夏回族自治区人力资源和社会保障厅发布《“数智赋能宁夏·惠及千行万家”全民数字素养与技能提升行动实施方案（2026—2030年）》。方案提出，到2030年，基本建成覆盖全民、贯穿终身的人工智能素养教育培训体系。在重点任务上，方案面向党政人才、专业技术人才、企业经营管理人才、技能人才、大中小学师生、新型职业农民、城乡居民和老年人等群体，分类开展人工智能素养和数字技能培训，并设置“通用必修+分层分类+行业专项+数字安全”的课程体系。（来源：宁夏回族自治区人力资源和社会保障厅）3.《广东省加快推进人工智能全域全时全行业高水平应用行动方案》发布 4月22日，广东省人民政府办公厅印发《广东省加快推进人工智能全域全时全行业高水平应用行动方案》。方案提出，围绕“人工智能+”科学研究、农业农村、传统产业、新兴产业、服务业、治理能力、民生福祉等七大方向，推动人工智能赋能千行百业、走进千家万户。文件强调以场景驱动、应用牵引、生态协同为导向，重点推进人工智能在电子、化工、机械、智能网联汽车、智能机器人、低空经济、商贸流通、交通运输等领域融合应用，加快发展新质生产力、培育壮大新动能。整体来看，该方案释放出广东加快打造全国人工智能融合应用高地的政策信号。（来源：广东省人民政府）三、研究洞察1.国家数据局公布2026年重大课题委托研究入选名单 4月21日，国家数据局发布2026年重大课题委托研究入选公告。此前，国家数据局于2月13日公开发布课题征集公告，经评审后确定相关课题承担单位及负责人。入选课题共14项，研究方向涵盖数字中国发展指标体系迭代优化、全国一体化数据市场理论、数据立法制度框架、数字经济监测预测、数据资源整合治理、人工智能背景下数据流通利用等内容。承担单位包括清华大学、中国人民公安大学、中国信息通信研究院等。整体来看，本次课题布局聚焦数据基础制度、数据要素市场、人工智能应用和全球数据治理等重点议题，体现出国家数据治理研究和政策储备的持续深化。（来源：国家数据局）2.《浙江省产业数据价值化与浙江数商发展报告（2026年）》发布《浙江省产业数据价值化与浙江数商发展报告（2026年）》分析了浙江省产业数据价值化发展五大态势：一是产业数据价值化改革进入提质扩面新阶段；二是企业数据管理能力加速提升，DCMM贯标与COO制度建设进入加速期；三是行业数据治理由“量”赋能产业高质量发展的积累转向“质”的深化；四是数据要素市场主体乘势而上，产业数据发展生态持续向好；五是数据知识产权改革持续深化；数据资源管理路径日渐明晰。该《报告》首次推出“浙江数商专题”，围绕重点业务树典型立示范，加大路径推广，并对浙江数商发展的特征进行了总结。（来源：数据要素社、杭州经信）

查看全文

>> 更多

专家观点

行业动态

>> 更多

新闻动态

广州市政数局与岭南学院共探数字经济高质量发展新路径

鲁晓东副院长出席广东省高质量发展大会并作报告

2个立项！中山大学岭南学院申报数字经济核心教材编写项目成功获批立项

我院林建浩教授团队编撰《经济金融文本分析》正式出版

研究成果

中山大学林建浩团队|| 多源数据驱动的金融大语言模型文本分析与交易策略

人工智能时代的行为科学

鲁晓东副院长出席广东省高质量发展大会并作报告

数字经济周报

数字经济周报 | 2026年第13期

专家观点

林建浩：数字经济区域性科创生态核心要素是什么？

杨扬：人工智能时代的行为认知与决策

戴芸：个体如何学习理性预期均衡？

林建浩、樊嘉诚、张一帆：信息传播与货币政策不确定性溢价——来自中国的证据

林建浩：AI行业应用场景不断涌现赋能企业转型

行业动态

快速链接

联系我们

新闻动态

广州市政数局与岭南学院共探数字经济高质量发展新路径

鲁晓东副院长出席广东省高质量发展大会并作报告

2个立项！中山大学岭南学院申报数字经济核心教材编写项目成功获批立项

我院林建浩教授团队编撰《经济金融文本分析》正式出版

研究成果

中山大学林建浩团队|| 多源数据驱动的金融大语言模型文本分析与交易策略

人工智能时代的行为科学

鲁晓东副院长出席广东省高质量发展大会并作报告

数字经济周报

数字经济周报 | 2026年第13期

专家观点

林建浩：数字经济区域性科创生态核心要素是什么？

杨扬：人工智能时代的行为认知与决策

戴芸：个体如何学习理性预期均衡？

林建浩、樊嘉诚、张一帆：信息传播与货币政策不确定性溢价——来自中国的证据

林建浩：AI行业应用场景不断涌现 赋能企业转型

行业动态

快速链接

联系我们

林建浩：AI行业应用场景不断涌现赋能企业转型