论文阅读：ICML 2025 Position: Theory of Mind Benchmarks are Broken for Large Language Models

张开发

• 2026/7/2 1:01:06 • 15 分钟阅读

分享文章

论文阅读：ICML 2025 Position: Theory of Mind Benchmarks are Broken for Large Language Models

总目录大模型相关研究 2025版https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2412.19726该论文由IBM Research、Mila及蒙特利尔大学的Matthew Riemer等学者撰写发表于ICML 2025第42届国际机器学习会议。该论文直指当前大语言模型LLM心智理论Theory of Mind评估体系的根本缺陷。作者指出现有基准测试多照搬人类心理学范式仅测量字面心智理论——即预测他人行为的能力却忽视了功能心智理论——即根据预测自适应调整自身策略的能力。这一错位导致LLM看似懂对手实则不会用这份理解。该论文以石头剪刀布游戏为例阐明核心观点当对手连续100轮出石头时LLM虽能准确预测字面能力强却常选择均匀随机出招功能能力弱而非稳赢的布。这种知而不行的割裂暴露出基准测试的误导性——高预测准确率不等于高决策质量。该论文进一步在重复博弈实验中验证开源LLM如LLaMA、Mixtral的字面预测准确率可达90%以上但功能遗憾值Regret却远超简单表格模型。作者呼吁社区重构评估范式将自适应决策置于心智理论研究的核心。

更多文章

前端开发 2026/7/2 11:42:55

再次革新 .NET 的构建和发布方式（三）蚕

1 安装与初始化 # 全局安装 OpenSpec npm install -g fission-ai/openspeclatest # 在项目目录下初始化 cd /path/to/your-project openspec init 初始化时，OpenSpec 会提示你选择使用的 AI 工具（Claude Code、Cursor、Trae、Qoder 等）。 3 O…

张开发

前端开发 2026/6/28 6:42:08

YOLOv12镜像快速上手：手把手教你跑通第一个检测任务

YOLOv12镜像快速上手：手把手教你跑通第一个检测任务 1. 环境准备与快速部署 1.1 镜像环境概览 YOLOv12官版镜像已经预装了所有必要的依赖项，开箱即用。主要配置如下： 工作目录：/root/yolov12（所有操作都在此目录下…

张开发

前端开发 2026/6/28 21:57:33

自由职业程序员的时间管理：比上班更高效

从工位到自由，效率的重新定义当一位软件测试工程师告别固定的工位与打卡机，开启自由职业生涯时，他所面临的挑战与机遇是并存的。表面上看，摆脱了通勤与固定工时，获得了前所未有的自主权；但实际上&#xff0…

张开发

前端开发 2026/6/29 8:11:44

研一必看！导师让找文献却无从下手？一站式搞懂“精准检索-全景梳理-精读”的保姆级教程！

💡 “下周组会，你先随便找几篇这个方向的文献讲讲。”听到导师这句话，研一萌新瞬间汗流浃背。在各大数据库大海捞针，下满一桌面的“未命名.pdf”，打开全英文更是两眼一黑不知从何看起。瞎搜硬干的笨办法只会让你成为痛…

张开发

前端开发 2026/6/28 15:51:36

ComfyUI效果展示：用AnimateDIFF插件制作动态图片，效果惊艳

ComfyUI效果展示：用AnimateDIFF插件制作动态图片，效果惊艳 1. ComfyUI与AnimateDIFF简介 ComfyUI是一款基于节点工作流设计的AI图像生成工具，它通过可视化界面让用户可以像搭积木一样构建复杂的AI图像处理流程。相比其他同类工具&#xff0…

张开发

前端开发 2026/6/29 0:57:47

深入理解UDS：从0x19故障码到0x31例程，一次完整的车辆故障诊断与修复流程拆解

深入理解UDS：从0x19故障码到0x31例程，一次完整的车辆故障诊断与修复流程拆解当发动机故障灯突然亮起时，大多数车主的第一反应是前往4S店或维修站。但在这盏警示灯背后，隐藏着一套精密的车载诊断系统在默默运作。本文将带您走进这…

张开发

前端开发 2026/6/28 18:56:55

KMS_VL_ALL_AIO：智能激活脚本解决Windows与Office授权难题的终极方案

KMS_VL_ALL_AIO：智能激活脚本解决Windows与Office授权难题的终极方案【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 你是否曾因Windows系统突然弹出激活警告而中断工作？…

张开发

前端开发 2026/6/28 17:40:24

Kandinsky-5.0-I2V-Lite-5s镜像优势：Web界面+自动服务+依赖全内置

Kandinsky-5.0-I2V-Lite-5s镜像优势：Web界面自动服务依赖全内置 1. 产品概述 Kandinsky-5.0-I2V-Lite-5s是一款轻量级图生视频模型，专为快速生成短视频内容而设计。通过这个镜像，用户可以轻松实现从静态图片到动态视频的转换，整…

张开发

前端开发 2026/6/28 22:56:24

河南博物院铜门工程案例：国家级文化地标的甲级防火防盗铜门系统

河南博物院作为中原文明的重要展示窗口，其主馆及展厅铜门系统是集安全防护、建筑美学与文化传承于一体的标杆性工程。本文从项目概况、设计理念、材质工艺、核心价值等方面进行系统介绍，为同类文化场馆及高端建筑提供参考。河南博物院一、项目概况项目名…

张开发

前端开发 2026/6/29 2:43:39

AnyTXT Searcher 深度评测「本地磁盘的 Google 搜索引擎，你的文件再也不会“失踪“」

📂 AnyTXT Searcher 深度评测整理 🔍 一句话定位 AnyTXT Searcher 是一款本地全文检索工具。其核心逻辑是：预先对磁盘文件建立全文索引，搜索时直接查索引而非扫描文件，实现接近 1 秒内的跨格式文档内容检索。类比&…

张开发

前端开发 2026/6/29 0:25:57

从臃肿到清爽：Win11Debloat如何让你的Windows重获新生

从臃肿到清爽：Win11Debloat如何让你的Windows重获新生【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and cu…

张开发

前端开发 2026/6/28 21:43:28

小白程序员快速上手大模型：RAG 应用开发实战与收藏指南

本文深入浅出地解析了RAG（检索增强生成）技术的核心概念与实战流程，针对大模型在领域知识、幻觉问题、信息时效性及数据安全等方面的局限性，阐述了RAG如何通过检索知识库来弥补这些不足。文章详细介绍了RAG的三个核心阶段&#xff…

张开发

论文阅读：ICML 2025 Position: Theory of Mind Benchmarks are Broken for Large Language Models

最新文章

Windows Cleaner：免费开源工具，高效解决C盘空间不足问题

WarcraftHelper终极指南：魔兽争霸3全版本兼容性修复与性能优化完整方案

除了RTKLIB，还有哪些轻量级工具能一键把坐标序列转KML？实测3种方案对比

第四篇：Vibe Coding 深度解析（四）：生产级落地的工程化体系与避坑指南

python passlib

5分钟快速上手：xrdp开源远程桌面服务器完整配置指南

推荐文章

相关文章

分享文章

更多文章

再次革新 .NET 的构建和发布方式（三）蚕

YOLOv12镜像快速上手：手把手教你跑通第一个检测任务

自由职业程序员的时间管理：比上班更高效

研一必看！导师让找文献却无从下手？一站式搞懂“精准检索-全景梳理-精读”的保姆级教程！

ComfyUI效果展示：用AnimateDIFF插件制作动态图片，效果惊艳

深入理解UDS：从0x19故障码到0x31例程，一次完整的车辆故障诊断与修复流程拆解

KMS_VL_ALL_AIO：智能激活脚本解决Windows与Office授权难题的终极方案

Kandinsky-5.0-I2V-Lite-5s镜像优势：Web界面+自动服务+依赖全内置

河南博物院铜门工程案例：国家级文化地标的甲级防火防盗铜门系统

AnyTXT Searcher 深度评测「本地磁盘的 Google 搜索引擎，你的文件再也不会“失踪“」

从臃肿到清爽：Win11Debloat如何让你的Windows重获新生

小白程序员快速上手大模型：RAG 应用开发实战与收藏指南