image: 多层次测试标准框架覆盖空间关系、空间场景和提示工程三个维度,并使用标准化脚本加以统一与规范。 view more
Credit: 北京中科期刊出版有限公司
近日,《地球信息科学学报》杂志在线发表了北京化工大学信息科学与技术学院研究生吴若玲和郭旦怀教授的研究成果。该研究团队在研究现有大语言模型特征的基础上,开展大语言模型在空间认知问题上的测试标准研究,分别从空间场景中的空间对象类型、空间关系和Prompt策略3个维度研究构建测试体系,包括3种空间对象类型、3种空间关系和3种提示工程策略,最终形成一套具备大语言模型空间认知能力的测试标准框架SRT4LLM和测试流程,用以评估大语言模型的空间认知能力。
通过对8个不同参数的大语言模型进行多轮测试,验证SRT4LLM标准的有效性和结果的稳定性。测试结果表明,输入空间对象的几何复杂度影响大语言模型空间认知,不同大模型表现差异较大,但同一大模型得分较为稳定,随着空间对象几何复杂性和空间关系复杂度的增加,大语言模型对3种空间关系的判断准确率最大仅有7.2%的小幅下降,显示本测试标准在不同场景间的较强的适应性。改进的提示工程能够部分改善大语言模型的空间认知问答得分,且不同大模型的改善程度差异较大,本标准具备挖掘大模型空间认知能力的能力。同一大语言模型多轮测试表明测试结果收敛,大模型之间的分值差也较稳定。SRT4LLM具备度量大语言模型空间认知能力的能力,可作为大语言模型空间认知能力的评估的标准化工具。
这项发表于《地球信息科学学报》的研究为后续工作奠定了重要基础,强调需进一步优化SRT4LLM标准,并探索更多提升大语言模型空间认知能力的方法和策略。研究成果为下一步构建原生的地理大模型提供支持,有助于推动大语言模型与地理信息科学的深度融合。
研究详情请见原文:
大语言模型空间认知能力测试标准研究
https://www.dqxxkx.cn/CN/10.12082/dqxxkx.2025.240694
Article Title
Research on Evaluation Standards for Spatial Cognitive Abilities in Large Language Models
Article Publication Date
25-May-2025