植物表型分析越来越依赖于(半)自动化的基于图像的分析工作流程,以提高其准确性和可扩展性。然而,许多现有的解决方案仍然过于复杂,难以重新实现和维护,并对没有大量计算专业知识的用户构成很高的障碍。为了应对这些挑战,
本文提出了PhenoAssistant,一个开创性的人工智能驱动系统,通过直观的自然语言交互来简化植物表型。PhenoAssistant利用一个大型语言模型来编排一个精心策划的工具包,支持包括自动化表型提取、数据可视化和自动化模型训练在内的任务。通过几个有代表性的案例研究和一系列评估任务来验证PhenoAssistant。通过大幅降低技术障碍,PhenoAssistant强调了人工智能驱动方法在植物生物学中普及人工智能的前景。
2. 背景与意义
- • 挑战:植物表型分析依赖复杂计算流程(图像处理、机器学习、编程),技术门槛高,限制非计算机专家使用。
- • 解决方案:开发PhenoAssistant,首个开源多智能体AI系统,通过自然语言交互自动化植物表型分析,降低技术壁垒。
3. 系统架构
- • 核心组件:
- • 管理器LLM(GPT-4o):解析用户任务,规划步骤,调用工具,总结结果。
- • 专用工具包:
- • 视觉模型库:预训练植物专用模型(如叶片分割、分类)。
- • 自动模型训练:支持用户上传数据微调新模型(如营养缺乏检测)。
- • LLM智能体:代码生成、数据可视化、统计分析、文献检索(RAG)、结果复现。
- • 用户交互:全程可控,可修正计划或参数,支持保存/复用分析流程。
4. 三大案例验证
案例1:拟南芥生长模式分析
- • 任务:从图像提取叶片面积/数量、统计不同生态型生长差异、验证文献结果。
- • 结果:复现《Phenotiki》研究结论(如ein2生态型PLA最大)。
案例2:马铃薯叶面积与干重相关性
- • 任务:评估自动测量的叶面积(PLA)与人工测量值在预测干重中的差异。
- • 结果:PLA与干重相关性(r=0.76)低于人工测量(r=0.89),提示模型误差。
案例3:冬小麦营养缺乏识别
- • 任务:无现成模型时,用户上传标注数据集,系统自动训练分类模型(准确率81.3%)。
5. 性能评估
- • 工具选择:70%成功率(错误因误解工具用途)。
- • 视觉模型推荐:98%准确率(错误仅在模糊任务如“植物活力评分”)。
- • 数据分析:100%完成CSV统计、绘图等任务。
6. 创新点与局限
- • 创新:
- • 自然语言驱动复杂表型分析。
- • 可扩展性:支持新模型训练与流程复现。
- • 局限:
- • 复杂任务需分步指导。
- • 罕见场景适应性待验证。
7. 资源链接
- • 代码:https://github.com/fengchen025/PhenoAssistant
- • 数据:案例数据公开(如Phenotiki、Zenodo等)。
图1 PhenoAssistant的设计。用户向PhenoAssistant提供数据和任务描述。LLM创建一个分步计划,选择并执行适当的工具,然后总结工具输出以完成任务。用户保留完全控制权,可根据需要改进中间步骤。“管理器”上面的图标改编自www.flaticon.com的surang,“工具箱”和“输出”旁边的图标改编自www.flaticon.com的Freepik。
图2 案例研究1:拟南芥生长模式分析。PhenoAssistant自动完成五项任务:从图像中计算表型,绘制表型统计数据,分析生成的图,对不同的生态型进行统计测试,并将结果与文献进行比较。每个任务都显示为任务描述(灰色)、PhenoAssistant使用的工具(蓝色)和结果(白色)。
图3 案例研究2:马铃薯叶面积与干重的相关性分析。为了响应用户的请求,PhenoAssistant首先从提供的数据中提取表型,然后比较不同植物相关变量之间的相关性。
图4 案例研究3:营养缺乏识别的自动模型训练。当没有合适的模型可用于解决给定的任务时,PhenoAssistant首先提示用户提供所需格式的数据集。然后,它会自动应用数据预处理,然后对模型进行训练和评估。训练好的模型保存在模型动物园中以备将来使用。
Feng Chen, Ilias Stogiannidis, Andrew Wood, et al. (2025) PhenoAssistant: A Conversational Multi-Agent AI
System for Automated Plant Phenotyping. arXiv: 2504.19818v1.