分享一篇鲁东大学发表在《智慧农业导刊》上的一篇关于小麦GS的研究文章,题目为:基于人工智能算法的小麦全基因组选择育种技术研究。
这篇文章的核心内容是研究如何利用人工智能算法进行小麦全基因组选择育种技术的研究,以提高小麦产量并筛选出影响小麦性状的关键基因序列。文章通过对比五种机器学习模型和两种传统育种模型,对小麦的六个重要性状进行预测和选择,旨在为小麦育种提供新的技术支持。
背景知识
小麦作为中国重要的粮食作物,对于保障国家粮食安全具有重要意义。在人口众多、耕地有限的国情下,提高小麦产量尤为关键。传统育种方法依赖于表型选择,周期长且受环境和基因共同影响,存在不稳定性。随着育种技术的发展和大数据时代的到来,研究重点转向分子层面,全基因组选择(GS)作为一种高效育种方法应运而生。
研究方法
文章中使用了全基因组选择(GS)技术,通过覆盖整个基因组的遗传标记信息来估计未知表型的个体育种值。研究中对比了五种机器学习模型(Linear-SVR、RBF-SVR、Ridge、LightGBM、XGBoost)和两种传统育种模型(GBLUP、BayesA),以预测和选择小麦的六个重要性状:籽粒产量(GY)、抽穗天数(HD)、株高(PH)、穗长(SL)、千粒重(TKW)和每平方穗数(SN)。
数据来源和预处理
- • 数据来源:小麦基因组数据来源于文献[13],包含166份材料,6个相关性状,共81,587个SNP标记。
- • 数据预处理:对基因型数据进行编码,处理缺失值,若缺失数量大于总样本数的10%,则删除该列;若小于10%,则以该列众数替换缺失值。
全基因组选择模型
- • 传统育种模型:
- • GBLUP模型:基于群体标记信息构建亲缘关系矩阵,适合多微效基因控制的性状。
- • BayesA模型:标记效应服从先验分布,适用于少数大效应标记控制的性状。
- • 机器学习模型:
- • RBF-SVR模型:使用高斯径向基函数进行回归分析。
- • XGBoost模型:基于GBDT的优化算法,提高计算效率和预测精度。
- • LightGBM模型:快速处理海量数据,采用histogram算法和leaf-wise生长策略。
- • Linear-SVR模型:捕捉样本局部变化趋势,提高预测精度。
- • Ridge模型:线性回归模型,适用于处理多重共线性数据。
模型训练和调参
通过随机搜索对模型参数进行调整,主要参数及对应6个性状的最优值见表1。
关键结论
- • 模型预测准确性:通过十轮十折交叉验证,评估了7个模型对小麦基因组预测的准确性。结果显示,GBLUP、Ridge和Linear-SVR对小麦产量具有较高的预测准确性。
- • 模型稳定性:Ridge模型在多个性状上表现出较高的预测准确性,具有较强的稳定性。
- • 模型优势差异:传统育种模型与机器学习模型在不同性状上呈现出不同的优势,没有一种固定的单一模型适用于所有性状。
研究意义
文章通过对比不同模型,为人工智能算法在小麦全基因组选择育种中的应用提供了有益的技术支持,有助于提高小麦产量和筛选关键基因,对于保障国家粮食安全具有重要意义。
DOI: 10.20028/j .zhnydk.2022.19.002