
在这个星球上,生长着各类形态各异、不同种类的植物。然而,我们对其却所知甚少。2000年,首个植物基因组——拟南芥基因组发布,26年过去,仍有超过99%的陆地植物缺乏高质量的参考基因组,这严重限制了人类对植物多样性、适应性及功能潜力的深入认知与应用开发。

绘制完整的“植物生命之树”
在亿万年的进化历程中,植物演化出了多样的形态,追溯植物进化史上的关键“节点”,有助于揭示植物进化中共有和特有性状的遗传基础。然而,由于基因组数据的零散与缺口,许多关键进化关系悬而未决。

五大布局,解锁植物研究新图景
“植物星球计划”是由中国科学家发起并主导的国际大科学计划,已汇聚15国40余个机构的科研力量。具体来讲,将围绕基础生物学,作物育种,生物多样性保护,天然产物药物发现和AI工具开发等五方面布局。
一是构建覆盖主要植物分支的基因组图谱,揭示植物多样性形成与演化的遗传规律;
二是用系统基因组的”望远镜”纵览进化长河中的进化约束位点,用群体基因组的”显微镜”检测适应性变异和功能位点,二者结合,实现作物育种关键位点的”双重锁定”与精准靶向;
三是利用基因组数据高效评估物种遗传多样性及灭绝风险,为制定科学的保护与修复策略提供核心数据支撑;
四是系统性挖掘植物合成天然产物的遗传密码,加速创新药物发现,服务人类健康;
五是利用人工智能破译植物基因组的分子序列法则,推动生命科学研究范式的根本性转变。
让AI读懂植物的“共同语言”
值得注意的是,有了关键的基因组数据,如何处理、利用数万个基因组产生的海量数据成了“植物星球计划”面临的另一大难题。“面对如此繁杂的数据,人工很难处理。”王丽说。为了进一步加速项目进度,减轻人工负担,“植物星球计划”引入了人工智能算法和模型,让AI学习并破译植物的“共同语言”。
王丽介绍,与自然语言处理模型通过学习海量文本掌握语法和语义类似,基因组语言基础模型将通过分析数以万计的不同植物基因组,学习识别DNA序列中保守的“语法”规则、调控元件的组织逻辑以及功能模块的编码模式。“破译了植物的‘共同语言’,我们才能知晓植物在4.7亿年进化历程中的生命基本法则。”王丽说。
庞大的植物基因组数据库的作用还远不止此。随着气候和生态环境的变化,不少植物正在加速消失。传统的保护措施常受限于表型数据的匮乏和采集难度,“植物星球计划”通过分析基因组中的遗传多样性等指标,可以比传统野外监测更高效率地识别出那些遗传基础脆弱、濒临灭绝的物种,从而精准评估植物的濒危状况,为生物多样性评估、稳健保护决策的制定等提供理论依据。此外,通过挖掘植物中抗病、抗旱、耐盐的基因,有助于培育出具有气候韧性的“未来作物”,保障粮食安全。

来源:光明网
