发布日期:2024-11-05 04:02 点击次数:108
新算法在数十个完整的人类基因组上进行了训练,在识别复杂结构变异(可能由长段 DNA 组成)方面准确率高达 95%。右侧染色体具有复杂的结构变异,而左侧染色体则没有。图片来源:Emily Moskal/斯坦福医学,已编辑
斯坦福医学院的研究人员开发了一种基于人工智能的方法来识别人类基因组中复杂的结构变异,揭示了影响精神分裂症和躁郁症等精神疾病的遗传因素。
该研究利用了来自全球 4,000 多个基因组的全基因组测序数据,突出了与人类进化相关的大脑相关基因和区域的变异。这种先进的基因分析可以提高我们对遗传性精神疾病的理解,从而更准确地了解疾病机制和治疗途径。
人类基因组的复杂性
人类基因组由 30 亿个碱基对组成——腺嘌呤与胸腺嘧啶配对,胞嘧啶与鸟嘌呤配对——不仅仅是我们身体的蓝图。这些碱基对序列的变化可以揭示疾病的起源并追溯我们的进化史。这些变化范围从涉及几个碱基对的简单交换到更复杂的改变,例如数千个碱基对的长片段翻转或完全丢失部分。
全基因组测序是目前最先进的读取遗传密码的技术,可以有效检测简单的变异。然而,它很难检测更复杂的结构变化。斯坦福医学院领导的一项新研究开发了一种人工智能驱动的方法,现在可以在全基因组测序数据中识别这些复杂的结构变异。
遗传变异与精神疾病之间的关联
这项研究最近发表在《细胞》杂志上,利用来自世界各地的 4,000 多个人类基因组,创建了一个复杂结构变异目录。这些变异通常发生在控制大脑的基因中,并且存在于与人类进化相关的基因组区域。研究人员还表明,一些复杂的结构变异会影响被诊断患有精神分裂症或躁郁症的人的大脑如何读取与大脑相关的基因中包含的指令。
“这项研究是查明精神疾病的遗传和分子基础的重大进步,表明与大脑相关的疾病和具有强烈遗传成分的一般疾病应该进行复杂的结构变异分析,”这项研究的资深作者、精神病学和行为科学副教授、遗传学副教授亚历山大·厄本博士说:“任何全基因组序列都应该通过这种新算法运行;这将使我们能够在目前被忽略的数据中发掘出重要的答案。”
厄本博士和 Stephen R. Pierce 家族高盛科学与人类健康教授及统计学和生物医学数据科学教授 Wing Wong 博士是本文的共同资深作者。
新算法在数十个完整的人类基因组上进行了训练,在识别复杂结构变异(可能由长段 DNA 组成)方面准确率高达 95%。右侧染色体有一个复杂的结构变异——缺失的 DNA 片段(B,橙色)和向后翻转的 DNA 片段(C,紫色),而左侧染色体没有。图片来源:Emily Moskal/斯坦福医学
增强对精神疾病的了解
迄今为止,人类基因组中发现的变异几乎都是简单的。但新算法的输出显示,每个基因组还具有 80 到 100 个复杂的结构变异。
“只寻找简单的变化就像校对书稿时只查找改变单个字母的拼写错误,”厄本博士说:“你会忽略那些乱码、重复或顺序错误的单词——你甚至可能会错过半章的缺失。所有这些都应该在手稿送到印刷厂之前发现。”
人工智能驱动的遗传变异发现
复杂结构变异自动重建算法(简称 ARC-SV)可捕捉所有类型的DNA重排,在发现复杂结构变异方面准确率高达 95%。该算法使用 AI 模型,并针对来自不同血统人群的数十个完整人类基因组(称为泛基因组)进行训练。
该算法发现了 8,000 多种不同的复杂结构变异,长度在 200 到 100,000 个碱基对之间。许多变异位于调节大脑发育和功能的基因组区域。研究人员更仔细地研究了这些变异是否与精神疾病有关。
基因分析和精神病诊断
能够轻松找到并研究复杂的结构变异,有助于解释哪些基因组变异会导致可遗传的精神疾病。这项研究研究了两种这样的疾病,即精神分裂症和躁郁症。全基因组关联研究(GWAS)已确定基因组中许多位置存在被诊断为精神疾病的风险。但 GWAS 结果不足以详细解释遗传风险,因此无法采取行动。
“我们在识别精神疾病的遗传成分方面取得了惊人的进展,但仍缺少一些重要的东西,”厄本博士 说:“GWAS 结果告诉我们与疾病相关的 DNA 变化位于基因组的哪个位置。但 GWAS 提供的信息有些模糊。这就像知道一本书的第 118、237 和 304 页有错误。但我们不知道它们是什么样的错误或涉及哪些单词。”
基因研究的精准性
厄本解释说,虽然 GWAS 的结果可能会指导研究人员在第 118 页上寻找错误,但了解复杂结构变异的序列就像在该页面上的实际 10 个字的句子上用黄色荧光笔标记出一个乱码单词和另一个重复单词一样。
“确实如此。”他强调。
对疾病理解和治疗的影响
研究人员对 ARC-SV 算法的输出进行了测试。他们使用全基因组序列,结合来自健康个体和被诊断患有精神分裂症或躁郁症的人的 100 多个死后脑组织样本的基因表达测量,以研究复杂的结构变异可能产生的影响。这些变异往往位于已知与患精神分裂症或躁郁症风险相关的 GWAS 位置附近或与之重叠。复杂的结构变异还影响了附近基因的表达方式——改变了 DNA 中所含指令的读数——这表明这些变异可能导致了这种疾病。
“识别和研究复杂的结构变异将使我们更多地了解 DNA 的变化方式,并提供分子线索,使我们能够绘制导致疾病和治疗疾病的生物功能轨迹。”精神病学和行为科学讲师兼研究第一作者周波博士指出。
10X Genomics 公司的计算生物学家 Joseph G. Arthur 博士和精神病学博士后学者 Hanmin Guo 博士也是第一作者。釜山国立大学、西奈山伊坎医学院、宾夕法尼亚州立大学、保加利亚科学院、贝鲁特美国大学和 James J. Peters VA 医学中心的研究人员也参与了这项研究。
这项工作得到了美国国立卫生研究院(拨款 K01MH129758、T32-GM096982、P50HG00773506、U01MH116529、R01HG010359、R01AG050986、R01MH109677、U01MH116442、R01MH110921、R01MH125246、R01AG067025、R01MH125244 R01AG066490、U01HG01096、R01HG006137 和 UL1TR002014)、美国国家科学基金会(拨款 DGE-114747 和 DMS1952386)、韩国国家研究基金会、VA 优异奖学金、斯坦福大学斯坦因奖学金和宾夕法尼亚州立大学种子基金。
参考文献:《检测和分析不同人群中人类基因组以及患有精神疾病的供体大脑中的复杂结构变异》,作者:Bo Zhou、Joseph G. Arthur、Hanmin Guo、Taeyoung Kim、Yiling Huang、Reenal Pattni、Tao Wang、Soumya Kundu、Jay XJ Luo、HoJoon Lee、Daniel C. Nachun、Carolin Purmann、Emma M. Monte、Annika K. Weimer、Ping-Ping Qu、Minyi Shi、Lixia Jiang、Xinqiong Yang、John F. Fullard、Jaroslav Bendl、Kiran Girdhar、Minsu Kim、Xi Chen、William J. Greenleaf、Laramie Duncan、Hanlee P. Ji、Xiang Zhu、Giltae Song、Stephen B. Montgomery、Dean Palejev、Heinrich zu Dohna、Panos Roussos、Anshul Kundaje、Joachim F. Hallmayer、Michael P. Snyder、Wing H. Wong 和 Alexander E. Urban, 2024 年 9 月 30 日, Cell。DOI :10.1016/ j.cell.2024.09.014