持续数月的新冠疫情一路肆虐、席卷全球,世界各地的科研人员都在为此奋战,希望通过最先进的技术逐步揭开新冠病毒的神秘面纱。近日,微软亚洲研究院的研究人员基于在计算生物学、数据分析等领域的专业知识和研究经验,构建了新冠数据分析网站 COVID Insights (covid.msra.cn),该网站以学术研究和科普为目的,希望透过数字表面,更深入、多角度地分析 COVID-19(2019冠状病毒病)相关数据。
COVID Insights 网站主要包含感染数据分析、基因组和蛋白质结构、研究趋势三大板块,以可视化和互动的方式直观展现了疫情在不同国家和地区的传播特性、引起疫情的病毒 SARS-CoV-2的病毒学分析结果,以及全球最新的相关研究热点。网站使用的所有数据均来自约翰霍普金斯大学、美国疾病控制与预防中心、GISAID 等机构的官方发布。基于这些公开数据,研究员们利用先进的技术挖掘疫情数据背后隐藏的规律和洞察,为进一步拓展对疫情的思考提供有价值的参考。
哪两个地区的疫情发展最相似?
感染数据分析页面通过对 COVID-19数据的深度分析,呈现了跨国家和地区间传播动态比较。例如,通过分析我们发现德国从2月27日到3月14日的数据趋势曲线与韩国从2月18日到3月5日的数据趋势曲线很相近。因此韩国在3月5日以后开展的各项疾控措施对3月中旬的德国来说可能具有更为精准的借鉴作用。
在这里,研究员们将 COVID-19时间序列数据在低维欧式空间中进行表示。对于一个给定的地区和时间片段,在这个空间中使用一个向量来反映其数据的趋势。这样就可以有效地发现哪些国家或地区、在哪些时间段的数据发展相似,找到合适的参考对象。
此外,该页面基于四个不同地区的开源数据,为与感染相关的高风险活动提供了一个统一的数据分析视角,方便对比地区间传播数据的差异。例如,对法国来说,许多感染是通过“群众聚集”发生的,而对新加坡来说,“国际旅行”是造成感染的最主要原因。
由于各地区的数据差异较大,有效信息或展现在不同的尺度上,或隐含在冗长的病例通报中。研究员们将非结构化的病例描述映射到统一的高风险活动分布中进行可视化,很好地解决了这个挑战。对于高风险活动的归因分析,尤其是不同地区的不同归因结果,可以为预防感染提供个性化参考。
SARS-CoV-2在全球哪些地区发生了变异?
COVID Insights 网站的“基因组和蛋白质结构”页面展示了 SARS-CoV-2的最新病毒学分析结果。新型冠状病毒 SARS-CoV-2演变至今,已发生很多处基因组变异,用户可以通过交互探究病毒序列中发生变异的氨基酸及其位置,该变异发生的地理位置以及相应的蛋白质结构。
研究员们从全球流感序列数据库 GISAID 上下载新型冠状病毒 SARS-CoV-2基因组数据。然后,以病毒株 Wuhan-Hu-1(GenBank MN908947.3)作为参考序列,确定出各病毒序列中发生变异的氨基酸及其位置。对每一个存在变异的位置,研究员们通过计算熵显示该位置氨基酸的多样性及其在各地区的分布和时间线。
研究员们还将 SARS-CoV-2病毒核酸序列转化成蛋白质序列,并将整个序列按照不同区域进行分割,最终呈现出蛋白质三维结构。此外,用户还可以看到 SARS-CoV-2与包括 SARS、MERS 在内的四种冠状病毒的基因组比较分析,了解它们之间的异同。
关于疫情和病毒的最新研究热点有哪些?
在研究趋势页面,用户可以通过可视化信息了解当前新冠相关主题的热门论文和主题变化趋势。研究员们通过自动聚类技术,对于热词进行聚合形成词云,并且通过每周更新展示时间粒度上的变化趋势,希望可以给研究者们带来更多启示。