大数据科研分析平台在临床医学研究中的应用

  导读:利用大数据科研分析平台,改善临床研究工作流程,提高试验效率,加速成果转化。以大数据科研分析平台的建设为切入点,从数据采集、数据处理及统计分析等方面,探讨其在临床研究尤其是真实世界研究中的应用效果。大数据科研分析平台在临床研究中的多个环节都起到了切实有效的辅助作用,缩短了试验周期,降低了研究成本。大数据科研分析平台利用自然语言处理、机器学习等人工智能技术,深度挖掘临床研究中的数据内在价值,多层次、多角度满足不同科研需求,有着广阔的应用前景。

  随着循证医学、转化医学以及药物经济学等在我国的迅速发展,以及国家对临床医学研究的大力倡导,医生的科研需求持续增加。而传统RCT(randomized controlled trial,随机对照试验)试验由于其外部有效性、推广性有限,无法评价药品在真实临床环境下的作用等,近年来,基于真实世界的研究(Real World Study,RWS)正越来越多地受到医疗卫生领域的关注。RWS作为一种药品上市后的再评价方法,可以更好地反映出药品在实际临床使用过程中的有效性、安全性以及经济性等。但由于其所需样本量较大,通常涉及海量医疗数据,以往依靠人工操作的科研方式不仅耗时耗力,且极易出现人为错误,难以保证数据质量及科研实施的效率。

  与此同时,随着我国医院信息化水平的日益提高以及信息系统覆盖率的逐渐增加,各医院积累的诊疗数据呈指数级增长,为开展基于大数据的RWS研究提供了广泛基础。因此,如何利用大数据及人工智能技术,积极助力RWS的开展,提高其质量与效率,成为亟待解决的问题。

  真实世界研究概念及特点

  概念所谓真实世界研究(RWS)是指在临床真实条件与现实环境下,基于较大样本量(覆盖具有代表性的更广大受试者),比较和选择不同医疗手段的过程及其结局研究;与传统RCT中对人群的高度选择,对干预和对照的严格控制,以及随访与实际存在差异等特征都具有明显差别。

  特点

  作用与优势

       RWS是近年在国内兴起的一种研究理念。因药品上市后,实际使用人群会扩大,往往导致实际药物疗效无法重复临床试验结果。这种情况下,利用RWS可以提供传统RCT试验所无法提供的证据,包括:真实环境下干预措施的疗效、长期用药的安全性、依从性、疾病负担等,进而评估患者健康状况、疾病及诊疗过程,评估防治结果、患者预后与预测,以及支持医疗政策制定等。

  数据来源

       开展RWS研究时,数据必须来源于真实世界中的患者数据,反映实际诊疗过程和真实条件下的患者健康状况,是一种非实验设计数据,主要包含医院电子病历、医疗索赔数据库、药品不良事件监测数据以及患者随访数据等。

  实现难点

       首先,RWS要求的数据量十分庞大,只有在足够大的样本量基础上,才能高效满足RWS的研究和开展;其次,要保障数据质量,在RWS开展过程中,一旦出现多个虚假或残缺不全数据,将直接影响后续基于数据进行的群体性分析,使科研失去价值;最后,RWS本身对巨大数据量的需求,也对后续的数据处理及统计分析提出更高要求,需要强大的采集和分析系统予以支撑。

  大数据科研分析平台功能及技术特色

  大数据科研分析平台以自然语言处理、机器学习等人工智能技术为支撑,在数据的收集、整合、处理和统计、分析等方面,都有着巨大的先天优势,这对开展RWS起到强大的辅助作用。

  平台架构设计 大数据科研分析平台的构建是以医院数据中心(HDR)为基础,辅以基因组学、eCRF表单及随访数据等,形成全量的专病数据库;在经过数据整合、清洗、自然语言处理、机器学习及去隐私化等技术处理后,形成数据集市,包含结构化及后结构化数据;在此基础上,通过语义分析模型、同义词字典、知识图谱等算法,进一步挖掘疾病症状之间潜在关联等,实现数据的深度应用。

  功能特点

       大数据科研分析平台通过收集、整合院内/外海量医疗数据,较好地满足了RWS对大样本量的需求;同时,利用自然语言处理、机器学习等人工智能技术,将大量多源异构的信息融合成标准化、结构化数据,确保了数据质量及后续分析的有效性;在数据统计、分析方面,通过接入R语言,集合多种统计分析方法,大大提高了统计分析的灵活性及科研效率;此外,还可通过描述性统计分析,实现为患者画像、为疾病画像。

  技术特色

  自然语言处理(NLP)

       RWS研究中所需的数据很大一部分存储在电子病历系统中。而电子病历除包含结构化数据外,还存在大量自由文本数据,为后续的搜索、统计、分析等带来了困难。因此,探索利用自然语言处理技术来分析、挖掘电子病历中的重要内容就显得十分必要。传统自然语言处理包括词性标注、分词、句子边界识别、句法分析、命名实体识别和实体关系抽取、共指消解等。通过对电子病历多年的研究分析,从中发现一些结构规则,并在此基础上进一步提炼出独有的算法和模型,最终形成基于医疗数据模式的文本识别方法,实现了病历自由文本分析由通用的标签分词到语义分析的转变,为数据的分析利用奠定了基础。

  以应用提升数据质量

       数据质量对RWS的重要性不言而喻,而保障数据质量最有效的方法就是在其源头予以控制,即以应用来驱动数据质量的提升。具体来讲,就是根据不同的应用场景,从不同视角去建立相应的数据模型关系。如:对具有因果关联结构的病种、病情、治疗、疗效数据,事先充分了解其结构内容、相关业务逻辑及标准,并将这些内容、规则和标准体现到数据采集系统;在诊疗过程中,通过制定并遵循服务流程、规范操作,从规范的诊疗行为中获取可用数据;利用智能推荐、警示提醒、诊疗视图等方式,强化医生对高质量数据的输入感受,促进数据质量提升等。

  统计分析灵活

       大数据科研分析平台通过接入R语言,覆盖了比较均值分析、回归分析、相关分析、定性分析、线性回归、ROC曲线等多种常用统计分析算法;另外,还引入了如决策树、主成分分析等高级挖掘统计算法,以支持复杂的研究案例。针对不同的研究,可灵活选择不同算法,并自动生成统计结果。同时,平台将支持科研数据直接导出,供其他统计分析软件使用,满足不同科研需求

  大数据科研分析平台在RWS中的应用

  如前所述,大数据科研分析平台在数据获取、数据处理及统计分析等环节都具有强大优势,在RWS研究多个环节都能起到切实有效的辅助作用,从而缩短药品试验周期,降低研究成本。

  满足数据采集需求

       利用大数据科研分析平台,可以方便地获取到医院各业务系统中的相关数据;并可针对具体科研项目,无缝接入患者院外随访数据及CRF表单数据,快速建立基于真实世界研究的数据库。

  满足数据处理及质量控制需求

       通过大数据科研分析平台的自然语言处理等技术,可以将海量数据进行标准化及后结构化处理,并形成完善的数据网络,提高科研过程中对数据搜索的便利性及时效性。此外,通过在应用层面对不同业务逻辑及标准、规则的设定,强化对数据产出端的质量控制,可以有效提升数据的准确性、及时性、完整性和一致性,确保RWS过程中数据的高关联度和高可靠性。

  满足数据统计及分析需求

       大数据科研平台通过将R语言与常用医学统计模型集成在一起,可以更加方便地为科研人员提供针对不同需求的灵活选择;且操作简便,通过“检索或导入分析数据→选择变量和参数→查看并导出结果”三个步骤,即可快速完成科研统计、生成分析结果。此外,还可以借助大数据语义分析和知识图谱等技术,针对某种疾病做描述性统计分析,实现为患者画像或为疾病画像。

  综上所述,大数据科研分析平台利用自然语言处理、机器学习等人工智能技术,在RWS开展过程中可以帮助其快速完成对海量医疗数据的收集、整合、处理及统计、分析等,深度挖掘数据内在价值,实现真实世界研究在新药开发、药物经济学、医保控费、适应症/禁忌症评价、临床指导等多层次、多角度的需求,具有广阔的应用前景。


留言

Copyright© 中国信息化系统集成行业协会 版权所有