Slide Left Slide Right

基于多模态大数据的智能医疗诊断系统

网站首页

依托天河二号云端识别诊断

项目实施方案

展示视频

研究目标

本项目致力于研究基于普适化多模态大数据的肛肠疾病临床诊断标准及应用模型研究,总体目标是建立面向广东省典型肛肠疾病的关联关系和演化规律研究,为解释肛肠疾病的发病机理和临床诊断指标奠定基础,为实现肛肠疾病的早诊断早治疗提供理论支持。首先,分析肛肠疾病的数据特征,提出新型的面向肛肠疾病普适化多模态大数据的新型感知与获取方法,实现多模态大数据经济有效的获感知与获取。其次,基于历史数据和实时感知数据,研究肛肠疾病症大数据的特征提取方法,提取肛肠疾病危险因素。然后,基于肛肠疾病多模态大数据的数据特征信息,建立肛肠疾病的个体演化规律和个体到群体的演化规律。最后,基于所得的结果搭建由病例管理、数据可视化和诊断辅助三个功能模块组成的平台,为临床诊治提供参考和验证

拟解决的科学问题

面向肛肠疾病普适化多模态大数据的采集、清洗与压缩问题

肛肠疾病普适化多模态大数据的感知与获取包含疾病数据的采集、清洗与压缩传输三个过程,为多模态大数据特征信息的获取提供数据来源,为肛肠疾病数据挖掘奠定了数据基础。在大数据环境下,疾病数据的感知与获取受到了网络吞吐量的限制。现有的方法主要针对疾病个体,基于同步单尺度采集方法对疾病个体少量的显式观测值进行采集,使用静态感知获取方法对数据进行清洗和压缩。这类方法对肛肠疾病的动态数据不能进行有效地清洗,对网络传输资源不能充分地利用,不适用于肛肠疾病普适化多模态大数据的感知与获取。因此,如何设计面向肛肠疾病普适化多模态大数据的新型采集、清洗与压缩方法成为了一个关键科学问题。

基于多模态大数据特征信息的致病因素分析问题

随着肛肠疾病发病情况的日趋复杂,肛肠疾病的致病因素趋于多样化,既包含了疾病患者的显式生理因素,也包含了疾病患者行为习惯、心理状况及生活环境等疾病潜在致病因素。传统的数据分析方法依赖于先验病例的单模态数据,只能够对致病因素进行单模态检测,仅能识别出肛肠疾病的显式致病因素,缺乏对肛肠疾病数据多模态性的考虑,没有深入地挖掘出肛肠疾病的潜在致病因素及各个致病因素之间的耦合关系,无法及时精准地根据多模态大数据特征信息识别出潜在的疾病患者,从而错失对肛肠疾病进行治疗的最佳时机。因此,如何根据多模态大数据特征信息之间的耦合关系有效地对肛肠疾病致病因素进行识别成为了一个关键科学问题。

基于多模态大数据特征信息的肛肠疾病动态演化规律分析问题

肛肠疾病的疾病演化规律具有动态性、可预测性和耦合性等特点,是一类复杂的治疗对象。传统的单模态数据分析方法依赖于已获得的肛肠疾病单模态数据信息,只能够给出单模态数据特征信息与疾病个体之间的静态关联关系,不能全面地给出肛肠疾病的临床诊断标准,没有动态地描述肛肠疾病的演化规律,缺乏对肛肠疾病未来发病趋势的准确预测,不符合疾病早诊断早治疗的实际要求。同时,传统的单模态数据分析方法仅考虑了疾病患者个体的疾病状况,忽视了疾病患者之间的耦合性,没有充分考虑疾病个体到群体的多模态数据迁移,从而达不到最佳的诊疗效果。因此,如何获得肛肠疾病的动态演化规律并给出相应的滚动优化治疗方案成为了一个关键科学问题。

处理过程

1. one-hot 编码单元 用于对病理图片进行 one-hot 编码,将病理图片离散特征的取值扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。以甲状腺病理图片为例,假设甲状腺病理图片可分为 A、B、C、D、E 五类,那么将 A 类的甲状腺病理图片对应的 one-hot 编码表示为[1,0,0,0,0], B 类甲状腺病理图片对应的 one-hot 编码为[0,1,0,0,0], 依次类推。

2. 映射单元 用于将所述 one-hot 编码单元输出的稀疏的 one-hot 编码映射成为非稀疏的高维表示。参数不断迭代更新,对于特定问题具有自适应特性。

3. 随机采样单元 用于对多维高斯分布进行随机采样,即通过对多维高斯分布进行随机采样的方式获取随机噪音。

4. 生成器模块 用于将映射单元的输出和随机采样单元输出的随机噪声拼接在一起,并经过全连接和多轮反卷积以及批量标准化操作后,最终生成和数据集既有图片同维度的分布,记作生成图片。

5. 共享单元 为判别器模块和分类器模块共享的网络模块,以在训练时梯度反向传播至生成器模块时,使得生成器模块的参数调整不仅接收到判别器模块真假判断的信息,同时也接收到分类器模块对于病理图片分类的分类信息,最终导致生成器不仅生成更加逼真的图片,且结合所述 one-hot 编码单元的结果指定生成哪一类别的图片。

6. Rule 模块 用于针对病理图片的胞核特征和间质特征进行检测,输出每一个胞核特征的概率值和每一个间质特征的概率值,并对其进行加权求和输出。具体地,以甲状腺乳头状癌的病理图片为例,Rule 模块由胞核检测器和间质检测器组成,分别针对甲状腺乳头状癌的病理切片的胞核特征和间质特征进行检测,胞核特征包括核重叠,毛玻璃核,核沟,核内包涵体,间质特征包括间质钙化,间质砂粒体形成和纤维组织玻璃样变,胞核检测器针对每一个胞核特征输出概率值,同理,间质检测器针对每一个间质特征输出概率值,最后模块输出为上述概率值的加权(可学习)求和。

7. 判别器模块 与共享单元共同组成生成对抗网络的判别,输出为 real(真)或者 fake(伪)。

8. 分类器模块 与所述共享单元组合共同完成病理图片类别分类任务,对于共享单元的输出进行多轮卷积以及批量标准化之后的操作后,再进行全连接作为输出。

9. 迁移学习模块 鉴于 inception v3 网络在医学图像领域的优秀表现,迁移在 ImageNet 网络预训练的 inception v3 网络,具体操作是在 ImageNet 数据集上进行训练,取得优异分类效果之后,然后固定网络参数,利用其强大的泛化能力,对生成器模块生成的图片以及当前数据集既有的图片进行特征提取,为深度学习模块进行分类任务提供更丰富的特征。

10. 深度学习分类器 用于整合所述分类器模块的输出和迁移学习模块的输出,利用神经网络根据自适应学习的方法将学习的特征作为依据来检测病理图片的分类。深度学习模块的主要操作为降维和全连接,降维操作是分别挑选某固定数量的迁移模块和分类模块的输出值最大的特征数,使得就特征数量而言,迁移(transfer)模块和分类器模块固定在某一特定比例,然后再进行全连接,作为深度学习模块最后的输出,自适应特征是表现在神经网络在训练过程中参数权重选择的自适应。整合分类器模块的输出和迁移模块的输出,是对于利用神经网络根据自适应学习的方法学习的特征作为依据来检测病理图片的分类的结果的加权汇总。

11. 输出(最终分类器) 用于对所述深度学习模块和 Rule 模块输出的判别结果进行加权平均,输出最终的病理图片分类结果。

诊断案例

与中山大学附属第六医院合作,将该项目的成果应用于的临床诊断

    输入案例胸片1:

    胸片诊断结果:正常

    输入案例胸片2:

    胸片诊断结果:肺炎

团队概况

Xplan-Lab实验室研究条件优越,目前实验室共有4人参与此项目