您的当前位置:首页正文

【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

2024-11-11 来源:个人技术集锦

4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。

1.Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion

Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part III 22. Springer International Publishing, 2019: 447-456.

【核心思想】

通过特征解耦门控融合技术,提高了在部分成像模态缺失时的分割准确性。方法是将输入的多种成像模态解耦为模态特定的外观代码模态不变的内容代码,然后将它们融合为一个共享表示。这种方法增强了面对缺失数据时分割过程的鲁棒性,并在多种缺失模态的场景中显示出显著的改进。论文还使用了BRATS挑战数据集来验证方法的有效性,并展示了与当前最先进方法相比的竞争性能。

【网络结构】

模型关键在于它采用了创新的特征解耦和门控融合技术,这里只关注特征解耦,另外的部分在我另外一篇博客中有记录。

  • 特征解耦部分:负责将不同成像模态(如MRI)的数据分解为模态特定的外观特征和跨模态的内容特征。

    对于外观代码,并将其设置为8位向量,假设其先验分布是中心各向同性高斯 N ( 0 , I ) N(0, I) N(0,I),使用KL散布逼近。

    对于模态不变性的内容编码,将它们融合成表达肿瘤基本语义内容的集成表示。为保证解耦是有效性,所获得的内容表示 z z z 应该能够在给定某种模态的任何外观代码的情况下重建原始图像。为了鼓励这种重建能力,论文通过引入一组特定于模态的解码器来设计伪循环一致性损失(使用 L1-Norm 来减轻生成的图像变得模糊的情况。

    为了模拟缺失模态,使用了modality 级别的dropout,也就是图中的 δ i \delta_{i} δi,这种思路在后续很多的论文中被采用,如mmFormer(MICCAI,2022),MMMViT(Biomedical Signal Processing and Control,2024)…

2.Disentangle domain features for cross-modality cardiac image segmentation

Pei C, Wu F, Huang L, et al. Disentangle domain features for cross-modality cardiac image segmentation[J]. Medical Image Analysis, 2021, 71: 102078.

本文的核心思想是提出一种新的跨模态医学图像分割方法,它通过特征分离技术解决了源域和目标域数据之间的差异。这种方法将图像特征分为领域不变特征(DIFs)和领域特定特征(DSFs),通过创新的零损失函数和自注意力模块来增强特征的表现力。文章通过在心脏图像分割任务上的实验验证了其有效性,展示了在处理不同成像模式的医学图像时的优越性能。

源域的有标签数据集表示为 $ X_s = {(x_{si}, y_{si}) | i = 1, \ldots, n} $,目标域的无标签数据集表示为 $ X_t = {x_{tj} | j = 1, \ldots, m}$。作者提出了一种特征分离的方法,以学习两个域的领域不变特征(DIFs)和领域特定特征(DSFs)该框架首先使用四个编码器将每个域的特征分离为DIFs和DSFs(其中style也是从标准正态分布中采样的8bits向量)。然后,它们交换DIFs并将其解码为具有保持解剖结构和交换风格(域/成像方式)的特定于域的图像。作者对生成的图像进行重复的编码和解码操作,形成了CycleGAN的改进版本。为了增强特征分离操作,作者进一步采用了零损失,迫使从源域图像中提取的目标域特定特征的值为零,反之亦然(背后的假设是,如果编码器只能从源域中提取 DSF,那么它将从目标域的图像中提取零信息)。成功分离特征后,可以使用DIFs和相应的标签来训练分割模型。为了实现更准确的分割,作者引入了一个额外的判别器,以限制生成分割的解剖形状。为了模拟图像区域间的长距离、多层次依赖关系,作者引入了自注意力模块。

3.Unsupervised domain adaptation via disentangled representations: Application to cross-modality liver segmentation

Yang J, Dvornek N C, Zhang F, et al. Unsupervised domain adaptation via disentangled representations: Application to cross-modality liver segmentation[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part II 22. Springer International Publishing, 2019: 255-263.

本论文的核心思想是提出了一种无监督领域适应方法,通过使用解离表示来处理跨模态医学图像(如CT和MRI)之间的转换。这个方法通过将图像分解到一个共享的、与域无关的内容空间一个特定于域的风格空间,实现了在不同医学成像模态之间有效适应。这样的设计旨在维护不同领域间复杂的语义信息,同时在具体的医学图像分割任务,如肝脏分割上,展现出卓越的性能和泛化能力。

  • 解耦表示学习模块:该模块由两个主要组件组成,一个用于重建的变分自动编码器(VAE)和一个用于对抗训练的生成对抗网络(GAN)。训练 VAE 组件进行域内重建,其中重建损失最小化,以鼓励编码器和生成器彼此相反。用于跨域翻译的 GAN 组件经过训练,可以鼓励潜在空间的解开,将其分解为内容和风格子空间。模块由几个联合训练的编码器 E c 1 E_{c1} Ec1 E c 2 E_{c2} Ec2 E s 1 E_{s1} Es1 E s 1 E_{s1} Es1,生成器 G 1 G_1 G1 G 2 G_2 G2和判别器 D 1 D_1 D1 D 2 D_2 D2组成。生成器试图通过使用交换样式代码成功的跨域生成来欺骗鉴别器。由于解开的样式代码 si ∈Si,底层映射被假定为多对多。收敛时有 p ( c 1 ) = p ( c 2 ) p\left(c_{1}\right)=p\left(c_{2}\right) p(c1)=p(c2),这是保存解剖信息的共享内容空间。
  • 纯内容图像的域适应:一旦学习到解离的表示后,可以仅使用内容代码ci而不使用风格代码si来重建仅包含内容的图像。对于CT和MR,它们的内容代码都嵌入在一个共享的潜在空间中,该空间包含解剖结构信息并排除模态外观信息。论文在来自CT领域的仅包含内容的图像上训练一个分割模型,并直接将其应用于来自MR领域的仅包含内容的图像。

4.Disentangled representation learning in cardiac image analysis

Chartsias A, Joyce T, Papanastasiou G, et al. Disentangled representation learning in cardiac image analysis[J]. Medical image analysis, 2019, 58: 101535.

核心思想是开发一种新的医学影像处理方法,特别是针对心脏影像。该方法通过空间解剖网络(SDNet)将医学影像分解为两个组成部分:一个空间解剖因子和一个非空间方式因子。这种方法使得医学影像的分析更为有效,适用于半监督分割、多任务分割和回归、以及影像到影像的合成。这种解耦表示不仅提高了分割任务的性能,而且为医学影像分析提供了更具解释性和多样性的方法。

显示全文