显微课堂 | UMAP、t-SNE与PacMAP终极降维大对决

从高维到低维：

Aivia带你轻松驾驭3种数据降维技术

数据降维大揭秘：

UMAP、t-SNE与PacMAP的终极对

降维示例

降维将数据从高维空间转换到低维空间，以简化数据解释。

在Aivia中的应用：通过选择不同的测量方法，帮助用户为不同类别实现清晰的决策边界，这些测量方法可以用于不同的聚类技术。

Aivia中的三种降维方法：

UMAP – 比t-SNE更快
PacMAP – 比UMAP更快，并且更好地保留高维数据的局部和全局结构
t-SNE – 保留局部结构

UMAP

UMAP（统一流形近似与投影）是一种现代降维技术，主要用于高维数据集的可视化。它的用途与t-SNE相似，但通常速度更快且能够处理更大的数据集。UMAP基于保持数据的拓扑结构的原则，通过利用黎曼几何和代数拓扑来近似数据的底层流形。通过捕捉局部和全局结构，它提供了数据簇和关系的全面视图。

UMAP的两个主要步骤

步骤1

创建一个高维图。这是一个加权图，其中一个点与其最近的邻居相连。

降维UMAP图与图例1

降维UMAP图与图例2

降维UMAP图与图例（参数快速探索）3

步骤2

创建一个尽可能类似于高维图的低维或二维图，生成UMAP 1和UMAP 2参数。

1、深入了解UMAP理论

UMAP的核心工作原理与t-SNE非常相似——两者都使用图布局算法在低维空间中排列数据。UMAP构建数据的高维图表示，然后优化一个低维图，使其在结构上尽可能相似。UMAP通过基于每个点的第n个最近邻的距离来局部选择半径，从而确保局部结构与全局结构的平衡。

2、如何（误）解读UMAP

虽然UMAP相较于t-SNE有许多优势，但它绝不是万能的——解读和理解其结果需要一定的谨慎。需要注意以下几点：

超参数非常重要：选择合适的值取决于数据和你的目标。
UMAP图中的簇大小毫无意义：簇之间的相对大小基本上没有意义。
簇之间的距离可能毫无意义：尽管UMAP在全局位置上更好地保留了簇的位置，但它们之间的距离并不具有意义。
随机噪声不总是看起来随机：特别是在n_neighbors值较低时，可能会观察到虚假的聚类。
你可能需要不止一张图：由于UMAP算法是随机的，不同的运行可能产生不同的结果。

优点

保留局部和全局结构：UMAP捕捉数据中的非线性关系，适用于处理复杂数据集。

速度和可扩展性：UMAP在计算上更高效，适合处理大数据集。

参数调优：UMAP提供了参数调优的灵活性，允许用户在保留局部和全局结构之间进行权衡。

缺点

可解释性：UMAP嵌入可能不如一些其他方法（如PCA）那样具有可解释性。

对超参数的敏感性：UMAP的性能可能对超参数选择敏感，找到合适的参数可能需要进行实验。

在高维空间中的局限性：UMAP在非常高维的空间中可能表现不佳。

计算资源需求：对于极其庞大的数据集,UMAP仍然可能需要大量的计算资源。

图2:对Fashion MNIST数据集应用降维。10类服装物品的28x28图像被编码为784维向量，然后通过UMATt-SNE投影到3维。

t-SNE（t-随机邻域嵌入）

t-SNE（t-随机邻域嵌入）是一种流行的降维方法，用于高维数据的可视化。t-SNE通过保留数据的局部结构来工作，通常会导致簇的清晰分离。与专注于最大化方差的PCA（主成分分析）不同，t-SNE强调在降维空间中保持相似的距离接近，不相似的距离远离。然而，由于其对局部结构的强调，它有时会夸大簇，并不总是能保留数据的全局结构。此方法计算量大，尤其是对于大型数据集。

优点

1 局部结构的保留

t-SNE在保留数据的局部结构方面表现出色，使其在识别相似数据点的聚类时非常有效。

2 灵活性

与某些线性方法（如PCA）不同，它可以有效处理非线性数据结构。

3 可视化

特别适用于将高维数据可视化为二维或三维。

缺点

1 计算强度

该算法在处理大型数据集时可能会非常耗费计算资源。

2 随机性

由于算法的随机性，最终的可视化结果在不同运行之间可能会有所不同，这可能导致不一致性。

3 超参数敏感性

结果可能对困惑度（perplexity）的选择非常敏感。

4 可解释性

t-SNE图中聚类之间的距离并不总是具有有意义的解释。该算法优先保留局部结构而非全局结构。t-SNE可视化中的数据点密度不一定代表原始高维空间中的密度。

5 仅适用于可视性

虽然在可视化方面表现出色，但t-SNE嵌入可能并不总是适合作为其他机器学习算法的输入。

PaCMAP（成对控制流形近似）

PaCMAP（成对控制流形近似）是一种降维技术，作为t-SNE和UMAP等方法的替代方案被引入。该方法旨在平衡数据中局部和全局结构的保留，解决其他技术中观察到的一些挑战。它引入了成对吸引和排斥项，以在流形学习过程中控制平衡，并以其速度和处理大数据集的能力而著称，同时能够生成可解释的嵌入。

优点

1 混合方法

PacMAP结合了局部和全局结构保留的优点，旨在从t-SNE（局部）和PCA（全局）等方法中捕捉两者的最佳特性。PacMAP旨在结合t-SNE（局部结构保留）和UMAP/PCA（全局结构保留）的优势。

2 局部和全局结构保留的灵活性

该方法可以根据数据的性质和用户的目标，调整以强调局部或全局结构。

3 减少拥挤问题

该方法旨在缓解t-SNE中常见的“拥挤问题”，这种问题会导致簇被推得过远。

4 减少随机性

与t-SNE的随机性相比，PacMAP在多次运行中提供了更一致的结果。虽然有参数需要调整，但该方法设计得比t-SNE对参数变化更具鲁棒性。

缺点

1 复杂性和熟悉度

作为一种混合方法，PacMAP可能对熟悉简单、单一目标方法的用户来说更难理解。一些数据分析社区可能对PacMAP不太熟悉，导致在采用或解释时可能面临挑战。由于其较新，可能没有像t-SNE或PCA等长期存在的方法在各种应用中经过广泛验证。

2 参数敏感性

尽管设计得对参数变化更具鲁棒性，但结果仍可能因参数选择而异。根据数据的不同，如果调整不当，可能会有过度强调局部或全局结构的风险。

3 可解释性

与其他降维技术一样，解释降维后的维度仍然可能是不直观的。

Aivia赋能数据驱动的空间洞察

降维工具大解析

显微课堂 | UMAP、t-SNE与PacMAP终极降维大对决立即观看

相关产品

Aivia go

Aivia Go 提供一个统一平台，上面配备了最先进的图像可视化与分析工具，包括多个 AI 驱动的功能，以满足您复杂的图像可视化与分析需求。简单的分段工作流程和批量处理能力可以快速得出结果，帮助您从数据直接跃升到发表。

Aivia elevate

Aivia Elevate 是一套完整的针对研究实验室显微成像系统的解决方案，它包含了专门为神经或细胞生物学图像可视化和分析设计的 AI 工具，让您能够专注于研究，而不是计算机科学。

Aivia Apex

Aivia Apex 是一款全面的显微镜图像分析解决方案，适用于需要多种图像分析应用的研究人员。Apex 还为显微学家提供了将第三方或开源存储库中的自己的深度学习模型应用于图像分析的灵活性。

RELATED ONLINE WEBINARS

网络课堂

Aivia 14：由AI赋能的更深入的3D空间洞察力

2024年07月18日 15:42

讲课内容简介回顾：

通过使用AI而无需编码，轻松学习使用Aivia，解锁对3D空间生物学的更深洞察力。

如何使用人工智能准确地分割具有不同形态的3D细胞

利用您的专业知识和人工智能来识别图像中已知的表型

使用自动聚类探索未知的表型

通过树状图、小提琴图、降维等方法获得对3D组织的更深层次的空间洞察力

Aivia Workshop-AI 图像分析研讨会（线上）

2022年12月22日 16:08

2022年11月2日再北京脑科学与类脑研究中心二期举办第一期Aivia人工智能分析软件应用会。这次我们有幸邀请到赵瑚老师及参与AI软件测试与推广的Hoyin LAI(赖颢贤）经理，与我们分享最新的技术。会议采取讲座与操作演示组合的方式，与大家共同体验沉浸式数据分析之旅。

人工智能不仅仅是一个流行语

Aivia使用先进的AI工具为数据量身打造增强、分割和预测工具，实时展示数万亿个体素和数千个对象，允许我们在沉浸式环境中交互探索3D/4D数据集。本视频，我们将介绍AI模型分割多种成像数据的效果，使用智能追踪工具进行快速神经元重建，并结合Aivia的AI工具和诀窍，定制专属的图像分析工作流程，以实现高效的批量图像分析。