客户端|机器学习系统，需要从图像计算出的数值特征客户端

【客户端|机器学习系统，需要从图像计算出的数值特征】

文章图片

文章图片

文章图片

迪康最初的重点是在 2 个设备之间传输图像数据；因此，原始规范中不包含文件格式。即使在今天，大部分迪康标准都侧重于图像数据的传输而不是存储。然而，对于如何存储图像数据，有一个迪康标准，它本质上是标题和正文的序列化。大多数情况下，每个二维图像都存储为单独的迪康文件，尽管多维和多时间点图像都存在标准。这些字母格式的采用一直很缓慢。特别是在这些多维格式存在之前，医学成像研究人员开发了自己的图像存储格式。早期流行的格式之一称为analyze23 格式。它有一个用于描述图像数据的标题信息文件，而另一个文件是实际的像素数据。神经影像信息学技术倡议格式扩展了分析格式以在标题中提供更多信息，并将 2 个组件连接到 1 个文件中。还有其他格式，例如 mhd 和 nrrd ，它们与 NIfTI 类似，并且由一些特定的软件包支持。

机器学习系统需要从图像计算出的数值特征。当将 1 个示例的多个此类值放在一起时，它们被称为特征向量。对于要学习的系统，必须为每个示例给出答案，并且必须给出合理数量的示例。所需的数量取决于特征中信号的强度以及使用的机器学习方法。特征是机器学习的真正起点。在医学图像的情况下，特征可能是实际像素值、边缘强度、区域中像素值的变化或可从像素计算的其他值。也可以使用非图像特征，例如患者的年龄以及实验室测试的结果是阳性还是阴性。例如，当所有这些特征组合在一起时，这称为特征向量或输入向量。

尽管这些特征听起来像是可以简单地将原生像素值用作特征，但实际上这种情况很少见。强度通常是矢量的 1 部分，但通常会使用其他特征，例如边缘强度、区域强度、区域纹理等。确定应该使用什么以及如何从医学图像中计算这些是特征工程。良好的特征工程需要了解医学图像属性以及可以提取可能有用的特征的图像处理算法的知识。

一般来说，机器学习受益于为每个示例提供更多数据以学习任务。然而，情况也是如此，包括无助于进行预测的特征或与其他特征重叠可能会导致性能下降。因此，通常希望删除非贡献特征以及那些没有显着贡献的特征，这一过程称为特征缩减和特征选择。特征缩减具有降低推理时计算成本的额外好处。用于实现特征缩减的方法有 3 类：过滤器方法、包装器方法和嵌入方法。基于过滤器的方法使用一些度量来确定给定特征的独立预测程度，并选择那些最具预测性同时又独立于其他特征的特征。皮尔逊相关和卡方是两种流行的过滤方法。包装器方法搜索那些在删除某些功能时导致性能降低最少的功能。随着包装器方法的进行，它会不断尝试删除特征，删除那些不可预测或与其他特征显着重叠的特征。一些学习方法内置了特征缩减，因此嵌入了术语。嵌入式方法的示例包括套索和随机森林，其中训练过程包括删除不会显着提高性能的特征。