|模式识别是机器学习中的一个领域，通常指较长过程中的中间步骤

文章图片

文章图片

【|模式识别是机器学习中的一个领域，通常指较长过程中的中间步骤】

文章图片

模式识别是机器学习中的一个领域，通常是较长过程中的中间步骤。这些步骤通常是获取要分类的数据，预处理以去除噪声或以某种方式对数据进行归一化，计算特征，分类，最后根据识别的类别和置信度进行后处理。模式识别本身主要关注分类步骤并使用分类算法，例如朴素贝叶斯分类器、决策树、贝叶斯网络、隐马尔可夫模型和神经网络。

因扎等人应用了四种机器学习监督分类器来执行基因表达微阵列数据的样本分类：最近邻算法，朴素贝叶斯分类器，决策树，以及由一组“如果-那么”规则构成的分类模型。 KNN是一种基于可观察特征对现象进行分类的方法。朴素贝叶斯分类器可以在监督学习设置中进行有效训练，并且通常在许多复杂的高维问题中表现良好。此外，过滤器和包装器方法应用于数据集，通过选择对分类有积极贡献的候选基因来减少冗余特征。

与非基因选择方法相比，获得了相当准确的结果，通过提议的程序选择的大多数基因出现在先前研究检测到的相关基因列表中。沃克等人使用数据挖掘软件从微阵列数据中发现与阿尔茨海默病相关的基因。首先，进行几个预处理实验来检查数据以获得数据的一般视图并识别缺失值和异常或有趣的特征。其次，层次聚类用于识别数据的固有类特征。第三，执行一组机器学习实验，使用归纳算法来识别最具信息量的基因，以及相关的分类阈值和感兴趣的度量。

最后，数据可视化技术用于更好地研究已识别基因的整体模式。该系统的结果可用于定义治疗策略，以防止易感患者神经元功能的特定成分丧失，或刺激受损神经元丢失的细胞功能的替代。格拉斯等人建议一些关键的蛋白质组学问题可以被视为组合优化问题，其中可行解的集合是离散的或可以减少到离散的，并且目标是找到可能的最佳解决方案。他们应用合作元启发式，使多个实体能够并行探索搜索空间，并在它们之间交换信息。在蛋白质识别问题中，第一级协作群智能被应用于质谱数据与生物序列数据库的比较，然后是遗传编程方法以发现最佳评分函数。

SI系统通常由一群简单的代理组成，它们在本地相互交互并与它们的环境进行交互。尽管通常没有集中控制结构来规定个体代理的行为方式，但此类代理之间的局部交互通常会导致全局行为的出现。麦克林等人成功地采用了一种基于模型的原则方法，该方法使用隐马尔可夫模型对根据异构分类方案分类的基因表达序列进行聚类和表征。
所有这些例子都说明了人工智能在自动化后基因组高维数据分析方面的帮助。例子包括基因分类、蛋白质识别、搜索优化、知识发现和基因表达谱。通过帮助解释结果，人工智能可以让研究人员更轻松地解释数据并帮助定义可能的治疗策略，以及设计进一步的实验。这些系统像遗传学家一样思考也很重要，只有这样遗传学家才能理解系统对结果的解释，并相信这些解释。大部分软件和硬件自动化工作背后的愿景最终是在自动化系统和人员之间建立协作，可以承担研究计划的所有不同阶段，从实验设计到调度和任务规范再到数据分析。当然，有趣的问题的形成和数据的解释还不能完全自动化，因为我们还远不能将直觉和创造性想象自动化。要生成这样的系统，从设计的初始阶段就考虑系统的所有不同方面是很重要的。