四种实用异常值检测方法解析与应用

创始人

2024-12-31 10:43:35

0 次浏览

0 评论

有哪些比较好的做异常值检测的方法?

检测异常值的方法在训练机器学习算法或应用统计技术时，异常值或离群值可能会造成严重问题，并且通常会导致测量错误或异常系统状况。
因此，在进行下一步分析之前应先去除异常值。
本文将介绍几种流行的异常值检测方法，包括NumericOutlier、Z-Score、DBSCAN和IsolationForest。
在某些情况下，异常值可以提供有关整个系统中局部异常的信息。
因此，检测异常值是一个有价值的过程，因为它可以提供有关数据集的附加信息。
本文将解释KNIME分析平台中四种最常用的异常值检测技术。
这些方法适用于数据集和异常值检测问题。
在测试和比较所提出的异常值检测技术的数据集中，我们使用了航空公司数据集中的数据。
该数据集包含2007年至2012年美国国内航班的信息，如出发时间、到达时间、出发机场、目的地机场、飞行时间、出发延误、航班延误、航班号等。
其中一些列可能包含异常值。
为了说明所选择的异常值检测技术的工作原理，我们重点关注在平均机场到达延误中查找异常值。
这些异常值是针对在特定机场降落的所有航班计算的。
我们寻找平均到达延误时间异常的机场。
本文将介绍四种异常值检测技术：NumericOutlier、Z-score、DBSCAN和IsolationForest。
这些技术适用于一维、低维或高维特征空间。
NumericOutlier方法是通过IQR(InterQuartileRange)计算离群值的最简单的非参数方法。
异常值是位于四分位数范围之外的数据点。
此方法是使用KNIMEAnalyticsPlatform内置的工作流程中的NumericOutliers节点来实现的。
Z-score方法是一种在一维或低维特征空间中检测参数异常的方法。
该技术假设数据是高斯分布的，并且异常值是分布尾部的数据点。
该距离取决于使用公式计算的归一化数据点zi的指定阈值Zthr。
该技术是使用KNIME工作流程中的行过滤器节点来实现的。
DBSCAN方法是一种基于...的非参数异常值检测方法。
一维或多维特征空间中的密度。
该技术使用DBSCAN聚类方法，所有数据点被定义为基点、边界点或噪声点。
异常检测取决于所需的最小包含点数量、距离ℇ和所选的距离度量。
该技术是使用图1中KNIME工作流程中的DBSCAN节点来实现的。
IsolationForest方法是一种用于一维或多维特征空间中的大型数据集的非参数方法。
该方法基于隔离数的概念，即隔离数据点所需的划分数。
该分割数是通过隔离异常值所需的分割数少于隔离非异常值所需的分割数来确定的。
如果数据点中孤立点的数量小于阈值，则该数据点被定义为异常值。
该阈值是根据数据中异常值的估计百分比确定的。
此方法是使用PythonScript中的几行Python代码实现的，PythonScript节点是KNIMEPythonIntegration的一部分。
本文选择KNIMEAnalyticsPlatform来实现这四种外部检测技术。
图1显示了异常值检测技术的工作流程。
采用不同技术检测到的国外机场如图2-5所示。
其中，蓝色圆圈代表没有异常行为的机场，红色方块代表有异常行为的机场。
平均访问延迟时间被定义为一个大小的注释。
一些机场始终通过四种技术被识别为异常值：斯波坎国际机场(GEG)、伊利诺伊大学威拉德机场(CMI)和哥伦比亚大都会机场(CAE)。
斯波坎国际机场(GEG)拥有最大的极值点，平均到达时间很长（180分）。
然而，其他一些机场只能通过几种技术来识别，例如路易斯阿姆斯特朗新奥尔良国际机场（MSY）只能通过隔离森林和DBSCAN技术来检测。
摘要：本文描述并实现了四种不同的技术来检测一维空间中的异常值：2007年至2008年间美国所有机场的平均到达延误时间。
研究的四种技术是NumericOutlier、Z-Score、DBSCAN和IsolationForest方法。
这些方法适用于一维、低维或高维特征空间。
有些是针对一维特征空间，有些是针对低维空间，有些是针对高维空间，有些技术需要归一化以及维度高斯分布的检查。
有些需要测量距离，有些则需要计算平均值和标准差。
有3个机场被所有极端机场检测技术认定为极端机场。
然而，只有某些技术（例如DBSCAN和隔离森林）可以识别分布左尾的异常值，即平均航班到达时间早于预定到达时间的机场。
因此，应根据具体问题选择合适的检测技术。

数据处理中如何处理缺失值和异常值?

处理缺失值是数据处理中的常见问题，主要策略包括删除、填充或预测。
移除缺失值是指从数据集中移除包含缺失值的行或列，适用于缺失值数量较少的情况。
缺失值的填充采用均值、中位数、众数或特定值来填充，适用于缺失值数量较多但数据分布相对稳定的情况。
缺失值预测是利用统计模型或机器学习算法根据其他特征进行预测，适用于缺失值数量较多且数据之间相关性较强的情况。
异常值管理涉及识别和管理数据中的异常值。
识别异常值通常使用统计方法，例如标准差、四分位距或箱线图。
处理异常值可能包括删除它们、用平均值、中位数或特定值替换它们，或者使用统计模型来识别和纠正它们。
在实际应用中，处理异常值需要根据数据的具体背景和分析目标做出决策。
在数据分析领域，技能和知识的不断提高对于职业发展至关重要。
推荐一系列课程和资源，帮助学习者深入掌握数据分析技能。
推荐数据分析岗位体验课程。
本课程涵盖数据分析、统计学、Python编程、SQL数据库等领域的基础知识，通过实际项目指导，提高学生的就业竞争力。
我们推荐《Python数据分析的极简简介》。
本课程从零开始，通过实际案例讲解Python在数据分析中的应用。
适合初学者快速上手。
建议对统计学进行极简介绍，为数据分析提供坚实的统计基础，并解释概率、统计推断和假设检验等基本概念。
推荐一本极简的SQL数据分析入门书。
它教授如何使用SQL从数据库中提取、清理和分析数据。
这是数据分析师的必备技能。
推荐数据分析题库和备考资料，并提供模拟题、练习案例以及最新版本的备考资源，帮助学生巩固知识、提高技能。
推荐数据分析书籍，如《精益商业数据分析》、《商业策略数据分析》等。
第一篇全面介绍了描述性数据分析方法、业务分析方法等，适合基础到深入的学习。
后者从数字化工作模型的角度阐释了分析商业策略数据的大局思维和方法，旨在将宏观经济分析与用户微观经济洞察相结合。
这些资源和课程为数据分析学习者提供系统的知识体系和实践指导，帮助他们提高数据分析技能，适应不断变化的数据分析领域。
在学习过程中，结合实际项目实践，理论与实践相结合的深入理解，将极大提高数据分析能力和职业竞争力。

Python|股票数据的异常值和缺失值处理

在Python中处理股票数据时，管理异常值和缺失值非常重要。
首先，通常没有明确的处理这两个问题的顺序，但常见的做法是先检查缺失值，然后处理异常值。
下面概述一下如何处理这两个问题：1.缺失值处理缺失值的处理涉及到删除和填充。
直接删除适用于数据集中孤立的缺失值，不影响整体趋势。
如果选择保留数据，可以使用前向填充（例如日期）或使用平均值和中位数等统计数据填充缺失值。
2.异常值处理通常通过统计方法（例如3[公式]）或可视化工具（例如箱线图）来识别异常值。
正态分布的数据可以用zscore代替，但本文的数据不满足这个假设，因此可能需要使用K-S检验或其他适用的方法。
箱线图基于四分位数，大于上下四分位数IQR1.5倍的值被视为异常，并用缺失值替换以进行进一步处理。
在实践中，了解业务上下文并选择合适的数据处理方法非常重要。
通过Python工具清洗和预处理数据是股票数据分析的第一步。
持续关注“Python+金融”系列合集，获取更多实用的处理技巧和案例分析。
रखें।

Python异常处理总结

什么是例外？异常是程序执行过程中发生的、影响程序正常执行的事件。
通常，当Python无法正常处理程序时，就会发生异常。
异常是代表错误的Python对象。
当Python脚本发生异常时，我们需要捕获并处理它，否则程序将终止执行。
Python提供了两个非常重要的函数来处理Python程序执行过程中出现的异常和错误。
您可以使用此功能来调试Python程序。
异常处理：本站的Python教程会对此进行详细介绍。
断言：本站的Python教程会详细介绍它们。
异常处理可以使用try/except语句来捕获异常。
try/except语句用于检测try语句块中的错误，允许except语句捕获有关异常的信息并进行处理。
如果您不想在发生异常时终止程序，请尝试捕获它。
语法：下面是一个简单的try....except...else的语法：try的工作原理是，当一个try语句开始时，python将它标记在当前程序的上下文中，这样当发生异常，可以在这里返回try子句先执行，接下来会发生什么取决于执行过程中是否发生异常。
·如果执行try之后的语句时出现异常，Python将返回尝试执行第一个子句，除非与异常匹配。
处理异常后，控制流将遍历整个try语句（除非在异常处理期间再次引发）。
·如果在try之后的语句中发生异常，但没有except子句，则该异常将被抛出到程序的下一个try或最高级别（这将终止程序并打印默认的错误消息）。
·如果执行try子句时没有发生异常，Python会执行else语句后面的语句（如果有else），然后控制流会遍历整个try语句。
示例下面是一个简单的示例打开一个文件并将内容写入到文件中，并且不会出现异常：上述程序的输出为：示例下面是一个简单的示例打开一个文件并将内容写入到文件中。
内容已写入，但文件没有写权限，出现异常：上述程序的输出结果：使用except不带任何类型的异常可以使用except不带任何类型的异常，如下例所示：上一个方法中的try-Exception语句捕获所有发生的异常。
但这并不是一个好办法，我们无法通过这个程序来识别具体的异常信息。
因为它捕获了所有异常。
将except与多种异常类型一起使用您还可以使用同一个except语句来处理多个异常消息，如下所示：try-finally语句try-finally语句无论是否有'exception.示例：如果打开的文件没有写权限，则输出如下：同样的示例还可以写成如下：当try块中抛出异常时，立即执行最后一个块中的代码。
当block中的所有语句都执行完毕后，出现异常再次引发并执行except块代码。
参数的内容与异常不同。
异常参数异常可以接受参数，这些参数可以作为输出异常信息的参数。
您可以通过except语句捕获异常参数，如下所示：从变量接收到的异常值通常包含在异常语句中。
元组形式的变量可以接收一个或多个值。
元组通常包含错误字符串、错误号和错误位置。
示例下面是单个异常的示例：执行上述程序的结果如下：触发异常我们可以使用raise语句自己触发异常。
raise语法的格式如下：语句中的异常是异常类型（例如，NameError）。
该参数是异常参数值。
该参数是可选的，如果不提供则异常参数为“None”。
最后一个参数是可选的（实践中很少使用），如果存在，则为跟踪异常的对象。
异常的实例可以是字符串、类或对象。
Python内核提供的大多数异常都是实例化类，它们是类实例的参数。
定义异常非常简单，如下：注意：为了捕获异常，“except”语句必须抛出具有相同异常的类对象或字符串。
例如，如果我们捕获前面的异常，则“except”语句如下：注意：用户定义的异常程序可以通过创建新的异常类来命名自己的异常。
异常通常应该直接或间接继承自Exception类。
下面是运行时错误的示例。
该示例创建了一个基类RuntimeError，用于在触发异常时返回附加信息。
在try语句块中，except块语句在用户定义的异常和变量之后执行，用于创建Networkerror类的实例。
定义完上面的类后，就可以触发异常了，如下：原主页脚本链接：http://www.jb51.net/article/47996.htm

Python for循环与break语句应用技巧解析

Python正则表达式攻略：精准匹配指定字符后的数字字符串

四种实用异常值检测方法解析与应用

有哪些比较好的做异常值检测的方法?

数据处理中如何处理缺失值和异常值?

Python|股票数据的异常值和缺失值处理

Python异常处理总结

相关文章

Python整数转二进制字符串：代码实现...

字符类型判断与统计：ASCII码解析与实...

Python for循环与break语句...

C语言教程：实现整数二进制位反转的代码示...

C语言for循环嵌套详解：运行规则与实例...

C语言递归实现整数转字符串：itoa()...

四种实用异常值检测方法解析与应用

C语言教程：三位数逆序输出实现方法及代码...

C语言实现素数判断函数：高效判断数字是否...

Python入门：揭秘8与15在编程中的...

最新文章

热门文章