商业分析 (BA) 是一组技能、技术和方法,用于研究公司的信息和绩效以获得洞察力并做出数据驱动的未来选择。BA 确定哪些数据集有用并且可以增加收入、生产力和效率。到 2023 年,将近33%的大型企业将使用决策智能。企业可以通过将决策速度提高 5 倍来从数据分析中获益。
许多类型的数据集都包含异常值和缺失值。异常值会导致低估或高估结果,从而显着影响统计中的估计过程。缺失值会减少可用数据,并可能导致结果不太可靠。因此,学习如何处理缺失数据和处理异常值很重要。业务分析在处理此类问题中起着重要作用。业务分析师使用某些可用于处理异常值和缺失值的方法。以下是如何处理给定数据集中的异常值和缺失值。
什么是异常值?
离群值是随机总体样本中的观察值,与其他值的距离异常。这是一个大大偏离人口正常值的观察结果。分析师决定将什么视为异常。在做出决定之前,需要对正常观察进行表征。异常值存在于所有类型的数据集中。
例如:以下哪一项的 do 值最低?
考虑一个由值 1,500,550,560 和 575 组成的数据集。答案将为 1。1 是异常值,因为它与其他观察值有很大不同。
异常值的类型
在各种类型的数据集中发现了三种类型的异常值。
1. 全局异常值
全局异常值是与正常观测值明显偏离的观测值,它们距离正常数据点最远。例如,与其他时间相比,锁定期间运营的航班数量。
2.集体离群值
一些观察结果不能单独视为异常值,但它们总体上与其余数据点有显着偏差。汇总时,它们被视为异常值。
3. 上下文异常值
上下文异常值与正常观察结果有显着偏差,但仅当观察结果基于特定上下文时才如此。例如,夏天的温度可能被认为异常低,但冬天的温度是正常的。
为什么我们需要处理异常值?
离群值与正常观察值异常不同,它们在数据集中的存在可能会在统计估计中引入偏差。处理异常值很重要的原因有很多。
异常值的存在会导致模糊的预测。
由于异常值的极值,异常值可能会导致误导性预测。
离群值可能会导致高估或低估统计值,例如均值、众数和中位数。
异常值可能会影响线性回归、支持向量机和逻辑回归等统计模型。
由于异常值的存在,统计模型的数学能力会降低。
什么是缺失值?
当观察中的变量没有记录值时,数据集中会出现缺失值。存在缺失值的原因有很多,例如研究参与者无反应、记录时数据丢失、记录器错误等。缺失值存在于所有类型的数据集中,它们可能会显着影响准确性结果。您可能想知道当数据集包含缺少数据的记录时会发生什么。缺失值可能会导致结果出现偏差,导致不正确的结果,并使机器学习模型失败。因此,必须正确处理缺失值。
检测缺失值
处理缺失值的第一步是找到缺失值。有几种方法可以在 Python 中检测缺失值。isnull() 函数主要用于查找缺失值。通过使用 dataframe.isnull().values.any(),您可以找到数据集中的缺失值。使用 dataframe.isnull().sum(),您可以找到每列中的缺失值。
处理缺失值和异常值的策略
如何处理不同类型数据集中的缺失数据和异常值?它们可以被删除吗?它们可以被替换吗?有几种策略用于处理缺失值和异常值。您需要正确分析数据集,以确定最适合您的策略。一些常用的策略是 -
1.删??除缺失值
这种快速技术用于消除数据集中的缺失值。但是,这不是推荐的策略。删除具有缺失值的观测值可能会丢失重要数据。这可能会导致错误的结论和误解。
删除整行 -如果一行有多个缺失值,有时会删除整行。
删除整列 -如果一列包含多个缺失值,您可以选择删除整列。
2. 估算缺失值和异常值
在这种方法下,在处理数据之前,缺失值会被替换为其他值。可以使用几种插补方法。
替换为任意值:在此方法中,缺失值将根据猜测替换为任意值。但是,猜测不能是随机的。它们必须是在给定上下文中有意义的有根据的猜测。
Replacing With the Mean:这是一种使用非常广泛的插补方法。但是,它不适用于估算异常值。
替换为模式:模式是数据集中最常出现的值。因此,用模式替换缺失值或异常值是有意义的。
替换为中位数:数据集最中间的值称为中位数。此方法更适合于估算离群值。
替换为以前的值:此方法也称为“前向填充”。缺失值或离群值被替换为先前出现的值。
替换为下一个值 -这称为“向后填充”。缺失值或离群值将替换为出现的下一个值。
插值——缺失值和离群值可以使用各种插值方法进行估算,例如线性、二次和多项式方法。