阅读3Hierarchical integrated machine learning model for predicting flight departure delays and…

心中带点小风骚

3 年前

阅读3Hierarchical integrated machine learning model for predicting flight departure delays and...

Table of Contents

文章信息

本周阅读论文题目为《Hierarchical integrated machine learning model for predicting flight departure delays and duration in series》，是一篇2021年发表在Transportation Research Part C 涉及利用分层集成学习模型按序预测航班延误状态以及延误持续时间的文章。

概括

文章提出了一种新型的分层集成学习模型，用于按顺序而不是并行地预测航班起飞延误和持续时间，以避免决策中的模糊性。文章对采用各种机器学习算法和不同的采样技术的集成模型进行分析，并用一家香港的国际航空公司提供的高噪声、不均衡、分散、扭曲的历史高维数据证明模型的实用性。结果显示，在4小时预测范围内，采用SMOTETomek采样技术的建设性神经网络算法能够实现更好的平均平衡召回率，对延迟状态分类以及阈值为60分钟和30分钟的延迟持续时间预测精度分别为65.5%，61.5%，59%。同样，对于少数标签，precision-recall 曲线下面积表明，所提出的模型在60 min和30 min阈值下分别取得了32.44%和35.14%的更好结果，而平行模型分别取得了26.43%和21.02%。对不同抽样技术、抽样方法以及评估机制对预测性能的影响也进行了研究。

1.介绍

在2018/2019年全球国际航班延误率高达21.19%，高飞行延误率促使人们进行研究，并迫切需要提出一种可靠的机器学习预测模型，使得航空公司做出更明智的决策。文章在航班延误预测方面对现存研究的多个局限方面进行解决：
1）在超过特定阈值的情况下并行实施多个模型可能会导致决策不唯一的情况发生。针对此问题，研究提出了一个分类模型，且该模型是按顺序而不是并行实现的，此模型可以对任意阈值进行应用并且可以避免决策的模糊性。
2）现存研究主要根据国内航班数据展开，然而国际航班与国内航班有很多地方需求不同，因此只对国内航班进行分析对延误预测有一定程度的影响。文章使用香港国际航线进行分析，提出一种分层集成模型。
3）航班延误问题曾以回归问题、分类问题、两者结合被考虑。作为分类或回归问题研究都具有一定的挑战。研究解决了回归和分类评估机制的挑战，并提出了一种合适的航班延误预测方法。
4）为平衡分类的数据集采用random over-sampling 或 random under-sampling采样技术，这可能会导致过拟合和欠拟合情况，文章研究了各种采样技术以平滑决策边界并提高机器学习方法的预测准确性。现有研究对训练集和测试集都应用了采样技术，文章只对训练集平衡采样，通过与原始测试集进行比较来衡量性能，以探究对训练集和测试集都进行抽样是否会导致错误的决定。
5）消除了传统神经网络中输入和隐藏单元的线性依赖性、深度学习隐藏层中的隐藏单元数、机器学习算法中广泛的超参数调整，无需使用者自己定义输入。

2.航班延误问题描述

研究重点在于根据可用的运营参数信息，预测航空公司航班起飞延误和四小时预测范围内的可能持续时间。根据IAIA，航班起飞延误原因被划分为9类。图1描述了造成起飞延误的各种类别的占比。

4.分层集成模型的提出

3个级别，以30min和60min为阈值的分层集成模型：

根据航空公司的需要，航班起飞延误状态和持续时间的分层集成模型可以扩展到任意数量的阈值和级别，以促进明智的决策。

5.机器学习方法描述

BP神经网络（BPNN）、级联相关神经网络（CCNN）、CPCLS、支持向量机（SVM）、平均法/投票法集成学习、随机森林（RF）、梯度提升决策树（GBDT）和极限梯度提升算法（XGBoost）

6.Numerical experimental work

6.1数据来源以及预处理

航空公司提供的航班延误预测的历史数据包括19105次国际客运和货运航班。实际飞行时间超过两年，从2015年4月到2017年3月，覆盖了8个国际OD(或扇区)机场，总共运行了107架宽体飞机。下表2提供了用于预测出发延误的数据属性的信息。对于连续变量continuous variables，将数据进行归一化normalization，压缩到[0,1]之间；而对于分类变量categorical variables，使用one hot encoding为每个类别创建一个二进制向量。属性选择：航空公司提供的信息+上图1所示的各延误原因类别的重要性。

6.2起飞延误预测

6.2.1 Delay prediction as a regression problem

对于回归，目标在于最小化真实情况和预测延误的误差——MAE
真实情况（test）：

预计起飞延误：

table1 和table3对比分析可以看出，对于该历史航班数据集，回归可能不是一种合适的方法。为了探究原因，用The one sampleKS normality test 以及Quantile-Quantile plot (Q-Q plot)分析得出，真实数据分布是非正态性的。研究通过各种预处理和转换技术尝试改进数据分布，使其满足正态性。（在预处理过程中，去除极值、长尾、离群值和噪声数据；在转换过程中，通过取平方根或取对数来改善分布。）但是最终最小化目标函数方面没有显示出显著的支持。

6.2.2 Delay prediction as a classification problem

6.2.2.1。Delay prediction results with the original dataset.

用原始数据集进行延误预测，Table4结果显示，预测结果在标签为delay的更高频，这是不合适的，原因归结于数据集不平衡——19105航班中，72%属于延误、28%属于准时。为克服这一困难，各种采样技术被推荐来平衡标签类别、去除噪声、去除在决策边界上重叠的数据。

6.2.2.2。Sampling techniques for class imbalance and decision boundaries overlapping.
用于解决class imbalance和class overlapping的采样技术主要包括under-sampling，over-sampling and hybrid (combination) approaches
各采样方法获得的训练集与原始数据集见下图3。

6.2.2.3。Delay prediction results with a sampled dataset.
通过对八种采样方法和各机器学习方法的组合得到预测结果指标，结果显示，与其他分类器相比，采用SMOTETomek 采样方法的hypo – freeCPCLS分类器能够获得更好的预测性能。

值得注意的是，研究只将采样技术用于训练集中，而模型的表现是用原始的测试集进行评估的。为探究对训练集和测试集同时进行抽样，是否会造成不准确的结果，使用hypo-free CPCLS分类器，分别用SMOTETomek 和SMOTEENN抽样方法，对两种方式（只应用于训练集；训练集和测试集都抽样）进行对比。Table7 结果显示，在训练集和测试集上都进行采样，会造成结果的不准确性。

综上，使用不同的采样技术、采样方法和估计方法组合的实验工作表明，使用SMOTETomek采样技术的hyp-free CPCLS分类器只应用于训练集可以显示出可靠的结果。

6.2.2.4。Hierarchical integrated model prediction results.
根据上文4.分层集成模型的提出中说明的3个级别，以30min和60min为阈值的分层集成模型(Fig2)对延误持续时间进行分类。
召回准确率和学习时间是理解hyp-free CPCLS分类器可扩展性的有用指标。**可扩展性被定义为训练规模增加对分类器计算性能的影响。**训练规模对准确性和学习时间有相同的效果。对比研究表明，1级(19105个航班)在0.73 s内平均精度达到65.5%，2级(13792个航班)在0.62 s内平均精度达到61.5%，3级(11071个航班)在0.51 s内平均精度达到59%。对于这三个层次，结果是一致的——从小数据集到大数据集，准确率在提高，训练时间在增加。

6.2.2.5。Factors influencing flight delay.
The mutual information (bits) evaluation methodwas adopted to determine the most influencing factor that highly contributes to the flight delay.

Fig5显示，short-range flights 平均延误时间比long-range flights 短。

6.2.2.6。Comparison of hierarchical integrated (series) model with parallel model and multiclass classification scheme.

1.Comparison of hierarchical integrated (series) model with parallel model：the precision-recall curve

结果表明，按顺序的模型有助于改善阈值少数群体预测的PR曲线，即按顺序的模型比并行模型更适合预测航班延误和持续时间。
2.Comparison of the series model with the multiclass classification scheme
the multiclass classification scheme:For instance, the flights with no delay were labelled as “on-time”, flights with delay 1 to 30 min were labelledas “1–30 min”, flights with delay 31 to 60 min were labelledas “31–60 min” and flights with delay greater than 60 min were labelled as “>60 min”. This results in a total of four labels for multiclass classification prediction.

Table9与上文的Table8对比分析得出结论。

6.2.2.7。Prediction of delay category.
上文中的Fig1描绘了飞机延误的主要原因，由于hyp-free CPCLS_SMOTETomek方法在预测航班起飞延误状态和延误时间方面效果较好，这促使我们检验该方法在预测延误类别方面的性能。

结果表明，航空公司对空中交通管制和政府当局施加的限制较少是长时间延误的主要原因。

6.2.2.8。Managerial implications and future work.
Managerial implications：
1.in series而不是并行的模型，提升了预测准确性。2.在分层集成模型中使用二进制标签以及数据采样技术使其成为回归和多类分类的最佳替代方法。3.研究考虑了所有延误类别造成的航班延误数据，而不是只考虑一个特定类别的延误。

future work：
1.预测精度待提高：延迟状态和持续时间的平均均衡召回正确率分别为65.5%、61.5%和59%，延迟类别的平均均衡召回正确率为63.25%，有待进一步提高。1.获取关于类别的信息，以及每个航班对应的延迟时间。其思想是预测每个类别的航班延误状态和持续时间，并分析组合类别中各子类别的重要性，以提高预测精度，进一步改进决策过程。2.研究的数据存在很多弊端，未来将努力获取更多的航班延误数据和属性信息，如机组人员分配、到达和离开机场的空中交通限制、入境强制安检、飞机轮转等，这将有助于最大限度地减少class overlapping问题，提高预测精度。
2.机器学习算法在大数据面前的模型可扩展性待探究。
3.更细化深入的探究飞机起飞延误的影响因素。

7.总结

为了避免决策中的歧义，文章提出了一种将航班起飞延误状态和延误时间按顺序而非并行的层次集成学习模型。通过获取在香港运营的国际航空公司的历史高维数据，验证了该模型的性能。高分散、右偏、噪声和不平衡的数据使得估算机制难以真正估计航班起飞延误情况。我们的研究结果表明，在回归和多类分类估计机制无法执行的应用中，所提出的模型是最佳的替代方案。我们对SL-BPNN、DL-BPNN、SVM、hyp-free CPCLSEnsembles、RF、GBDT和XGBoost估计方法以及各种采样技术进行了各种实验工作和比较，以研究航班延误问题。回归估计机制的统计分析表明SL-BPNN、DL-BPNN、SVM、hyp-free CPCLS、ensembles、RF、GBDT和XGBoost的平均绝对误差分别为47.16 min、38.22 min、39.31 min、36.37 min、37.26 min、36.60 min、36.42 min和36.57 min。使用各种预处理和转换技术并不能改进回归估计性能。多分类机制对标签——准时、1-30 min、31-60 min和>60 min的召回正确率分别为8%、79%、36%和0%，十分不均衡。回归和多类分类的结果表明，当历史飞行数据集高度分散、正向倾斜且类决策边界重叠时，这两种估计机制可能不是一种合适的方法。结果表明，在阈值为60 min和30 min时，结合SMOTETomek采样技术的hyp- free CPCLS机器学习算法对延迟状态和延迟持续时间进行分级分类，平均召回率分别达到65.5%、61.5%和59%。将该模型与并行模型进行比较，结果表明，该模型能够更准确地预测少数类标签。precision-recall曲线下面积表明，在阈值为60 min和30 min时，本文模型的召回率分别为32.44%和35.14%，而并行模型的召回率分别为26.43%和21.02%。

文章出处登录后可见！

已经登录？立即刷新