【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama: Towards Foundation Models for Time Series Forecasting

摘要

本文提出Lag-Llama,在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律(smoothly broken power-laws)。

介绍

目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数据上进行训练,展现出了极强的泛化能力。

本文训练了一个Transformer模型,使用大量时序数据进行训练并在未见过的数据集上进行测试。文章在Monash时序仓库上训练了Lag-Llama。

本文贡献:

  • 提出了Lag-Llama,一个单变量概率时序预测模型。
  • 在时序语料数据集上训练了LagLlama,并且Lag-Llama在未见过的数据集上进行零样本测试时,展现出了优于Baseline的效果。确定了一个“稳定”的制度。
  • 将零样本测试性能的经验缩放定律拟合为模型大小的函数,允许潜在推断和预测模型外的泛化。

相关工作

本文与Time-LLM等的不同点在于,Lag-Llama使用了滞后特征。

本文与TimeGPT-1的不同点在于,TimeGPT-1使用了在不确定量化时使用了共形预测,而本文直接进行概率预测。

扩展模型和数据集大小被证明可以带来显著的迁移学习能力和新任务上出色的小样本学习能力。

在量化训练基础模型所需资源时,神经缩放定律可以通过模型大小、训练集大小、计算资源等来尝试预测神经网络性能。而本文采用了平滑破坏幂律来推断网络的非线性缩放行为。

概率时序预测

假定有训练数据集【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting,其中拥有【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个时间序列,每个时间序列中包含【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个时间步,模型尝试预测未来【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个步的数据,因此需要未来的数据【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting或者留出数据集(held-out)进行回测。数据中除了有序号【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting外,还有一个时间日期;此外数据中还有一个与【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting相关的协方差【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting并进行向量化。

在单变量概率时序预测问题中,希望能够在给定可观测过去和协变量的一维序列情况下,建模【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个未来值的复杂联合分布。
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting
本文从完整的时间序列中选择大小为【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting的固定上下文窗口进行子采样并且在给定协变量情况下学习未来【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting步的未知分布:
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

因此可以通过自回归模型建立一个概率的链式规则:
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama

本文设定下的主要挑战:

  • 本文模型仅限于单变量建模,因为对于时间序列分组而获得的多变量维度对每个数据集是不同的。
  • 本文需要从每个数据集中进行采样,以便从所有数据集中学习表示,而不会从任何一个数据集中不成比例的采样。

由于使用Transformer架构,需要向量化输入,但时间序列频率不同。因此需要对单变量数据以能够表示数据频率的方法进行向量化。本文提出了一种通用方法用于向量化给定特定频率的的时间序列。

滞后特征

模型中所需的滞后协变量是通过目标值的的滞后特征,包括季度、月、周、天、小时和二级频率构建的。给定排序的滞后系数集合【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting,可以特定时刻的滞后运算【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting,其中【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting中的每一条都由【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting给出。因此,要为一定时间窗口【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting创建滞后特征,需要对【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个历史点【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting进行采样。

一种向量化单变量序列的方法是使用潜在的重叠部分或具有一定大小和步长的片段,但是这种方法会导致向量中因果混合。

image-20231108210125515

滞后系数直接对应于数据各种可能的季节性,并且能够保留日期时间指数因果结构。通过依赖滞后特征,可以在训练期间使用掩码解码器,在推理时使用自回归采样。但一个缺点是在推理时需要一个【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting或更大的上下文窗口。

Lag-Llama结构

image-20231108212059894

Lag-Llama基于Llama结构,并且通过RMS归一化整合了预归一化并且在每个Attention层的Q和K增加了旋转位置编码。以上是【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个Decoder层的模型结构。

一个长度为【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting的单变量序列以及其协变量通过滞后算子被向量化为一个长度为【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting的向量【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting。然后序列被输入到一个MLP中映射到隐藏维度,从Transformer层输出后,模型使用Distribution Head来预测所选分布的参数。最后利用对数值进行求loss。

在推断时,给定长度为【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting的时间序列,可以构建一个特征向量并输入模型获得下一个时间步的分布。通过这样的操作,能够获得预测分布,通过拼接来初始化序列从而获得更远的滞后向量。

分布头的选择

分布头用于映射模型特征到参数的概率分布上。用不同表示能力的分布头来输出参数的概率分布。

值缩放

该模型中最大的挑战是如何处理不同数量级的数据。

通过计算平均值【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting和方差【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting,从而来计算归一化后的值。同时,将【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting作为时间独立的协变量。

数据增强

为了防止过拟合,使用了时间序列增强技术Freq-Mix和Freq-Mask,概率为0.5,增强率为0.1。为避免样本过多/过少,采用分层抽样并采用总时间步进行加权。

实验

数据集

使用Monash Time Series Repository及来自不同领域的数据进行训练,使用M4 Weekly和Traffic数据集进行测试。其中测试数据集在训练时是不可见的并用来测试OOD性能。

image-20231115170740642

模型训练

Batch_size 100,学习率 1e-3,50轮早停,每个epoch由100个窗口组成。早停由留出数据集的平均loss决定。

评估

使用CRPS(连续分级概率分数)按照分布进行评估:
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

实验结果

零样本性能

image-20231115185545494

所有Baseline都是独立进行监督学习,然后再对应的测试集上进行测试。Lag-Llama和Lag-Transformer是在时序语料上进行训练,然后再两个测试数据集上进行测试。

窗口大小设置

image-20231115185520056

随着窗口大小增加,Lag-Llama在两个数据集上实现了更好的零样本性能。

模型参数量

image-20231115185500220

测试了在不同模型参数量下Lag-Llama的性能,可以发现在【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting个参数以后结果基本稳定。

缩放定律

image-20231115185447512

拟合缩放定律可能可以实现进一步的外推。

Broken Neural Scaling Law:
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting
其中,【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting是性能相关数(模型参数量、计算量、训练数据集大小、模型输入大小等),【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting是评价指标。其他参数都是拟合的。

同时本文没有选择break数量,而是使用n阶最小二乘法来拟合85%的数据,然后选择使随后5%数据的RMSE最小化的n

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年12月26日
下一篇 2023年12月26日

相关推荐