1.数据集介绍
特征是工作经验年限,标签是薪水,因为数据量太少,利用GAN技术进行扩增
YearsExperience | Salary |
1.1 | 39343 |
1.3 | 46205 |
1.5 | 37731 |
2 | 43525 |
2.2 | 39891 |
2.9 | 56642 |
3 | 60150 |
3.2 | 54445 |
3.2 | 64445 |
3.7 | 57189 |
3.9 | 63218 |
4 | 55794 |
4 | 56957 |
4.1 | 57081 |
4.5 | 61111 |
4.9 | 67938 |
5.1 | 66029 |
5.3 | 83088 |
5.9 | 81363 |
6 | 93940 |
6.8 | 91738 |
7.1 | 98273 |
7.9 | 101302 |
8.2 | 113812 |
8.7 | 109431 |
9 | 105582 |
9.5 | 116969 |
9.6 | 112635 |
10.3 | 122391 |
10.5 | 121872 |
2.模型整体介绍
时间序列生成对抗性网络
TGAN,时间序列生成对抗性网络于2019年提出,作为一种基于GAN的框架,能够生成各种不同领域的真实时间序列数据,即具有不同观察行为的序列数据。与我们在真实数据和合成数据上实现无监督对抗性损失的其他GAN架构(例如,WGAN)不同,TimeGAN架构引入了监督损失的概念-鼓励模型通过使用原始数据作为监督来捕捉数据中的时间条件分布。此外,我们可以观察到嵌入网络的引入,该网络负责降低对抗性学习空间维度。
3.模型效果
扩增的数据与原始数据对比
扩增数据与原始数据概率分布图
运行环境要求:
numpy version: 1.19.2
pandas version: 1.2.0
scikit-learn version: 0.24.0
tensorflow version: 2.4.0
对项目感兴趣的,可以关注最后一行
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from tensorflow import function, GradientTape, sqrt, abs, reduce_mean, ones_like, zeros_like, convert_to_tensor,float32
from tensorflow import data as tfdata
from tensorflow import config as tfconfig
from tensorflow import nn
from tensorflow.keras import Model, Sequential, Input
from tensorflow.keras.layers import GRU, LSTM, Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import BinaryCrossentropy, MeanSquaredError
#代码,https://mbd.pub/o/bread/mbd-ZJmYmZtw
文章出处登录后可见!
已经登录?立即刷新