基础知识
计算思想
构造计算评分的公式:
max,min指已知数据中的最大值和最小值而不是理论上的最大值和最小值
三点解释:
(1)比较的对象一般要远大于两个。(例如比较一个班级的成绩)
(2)比较的指标也往往不只是一个方面的,例如成绩、工时数、课外竞赛得分等。
(3)有很多指标不存在理论上的最大值和最小值,例如衡量经济增长水平的指标:GDP增速。
指标正向化
极大型指标(效益型指标):数值越高(大)越好
极小型指标(成本型指标):数值越少(小)越好
统一指标类型:将所有的指标转化为极大型称为指标正向化(最常用)
极小型指标转换为极大型指标的公式:max-x
标准化处理
为了消去不同指标量纲的影响,需要对已经正向化的矩阵进行标准化处理。
标准化处理计算公式:
MATLAB代码
X = [89,1; 60,3; 74,2; 99,0] %输入正向化矩阵
[n , m] = size(X) %计算m,n
X ./ repmat(sum(X.*X) .^ 0.5, n, 1) %标准化处理
计算公式
类比只有一个指标计算得分:
MATLAB代码
X = [89,1;60,3;74,2;99,0]
[n , m] = size(X);
Z = X ./ repmat(sum(X.*X) .^ 0.5,n,1);
D_P = sum([(Z - repmat(max(Z),n,1)).^2 ],2) .^ 0.5 %D+向量
D_N = sum([(Z - repmat(min(Z),n,1)).^2 ],2) .^ 0.5 %D-向量
TOPSIS算法
第一步:将原始矩阵正向化
指标名称 | 指标特点 | 例子 |
---|---|---|
极大型(效益型)指标 | 越大(多)越好 | 成绩、GDP增速、企业利润 |
极小型(成本型)指标 | 越小(少)越好 | 费用、坏品率、污染程度 |
中间型指标 | 越接近某个值越好 | 水质量评估时的PH值 |
区间型指标 | 落在某个区间最好 | 体温、水中植物性营养物量 |
所谓的将原始矩阵正向化,就是要将所有的指标类型统一转化为极大型指标(转换的函数形式可以不唯一)
极小型极大型:max-x(推荐)
如果所有的元素均为正数,那么也可以使用1/x
中间型极大型:{xi}是一组中间型指标序列,且最佳的数值为xbest,那么正向化的公式为
区间型极大型:{xi}是一组区间型指标序列,且最佳的区间为[a,b],那么正向化的公式为
M定义最大距离
第二步:正向化矩阵标准化
标准化的目的是消除不同指标量纲的影响。
假设有n个要评价的对象,m个评价指标(已经正向化)构成的正向化矩阵如下:
那么对其标准化的矩阵记为Z,Z中的每一个元素:
第三步:计算得分并归一化
代码实现
代码知识点
1. 将EXCEL中的数据导入到Matlab,并另存为mat文件,下次可直接load
2. Matlab中函数的编写和调用
function [输出变量] = 函数名称(输入变量)
函数的中间部分都是函数体
函数的最后要用end结尾
输出变量和输入变量可以有多个,用逗号隔开
function [a,b,c]=test(d,e,f)
a=d+e;
b=e+f;
c=f+d;
end
自定义的函数要单独放在一个m文件中,不可以直接放在主函数里面(和其他大多数语言不同)
3. magic(n)幻方矩阵
M = magic(n)返回由1到n^2的整数构成并且总行数和总列数相等的n×n矩阵。阶次n必须为大于或等于3的标量。
4. sort函数
Matlab中给一维向量排序是使用sort函数:sort(A),排序是按升序进行的,其中A为待排序的向量;
sort(A)若A是向量不管是列还是行向量,默认都是对A进行升序排列。sort(A)是默认的升序,而sort(A,’descend’)是降序排序。
若A是矩阵,默认对A的各列进行升序排列
sort(A,dim):dim=1时等效sort(A); dim=2时表示对A中的各行元素升序排列
若欲保留排列前的索引,则可用 [sA,index] = sort(A,’descend’) ,排序后,sA是排序好的向量,index是向量sA中对A的索引。
A = [2,1,3,8]
[sA,index] = sort(A,'descend')
>>> sA = 8 3 2 1
>>> index = 4 3 1 2
5. zeros和ones函数
zeros(3):返回3×3的方阵,全是0
ones(3):返回3×3的方阵,全是1
zeros(3,1):返回3×1的方阵,全是0
ones(3,1):返回3×1的方阵,全是1
第一步:把数据复制到工作区,并将这个矩阵命名为X
(1)在工作区右键,点击新建(Ctrl+N),输入变量名称为X
(2)在Excel中复制数据,再回到Matlab中右键,点击粘贴Excel数据(Ctrl+Shift+V)
(3)关掉这个窗口,点击X变量,右键另存为,保存为mat文件(下次就不用复制粘贴了,只需使用load命令即可加载数据)
(4)注意,代码和数据要放在同一个目录下哦,且Matlab的当前文件夹也要是这个目录。
clear;clc
load data_water_quality.mat %load加载表格数据
注意:如果提示: 错误使用 load,无法读取文件 ‘data_water_quality.mat’。没有此类文件或目录。
那么原因是因为你的Matlab的当前文件夹中不存在这个文件,可以使用cd函数修改Matlab的当前文件夹
比如说,代码和数据放在了: D:第2讲.TOPSIS法(优劣解距离法)\代码和例题数据
那么就可以输入命令:
cd 'D:第2讲.TOPSIS法(优劣解距离法)\代码和例题数据'
第二步:判断是否需要正向化
[n,m] = size(X);
disp(['共有' num2str(n) '个评价对象, ' num2str(m) '个评价指标'])
Judge = input(['这' num2str(m) '个指标是否需要经过正向化处理,需要请输入1 ,不需要输入0: ']);
if Judge == 1
Position = input('请输入需要正向化处理的指标所在的列,例如第2、3、6三列需要处理,那么你需要输入[2,3,6]: '); %[2,3,4]
disp('请输入需要处理的这些列的指标类型(1:极小型, 2:中间型, 3:区间型) ')
Type = input('例如:第2列是极小型,第3列是区间型,第6列是中间型,就输入[1,3,2]: '); %[2,1,3]
% 注意,Position和Type是两个同维度的行向量
for i = 1 : size(Position,2) %这里需要对这些列分别处理,因此我们需要知道一共要处理的次数,即循环的次数
X(:,Position(i)) = Positivization(X(:,Position(i)),Type(i),Position(i));
% Positivization是我们自己定义的函数,其作用是进行正向化,其一共接收三个参数
% 第一个参数是要正向化处理的那一列向量 X(:,Position(i)) 回顾上一讲的知识,X(:,n)表示取第n列的全部元素
% 第二个参数是对应的这一列的指标类型(1:极小型, 2:中间型, 3:区间型)
% 第三个参数是告诉函数我们正在处理的是原始矩阵中的哪一列
% 该函数有一个返回值,它返回正向化之后的指标,我们可以将其直接赋值给我们原始要处理的那一列向量
end
disp('正向化后的矩阵 X = ')
disp(X)
end
positivization函数:自己定义的函数,其作用是进行正向化
function [posit_x] = Positivization(x,type,i)
% 输入变量有三个:
% x:需要正向化处理的指标对应的原始列向量
% type: 指标的类型(1:极小型, 2:中间型, 3:区间型)
% i: 正在处理的是原始矩阵中的哪一列
% 输出变量posit_x表示:正向化后的列向量
if type == 1 %极小型
disp(['第' num2str(i) '列是极小型,正在正向化'] )
posit_x = Min2Max(x); %调用Min2Max函数来正向化
disp(['第' num2str(i) '列极小型正向化处理完成'] )
disp('~~~~~~~~~~~~~~~~~~~~分界线~~~~~~~~~~~~~~~~~~~~')
elseif type == 2 %中间型
disp(['第' num2str(i) '列是中间型'] )
best = input('请输入最佳的那一个值: ');
posit_x = Mid2Max(x,best);
disp(['第' num2str(i) '列中间型正向化处理完成'] )
disp('~~~~~~~~~~~~~~~~~~~~分界线~~~~~~~~~~~~~~~~~~~~')
elseif type == 3 %区间型
disp(['第' num2str(i) '列是区间型'] )
a = input('请输入区间的下界: ');
b = input('请输入区间的上界: ');
posit_x = Inter2Max(x,a,b);
disp(['第' num2str(i) '列区间型正向化处理完成'] )
disp('~~~~~~~~~~~~~~~~~~~~分界线~~~~~~~~~~~~~~~~~~~~')
else
disp('没有这种类型的指标,请检查Type向量中是否有除了1、2、3之外的其他值')
end
end
Min2Max函数:对极小型函数正向化
function [posit_x] = Min2Max(x)
posit_x = max(x) - x;
%posit_x = 1 ./ x; %如果x全部都大于0,也可以这样正向化
end
Mid2Max函数:对中间型函数正向化
function [posit_x] = Mid2Max(x,best)
M = max(abs(x-best));
posit_x = 1 - abs(x-best) / M;
end
Inter2Max函数:对区间型函数正向化
function [posit_x] = Inter2Max(x,a,b)
r_x = size(x,1); % row of x x有多少行
M = max([a-min(x),max(x)-b]);
posit_x = zeros(r_x,1);
% 初始化posit_x全为0 初始化的目的是节省处理时间
for i = 1: r_x
if x(i) < a
posit_x(i) = 1-(a-x(i))/M;
elseif x(i) > b
posit_x(i) = 1-(x(i)-b)/M;
else
posit_x(i) = 1;
end
end
end
优化代码:让用户判断是否需要增加权重
disp('请输入是否需要增加权重向量,需要输入1,不需要输入0')
Judge = input('请输入是否需要增加权重: ');
if Judge == 1
disp(['如果你有3个指标,你就需要输入3个权重,例如它们分别为0.25,0.25,0.5, 则你需要输入[0.25,0.25,0.5]']);
weigh = input(['你需要输入' num2str(m) '个权数。' '请以行向量的形式输入这' num2str(m) '个权重: ']);
OK = 0; % 用来判断用户的输入格式是否正确
while OK == 0
if abs(sum(weigh) - 1)<0.000001 && size(weigh,1) == 1 && size(weigh,2) == m % 这里要注意浮点数的运算是不精准的。
OK =1;
else
weigh = input('你输入的有误,请重新输入权重行向量: ');
end
end
else
weigh = ones(1,m) ./ m ; %如果不需要加权重就默认权重都相同,即都为1/m
end
第三步:对正向化后的矩阵进行标准化
Z = X ./ repmat(sum(X.*X) .^ 0.5, n, 1);
disp('标准化矩阵 Z = ')
disp(Z)
第四步:计算与最大值的距离和最小值的距离,并算出得分
D_P = sum([(Z - repmat(max(Z),n,1)) .^ 2 ] .* repmat(weigh,n,1) ,2) .^ 0.5; % D+ 与最大值的距离向量
D_N = sum([(Z - repmat(min(Z),n,1)) .^ 2 ] .* repmat(weigh,n,1) ,2) .^ 0.5; % D- 与最小值的距离向量
S = D_N ./ (D_P+D_N); % 未归一化的得分
disp('最后的得分为:')
stand_S = S / sum(S)
[sorted_S,index] = sort(stand_S ,'descend')
注意:代码文件仅供参考,一定不要直接用于自己的数模论文中,国赛对于论文的查重要求非常严格,代码雷同也算作抄袭
模型拓展
带权重的TOPSIS
可以用层次分析法给这m个评价指标确定权重
当然:层次分析法的主观性太强了,更推荐使用熵权法来进行客观赋值。
注意:我们也可以先对标准化矩阵中的每个元素计算权重,然后直接用带权重的标准化矩阵来计算得分,这样得到的结果和下面在计算距离时引入权重得到的结果是几乎相同的。
基于熵权法对Topsis模型的修正
熵权法是一种客观赋权方法
依据的原理: 指标的变异程度(可以理解为方差)越小,所反映的信息量也越少,其对应的权值也应该越低。(客观:数据本身就可以告诉我们权重)
(一种极端的例子:对于所有的样本而言,这个指标都是相同的数值,那么我们可认为这个指标的权值为0,即这个指标对于我们的评价起不到任何帮助)
度量信息量的大小
概率大(越有可能发生)的事情,信息量越少,概率小(越不可能发生)的事情,信息量就越多。
如果把信息量用字母I表示,概率用p表示,那么我们可以将它们建立一个函数关系:
假设x表示事件X可能发生的某种情况,p(x)表示这种情况发生的概率
我们可以定义:I(x) = -ln(p(x))
因为0<=p(x)<=1,所以I(x)>=0
信息熵的定义
随机变量的信息熵越大,则它的值(内容)能补充给你的信息量越大,而知道这个值前你已有的信息量越小
熵权法步骤
(1)判断输入的矩阵中是否存在负数,如果有则要重新标准化到非负区间(后面计算概率时需要保证每一个元素为非负数)
(2)计算第j项指标下第i个样本所占的比重,并将其看作相对熵计算中用到的概率
(3)计算每个指标的信息熵,并计算信息效用值,并归一化得到每个指标的熵权
熵权法有缺陷,如果论文要发表,别用熵权法;如果只是用这个方法进行比赛那么可以随便用,这个方法总比自己随意定义好
代码实现
%% 让用户判断是否需要增加权重
disp("请输入是否需要增加权重向量,需要输入1,不需要输入0")
Judge = input('请输入是否需要增加权重: ');
if Judge == 1
Judge = input('使用熵权法确定权重请输入1,否则输入0: ');
if Judge == 1
if sum(sum(Z<0)) >0 % 如果之前标准化后的Z矩阵中存在负数,则重新对X进行标准化
disp('原来标准化得到的Z矩阵中存在负数,所以需要对X重新标准化')
for i = 1:n
for j = 1:m
Z(i,j) = [X(i,j) - min(X(:,j))] / [max(X(:,j)) - min(X(:,j))];
end
end
disp('X重新进行标准化得到的标准化矩阵Z为: ')
disp(Z)
end
weight = Entropy_Method(Z);
disp('熵权法确定的权重为:')
disp(weight)
else
disp(['如果你有3个指标,你就需要输入3个权重,例如它们分别为0.25,0.25,0.5, 则你需要输入[0.25,0.25,0.5]']);
weight = input(['你需要输入' num2str(m) '个权数。' '请以行向量的形式输入这' num2str(m) '个权重: ']);
OK = 0; % 用来判断用户的输入格式是否正确
while OK == 0
if abs(sum(weight) -1)<0.000001 && size(weight,1) == 1 && size(weight,2) == m % 注意,Matlab中浮点数的比较要小心
OK =1;
else
weight = input('你输入的有误,请重新输入权重行向量: ');
end
end
end
else
weight = ones(1,m) ./ m ; %如果不需要加权重就默认权重都相同,即都为1/m
end
function [W] = Entropy_Method(Z)
% 计算有n个样本,m个指标的样本所对应的的熵权
% 输入
% Z : n*m的矩阵(要经过正向化和标准化处理,且元素中不存在负数)
% 输出
% W:熵权,1*m的行向量
%% 计算熵权
[n,m] = size(Z);
D = zeros(1,m); % 初始化保存信息效用值的行向量
for i = 1:m
x = Z(:,i); % 取出第i列的指标
p = x / sum(x);
% 注意,p有可能为0,此时计算ln(p)*p时,Matlab会返回NaN,所以这里我们自己定义一个函数
e = -sum(p .* mylog(p)) / log(n); % 计算信息熵
D(i) = 1- e; % 计算信息效用值
end
W = D ./ sum(D); % 将信息效用值归一化,得到权重
end
% 重新定义一个mylog函数,当输入的p中元素为0时,返回0
function [lnp] = mylog(p)
n = length(p); % 向量的长度
lnp = zeros(n,1); % 初始化最后的结果
for i = 1:n % 开始循环
if p(i) == 0 % 如果第i个元素为0
lnp(i) = 0; % 那么返回的第i个结果也为0
else
lnp(i) = log(p(i));
end
end
end
注意:代码文件仅供参考,一定不要直接用于自己的数模论文中,国赛对于论文的查重要求非常严格,代码雷同也算作抄袭
版权声明:本文为博主作者:沐尘.affluent原创文章,版权归属原作者,如果侵权,请联系我们删除!
原文链接:https://blog.csdn.net/wudjhxji/article/details/135575792