0.引言
开始读研时,想象着自己能够发几篇中文核心甚至于SCI。那个时候对发论文的难度一概不知,而且相关论文是真的看不懂,中文英文的都是。用哪个框架?哪个数据集?什么方法?哪个模型?都是一团浆糊,等把这些理清楚,再等第一篇中文核心终于录用了,才印证了一些自己的初步想法。随着学习的深入,回过头来再读以前的一些论文,一个结论已经呼之欲出,那就是这个领域真的很水。
由于自己没有足够大的学术交流圈子,为了尽量避免误判,我在原来13篇论文的基础上又读了18篇,这些论文至少都出自中文核心,有一些还有EI的title,事实上近几年能找到的文章也不算多,这些基本能说明问题了。
1.几种典型的“水文”特征
一是只做单工况测试
这31篇论文基本都有用到西储大学数据集,因此相对好比较。我前面的文章已经验证过,在这个数据集上,要想在单工况下达到100%的准确率其实非常容易,基本上也就是一个课后作业的程度。刚入门会觉得太夸张了,这还怎么创新,怎么提高性能?你以为大家会在更严苛的条件下去增加难度,挑战方法或者模型的极限能力吗?事实上是,绝大部分人还在单工况下折腾。这31篇里,只有6篇做了多工况测试,2篇做了噪声测试。绝大部分还在比较99.6%更好还是99.8%更好的问题。
二是关键信息缺失
这个是最让人困惑的,就好像你说自己证明了某个方法更好,但是你却没有交代自己怎么做的,或者说你交代的过程有外行话或者逻辑上的缺陷,但是你就这么给出个结果完事了。最突出的是大部分论文都不好好交代训练集、验证集和测试集的构成。凡是做过模型训练的都知道这个构成比例对于结果的影响有多大,并且在没有验证集存在的情况下,测试集很可能进行了误用而造成作弊。在这31篇中,清楚交代验证集构成的也仅仅只有6篇。如果我是审稿人,我会认为他们压根对模型训练中的一些逻辑关系没理解透彻。
当然,还有更多细节,比如说损失函数你得交代吧,模型超参数得介绍全吧,至少数据集是哪个工况下的得说吧,当你想复现这些论文,关注点在这些地方的时候。你会发现根本无法操作。
三是反复炒冷饭
其实只在单工况下也能勉强进行比较,咱可以比一比谁运行速度快,谁收敛更快等等。但是绝大部分论文还是在欺负SVM和KNN之类的传统方法,20篇以上都是这样。张伟的WDCNN大家引用的已经算很多的了,也没看到有几个能超过的。还有就是用的模型也有点太老了。我们知道卷积模型发展很快,比较有名气的都十好几个了,很多情况下你换一个模型就可能是一篇好论文,因为这些模型确实有自己的独到之处。然而,轴承这个领域还在整残差网络、Inception这类七八年前的成果,真正用新模型的竟然只有2篇。还有用LSTM的,这都二十多年前的东西了,何况性能是在不怎么样。
2.几点体会
我对这31篇论文进行了要素统计,真正认真写的基本上要素完整,对比严谨。但是大部分的都很敷衍了事,确实让我感到了世界的参差。进一步研究就会发现,很多水文有大基金背景,或者有老教授背书,明摆就是写了就能发表那种,有几篇我甚至还能找出来错别字和模型结构自相矛盾的地方。
乐观点看问题的话就是我们自己发文的难度也不会太高。想达到平均水平还是很容易的,套路也都在这些论文里。想进一步了解的可以私信我,不过再详细的我可能就不能无偿服务了,还请见谅。
还有同学想问普刊和英文期刊的。普刊嘛,尝试看了几个,直犯恶心,看不下去。英文期刊一般篇幅细节要求都比较高,我看的不多,但是普遍质量能好不少。
文章出处登录后可见!