Bert模型学习之环境配置（一）

毕业论文结束时，我开始增加数据量，但结果被推翻，模型变得不可靠（实际模型太不鲁棒了）。
一开始选择用word2vec结合tfidf加权模型求句向量，但是数据量稍微增大就会报错；改用word2vec求平均句向量，正确率掉到了0.47。心态崩了。目前，论文的指导老师推荐了bert模型，也是现在比较流行的，网上说效果比较好。现在正在安装环境，踩坑多多，希望记录一下，快快的更新吧。

说明：我的毕业论文是中文分类任务，这篇博客目标是用bert模型计算句向量。

思路1：

首先想到在自己的电脑运行github开源的bert代码，但是程序调试过程遇到了2个问题，自己水平难以解决，问题如下：
（1）这个开源代码用的是python2的方法，自己电脑安装的是3.8的版本，运行起来问题很多，目前的水平解决不了，放弃。
（2）貌似运行起来很占电脑资源，最好能配置gpu运行，当然也能换cpu运行，还是放弃了。

思路1过程中参考到的博客和资源，如下：
（1）Google BERT的完整源码下载地址：https://github.com/google-research/bert
（2）bert生成句向量三种方法：https://www.jianshu.com/p/fbde57f91f0f

思路2：

在自己的电脑上运行源码感觉不是很靠谱。看到很多博主详细介绍了安装客户端和服务端的方法。我也找了一个靠谱的博客来学习这个方法，希望能成功。

1. 首先，在cmd中下载bert-as-server 框架。

pip install bert-serving-server   #server
pip install bert-serving-client   #client

2. 下载好预训练好的bert模型。
google下载地址：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip。
3. 在cmd中启动BERT服务。

bert-serving-start -model_dir D:\PyCharm-workspace\bert-master\chinese_bert_chinese_wwm_L-12_H-768_A-12 -max_batch_size 10 -max_seq_len 20 -num_worker 1
# 注意，这个地址是自己刚刚下载文件解压的地址，后面的参数可以自己设定

然后就没有启动成功，
报错：TypeError: cannot unpack non-iterable NoneType object
原因：TensorFlow默认下载的版本是2.0.0 ，现bert的不支持，需要更改TensorFlow 版本至1.*。至于这个版本是多少呢，目前来看TensorFlow 1.14还算比较靠谱的。参考博客：TypeError解决方法
解决：指定TensorFlow 版本呗，输入语句：

pip install tensorflow==1.14

报错：ERROR: No matching distribution found for tensorflow
原因：python版本过高（3.5以上版本均有可能出现这个问题）导致TensorFlow不能正确安装。此时需要安装低版本的python。参考博客：ERROR解决方法
解决：想要运行模型，还是需要一个低版本的python，无法回避。但是不要慌张，有两种办法，分别是卸载电脑原有的python（又是一番折腾），还有一种是创建虚拟环境并安装低版本的python。电脑就可以自如的切换两种版本的python（推荐）。
如果解决这个问题，令python两个版本都可以在电脑运行，启动bert模型，就可以转换句向量啦。下一步目标在电脑安装两个3.x版本的python。转下文解决该问题：Bert模型学习之环境配置（二）python3.x多版本安装配置

思路2过程中参考到的博客和资源，如下：
（1）BERT预训练模型简单应用（中文句子向量相关性分析）：bert安装教程参考1
（2）如何在keras构造的分类模型中将bert预训练出的句子向量：bert安装教程参考2

文章出处登录后可见！

已经登录？立即刷新

Bert模型学习之环境配置（一）