【科学计算与数学建模】词嵌入模型

一、one-hot 编码

任务描述
相关知识
- one-hot 编码简介
- 单词级的 one-hot 编码
- 字符级的one-hot编码
- 用keras实现单词级的one-hot编码
编程要求
测试说明

任务描述

本关任务：简单掌握文本转 one-hot 编码操作。

编程要求

根据提示，在右侧编辑器补充代码。

给上述samples列表新增一个元素‘a panda is sleeping’
自行完成单词级别的分词任务，并查看索引字典和样本列表的第二个元素的第二个单词的编码情况。（注意索引是0开始）
创建字符级 one-hot 编码索引字典，查看第三个元素中的第三个字符的编码情况

测试说明

平台会对你编写的代码进行测试。

开始你的任务吧，祝你成功！

代码部分

import numpy as np
import string
from keras.preprocessing.text import Tokenizer

"""
单词级的 one-hot 编码
"""
def word_one_hot(samples):
    # x,y表示显示的第x个元素的第y个单词

    # 构建数据中所有标记的索引，用一个字典来存储
    token_index = {}
    for sample in samples:
        ########## Begin ##########
        # 利用split方法对样本进行分词.
        for word in sample.split():
            if word not in token_index:
                #为每个唯一单词指定一个唯一索引
                token_index[word] = len(token_index)
                #没有为索引编号0指定单词

        ########## End ##########

    # 只考虑样本前max_length个单词
    max_length = 10

    #结果返回给results:
    results = np.zeros((len(samples), max_length, max(token_index.values())+1))
    for i, sample in enumerate(samples):
        for j, word in list(enumerate(sample.split()))[:max_length]:
            index = token_index.get(word)        
            #唯一的元素为1
            results[i, j, index] = 1

    ########## Begin ##########
    # 查看索引字典和样本列表的第二个元素的第二个单词的编码情况
    # print(token_index) 
    print(results[1,1])
    ########## End ##########



"""
字符级的one-hot编码
"""
def char_one_hot(samples):
    # x,y表示显示的第x个元素的第y个字符

    # 可以打印的ASCII字符
    characters = string.printable  
    
    ########## Begin ##########
    #创建索引字典
    token_index = dict(zip(characters, range(0, len(characters) )))
    #为所有可能打印的字符创建一个字典
    max_length = 50
    results = np.zeros((len(samples), max_length, max(token_index.values())+1 ))

    ########## End ##########

    for i, sample in enumerate(samples):
        for j, character in list(enumerate(sample[:max_length])):
            index = token_index.get(character)
            results[i, j, index] = 1.
            
    ########## Begin ##########
    # 查看索引字典和样本列表的第三个元素的第三个单词的编码情况
    # print(token_index)#查看索引字典
    ###################
   
    print(results[2,2])#样本列表的第3个元素的第3个字符编码情况
    ########## End ##########



########## Begin ##########
# 给 samples 列表新增一个元素‘a panda is sleeping’
samples = ['The cat sat on the mat.',
           'The dog ate my homework.',
           'a panda is sleeping.'
           ]



#创建一个分词器
# 只考虑前1000个最常见的单词
tokenizer = Tokenizer(num_words=1000)
# 构建单词索引
tokenizer.fit_on_texts(samples)
# 将字符串转换为整数索引的组成的列表
sequences = tokenizer.texts_to_sequences(samples)
# 可以直接得到one-hot编码二进制表示
# 分词器也支持除one-hot编码外的其他向量化模式
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')


########## End ##########

word_one_hot(samples)

char_one_hot(samples)

"""
用keras实现单词级的one-hot编码
"""
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples)

word_index = tokenizer.word_index
print(word_index)

二、词嵌入模型

任务描述
相关知识
- 词嵌入简介
- 利用Embedding层学习词嵌入
  - 实例化Embedding层
  - 加载IMDB数据
- 构建keras模型并训练拟合模型
编程要求
测试说明

任务描述

本关任务：使用 keras 实现词嵌入模型。

编程要求

根据提示，在右侧编辑器补充代码，需要完成的步骤如下：

导入包 Sequential,Flatten,Dense,Embedding
定义一个序列模型
添加一个Embedding层，标记个数 10000，维度 8，输入长度是maxlen
添加一个Flatten层
添加一个全连接层，输出维度是1，激活函数‘sigmoid’
编译模型，优化器选取‘rmsprop’，损失函数选取‘binary_crossentropy’,评估方式是‘acc’
用.summary()方法查看模型架构
拟合模型，epoch选取 10，batch_size选取 32，validation_split为 0.2

测试说明

平台会对你编写的代码进行测试。

开始你的任务吧，祝你成功！

代码部分

from keras import preprocessing

########## Begin ##########
# 导入包 Sequential,Flatten,Dense,Embedding
from keras.models import Sequential
from keras.layers import Flatten
from keras.layers import Dense
from keras.layers import Embedding
from keras.datasets import imdb
from keras import preprocessing
########## End ##########

import os

def main():
    max_features = 10000
    maxlen = 20
    # 加载数据
    (X_train, y_train), (X_test, y_test) = imdb.load_data(path="/data/workspace/myshixun/imdb.npz",num_words=max_features)

    # 重塑数据形状为(samples, maxlen)的二维整数张量
    X_train = preprocessing.sequence.pad_sequences(X_train, maxlen=maxlen)
    X_test = preprocessing.sequence.pad_sequences(X_test, maxlen=maxlen)

    ########## Begin ##########
    # 定义一个序列模型
    model = Sequential()
    # 添加一个Embedding层，标记个数 10000，维度 8，输入长度是maxlen
    model.add(Embedding(10000, 8, input_length=maxlen))
    # 添加一个Flatten层
    model.add(Flatten())
    # 添加一个全连接层，输出维度是1，激活函数‘sigmoid’, 作为分类器
    model.add(Dense(1, activation='sigmoid'))
    # 编译模型，优化器选取‘rmsprop’，损失函数选取‘binary_crossentropy’,评估方式是‘acc’
    model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
    # 拟合模型，epoch选取 10，batch_size选取 32，validation_split为 0.2
    model.fit(X_train, y_train,epochs=10, batch_size=32, validation_split=0.2)
    # 打印模型结构
    model.summary()
    return model
    ########## End ##########

原文链接：https://blog.csdn.net/Hisser/article/details/136854193

【科学计算与数学建模】词嵌入模型

一、one-hot 编码

任务描述

相关知识

one-hot 编码简介

单词级的 one-hot 编码

字符级的one-hot编码

用keras实现单词级的one-hot编码

编程要求

测试说明

代码部分

二、词嵌入模型

任务描述

相关知识

词嵌入简介

利用Embedding层学习词嵌入

实例化Embedding层

加载IMDB数据

构建keras模型并训练拟合模型

编程要求

测试说明

代码部分

相关推荐