Word2Vec详解-白红宇

Word2Vec详解

阅读量：2120 次

发布时间：2019-04-30

本文共 8479 字，大约阅读时间需要 28 分钟。

Word2Vec详解

这几天集中学习了Word2Vec，实现并不复杂，但是真正对一些细节有些了解还查阅了一些资料，今天在这里统一自己整理总结一下。

简介

首先说为什么会有Word2Vec，之前对文字的编码通常使用的是one-hot，也就是一个词对应一个编号，或者是一个向量，这样一篇文章就是一个稀疏矩阵。这种方式存在两个问题：1.不同于视频音频的稠密矩阵，稀疏矩阵储存和训练就很低效；2.编码的随机性导致词语之间没有任何关联性。

Word2Vec出现解决上面两个问题。通过embedding将词语编码映射到一个新的多维空间，在这个新的空间中，词义相近的词会有相近的位置，并且最终形成地是稠密矩阵。

Word2Vec有两种预测模型：CBOW主要用来从原始语句推测目标词汇，skip-gram用来从目标词汇推测原始语境。网上资料很多，不多做介绍。

模型思想

下面是两种模型的示意图

Word2Vec的思想和自编码器很相似。具体来说，我们用机器学习的方法训练神经网络，但是最终我们关心的不是使用这个神经网络计算输出结果，我们想要得到的是神经网络隐藏岑层的参数，这个权重矩阵就是我们需要的词向量Word vector。换句话说，建模并不是我们的根本目的。

训练样本构建和训练

上面说过，两种模型分别是从原始语境和目标词汇两者之一推另外一个。所以训练之前我们需要对文本进行构建，形成目标词汇和对应的原始语境。

假如我们有一个句子“The dog barked at the mailman”。

首先我们选句子中间的一个词作为我们的输入词，也就是目标词汇，例如我们选取“dog”作为input word；

有了input word以后，我们再定义一个叫做skip_window的参数，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置skip_window=2，那么我们最终获得窗口中的词（包括inputword在内）就是[‘The’, ‘dog’，’barked’, ‘at’]。skip_window=2代表着选取左input word左侧2个词和右侧2个词进入我们的窗口，所以整个窗口大小span=2x2=4。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的outputword，当skip_window=2，num_skips=2时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (‘dog’, ‘barked’)，(‘dog’, ‘the’)，也就是目标词汇dog对应的原始语境。

神经网络基于这些训练数据将会输出一个概率分布，这个概率代表着我们的词典中的每个词是output word的可能性。这句话有点绕，我们来看个栗子。第二步中我们在设置skip_window和num_skips=2的情况下获得了两组训练数据。假如我们先拿一组数据 (‘dog’, ‘barked’) 来训练神经网络，那么模型通过学习这个训练样本，会告诉我们词汇表中每个单词是“barked”的概率大小。

模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。举个栗子，如果我们向神经网络模型中输入一个单词“Soviet“，那么最终模型的输出概率中，像“Union”，”Russia“这种相关词的概率将远高于像”watermelon“，”kangaroo“非相关词的概率。因为”Union“，”Russia“在文本中更大可能在”Soviet“的窗口中出现。我们将通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。下面的图中给出了一些我们的训练样本的例子。我们选定句子“The quick brown fox jumps over lazy dog”，设定我们的窗口大小为2（window_size=2），也就是说我们仅选输入词前后各两个词和输入词进行组合。

我们的模型将会从每对单词出现的次数中习得统计结果。例如，我们的神经网络可能会得到更多类似（“Soviet“，”Union“）这样的训练样本对，而对于（”Soviet“，”Sasquatch“）这样的组合却看到的很少。因此，当我们的模型完成训练后，给定一个单词”Soviet“作为输入，输出的结果中”Union“或者”Russia“要比”Sasquatch“被赋予更高的概率。

模型的训练

前面说过，Word2Vec之前词语的编码是one-hot，这样我们训练时把成千上万个词语对应的one-hot编码输入到神经网络与隐层权重矩阵相乘，这种操作会消耗大量的计算资源并且不高效。想象一下，我们每个词汇是1*10000的向量（10000个数中只有一个是1，其他为0），权重矩阵10000*128，需要计算10000*128次乘法和9999*128次加法，但实际上one-hot只是取了权重矩阵中的一行。可以结合下图理解。

为了解决这个问题，TensorFlow封装了一个embedding_lookup函数

embed = tf.nn.embedding_lookup(embeddings, train_inputs)

函数返回以train_inputs为下标的权重矩阵embeddings中的行，这些行组成新的矩阵embed。例如上图中，train_inputs就是3，返回的是[10, 12, 19]

而实际上，我们要训练的也即是这个embeddings

对于模型的训练过程，我们参照下图进行说明：

假设我们有一个训练样本（fox, jumps），input word是fox（编码是13），output word是jumps。权重矩阵也是embeddings是50000*128。训练开始，使用均匀分布初始化embeddings，再使用embedding_lookup查找embeddings中行号为13的128维向量，这个向量表示fox。那么我们怎么优化这个向量使得其成为想要的word vector呢？Word2Vec使用了一种叫做负采样（negative sampleing）的方法，具体来说，模型会随机选取k个噪声词，这个例子中比如car，pen等与fox没有关戏的词，这样，在输出层，fox与噪声次和jumps做softmax时，我们自然会想到应该将jumps对应的概率值提高，而噪声词低，TensorFlow封装了NCE loss的函数，对其进行优化。不断迭代，我们会得到fox 对应的128维的word vector。

附上一些参考资料：

一文详解 Word2vec 之 Skip-Gram 模型（结构篇）

一文详解 Word2vec 之 Skip-Gram 模型（训练篇）

一文详解 Word2vec 之 Skip-Gram 模型（实现篇）

word2vec 中的数学原理详解

下面附上skip-gram模式的代码：

import collections

import math

import os

import random

import zipfile

import numpy as np

import urllib

import tensorflow as tf

from sklearn.manifold import TSNE

import matplotlib.pyplot as plt

url = 'http://mattmahoney.net/dc/'

def maybe_download(filename, expected_bytes):

if not os.path.exists(filename):

filename, _ = urllib.request.urlretrieve(url + filename, filename)

statinfo = os.stat(filename)

if statinfo.st_size == expected_bytes:

print('found and verified', filename)

else:

print(statinfo.st_size)

raise Exception('failed to verified ' + filename + '. can you get to it with a browser?')

return filename

filename = maybe_download('text8.zip', 31344016)

def read_data(filename):

with zipfile.ZipFile(filename) as f:

data = tf.compat.as_str(f.read(f.namelist()[0])).split()

# print(data)

return data

words = read_data(filename)

print('Data size', len(words))

vocabulary_size = 50000

def build_dataset(words):

count = [['UNK', -1]] #存储单词及对应出现的次数

count.extend(collections.Counter(words).most_common(vocabulary_size - 1))

dictionary = dict() #存储单词及对应的编号

for word, _ in count:

dictionary[word] = len(dictionary) #词频高的单词编号小

data = list() #将文章存储为编号的形式

unk_count = 0

for word in words:

if word in dictionary:

index = dictionary[word]

else:

index = 0

unk_count += 1

data.append(index)

count[0][1] = unk_count

reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))

return data, count, dictionary, reverse_dictionary

data, count, dictionary, reverse_dictionary = build_dataset(words)

del words

data_index = 0

def generate_batch(batch_size, num_skips, skip_window):

global data_index

assert batch_size % num_skips == 0

assert num_skips <= 2 * skip_window

batch = np.ndarray(shape=(batch_size), dtype=np.int32)

labels = np.ndarray(shape=(batch_size, 1), dtype=np.int32)

span = 2 * skip_window + 1

buffer = collections.deque(maxlen=span)

for _ in range(span):

buffer.append(data[data_index])

data_index = (data_index + 1) % len(data)

for i in range(batch_size // num_skips):

target = skip_window

target_to_avoid = [ skip_window ]

for j in range(num_skips):

while target in target_to_avoid:

target = random.randint(0, span - 1)

target_to_avoid.append(target)

batch[i * num_skips + j] = buffer[skip_window]

labels[i * num_skips + j, 0] = buffer[target]

buffer.append(data[data_index])

data_index = (data_index + 1) % len(data)

return batch, labels

# batch, labels = generate_batch(batch_size=8, num_skips=2, skip_window=1)

# for i in range(8):

# print('batch', batch[i], reverse_dictionary[batch[i]])

# print('couple', batch[i], reverse_dictionary[batch[i]], '->', labels[i, 0], reverse_dictionary[labels[i, 0]])

batch_size = 128

embedding_size = 128

skip_window = 1

num_skip = 2

valid_size = 16

valid_window = 100

valid_examples = np.random.choice(valid_window, valid_size, replace=False)

num_sample = 64 #噪声词数量

graph = tf.Graph()

with graph.as_default():

train_inputs = tf.placeholder(tf.int32, shape=[batch_size])

train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1])

valid_dataset = tf.constant(valid_examples, dtype=tf.int32)

with tf.device('/cpu:0'):

embeddings = tf.Variable(tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))

embed = tf.nn.embedding_lookup(embeddings, train_inputs) #函数作用上文解释

nce_weights = tf.Variable(tf.truncated_normal([vocabulary_size, embedding_size], stddev=1.0 / math.sqrt(embedding_size)))

nce_biases = tf.Variable(tf.zeros([vocabulary_size]))

loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_weights,

biases=nce_biases,

labels=train_labels,

inputs=embed,

num_sampled=num_sample,

num_classes=vocabulary_size))

optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss)

#验证相似度

norm = tf.sqrt(tf.reduce_mean(tf.square(embeddings), 1, keep_dims=True))

normalized_embeddings = embeddings / norm

valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings, valid_dataset)

similarity = tf.matmul(valid_embeddings, normalized_embeddings, transpose_b=True)

init = tf.global_variables_initializer()

num_steps = 100001

with tf.Session(graph=graph) as session:

init.run()

print('initialized')

average_loss = 0

for step in range(num_steps):

batch_inputs, batch_labels = generate_batch(batch_size, num_skip, skip_window)

feed_dict = {train_inputs: batch_inputs, train_labels: batch_labels}

_, loss_val = session.run([optimizer, loss], feed_dict=feed_dict)

average_loss += loss_val

if step % 2000 == 0:

if step > 0:

average_loss /= 2000

print('Average loss at step', step, ':', average_loss)

average_loss = 0

if step % 10000 == 0:

sim = similarity.eval()

for i in range(valid_size):

valid_word = reverse_dictionary[valid_examples[i]]

top_k = 8

nearst = (-sim[i, :]).argsort()[1: top_k+1]

log_str = "Nearst to %s:" % valid_word

for k in range(top_k):

close_word = reverse_dictionary[nearst[k]]

log_str = "%s %s," % (log_str, close_word)

print(log_str)

final_embeddings = normalized_embeddings.eval()

def plot_with_labels(low_dim_embs, labels, filename='tsne.png'):

assert low_dim_embs.shape[0] >= len(labels), "More labels than embeddings"

plt.figure(figsize=(18, 18))

for i, label in enumerate(labels):

x, y = low_dim_embs[i, :]

plt.scatter(x, y)

plt.annotate(label,

xy=(x, y),

xytext=(5, 2),

textcoords='offset points',

ha='right',

va='bottom')

plt.savefig(filename)

tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000) #TSNE降维函数

plot_only = 100

low_dim_embs = tsne.fit_transform(final_embeddings[:plot_only, :])

labels = [reverse_dictionary[i] for i in range(plot_only)]

plot_with_labels(low_dim_embs, labels)

---------------------

作者：hoohaa_

来源：CSDN

原文：https://blog.csdn.net/pnnngchg/article/details/79925462

你可能感兴趣的文章

NodeJs npm install 国内镜像

查看>>

python3.5.2 mysql Exccel

查看>>

mysqlDump 导出多表，其中部分表有限制数据内容

ANT集成SVNANT访问SVN(Subversion)

构建微服务：Spring boot 入门篇

查看>>

jvm调优-命令大全（jps jstat jmap jhat jstack jinfo）

查看>>

Spring boot Myibatis

查看>>

spring boot(七)：springboot+mybatis多数据源最简解决方案