词的表示(1)

把分词之后的字和词语表示成计算机能够计算的类型(向量),这就是所谓的词的表示。

离散化表示(Discrete Representation)

不考虑文本中词与词之间的关系,忽略复杂的语义关系归结为简单的向量结构,典型代表是词袋模型。
这种方法解释性很强,我们知道每一维特征对应哪一个词,进而我们还可以使用TF-IDF对各个词特征的权重修改,进一步完善特征的表示。

分布式表示(Distributed Representation)

分布式表示的理论基础是”上下文相似的词其语义也相似”,这和我们的认知是一致的,当我们在阅读文章时发现不认识的字,也会通过上下文来猜测字的含义。
比如:

昨天奥巴马宣誓就职
昨天特朗普宣誓就职

如果两个词可以互换,那么它们的语义就是相似的,所以奥巴马和特朗普应该具有相似的语义。
分布式表示方法要做的就是利用上下文信息把每一个词映射成一个维度固定的短向量,这样在它们所构成的向量空间中,每个词都是一个点,就可以通过距离来判断语义的相似度。