西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

Feature Vector

Review Navie Bayes

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

; Feature vectors

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
ϕ ⃗ \vec{\phi}ϕ​表示从1 − ∣ V ∣ 1-|V|1 −∣V ∣个词在d中出现的次数

ϕ ⃗ \vec{\phi}ϕ​ 与 θ ⃗ s p o r t s \vec{\theta}_{sports}θs p o r t s ​ 长度相同,都是∣ V ∣ |V|∣V ∣,这俩按位相称再求和就是朴素贝叶斯的计算公式

Vector Space Model

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

; Vector representation of documents

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

Sparse vectors document representation

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

; Stop words

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

TF-IDF vectors document representation

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
T F − I D F TF-IDF T F −I D F中 T F TF T F 指w这个词在d这篇文档中出现的次数,D F DF D F 指这个词在不同文档中出现的次数,D F DF D F 取倒数就是 I D F IDF I D F
西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
可以清楚的看出,与count-based vector相比,用了TF-IDF计算后的向量,a的权重很明显的降低了不少

; Summary

西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

Original: https://blog.csdn.net/qq_45645521/article/details/123864629
Author: Jason Avicii
Title: 西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530967/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球