西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
- Feature Vector
* - Review Navie Bayes
- Feature vectors
- Vector Space Model
- Vector representation of documents
- Sparse vectors document representation
- Stop words
- TF-IDF vectors document representation
- Summary
Feature Vector
; Feature vectors
ϕ ⃗ \vec{\phi}ϕ表示从1 − ∣ V ∣ 1-|V|1 −∣V ∣个词在d中出现的次数
ϕ ⃗ \vec{\phi}ϕ 与 θ ⃗ s p o r t s \vec{\theta}_{sports}θs p o r t s 长度相同,都是∣ V ∣ |V|∣V ∣,这俩按位相称再求和就是朴素贝叶斯的计算公式
Vector Space Model
; Vector representation of documents
Sparse vectors document representation
; Stop words
TF-IDF vectors document representation
T F − I D F TF-IDF T F −I D F中 T F TF T F 指w这个词在d这篇文档中出现的次数,D F DF D F 指这个词在不同文档中出现的次数,D F DF D F 取倒数就是 I D F IDF I D F
可以清楚的看出,与count-based vector相比,用了TF-IDF计算后的向量,a的权重很明显的降低了不少
; Summary
Original: https://blog.csdn.net/qq_45645521/article/details/123864629
Author: Jason Avicii
Title: 西湖大学自然语言处理(九)—— 特征向量和如何将文档映射到特征空间中
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530967/
转载文章受原作者版权保护。转载请注明原作者出处!