-
*文本分析技术介绍
-
文本分析目标
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
文本分析法是指从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。
文本分析的目标是:1)原始文本数据化;2)量化后的文本知识化,利用文本数据进行因果推论。
2、文本分析的步骤
完整文本分析的步骤包括:
- 读取数据
- 分词(中文必须有这一步,由于英文是空格间隔的语言,英文有时候不需要分词)
- 剔除符号和无意义的停止词
- 字母变小写,词干化
- 使用一定的编码方式构建文档词频矩阵
3、常见的文本分析技术
- 主题分析(Thematic analysis)
- 内容分析(content analysis)
- 基于词典的方法(dictionary analysis)
- 文本向量化(Bag-of-words)
- 监督学习如SVM、Bayes和Regression
- 无监督学习,如LDA话题模型
- 自然语言处理
上述文本分析技术,按照人与机器参与程度,绘制在下图。一般来说,越向右,文本分析技术的自动化程度越高,需要注意的是自动化越高,并不代表人的工作量就越少。
不同技术对比:
Original: https://blog.csdn.net/baidu_41678374/article/details/121233591
Author: 梧桐树下一条狗
Title: 文本分析技术
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531506/
转载文章受原作者版权保护。转载请注明原作者出处!