文本分析技术

  • *文本分析技术介绍

  • 文本分析目标

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

文本分析法是指从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。

文本分析的目标是:1)原始文本数据化;2)量化后的文本知识化,利用文本数据进行因果推论。
2、文本分析的步骤

文本分析技术

完整文本分析的步骤包括:

  1. 读取数据
  2. 分词(中文必须有这一步,由于英文是空格间隔的语言,英文有时候不需要分词)
  3. 剔除符号和无意义的停止词
  4. 字母变小写,词干化
  5. 使用一定的编码方式构建文档词频矩阵

文本分析技术

3、常见的文本分析技术

  1. 主题分析(Thematic analysis)
  2. 内容分析(content analysis)
  3. 基于词典的方法(dictionary analysis)
  4. 文本向量化(Bag-of-words)
  5. 监督学习如SVM、Bayes和Regression
  6. 无监督学习,如LDA话题模型
  7. 自然语言处理

上述文本分析技术,按照人与机器参与程度,绘制在下图。一般来说,越向右,文本分析技术的自动化程度越高,需要注意的是自动化越高,并不代表人的工作量就越少。

文本分析技术

不同技术对比:

文本分析技术

文本分析技术

Original: https://blog.csdn.net/baidu_41678374/article/details/121233591
Author: 梧桐树下一条狗
Title: 文本分析技术

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531506/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球