pd.read_csv/jieba.analyse.set_stop_words

2023年8月8日下午1:23 • Python • 阅读 58

目前网上能找到的方法都是自己做个停用词字典，然后在打印分词结果之前将停用词去掉。#也就是说分词的过程不变，打印时做个集合差运算。text =u’听说你超级喜欢万众掘金小游戏啊啊啊’

default_mode = jieba.cut(text,cut_all=False)
stopw = [line.strip().decode(‘utf-8’) for line in open(‘D:\Python27\stopword.txt’).readlines()]
print u’搜索引擎模式:’,u’/’.join(set(default_mode)-set(stopw))

除了效率低，这种方法有另一个弊端，就是你的停用词一定要被分词器正确的拆分，否则是没办法去掉的。#比如”啊啊啊”这个词是被分成一个词的，但是你的停用词字典中只有”啊”没有”啊啊啊”，#这个时候”啊啊啊”就不会被去掉。#所幸这个问题实际使用时影响是有限的，通过丰富你的停用词字典和反复测试，可以有效改善。另外一个方法是使用extract_tags函数，这个函数会根据TF-IDF算法将特征词提取出来，在提取之前会去掉停用词，可以人工指定停用词字典，代码如下：jieba.analyse.set_stop_words(‘D:\Python27\stopword.txt’)

tags = jieba.analyse.extract_tags(text,20)

pandas读取csv文件数据的方法及注意点

泰克尼客
1
2018.07.17 11:28:26
字数 904
阅读 94,529
pandas是一个高效的数据分析工具。基于其高度抽象的数据结构DataFrame（点击这里了解DataFrame数据结构），几乎可以对数据进行任何你想要的操作。

由于现实世界中数据源的格式非常多，pandas也支持了不同数据格式的导入方法，本文介绍pandas如何从csv文件中导入数据。

数据导入到pandas

从上图可以看出，我们要做的工作就是把存储在csv格式中的数据读入并转换成DataFrame格式。
pandas提供了一个非常简单的api函数来实现这个功能：read_csv()。

import pandas as pd

CSV_FILE_PATH = ‘./test.csv’
df = pd.read_csv(CSV_FILE_PATH)
print(df.head(5))
只要简单地指定csv文件的路径，便可以得到DataFrame格式的数据df。对于理想情况下的数据，导入过程就是这么简单！

下面考虑这种情况：假设csv文件头部有几个无效行，那么打印出来的结果可能如下所示：

                  1          2      3       4

0 datetime host hit volume
1 2018-07-24 09:00:00 weibo.com 20 1020
2 2018-07-25 09:00:00 qq.com no 20 1028
3 2018-07-26 19:00:00 sina.com 25 1181
4 2018-07-27 21:00:00 sohu.com 15 4582
pandas把【1,2,3,4】这组无效数据当作了column name；而实际上，我们更偏向于将【datetime,host,hit,volume】这组数据当作column name。对于这种情况，read_csv()函数提供了一个参数：skiprows，用于指定跳过csv文件的头部的前几行。在这里，我们跳过1行即可。

import pandas as pd

CSV_FILE_PATH = ‘./test.csv’
df = pd.read_csv(CSV_FILE_PATH, skiprows=1)
print(df.head(5))
得到的结果如下所示：

          datetime       host    hit  volume

0 2018-07-24 09:00:00 weibo.com 20 1020
1 2018-07-25 09:00:00 qq.com no 20 1028
2 2018-07-26 19:00:00 sina.com 25 1181
3 2018-07-27 21:00:00 sohu.com 15 4582

import pandas as pd

CSV_FILE_PATH = ‘./test.csv’
df = pd.read_csv(CSV_FILE_PATH)
print(df.head(5))
print(‘datatype of column hit is: ‘ + str(df[‘hit’].dtypes))
得出的结果：

          datetime       host  hit  volume

0 2018-07-24 09:00:00 weibo.com 20 1020
1 2018-07-25 09:00:00 qq.com 20 1028
2 2018-07-26 19:00:00 sina.com 25 1181
3 2018-07-27 21:00:00 sohu.com 15 4582
datatype of column hit is: int64
pandas将hit这一列的数据类型判定为了int64，这显然方便未来我们对于该列数据的运算。
但是在实际情况中，我们经常会面临数据缺失的问题，如果出现这种情况，我们往往会用一些占位符来表达。假设，我们用missing这个占位符来表示数据缺失，仍使用上述代码，来探索下会发生些什么：

          datetime       host      hit   volume

0 2018-07-24 09:00:00 weibo.com 20 1020
1 2018-07-25 09:00:00 qq.com 20 1028
2 2018-07-26 19:00:00 sina.com missing missing
3 2018-07-27 21:00:00 sohu.com 15 4582
datatype of column hit is: object
由于hit这一列中出现了missing这个字符串，pandas将hit这一列的数据类型判断成了object。这会给我们对该列数据的运算带来影响。例如，假设我们要计算hit列前两行数据的和，代码如下：

print(df[‘hit’][0] + df[‘hit’][1])
结果是：

2020
本来我们想要的是数学运算结果，但得到的却是一个字符串拼接结果。这就是由于数据类型判断失误带来的严重影响。
对于这种情况，read_csv()函数也提供了一个简单的处理方式，只需要通过na_value参数指定占位符，pandas便会在读入数据的过程中自动将这些占位符转换成NaN，从而不影响pandas对column数据类型的正确判断。
示例代码：

import pandas as pd

CSV_FILE_PATH = ‘./test.csv’

df = pd.read_csv(CSV_FILE_PATH, skiprows=0, na_values=[‘missing’)
print(df.head(5))
print(‘datatype of column hit is: ‘ + str(df[‘hit’].dtypes))
print(df[‘hit’][0] + df[‘hit’][1])
运行结果如下：

          datetime       host   hit  volume

0 2018-07-24 09:00:00 weibo.com 20.0 1020.0
1 2018-07-25 09:00:00 qq.com 20.0 1028.0
2 2018-07-26 19:00:00 sina.com NaN NaN
3 2018-07-27 21:00:00 sohu.com 15.0 4582.0
datatype of column hit is: float64
40.0
可以看到，pandas将数据集中的missing单元全部转换为了NaN，并成功判断出hit这一列的数据类型。

通过指定的文件路径，从本地读取csv文件，并将数据转换成DataFrame格式
更正数据集的头部(column)
正确处理缺失数据
推断每一列的数据类型
当然，read_csv()函数还有一系列其他参数来应对各种情况，遇到具体问题的同学可参考其接口指南。

Original: https://blog.csdn.net/qq_15821487/article/details/115719315
Author: 愚昧之山绝望之谷开悟之坡
Title: pd.read_csv/jieba.analyse.set_stop_words

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742349/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pygame实战】这两款脑洞大开的文字剧情版游戏，99% 的人打了五星好评-《巨龙之洞》-《太空矿工》

前言有温度有深度有广度就等你来关注哦~ 所有文章完整的素材+源码都在👇👇 粉丝白嫖源码福利，请移步至CSDN社区或文末公众hao即可免费。哈喽！我是你们的栗子同学——又到…

Python 2023年9月19日
0057
Pygame | 9 – Sprite的碰撞检测

碰撞检测有 pygame.sprite.collide_rect(first, second) #返回布尔值第一个参数是精灵，第二个参数是精灵组，第三个参数为True，则碰撞…

Python 2023年9月19日
0040
Python分类模型实战（KNN、逻辑回归、决策树、SVM）调优调参，评估模型——综合项目

目录一、技术原理逻辑回归 k近邻法（k-nearest neighbor，k-NN）决策树 SVM(Support Vector Machine) 模型评估二、数据探索与处…

Python 2023年8月3日
00105
DiffusionDet: Diffusion Model for Object Detection

paper: https://arxiv.org/abs/2211.09788 code：https://github.com/ShoufaChen/DiffusionDet 探索…

Python 2023年9月29日
0074
带权重的损失函数nn.crossEntropyLoss中的weight使用

深度学习处理数据时，经常遇到这类情况: 某一个类别样本数据非常多，但是其他几个类别的样本数据却非常少，这便是常见的类别间的样本不均衡。一般情况下，假n u m m a x nu…

Python 2023年8月2日
0042
Pandas

Pandas 1. 学习路线 2. pandas库 * 数据类型显示设置 2.1 创建pandas 2.2 Series、DateFrame数据索引与查看 2.3 文件IO 2….

Python 2023年8月8日
0056
书店销售管理系统—-数据库原理及应用综合实验

枯木逢春犹再发，人无两度再少年🍂 系统主要模块如下：（1）书店销售管理系统设计与实现—图书入库管理及查询统计图书入库管理：维护入库图书信息（如图书编号、书名、作者、价格、图书分类…

Python 2023年10月26日
0048
【Python 实战基础】Pandas如何从字符串中解析某一数据，并统计多于一次的该数据

一、实战场景二、主要知识点文件读写基础语法 Pandas list 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas如何从字符串中解析某一数据…

Python 2023年8月22日
0045
1个月不到有人用ChatGPT赚了几十万，你敢信？附ChatGPT账号自动化注册教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月4日
0054
Django-外键和表的关系以及数据如何添加（一对多）

一、首先来区分下什么是一对一，一对多以及多对多？一对一：子表从母表中选出一条数据一一对应，母表中选出来一条就少一条，子表不可以再选择母表中已被选择的那条数据一对多：子表从母表中…

Python 2023年8月4日
0060
day 60、61、62 Python Scrapy

文章目录一、Scrapy * 1、结构 2、序 3、API 接口 4、XPath 读取 html – 2.1 指令零碎 I know, i know 地球另一端有你…

Python 2023年10月3日
0045
【爬虫+情感判定+Top10高频词＋词云图】”乌克兰”油管热评python舆情分析

一、分析背景二、整体思路三、代码讲解 3.1 爬虫采集 3.2 情感判定 3.3 Top10高频词 3.4 词云图四、得出结论五、同步视频演示六、附完整源码一、分析背景…

Python 2023年5月24日
0069
数据可视化——flask简单使用

文章目录前言一、Flask是什么？ * – 常用扩展包 – 基本模式二、Flask基础使用 * 1.引入库 2.路由解析 – 新建项目默认…

Python 2023年8月9日
0062
Python中requests库

一、基本概念 requests 模块是 python 基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约…

Python 2023年8月1日
0055
Flask 框架流程

Flask 框架流程本人使用软件是 PyCharm什么是Flask：Flask诞生于2010年, 使用python语言基于Werkzeug工具箱编写的轻量级Web开发框架Flas…

Python 2023年8月13日
0054
陪你去看 Lodash.js 起步

lodash 起步（数组） Lodash 是一个较为流行的 JavaScript 的实用工具库。在开发过程中如果能熟练使用一些工具库提供的方法，有利于提高 &#x5F00…

Python 2023年10月15日
0038

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pd.read_csv/jieba.analyse.set_stop_words

目前网上能找到的方法都是自己做个停用词字典，然后在打印分词结果之前将停用词去掉。#也就是说分词的过程不变，打印时做个集合差运算。text =u’听说你超级喜欢万众掘金小游戏啊啊啊’

大家都在看