2021.11.21 以为不再用python分析语料库的我又开始了作死的全过程——用spacy给德语txt文档lemmatize并将结果写入csv及txt（二）

2023年5月31日上午2:45 • 人工智能 • 阅读 83

1 所需软件及packages

1.1 软件/程序

Anaconda （官网）
（里头的）spider
（里头的）prompt或win+R 👉 cmd

1.2 packages

spaCy：有各种语言nlp的分析包，官网查看安装方式；我选的conda安装 – German – efficiency，官网提供的代码为（在梯子加持下安装很顺利）：

conda install -c conda-forge spacy
python -m spacy download de_core_news_sm

csv（python自带）
re（py自带）

spacy用于分析德语文本（词汇量更大一版）的包，安装了快一个小时也没成功，不推荐了：

de_dep_news_trf

2 完整代码

import spacy
import csv
import re

nlp = spacy.load('de_core_news_sm')

file = open(r'填文件路径', mode='r', encoding='utf-8', errors='ignore')
fileContent = file.read()

fileContent = re.sub ('[=#*%]', ' ', fileContent)
fileContent = re.sub ('[、？！：""{}【】，。；（）《》•]', ' ', fileContent)
fileContent = re.sub ('[‚²´„>><<€©]', ' ', fileContent)
fileContent = re.sub ('[łŁâóôźëśîčšŰ]', 'xx', fileContent)
fileContent = re.sub ('[ʃɛəɔↄæχçɪʝ]', ' ', fileContent, flags=re.I)
fileContent = re.sub (" − ", " ", fileContent)
fileContent = re.sub ("−"," ", fileContent)
fileContent = re.sub (u"[\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]+"," ", fileContent)

lemma = nlp(fileContent)

list = []

for token in lemma:
    newLemma = token.lemma_
    newLemma = newLemma.rstrip()
    if any(newLemma):
        list.append([newLemma])

with open('自定义文件名.csv', 'w', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerows(list)

with open('自定义文件名.txt', mode='w', encoding='utf-8') as s:
    for token in lemma:
        s.write(token.lemma_ + '\r\n')

感谢程序员男票。
以上。

Original: https://blog.csdn.net/ICHhassPROGRAMM/article/details/121439963
Author: ICHhassPROGRAMM
Title: 2021.11.21 以为不再用python分析语料库的我又开始了作死的全过程——用spacy给德语txt文档lemmatize并将结果写入csv及txt（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548033/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自适应迁移学习核极限学习机用于预测

目录 0、前言 1、自适应迁移学习核极限学习机原理 1.1 结构风险最小化 1.2 联合分配 1.3 流行正则化 1.4 核极限学习机模型参数求解公式 1.5 自适应迁移学习核极…

人工智能 2023年7月3日
0061
论文阅读-多任务(2021)-YOLOP:用于自动驾驶目标检测与语义分割的实时多任务模型

YOLOP 论文：YOLOP: You Only Look Once for Panoptic Driving Perception地址：https://paperswithcod…

人工智能 2023年6月11日
0075
主成分分析（PCA）应用——特征提取_人脸识别（上）

主成分分析（PCA）应用——特征提取/人脸识别（上）序我在另一篇文章《无监督学习与主成分分析（PCA）》中已经讲过关于PCA的原理，以及它的其中一个应用—— 降维。那么本篇文章…

人工智能 2023年7月17日
0073
天池-小布助手对话短文本语义匹配复赛rank3、决赛rank4代码及解决方案

0.前言决赛答辩已经过去一段时间了，我们队伍ac milan最终获得了复赛第3，决赛第4的成绩。在此首先感谢一些队友的carry～经过2个多月的比赛，学习收获了很多，也认识了很…

人工智能 2023年5月31日
00114
Antd表格性能优化

今天来分享一个实际项目的性能优化的内容。文章目录一、背景介绍二、性能问题原因及解决方案一、背景介绍国内React项目大多数人选择配套的UI库的时候都会选择Antd。如果是…

人工智能 2023年6月29日
0068
3D人脸模型Flame —-《Learning a model of facial shape and expression from 4D scans》论文讲解及代码注释

前文在阅读论文前，首先我们要有一定的知识储备，包括人脸建模，表情制作，旋转转换等，才能方便我们的论文理解，所以首先我会讲解一些关键的知识点。 Flame模型的作用? Flame是…

人工智能 2023年6月25日
0061
深度学习一(PyTorch物体检测实战)

深度学习一(PyTorch物体检测实战) 文章目录深度学习一(PyTorch物体检测实战) * 1、浅谈物体检测与PyTorch – 1.1、深度学习与计算机视觉 +…

人工智能 2023年7月23日
0073
西安电子科技大学-信号与线性系统大作业-歌曲人声消除

西安电子科技大学-信号与线性系统大作业-歌曲人声消除简介一、内容与要求二、思路与方案 * 2.1 立体声消除人声 – 2.1.1 基本原理 2.1.2 通过左右两…

人工智能 2023年5月27日
00155
神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

神经网络权重初始化–容易忽视的细节为什么要初始化 kaiming初始化方法由来代码实现 PReLu的使用后话禁止转载！！为什么要初始化神经网络要优化一个非常…

人工智能 2023年7月12日
0074
自动驾驶常见英文缩写

L0：人工驾驶，驾驶员执行全部的驾驶任务，主要是一些预警和提示功能，常用的传感器有摄像头（前视、环视、座舱等）、毫米波雷达、超声波雷达。 L1：辅助驾驶，在适用的设计范围下，驾驶自…

人工智能 2023年6月1日
00259
Apple MacBook M1 Anaconda安装 Tensorflow

文章目录 MacBook M1芯片安装Tensorflow踩坑（建议用推荐） * 踩坑1：在mac m1上安装tensorflow报错”zsh: illegal har…

人工智能 2023年5月23日
00202
人工智能：知识图谱实战

人工智能 python，NLP，知识图谱，机器学习，深度学习人工智能：知识图谱实战 * 前言一、实体建模工具Protege 二、常用知识点总结 – 1. 知识图谱模…

人工智能 2023年5月28日
0079
3h精通OpenCV（七）-颜色检测

0、准备工作右击新建的项目，选择Python File，新建一个Python文件，然后在开头 import cv2导入cv2库， import numpy并且重命名为 np。 i…

人工智能 2023年6月22日
00109
cuda安装失败原因汇总

目录一，cuda版本与显卡驱动的对应问题？二，cudnn与cuda的关系？三，cuda和cudnn如何使用？四，如何安装cv2？五，升级pip命令六，在cmd中提示缺少…

人工智能 2023年6月23日
00211
Failed to get convolution algorithm. This is probably because cuDNN failed..(TensorFlow和keras显存不足报错)

在跑深度学习程序时，用到TensorFlow或者keras时候，经常会报一个错误： tensorflow.python.framework.errors_impl. Unknown…

人工智能 2023年5月25日
0087
滑动平均滤波_【小工具教程】光谱平滑滤波

未经处理的实验光谱常伴有大量噪音，本工具采用Savitzky-Golay(S-G)卷积平滑算法对光谱数据进行处理，可提高光谱的平滑性，降低噪音的干扰。本工具适用于 &#x7…

人工智能 2023年6月10日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2021.11.21 以为不再用python分析语料库的我又开始了作死的全过程——用spacy给德语txt文档lemmatize并将结果写入csv及txt（二）

1.1 软件/程序

1.2 packages

大家都在看