用机器学习的思路训练单词的TFIDF值

2023年5月28日上午11:45 • 大数据 • 阅读 104

之前用统计的方法（TFIDF理解和应用）做了一个计算单词 TFIDF的任务，这次用机器学习的思路。

1 思路

1.1 随机初始化

随机初始化每个词的 TDIDF值，全部分别存到 w_en和 w_de中。

1.2 定义loss函数

读入每一句，根据 w_en、 w_de计算每一句所构成单词的英、德 TFIDF值的和。根据标签，如果这句话是英语，但是结果 score_de大于 score_en，说明需要调参。
因此定义损失函数： loss = score_de - score_en（对德语来 loss = score_en - score_de）。

1.3 调整参数

调整参数的原理就是调整后的值 = 当前值 – 学习率 * loss在该点的梯度值。
对标签是英语的句子来说： loss = sum(w_de) - sum(w_en)。
loss关于每一个 w_de的求导为 1，所以更新时 w_de[w] -= lr。同理， w_en[w] += lr。
附上我咨询老师的截图：

; 2 注意事项

2.1 set()的使用、add()方法

vocab = set()
if word and (word not in vocab):
    vocab.add(word)

2.2 shuffle

我最初的思路是先对英语语料的全部做一遍，再对德语语料的全部做一遍，许老师说这样容易造成数据走向一边倒的情况，所以最好是一句英语一句德语，这种方法应该叫做 shuffle（可以参考机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？）。
使用的是 yield关键字和 next()方法：（可以先参考python中yield的用法详解——最简单，最清晰的解释）

def reader(srcf, tag):
    with open(srcf, "rb") as frd:
        for line in frd:
            tmp = line.strip()
            if tmp:
                tmp = tmp.decode("utf-8")
                yield tmp, tag

r_en = reader(f_path2, "en")
while True:
    try:
        line_en, t_en = next(r_en)
    except:
        line_en = None

2.3 初始化经验

根据经验，初始化范围一般是 random.uniform(-sqrt(1/len(vocab)), sqrt(1/len(vocab)))。
其中， uniform是均匀分布。

2.4 声明global

在函数中不声明函数全局变量可能会有问题，最好声明 global。（我每次都忘…）

3 代码

from math import sqrt
from random import uniform

path1 = "data/corpus.tc.de"
path2 = "data/corpus.tc.en"
test1 = "data/tiny_de.txt"
test2 = "data/tiny_en.txt"
path3 = "TFIDF 2/result_de_2.txt"
path4 = "TFIDF 2/result_en_2.txt"
vocab = set()
w_en = {}
w_de = {}

def build_vocab(srcf):
    global vocab

    with open(srcf, "rb") as frd:
        for line in frd:
            tmp = line.strip()
            if tmp:
                tmp = tmp.decode("utf-8")
                for word in tmp.split():
                    if word and (word not in vocab):
                        vocab.add(word)

def random_vocab():
    rang = sqrt(1 / len(vocab))
    r_en = {w: uniform(-rang, rang) for w in vocab}
    r_de = {w: uniform(-rang, rang) for w in vocab}
    return r_en, r_de

def reader(srcf, tag):
    with open(srcf, "rb") as frd:
        for line in frd:
            tmp = line.strip()
            if tmp:
                tmp = tmp.decode("utf-8")
                yield tmp, tag

def handle(line, tag):
    global w_en
    global w_de
    line = line.split()
    lr = 1e-3
    score_en = sum(w_en[w] for w in line)
    score_de = sum(w_de[w] for w in line)
    if tag == "en":
        if score_en < score_de:

            for w in line:
                w_en[w] += lr
                w_de[w] -= lr

    if tag == "de":
        if score_de < score_en:

            for w in line:
                w_en[w] -= lr
                w_de[w] += lr

def sf_handle(f_path1, f_path2):
    r_de = reader(f_path1, "de")
    r_en = reader(f_path2, "en")
    while True:
        try:
            line_en, t_en = next(r_en)
        except:
            line_en = None
        if line_en is not None:
            handle(line_en, t_en)

        try:
            line_de, t_de = next(r_de)
        except:
            line_de = None
        if line_de is not None:
            handle(line_de, t_de)

        if (line_en is None) and (line_de is None):
            break

def save(fname, obj):
    with open(fname, "wb") as fwrt:
        fwrt.write(repr(obj).encode("utf-8"))

if __name__ == '__main__':
    build_vocab(path1)
    build_vocab(path2)
    w_en, w_de = random_vocab()
    sf_handle(path1, path2)
    save(path3, w_de)
    save(path4, w_en)

4 结果

结果还行。

Original: https://blog.csdn.net/qq_45520647/article/details/124459653
Author: 御用厨师
Title: 用机器学习的思路训练单词的TFIDF值

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531303/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mysql或SQLite中如何查询表的第一条和最后一条记录

MySQL、Sqlite查询前10条数据的方法：（Sqlite和MySQL查询语句一样） –通常0是可以省略的，直接写成 limit 10。0代表从第0条记录后面开始，…

大数据 2023年11月12日
0047
【Redis数据库第2章】redis中的通用命令语法介绍使用

大数据 2023年11月14日
0037
centos6.5 squid安装

squid作用 1 正向代理标准的代理缓冲服务器,须在每一个内部主机的浏览器上明确指明代理服务器的IP 地址和端口号。透明代理缓冲服务器,代理操作对客户端的浏览器是透明的（即不…

大数据 2023年6月3日
0062
Android — fota升级后，数据丢失

现象是手机从AndroidR升级到AndroidS以后，clock在R上的数据丢失了。经过深入的调查发现，并不是数据丢失；而是R和S的数据存储位置不同导致的。使以下命令查询闹钟的…

大数据 2023年11月10日
0043
HDFS Namenode 高可用

HDFS Namenode 高可用在 Hadoop 2.0.0 之前，一个集群只有一个Namenode，这将面临单点故障问题。如果 Namenode 机器挂掉了，整个集群就用不了了…

大数据 2023年5月28日
0063
CentOS8.1安装Docker及Docker-compose

在新主机上首次安装 Docker Engine-Community 之前，需要设置 Docker 仓库。之后，您可以从仓库安装和更新 Docker. 设置仓库安装所需的软件包使…

大数据 2023年5月29日
0071
59_Scala 中的 Queue

1. mutable.Queue API object ScalaQueue extends App { //创建 mutable 队列 var queue: mutable.Qu…

大数据 2023年6月3日
0053
甄领科技携手“燕千云”，助力企业管理员工健康

导语： 3月份以来，一些地方的感染病例快速增长，已经波及多个省份，形势复杂严峻。当前，从全世界范围来看，新冠疫情仍处于高位，防控形势依然十分严峻。在这场没有硝烟的战”…

大数据 2023年6月3日
0075
I/O多路复用

Linux下实现I/O复用的系统调用方式主要：select、poll、epoll。 select select系统调用可在一段指定时间内，监听文件描述符上的可读、可写和异常等事件，…

大数据 2023年5月27日
0053
Linux快速入门(六)Linux网络管理

ping ping命令用于测试两台主机之间是否可以通信，一般情况下会使用 ping www.baidu.com来测试网络连通性，如果不指定发送包的个数默认是一直发送数据包，可以使用…

大数据 2023年5月26日
0052
学习mysql中遇到的问题以及解决（一）

学习mysql中遇到的问题以及解决（一）问题1：字段加上单引号’ ‘ 就报错啦，去掉单引号’ ‘就正常了问题2：default …

大数据 2023年5月26日
0097
vs2019生成的dockerfile 手动 build

cd 到 csprj 所在目录 2. docker build –no-cache –progress plain –force-rm -t demo:1.0 -f Dock…

大数据 2023年5月29日
0064
走好数据中台最后一公里，为什么说数据服务 API 是数据中台的标配？

原文链接：走好数据中台最后一公里，数据服务 API 是数据中台的标配视频回顾：点击这里课件获取：点击这里一、数据服务 API 建设背景在数字化转型的…

大数据 2023年5月26日
0058
电商舆情细粒度情感分析（ABSA）

问题描述餐馆食物不错，但是环境不太容易让人放松惬意。 {属性：食物 ; 观点：不错 ; 情感：正} {属性：环境 ; 观点：不容易让人放松 ; 情感：负} 从一个评论句子中找出，…

大数据 2023年5月28日
0071
编写HDFS HA（高可用）启动和关闭脚本

编写HDFS HA（高可用）启动和关闭脚本原创 wx62be9d88ce2942022-07-01 18:00:03博主文章分类：大数据 ©著作权文章标签 hdfs linux…

大数据 2023年5月25日
0085
docker 配置nginx使用

1.第一步先拉取镜像 docker pull nginx:latest] nginx 容器内部一般地址配置如下：日志位置：/var/log/nginx/ 配置文件位置：/etc…

大数据 2023年5月28日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31