sigmoid和tanh做有限范围内的回归问题

2023年6月18日下午1:02 • 人工智能 • 阅读 115

准备

前几天，有人质疑说sigmoid不能做回归，我翻了一下资料

某自编码机源码，采用sigmoid+BCEloss进行矩阵重建【这个矩阵数据被变换到了0-1】，论文里面确实是采用sigmoid做回归

本CSDN，采用distilbert用sigmoid做回归，完成STSB任务，（回归到1-5）

其实可以推导一下：sigmoid+BCE，大致等于直接回归+MSE

++++++++++++++++++以下实验正文++++++++++++++++++

标准STSB回归+MSELoss
Sigmoid+BCELoss
tanh+TanhLoss


!pip install transformers datasets


task = "stsb"
model_checkpoint = "distilbert-base-uncased"
batch_size = 16
from datasets import load_dataset, load_metric
dataset = load_dataset("glue", task)
metric = load_metric('glue', task)

回归+MSE


from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)
def preprocess_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)
encoded_dataset=dataset
encoded_dataset=encoded_dataset.map(lambda example: {'label': example['label']})
encoded_dataset = encoded_dataset.map(preprocess_function, batched=True)
encoded_dataset["train"][:1]

from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=1)

for k,v in model.named_parameters():

  if k=="classifier.bias" or k=="pre_classifier.bias":
    print(k)
    nn.init.constant_(v, 0)
  if k=="classifier.weight" or k=="pre_classifier.weight":
    print(k)
    nn.init.kaiming_normal_(v)
args = TrainingArguments(
    "test-glue",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=1,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model="pearson",
)
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = predictions[:, 0]
    return metric.compute(predictions=predictions, references=labels)

trainer = Trainer(
    model,
    args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.train()

trainer.evaluate()

sigmoid+BCE


from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)
def preprocess_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)
encoded_dataset=dataset
encoded_dataset=encoded_dataset.map(lambda example: {'label': (example['label']-1.0)/4.0})
encoded_dataset = encoded_dataset.map(preprocess_function, batched=True)
encoded_dataset["train"][:1]

from transformers import AutoModel, TrainingArguments, Trainer

import torch
from torch import nn
import transformers
import numpy as np
class MyModel(nn.Module):
    def __init__(self, hidden_size=768):
        super(MyModel, self).__init__()

        self.loss_fct = nn.BCEWithLogitsLoss()
        self.sub  = AutoModel.from_pretrained(model_checkpoint,return_dict=True)

        self.fc = nn.Sequential(
            nn.Linear(hidden_size,hidden_size),
            nn.ReLU(),
            nn.Dropout(p=0.2),
            nn.Linear(hidden_size,1),
        )

    def forward(self,input_ids, attention_mask,labels):

        outputs = self.sub(input_ids, attention_mask)
        o=outputs.last_hidden_state[:,0]

        logits = self.fc(o)

        loss = self.loss_fct(logits.view(-1, 1),labels.float().view(-1, 1))
        return transformers.modeling_outputs.SequenceClassifierOutput(loss=loss,logits=logits)

model=MyModel()

for k,v in model.named_parameters():
  if k=="fc.0.bias" or k=="fc.3.bias":
    print(k)
    nn.init.constant_(v, 0)
  if k=="fc.0.weight" or k=="fc.3.weight":
    print(k)
    nn.init.kaiming_normal_(v)
args = TrainingArguments(
    "test-glue",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=1,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model="pearson",
)
def sigmoid(x):
    return 1/(1 + np.exp(-x))
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = predictions[:, 0]
    return metric.compute(predictions=sigmoid(predictions), references=labels)
trainer = Trainer(
    model,
    args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.train()

trainer.evaluate()

tanh+自定义匹配的Loss

∫ x − y ( 1 − x ⋅ x ) d x \int \frac{x-y}{\left(1-x\cdot \:x\right)}dx ∫(1 −x ⋅x )x −y d x

= − y ( ln ⁡ ∣ x + 1 ∣ 2 − ln ⁡ ∣ x − 1 ∣ 2 ) − 1 2 ln ⁡ ∣ 1 − x 2 ∣ + C =-y\left(\frac{\ln \left|x+1\right|}{2}-\frac{\ln \left|x-1\right|}{2}\right)-\frac{1}{2}\ln \left|1-x^2\right|+C =−y (2 l n ∣x +1 ∣−2 l n ∣x −1 ∣)−2 1 ln 1 −x 2 +C

= − ( ( 1 + y 2 ) ln ⁡ ( 1 + x 2 ) + ( 1 − y 2 ) ln ⁡ ( 1 − x 2 ) ) + C ′ =-\left( \left(\frac{1+y}{2} \right)\ln \left( \frac{1+x}{2}\right)+\left(\frac{1-y}{2} \right)\ln \left( \frac{1-x}{2}\right)\right)+C’=−((2 1 +y )ln (2 1 +x )+(2 1 −y )ln (2 1 −x ))+C ′

y : l a b e l , x : t a n h ( o u t ) y:label,x:tanh(out)y :l ab e l ,x :t anh (o u t )

import torch
from torch import nn
import numpy as np
from torch import Tensor
class TanhLoss(nn.Module):
    def __init__(self,flag=True):
        super().__init__()
        self.flag=flag

    def forward(self, xi, y):
        x=torch.tanh(xi)
        if not self.flag :

            one=-0.5*y*(torch.log(1+x+1e-40)-torch.log(1-x+1e-40))-0.5*torch.log(1-torch.pow(x,2)+1e-40)+np.log(2)
        else:
            ya,ym,xa,xm=(y+1)/2,(1-y)/2,(1+x)/2+1e-40,(1-x)/2+1e-40
            one=-1*(ya*torch.log(xa)+ym*torch.log(xm))
        return torch.mean(one)
th=TanhLoss()
print(th(torch.FloatTensor(70,1).uniform_(-1,1),torch.FloatTensor(70,1).uniform_(-1,1)))
print(th(torch.FloatTensor(70,1).uniform_(-1000000,-1000000),torch.FloatTensor(70,1).uniform_(1,1)))
print(th(torch.FloatTensor(70,1).uniform_(1000000,1000000),torch.FloatTensor(70,1).uniform_(1,1)))
print(th(torch.FloatTensor(70,1).uniform_(0,0),torch.FloatTensor(70,1).uniform_(0,0)))
th=TanhLoss(False)
print(th(torch.FloatTensor(70,1).uniform_(-1,1),torch.FloatTensor(70,1).uniform_(-1,1)))
print(th(torch.FloatTensor(70,1).uniform_(-1000000,-1000000),torch.FloatTensor(70,1).uniform_(1,1)))
print(th(torch.FloatTensor(70,1).uniform_(1000000,1000000),torch.FloatTensor(70,1).uniform_(1,1)))
print(th(torch.FloatTensor(70,1).uniform_(0,0),torch.FloatTensor(70,1).uniform_(0,0)))
np.log(1e-40)


from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)
def preprocess_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"], truncation=True)
encoded_dataset=dataset
encoded_dataset=encoded_dataset.map(lambda example: {'label': (example['label']-3.0)/2.0})
encoded_dataset = encoded_dataset.map(preprocess_function, batched=True)
encoded_dataset["train"][:1]

from transformers import AutoModel, TrainingArguments, Trainer

import torch
from torch import nn
import transformers
import numpy as np
from torch import Tensor
from typing import Callable, Optional

class MyModel(nn.Module):
    def __init__(self, hidden_size=768):
        super(MyModel, self).__init__()
        self.loss_fct = TanhLoss()
        self.su  = AutoModel.from_pretrained(model_checkpoint,return_dict=True)

        self.fc = nn.Sequential(
            nn.Linear(hidden_size,hidden_size),
            nn.ReLU(),
            nn.Dropout(p=0.2),
            nn.Linear(hidden_size,1),
        )

    def forward(self,input_ids, attention_mask,labels):

        outputs = self.su(input_ids, attention_mask)
        o=outputs.last_hidden_state[:,0]

        logits = self.fc(o)

        loss = self.loss_fct(logits.view(-1, 1),labels.float().view(-1, 1))
        return transformers.modeling_outputs.SequenceClassifierOutput(loss=loss,logits=logits)

model=MyModel()

for k,v in model.named_parameters():
  if k=="fc.0.bias" or k=="fc.3.bias":
    print(k)
    nn.init.constant_(v, 0)
  if k=="fc.0.weight" or k=="fc.3.weight":
    print(k)
    nn.init.kaiming_normal_(v)
args = TrainingArguments(
    "test-glue",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=1,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model="pearson",
)

def sigmoid(x):
    return 1/(1 + np.exp(-x))
def tanh(x):
    return 2*sigmoid(2*x)-1
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = predictions[:, 0]
    return metric.compute(predictions=tanh(predictions), references=labels)
trainer = Trainer(
    model,
    args,
    train_dataset=encoded_dataset["train"],
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

trainer.train()

trainer.evaluate()

Original: https://blog.csdn.net/qq1226317595/article/details/120124998
Author: 袁一白
Title: sigmoid和tanh做有限范围内的回归问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635190/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

双十一到了，当我用Python采集了电商平台所有商品后发现….

Python采集电商平台写在前面环境及模块案例实现思路代码展示效果展示最后写在前面这不是双十一快到了，为了以最优惠的价格买到自己想买的商品，我不惜用Python把y…

人工智能 2023年6月20日
0086
电气论文实现：深度学习分位数回归实现电力负荷区间预测

个人电气博文目录链接：学好电气全靠它，个人电气博文目录（持续更新中…）之前写过一版电力负荷区间预测：电气论文：负荷区间预测（机器学习简单实现）这版区间负荷预测思维和…

人工智能 2023年6月18日
00112
labelImg 使用以及安装教程—图像标注工具

目录 labelImg 使用教程 LabelImg简介 LabelImg用法步骤 (PascalVOC) 步骤 (YOLO) 创建预定义的类注释可视化热键验证图片设置困难…

人工智能 2023年6月16日
00129
新手入门机器学习案例（附源代码）

这里复习一下一些简单的机器学习算法，也算是一个总结，希望能给大家做一个参考，后续会继续更新。新手入门基础知识 * 混淆矩阵第一天-KNN * 鸢尾花分类 – 数据…

人工智能 2023年6月15日
00142
【Java】总结一下Java中的JVM知识点

说一下 JVM 的主要组成部分？及其作用？通过从JVM物理结构图我们可以看到：1.JVM两个子系统：类加载子系统和执行引擎子系统；2.JVM两个组件：本地接口方法组件和内存空间组…

人工智能 2023年6月26日
0082
知识图谱的相关技术-概览（笔记）

业务理解、图谱设计知识抽取、知识表示、知识存储知识众包、知识链接、知识融合问答、推荐等等业务理解：有哪些可获取的业务数据？如果需要获取数据以及人工标注，需要多大成本？是否需要专家…

人工智能 2023年6月1日
0079
语义分割系列25-BiSeNetV2（pytorch实现）

继BiSeNetV1之后（语义分割系列16-BiSeNetV1），BiSeNetV2在2021年IJCV上发布。论文链接：BiSeNetV2 相比于V1版本，V2版本在下采样策略…

人工智能 2023年7月27日
0060
使用云端的GPU进行yolov5的训练

前言本文介绍了使用云端GPU进行yolov5训练环境配置的过程一、创建实例这里使用的是恒源云的GPU服务器，官方网址为恒源云_GPUSHARE-恒源智享云他的用户文档为Tm…

人工智能 2023年7月21日
0086
【Leetcode】1259. Handshakes That Don‘t Cross

题目地址： https://leetcode.com/problems/handshakes-that-dont-cross/description/ 有n n n个点（n n n…

人工智能 2023年6月27日
0078
Python制作自动填写脚本，100%准确率

前言环境使用 Python 3.8 Pycharm 模块使用 import requests —> 数据请求模块 pip install requests import p…

人工智能 2023年7月6日
0061
YOLOX训练自有数据集

开源代码：https://github.com/Megvii-BaseDetection/YOLOX 参考：深入浅出Yolox之自有数据集训练超详细教程 – 知乎 An…

人工智能 2023年7月9日
0086
【pandas】动手学pandas–基于莫烦python的教程

Pandas 本文提供了所有章节的可运行代码，要想尽快学习掌握，还是需要动手去运行查看效果，然后自己动手编写。 1、基本介绍 pandas类似于python的字典，一般和numpy…

人工智能 2023年7月17日
0063
Anaconda3+Python3.8搭建Tensorflow（包括踩到的坑

安装tensorflow CPU版本 1.在 Windows 下打开 Anaconda Prompt2.输入清华仓库镜像，这样更新会快一些： conda config –add …

人工智能 2023年5月23日
0098
FPGA实现直方图均衡（一）

直方图均衡的原理笔者就不写了，主要记录如何用verilog写出来。首先需要实现直方图统计，就是统计一幅图中各灰度级的像素数量。那么这里参考《基于FPGA的数字图像处理原理及应用》这…

人工智能 2023年6月22日
0083
【踩坑记录】Slam-Gmapping建图失败–已解决

目录【场景】仿真小车在Gazebo上进行Gmapping 步骤：问题：【填坑过程】【知识储备】【解决办法】【修改尝试-0】【结论-0】odom由一个发布者发布【修改…

人工智能 2023年6月24日
00106
学习模式上的记录之统计篇二 Sigmaplot 非线性回归报告分析

先说下线性回归的前提假设（LINE）： L：Linearity 线性因变量和每个自变量都是线性关系I：Independence 独立性对于所有的观测值，他们的误差项相互之间是独…

人工智能 2023年6月18日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31