头歌平台-人工智能技术应用-实践学习与答案2（补充实训部分）

2023年6月25日下午3:54 • 人工智能 • 阅读 131

第1关 LDA算法

import jieba
import jieba.analyse as analyse
import gensim
from gensim import corpora, models, similarities

def get_stopword_list():

    stop_word_path = './stopword.txt'
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path, encoding='utf-8').readlines()]
    return stopword_list

stop_word = get_stopword_list()
text = input()

sentences = []
segs = jieba.lcut(text)
segs = list(filter(lambda x: x not in stop_word, segs))
sentences.append(segs)

dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]
result = ""

lda = models.LdaModel(corpus,id2word=dictionary, num_topics=1)

for result in lda.print_topics(num_words=1):
    print(result[1].split('*')[1],end="")

注：这一题的输出没有很符合我的预期，所以我干脆直接改了他的print输出，用自己更喜欢的方式输出

第1关：去除停用词


def get_stopword_list():

    stop_word_path = './stopword.txt'
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').readlines()]
    return stopword_list

if __name__ == '__main__':
    text=input()
    result=""

    stopwords = get_stopword_list()

    for word in text:
        if word not in stopwords:
            result += word + ""

    print(result,end="")

TF/IDF算法


import math
import jieba
import jieba.posseg as psg
from gensim import corpora, models
from jieba import analyse
import functools
from collections import defaultdict

class TfIdf(object):

    def __init__(self, idf_dic, default_idf, word_list, keyword_num):
        self.word_list = word_list
        self.idf_dic, self.default_idf = idf_dic, default_idf
        self.tf_dic = self.get_tf_dic()
        self.keyword_num = keyword_num

    def get_tf_dic(self):
        tf_dic = {}

        doc_frequency=defaultdict(int)
        for i in self.word_list:
            doc_frequency[i]+=1

        for i in doc_frequency:
            tf_dic[i]=doc_frequency[i]/sum(doc_frequency.values())

        return tf_dic

    def get_tfidf(self):
        tfidf_dic = {}
        for word in self.word_list:
            idf = self.idf_dic.get(word, self.default_idf)
            tf = self.tf_dic.get(word, 0)

            tfidf = tf * idf
            tfidf_dic[word] = tfidf

        tfidf_dic.items()

        for k, v in sorted(tfidf_dic.items(), key=functools.cmp_to_key(cmp), reverse=True)[:self.keyword_num]:
            print(k + "/ ", end='')
        print()

def cmp(e1, e2):
    import numpy as np
    res = np.sign(e1[1] - e2[1])
    if res != 0:
        return res
    else:
        a = e1[0] + e2[0]
        b = e2[0] + e1[0]
        if a > b:
            return 1
        elif a == b:
            return 0
        else:
            return -1

注：这里对字典的统计我引入了defaultdict函数（这个函数是用来新建一个键值对的），算是额外引入了一个算法库使用

第1关 Jieba 在关键词提取中的应用


import jieba.analyse
import warnings
warnings.filterwarnings("ignore")
sentence = input()

result = ''
text = ""

stopwords = "1000 , 。防控 审查 不 项目 支付 省住 销售 返还 佣"

for word in sentence:
   if word not in stopwords:
      text += word + ""

text += "何靖"

words = jieba.analyse.extract_tags(text, topK=3, withWeight= False, allowPOS=())

for word in words:
   result += word + " "
print(result)

测试用例：
一、
针对集体宿舍人员如何科学防控的问题，中国疾控中心环境所所长施小明表示，要加强日常体温检测，对进入集体宿舍人员进行体温检测，发现体温异常人员要立即将其转移至临时隔离区域，并按相关规定进行处置。同时严控集体宿舍住宿人数超标问题，设置可开启窗户定时通风。
二、
以上信息提示，武汉疫情快速上升态势得到控制，湖北除武汉外，局部爆发的态势也得到控制，湖北以外省份疫情形势积极向好。下一步要从统筹推进疫情防控和经济社会发展出发，紧紧围绕社区防控和医疗救治两个重点，由全面防控向群专结合，精准防控转变。
三、
为推动项目尽快开工建设，省住建厅加大政策支持力度，允许施工图容缺受理审查，帮助业主提前开展施工图审查。各施工图审查机构充分发挥主观能动性，创造条件满足项目建设需求，确保施工图审查不接触、不间断、不延误。同时，加快支付施工图审查购买服务费，疫情期间，各级财政、住建部门购买并支付施工图审查服务费974万元，有效缓解审查机构资金成本压力。
五、
何靖所在的公司一直有一个”老带新”的推荐系统，想赚佣金的同事就参与。不过何靖表示，自己和同事平时工作量已经很饱和，且个人朋友圈子也不属于客户群，所以平时积极性不高。现在疫情来了，集团层面推出了”员工千元预定房源”的活动，员工每人交1000元预定一套房源，这套房源由个人出去销售，成交后，公司除了返还1000元预定金之外，还会支付和销售岗位同等比例的佣金，并额外补偿1000元；未成交，也会返还预定金。

注：这道题我是真没写出来，这个参数太难调了，使用了停用表将高频词删掉才通过的，应该有一套参数可以完美运行的；我这种方式只适合部分用例，通用性不强

第二关 TextRank算法

from jieba import analyse
import jieba.analyse

text = input()

result = ''
words = jieba.analyse.textrank(text, topK=3, withWeight=False, allowPOS=("ns","n","vn","v"))
for word in words:
   result += word + " "
print(result)

第一关情感分析基础


from snownlp import SnowNLP

def count_sno():

    count = 0
    a = open('./step1/test.txt',encoding='utf-8')

    listOfLines  =  a.readlines()
    for lineWords in listOfLines:
        text = SnowNLP(lineWords)
        if(text.sentiments > 0.9):
            count += 1

    return count

第2关帖子好评度分析

import re
from pyquery import PyQuery
from snownlp import SnowNLP

def evaluate(path):
    html = open(path,'r',encoding="utf-8")
    score, count = 0, 0

    code = html.read()
    pq = PyQuery(code)
    tag = pq('div.text')
    taga = pq('a')
    words = ""
    for word in tag.text():
        if word not in taga.text():
            words += word

    txtlist = words.split('：')
    txtlist.pop(0)

    for txt in txtlist:
        count += 1
        s = SnowNLP(txt)
        score += s.sentiments

    return  int(score*100/count)

注：这道题的比上道题的难点在于对html这个的解析工作，我这里采用的pyquery库进行解析，为了精准拆分还用了比较蠢的方法去实现，可能有更加有效的库去解决这个问题

Original: https://blog.csdn.net/Albert_weiku/article/details/127486022
Author: AlbertOS
Title: 头歌平台-人工智能技术应用-实践学习与答案2（补充实训部分）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651179/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MATLAB（五）进阶绘图

文章目录前言特殊的Plots 对数Plots plotyy() yyaxis() histogram直方图 bar条形图 barh堆叠和水平条形图 Pie饼图 Polar极图 …

人工智能 2023年7月15日
0097
EDLines: A real-time line segment detector with a false detection control翻译

论文名：EDLines:一个具有误检控制的实时线段检测器摘要我们提出了一种线性时间线段检测器，其结果准确，不需要参数调整，运行速度比文献中最快的线段检测器快11倍; 即Gro…

人工智能 2023年7月19日
0069
图文详解WGAN及其变体WGAN-GP并利用Tensorflow2实现WGAN与WGAN-GP

图文详解WGAN及其变体WGAN-GP并利用Tensorflow2实现WGAN与WGAN-GP * – 构建WGAN（Wasserstein GAN） – …

人工智能 2023年6月17日
0087
Pandas常见方法（3）-pandas分层索引构建、按层级对换和排序、按层级聚合

说明：本blog基于python3， pandas 1.3.5， numpy 1.22.0版本文章目录前言一、分层索引构建 * 1.1 Series数据结构 1.2 两层索引…

人工智能 2023年7月6日
0083
安装pytorch深度学习环境（GPU版）和pycharm

1.安装或更新显卡驱动根据自己的电脑的配置和需求，安装或更新显卡驱动，nvidia显卡驱动下载地址：官方驱动 | NVIDIA 下载可能比较慢，有梯子的话会好些。下载完成后安装e…

人工智能 2023年7月21日
0075
R语言使用aov函数建立单因素方差分析模型（One-Way ANOVA）、使用summary函数获取方差分析信息、使用TukeyHSD函数采用Tukey法对各组均值的差异进行成对检验进行事后分析

R语言使用aov函数建立单因素方差分析模型（One-Way ANOVA）、使用summary函数获取方差分析信息、使用TukeyHSD函数采用Tukey法对各组均值的差异进行成对检…

人工智能 2023年7月17日
0099
apply、applymap、transform、agg在dataframe中的用法

文章目录 * – + apply() + map() + applymap() + transform() + agg() apply() dataframe的appl…

人工智能 2023年7月7日
0091
Python数据分析中的数据预处理：数据标准化

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中的数据预处理：数据标准化 …

人工智能 2023年7月15日
00109
KeyError: “None of [Int64Index([…],n dtype=‘int64‘, length=739)] are in the [columns]“

KeyError: “None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 8, 9, 10,\n …\n 907, 908…

人工智能 2023年6月19日
0078
每日一练Day04：寻找单身狗

寻找单身狗一、一个单身狗二、两个单身狗寻找单身狗实际上是力扣上的《只出现一次的数字》具体描述如下：一、一个单身狗本题的特点是：非空数组、其余数字出现两次、寻找只出现一次…

人工智能 2023年6月28日
0074
[附源码]计算机毕业设计JAVAssm酒店综合管理平台

[附源码]计算机毕业设计JAVAssm酒店综合管理平台项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）…

人工智能 2023年6月29日
0091
ARIMA模型的定阶原理与建模分析

ARIMA模型的定阶原理与建模分析 * – 前言 – 一：AR ( p ) (p)(p )模型的定阶原理 – 二：MA ( q ) (q)(q …

人工智能 2023年7月15日
00120
Opencv实战——图像拼接

文章目录前言实现方法实现代码 * 直接拼接加权处理总结前言图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度…

人工智能 2023年7月25日
00166
MATLAB实战系列（三十六）-MATLAB 离散Hopfield神经网络的分类——高校科研能力评价

离散型Hopfield神经网络不仅具有联想记忆的功能，还可以应用于解决分类问题。文中涉及代码请参见以下是我为大家准备的几个精品专栏，喜欢的小伙伴可自行订阅，你的支持就是我不断更…

人工智能 2023年7月2日
00115
分类模型——多分类用spss预测鸢尾花的种类

处理一下定性变量即让它转为虚拟变量，由于是多类，我直接在excel里，通过excel筛选操作把不同类对应到1- n （两类的话一般是0 1 多类的话就是1-n了）记录一下两种算…

人工智能 2023年7月1日
00104
keras搭建unet模型—语义分割

在前一篇文章基于keras的全卷积网络FCN—语义分割中，博主用keras搭建了fcn模型，使用猫狗数据集做了训练。本文在此基础上搭建了unet模型，数据介绍请看上面这篇文章，本文…

人工智能 2023年5月26日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31