根据url 在ensembl 网站爬取外显子等数据

2023年7月8日上午9:35 • 人工智能 • 阅读 61

根据url 在ensembl 网站爬取外显子等数据
需要先一步准备好url，我准备的url如下：
主要是g 和 t 两列内容不同

可以准备好g和t两列数据，用python自动补充好url链接，代码如下：
（注意：url不要是列表的形式，否则会报错）
此时这个html页面只有一个表格，其他的内容没有，所以可以直接写
tb = pd.read_html(urlValue)

但是如果url里面，除了表格之外，还有其他的内容，则，需要在tb爬取的url后面标注爬取的表格的位置，如爬取第一个表格内容：
tb = pd.read_html(urlValue)[0]

import pandas as pd
import csv
with open('geneid.csv', encoding='utf-8') as file:
    f_csv = csv.reader(file)
    for i, rows in enumerate(f_csv):
        if i >= 1:
            print(rows)
            urls = ['https://nov2020.archive.ensembl.org/Mus_musculus/Component/Transcript/Exons/exons?db=core;'
                    'g={};t={}'.format(rows[0], rows[1])]
            for urlValue in urls:
                print(urlValue)
                df= pd.read_html(urlValue)

                print(df)
                col_name = df.columns.tolist()

                        col_name.insert(0, 'geneid')
                        col_name.insert(1, 'traid')
                        df = df.reindex(columns=col_name)
                        df['geneid'] = rows[0]
                        df['traid'] = rows[1]

                        df.to_csv(path, mode='a', encoding='utf_8', index=False,header=False)
                        print(str(urlValue) + '抓取完成')
                        df = pd.DataFrame(tb)
                        df.to_csv(r'58748-18094(2).csv', mode='a', encoding='utf_8', index=False)
                        print(str(urlValue) + '抓取完成')

也可以手动整理好url，直接拿来使用即可，但相对比较麻烦些

代码为：边爬取边存入表格

import pandas as pd
import csv
with open('C:/Users/Desktop/50.csv', encoding='utf-8') as file:
    f_csv = csv.reader(file)
    for i, rows in enumerate(f_csv):
        if i >= 1:
            for j in rows:
                url = j
                print(url)
                tb = pd.read_html(url)[0]
                print(tb)
                df = pd.DataFrame(tb)
                df.to_csv(r'C:/Users//Desktop/58.csv', mode='a', encoding='utf_8', index=False)
                print(str(url) + '抓取完成')

Original: https://blog.csdn.net/weixin_51192038/article/details/123216721
Author: 佛系盼毕业
Title: 根据url 在ensembl 网站爬取外显子等数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678231/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据预处理-离群值检测与处理

@数据分析预处理离群值检测数据集中那些明显偏离数据集中其他样本的数据，检测离群值为数据分析与建模提供高质量的数据。 1、3σ法当样本的取值符合正态分布时可以采用3σ法判断异常…

人工智能 2023年7月15日
0066
RTX3060+ubuntu22.04LTS配置tensorflow1.15和tensorflow2.6

换电脑了，3060显卡按照之前的方法https://blog.csdn.net/weixin_41631106/article/details/119547755，用conda安装…

人工智能 2023年5月23日
00182
Topic 6 SCI 文章之计数变量泊松回归

这期继续说说统计这些事，泊松分布大家可能熟悉些，但是用它来做模型还是需要细细品味一下。泊松回归，也被称为对数线性模型，当结果变量是一个计数(即数值型，但不像连续变量的范围那么大)…

人工智能 2023年6月17日
0069
Mac M1 由于arm导致“tensorflow 报错”解决方法

Mac m1 由于arm导致”tensorflow 报错”解决方法 * – 问题描述 – 导致问题的原因 – 问题解决 …

人工智能 2023年5月25日
00109
机器学习实战-Logisitic回归

目录一、Logistic回归基于最优化方法的最佳回归系数确定梯度上升法梯度下降法二、代码实现 1.logistic回归梯度上升优化算法 2.画出数据集和logistic回…

人工智能 2023年6月17日
00108
MRI图像神经纤维束的追踪

大脑的内部有灰质和白质，白质的主要成分就是神经，水分子的弥散方向倾向于沿着神经细胞轴突的走向，也就是沿着神经的方向，通过测定的弥散加权像(DWI)就可以推断出大脑内部白质神经纤维束…

人工智能 2023年7月14日
0069
天猫精灵的自定义语音技能创建流程

登录 AliGenie 技能应用平台，点击 创建新技能，通过向导创建一…

人工智能 2023年5月27日
00157
MATLAB中text函数使用

目录语法说明示例向数据点添加文本说明向多个数据点添加文本显示多行文本指定文本大小和颜色修改现有文本 text函数的功能是向数据点添加文本说明。语法 text(x,…

人工智能 2023年7月4日
0083
SENT:Sentence-level Distant Relation Extraction via Negtive Training-ACL2021

Abstract Distant supervision for relation extraction provides uniform bag labels for each …

人工智能 2023年5月31日
0079
excel回归分析结果解读

对于简单数据使用excel进行回归分析，操作简单,方法数据-分析工具-点击回归（ps.如果你的excel中没有数据分析这一选项，需要设置一下方法：文件-选项-加载项-勾选数据分…

人工智能 2023年6月16日
00303
【MySQL实战】基于100万电商用户的1亿条行为数据分析——自发秩序

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月11日
0063
从踩坑到跳崖——自用版Jetson Xavier NX配置踩坑全记录（其四：语音识别pyaudio、pyautogui、蓝牙连接相关）

谢邀，csdn”出道作”。从踩坑到跳崖，用半个月和Jetson NX培养感情到”不舍分手”的体验是怎样的？谁用谁是大怨种。 1. …

人工智能 2023年5月25日
00159
如何用OpenCV改变图片的大小？

改变图片的大小(resize)是一项很有用的基本技能，它能让图片拥有我们想要的大小。比如在初学阶段，我们在实践时所用的图片的太大，屏幕上显示时观感不好，可以利用这一项技能把图片变小…

人工智能 2023年7月6日
0072
ViT（Vision Transformer）全文精读

** 相关链接：原文链接：An Image is Worth 16×16 Words: Transformers for Image Recognition at Sc…

人工智能 2023年6月17日
0073
NLP-分类模型：短文本分类概述【FastText、TextCNN、TextRNN、TextRCNN、DPCNN】

随着信息技术的发展，最稀缺的资源不再是信息本身，而是处理信息的能力。而绝大多数信息都是以文本的形式存在的，如何在如此庞大而复杂的文本信息中获取最有效的信息是信息处理的一大目标。文本…

人工智能 2023年5月27日
0053
浅谈目标检测RCNN,SPPNET,Fast-RCNN,Faster-RCNN

RCNN目标检测-R-CNN模型●CVPR 2014●候选区域方法(region proposal method) :提供了额物体检测的一个重要思路●RCNN步骤:。1、对于一张图…

人工智能 2023年7月12日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

根据url 在ensembl 网站爬取外显子等数据

大家都在看