爬虫.zip
大小:1.95KB
价格:29积分
下载量:0
评分:
5.0
上传者:2301_79070867
更新日期:2025-09-22

爬取豆瓣电影top250和爬取当当网数据

资源文件列表(大概)

文件名
大小
爬虫/豆瓣电影TOP250.py
1.08KB
爬虫/考试.py
2.63KB

资源内容介绍

(2)编写爬虫程序,使用Urllib或Requests库获取到服务器URL的首页数据。(3)解析数据,包含图书编号、名称、作者、出版社、出版时间、价格、简介、图书图片的URL,同时实现翻页功能爬取全部网页数据;(4)数据持久化存储:将全部解析的数据存储到 .CSV文件;将全部图书的图片存储到当前目录中“download”文件夹;将全部解析的数据存储到数据库( MySQL或MongoDB )。 编写爬虫程序,使用获取到服务器URL的首页数据。(3)使用解析RE、BS4、XPATH数据,包含图书编号、名称、作者、出版社、出版时间、价格、简介、图书图片的URL,同时实现翻页功能爬取全部网页数据;(4)数据持久化存储:将全部解析的数据存储到 .CSV文件;将全部图书的图片存储到当前目录中“download”文件夹;将全部解析的数据存储到数据库( MySQL或MongoDB )。
from selenium.webdriver import Chromefrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport osimport requestsimport pymysqlfrom pymysql.converters import escape_stringconn = pymysql.connect( user="root", password="plmoknijbuhv123.", host="localhost", database="kaoshi", port=3306,)cursor = conn.cursor()driver=Chrome()url="https://www.dangdang.com/"driver.get(url)input=driver.find_element(By.XPATH,'//*[@id="key_S"]')input.send_keys("Python")danji=driver.find_element(By.XPATH,'//*[@id="form_search_new"]/input[10]')danji.click()flat=Truefd=open("html.csv",mode="a",encoding="utf-8")sname = 1xuhao="%05d"%1while flat: newurl=driver.current_url myheaders={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"} response=requests.get(url=newurl,headers=myheaders) response.encoding="GB2312" html=response.text soup=BeautifulSoup(html,'lxml') ul=soup.find("ul",class_="bigimg") lis=ul.find_all("li") if not os.path.exists("download"): os.mkdir("download") i=1 for li in lis: name=li.find("a")["title"] try: zuoze=li.find("p",class_="search_book_author").find("a")["title"] except: pass money=li.find("p",class_="price").find("span",class_="search_now_price").text riqi=li.find("p",class_="search_book_author").find_all("span")[1].text chuban=li.find("p",class_="search_book_author").find_all("span")[2].text jianjie=li.find("p",class_="detail").text if i==1: src=li.find("a").find("img")["src"] else: src=li.find("a").find("img")["data-original"] movie_src="http:"+src print(sname,name,zuoze) resp=requests.get(movie_src,myheaders) shu = "%05d" % sname with open("download/"+str(shu)+".jpg","wb") as fp: fp.write(resp.content) fd.write(str(sname)+","+name+","+zuoze+","+chuban+","+riqi+","+money+","+jianjie+"\n") sql="insert into kaoshi values (\'{}\',\'{}\',\'{}\',\'{}\',\'{}\',\'{}\');".format(escape_string(name),escape_string(zuoze),escape_string(chuban),escape_string(riqi),escape_string(money),escape_string(jianjie)) print(sql) cursor.execute(sql) conn.commit() i=i+1 sname=sname+1 try: next=driver.find_element(By.CLASS_NAME,"next").find_element(By.TAG_NAME,"a") next.click() except: flat=Falsefd.close()cursor.close()conn.close()

用户评论 (0)

发表评论

captcha

相关资源

圣诞节的圣诞树,有html型、有exe型,还有使用python型

打开压缩包第一个是动态生成樱花python需要下载python,第二个是圣诞树.ext类型是使桌面生成一颗圣诞树,但是每次开机时会自动生成,如果需要关闭可以右键将startup关闭勾选,第三个是html型直接点开即可,后面两个都是python类型。

864.2KB45积分

inconseg-85epoch.zip

haha

535.7KB35积分

模拟EMI接收机的算法程序-颐 俞

版本 1.0.0 (3.5 MB) 作者: 颐 俞模拟EMI接收机的算法程序本程序用于将示波器的时域结果或者仿真的时域结果快速转化成平均值准峰值等接收机形式结果,进而与标准限值对标。测量成本低,速度快。 (0)程序背景:时域波形仅FFT计算的频谱结果和EMI接收机测量的准峰值/平均值结果有显著不同。本程序用于将示波器的时域结果或者仿真的时域结果快速转化成平均值准峰值等接收机形式结果,进而与标准限值对标。测量成本低,速度快。本程序的核心优势:得益于简化加速,算法处理10M个时域波形点的QP检测时间仅需15秒(硬件设备为英特尔CPU i5 10400)可参照论文:Y. Yu, X. Pei, Q. Chen, P. Zhou and D. Zhao,"A Fast Method for Predicting the Quasi-Peak Radiated EMI Spectrum of Power Converters," 2023 IEEE Energ

3.49MB26积分

GooFlow JS 简化改造版

GooFlow 一个基于 Jquery/FontAwesome 的流程图/架构图画图插件,本资源是基于JS的一个版本,改造了 GooFlow JS 程序,简化了绘制工具栏和 操作工具栏引用详细页面的功能。

876.2KB10积分