台湾 || 语言: 大陆简体港澳繁體台灣正體

抓去下来的html的文件到底是什么格式的？

雪花台湾 2020-12-31 00:30

抓了一段html格式的文件如这个：&http://www.xxxcom/.htm">u6aeu623du798fu3&,如果抓去里面的href，要怎么抓？抓到以后还要再一次抓的话，是要两个for循环吗？这不是html格式的吗？这是怎么回事呢？

也可以用pyquery或者bs4获取啊。

doc.find("a").attr("href")

soup.find("a").get("href")

如果很多个href是有规律的，当然可以用for了。bs4是for item in find_all("a"):

print(item.get("href"))

import requests from bs4 import BeautifulSoup

def main():

req = requests.get("http://www.dbmeinv.com/dbgroup/show.htm?cid=6")
print(req.encoding)
soup = BeautifulSoup(req.text)
imgLinks = soup.find_all("div", class_=img_single)
for link in imgLinks:
print(link.find("a").get("href"))

if __name__ =="__main__":
main()

有好几种方法可以拿到链接：1,拿到渲染后的源代码后，用查找字元串或者正则表达式清洗出想要的链接。2,xpath获取节点。

一层层深入抓取，当前抓到这个片段含有href，那么拿href里面的网址再深入一层去抓。不过你给的这个例子的网址是不正确的

其实就是带标识符的字元串

你需要一碗汤

谢邀！你想要的大概就是Beautiful Soup: We called him Tortoise because he taught us.

推荐阅读：

相关文章