抓了一段html格式的文件如这个:&http://www.xxxcom/.htm">u6aeu623du798fu3&,如果抓去里面的href,要怎么抓?抓到以后还要再一次抓的话,是要两个for循环吗?这不是html格式的吗?这是怎么回事呢?


也可以用pyquery或者bs4获取啊。

doc.find("a").attr("href")

soup.find("a").get("href")

如果很多个href是有规律的,当然可以用for了。bs4是for item in find_all("a"):

print(item.get("href"))

import requests
from bs4 import BeautifulSoup

def main():

req = requests.get("http://www.dbmeinv.com/dbgroup/show.htm?cid=6")
print(req.encoding)
soup = BeautifulSoup(req.text)
imgLinks = soup.find_all("div", class_=img_single)
for link in imgLinks:
print(link.find("a").get("href"))

if __name__ =="__main__":
main()


有好几种方法可以拿到链接:1,拿到渲染后的源代码后,用查找字元串或者正则表达式清洗出想要的链接。2,xpath获取节点。


一层层深入抓取,当前抓到这个片段含有href,那么拿href里面的网址再深入一层去抓。不过你给的这个例子的网址是不正确的
其实就是带标识符的字元串
你需要一碗汤
谢邀!你想要的大概就是Beautiful Soup: We called him Tortoise because he taught us.


推荐阅读:
相关文章