如何才能识别并提取所有脚本链接?

如何才能识别并提取所有脚本链接?

方法 1:使用正则表达式

import re

text = """



"""

links = re.findall(r"src\s*=\s*(["']|[^"]*?)")
print(links)

方法 2:使用 BeautifulSoup

import BeautifulSoup

html = """









"""

soup = BeautifulSoup(html, "html.parser")
script_tags = soup.find_all("script")
print(script_tags)

方法 3:使用 lxml

import lxml

xml = """









"""

root = lxml.fromstring(xml)
script_tags = root.find_all("script")
print(script_tags)

结果

['script1.js', 'script2.php', 'script3.html']

注意

  • 以上代码示例仅提取了 src 属性中的脚本链接。
  • 您可以根据需要修改正则表达式以提取其他类型的脚本链接。
相似内容
更多>