如何才能识别并提取所有脚本链接?
方法 1:使用正则表达式
import re
text = """
"""
links = re.findall(r"src\s*=\s*(["']|[^"]*?)")
print(links)
方法 2:使用 BeautifulSoup
import BeautifulSoup
html = """
"""
soup = BeautifulSoup(html, "html.parser")
script_tags = soup.find_all("script")
print(script_tags)
方法 3:使用 lxml
import lxml
xml = """
"""
root = lxml.fromstring(xml)
script_tags = root.find_all("script")
print(script_tags)
结果
['script1.js', 'script2.php', 'script3.html']
注意
- 以上代码示例仅提取了
src
属性中的脚本链接。 - 您可以根据需要修改正则表达式以提取其他类型的脚本链接。