项目001:爬取本地html文件
要求:爬取评分高于4分的文章标题和分类
解决步骤:
step1、用BeautifulSoup解析网页
step2、查找需要用的tag
step3、提取tag中有用的信息
代码如下:
1 | from bs4 import BeautifulSoup |
最后输出
1 | Sardinia's top 10 beaches ['fun', 'Wow'] |
其余笔记
1、
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag
,NavigableString
,BeautifulSoup
,Comment
. ——官方手册
2、select()和find_all()
1 | #find_all()的返回值类型 |
返回的都是包含标签的列表。
参考资料
[1] with open() as f和open()的区别
[2] vscode文件路径问题