Python的一些爬虫框架
![]() |
这篇日志主要积累一些Python的一些爬虫框架,不断积累,随时更新,欢迎提供新框架。
1. Crawley: Scraping Framework based on Non Blocking I/O operations.
https://github.com/jmg/crawley
2. portia: Visual scraping for Scrapy
https://github.com/scrapinghub/portia
3. newspaper: Article scraping & curation
https://github.com/codelucas/newspaper
4. python-goose: 提取出文章的主体
https://github.com/xgdlm/python-goose
https://github.com/grangier/python-goose
Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
Python-goose可提取的信息包括:
文章主体内容
文章主要图片
文章中嵌入的任何Youtube/Vimeo视频
元描述
元标签
> 我来回应