博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
pyspider介绍及安装
阅读量:6191 次
发布时间:2019-06-21

本文共 802 字,大约阅读时间需要 2 分钟。

一、pyspider简介

  1、通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性

  2、通过web化的脚本编写、调试环境。web展现调度状态

  3、抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展

  

  

  1、各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制

  2、任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。

  3、每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。

 二、安装

  1、首先确保你已经安装了pip,若没有安装,请参照: 

  2、PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速、原生支持各种Web标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。请参照:

  3、直接利用 pip 安装即可

    pip install pyspider 或者下载: 后解压利用 python setup.py install进行安装

    

 

  4、官方文档:

三、测试

  安装完成后在命令行输入:pyspider all

  

  

  然后浏览器访问 

  观察一下效果,如果可以正常出现 PySpider 的页面,那证明一切OK

  在此附图一张,这是我写了几个爬虫之后的界面。

  

 

  

 

转载地址:http://msrda.baihongyu.com/

你可能感兴趣的文章
Windows Live Writer 2012 on .net 4
查看>>
主动学习-1
查看>>
eclipse 中使用中文JAVA api文档
查看>>
Spring 集成hibernate时配置连接释放模式
查看>>
解决 Attempting to destroy the window while drawing!
查看>>
魔兽争霸3不能弹出输入法原因
查看>>
嵌入式文件系统损耗平衡算法
查看>>
highcharts图表组件通过设置tooltip属性自定义数据提示信息
查看>>
C++ 连接数据库的入口和获取列数、数据
查看>>
The name does not exist in the namespace error in XAML
查看>>
[Java基础] 使用JMAP dump及分析dump文件
查看>>
[Android Memory] Android性能测试小工具Emmagee
查看>>
这些年无处安放的博客
查看>>
图解DevExpress RichEditControl富文本的使用,附源码及官方API
查看>>
U-boot for Tiny4412
查看>>
ecshop添加商品选择品牌时如何按拼音排序
查看>>
利用php soap实现web service
查看>>
android performClick使用
查看>>
转载,好的东西,喜欢分享
查看>>
静态工具类中使用注解注入service
查看>>