意见反馈
用户手册
蜘蛛云能做什么?
蜘蛛云提供
网页抓取
云计算
服务,能高效提取网页结构化信息,自动识别新闻论坛帖吧等列表,为您抓取网页提供定制服务。
蜘蛛云提供的数据支持
XML
,
JSON
和
RSS
等多种格式,能为您提供网页数据存储服务,可以将数据直接提交到您的数据库中。
更多>>
蜘蛛云使用说明:
搜索你需要的任务:从大家已经创建的任务中寻找你需要的任务,“选择”该任务,“复制”到我的任务中。
创建新任务:点“创建新任务”按钮,按创建流程引导你创建适合你自己的抓取任务。
我的任务
大家的任务
填写配置信息
1
5
10
15
20
50
100
测试值:
任务名称:
任务描述:
页面范围:
开始网址:
列表网址:
特征网址:
切割点:
结点范围:
在子页面提取详情
字段1:
字段2:
字段3:
字段4:
字段5:
字段6:
字段7:
字段8:
字段9:
Copyright@ 2010 蜘蛛云@ 沪ICP备10004178号
Email:
密 码:
联系方式:
您的意见:
Email:
Email将是您的登录帐号,同时该Email也作为您的默认通知方式。
密码:
重复密码:
关闭
任务名称:
任务描述:
自动识别链接
提取页面详情
提取页面列表
输入一个论坛,帖吧的网址,或者输入一个新闻页表页的网址,可以自动识别出主要的内容和链接
提取一个页面的详细信息,如淘宝产品页面的价格,介绍。新闻页的来源,发表时间,正文等。
提取一个列表页的详细信息,如果百度淘宝的搜索结果页,优酷的视频列表,最新小说列表等等
测试值:
开始网址:
页面范围:
缩小页面提取范围,减少干扰(可不填)
以下包含切分列表的两种方式:
在子页面提取详情
特征网址:
只匹配包含此特征的网址,可用*代替一些变化的字符
切割点:
用切割点将网页切分成相似的若干块,建议先将页面范围缩小
结点范围:
字段1:
字段2:
字段3:
字段4:
字段5:
字段6:
字段7:
字段8:
字段9: