web_crawl()

阅读(2327) 标签: 抓取, 网页,

描述:

抓取网页数据。

语法:

web_crawl(jsonStr)

备注:

外部库函数,外部库的使用请参考《外部库使用指南》。

抓取网页数据。

参数:

jsonStr

定义规则的字符串,抓取数据时,根据定义规则遍历URL、下载、提取、保存相关内容数据。

json书写结构细节:节点{}中的 []表示list列表,节点{}中的{}表示 map键值结构,书写时要注意,此处易引起解析错误。

规则简要说明:

web_info:网站信息,根据要下载的网站设置域名、本地存储位置、用户代理信息、用户自定义程序等相关的信息;

init_url:初始网址,URL遍历的入口网址;

help_url:网址页,定义网址页规则,收集网页内容中的 URL,但不提取此页面数据内容;

target_url:下载页,定义下载页规则,收集网页内容中的 URL,同时也提取此页面的内容;

page_url:提取数据,定义页面内容提取规则,在下载页 target_url 中根据此规则提取内容。

返回值:

Boolean

示例:

 

A

 

1

[{web_info:{save_path:'d:/tmp/data',   save_post:'false'}},{init_url:['http://www.aigaogao.com/tools/history.html?s=600000']},{page_url:{extractby:   "//div[@id='ctl16_contentdiv']/",class:'default'}}]

json字符串。

2

=web_crawl(A1)

抓取网页数据。

3

=file("D:/tmp/data/600000.txt").import@cqt()

将抓取的数据保存到本地。