Skip to content

Commit adf3e46

Browse files
committed
update cr
1 parent a856fba commit adf3e46

File tree

2 files changed

+9
-1
lines changed

2 files changed

+9
-1
lines changed

ch6-cloud/ch6-09-crawler.md

Lines changed: 9 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -8,6 +8,10 @@
88

99
## 基于 colly 的单机爬虫
1010

11+
有很多程序员比较喜欢在 v2ex 上讨论问题,发表观点,有时候可能懒癌发作,我们希望能直接命令行爬到 v2ex 在 Go tag 下的新贴,只要简单写一个爬虫即可。
12+
13+
《Go 语言编程》一书给出了简单的爬虫示例,经过了多年的发展,现在使用 Go 语言写一个网站的爬虫要更加方便,比如用 colly 来实现爬取 v2ex 前十页内容:
14+
1115
```go
1216
package main
1317

@@ -78,7 +82,11 @@ func main() {
7882

7983
想像一下,你们的信息分析系统运行非常之快。获取信息的速度成为了瓶颈,虽然可以用上 Go 语言所有优秀的并发特性,将单机的 CPU 和网络带宽都用满,但还是希望能够加快爬虫的爬取速度。在很多场景下,速度是有意义的:
8084

81-
1. 对于价格战期间的电商们来说,还是希望能够在对手价格变动后第一时间获取到其最新价格,再靠机器自动调整本家的商品价格。
85+
1. 对于价格战期间的电商们来说,希望能够在对手价格变动后第一时间获取到其最新价格,再靠机器自动调整本家的商品价格。
8286
2. 对于类似头条之类的 feed 流业务,信息的时效性也非常重要。如果我们慢吞吞地爬到的新闻是昨天的新闻,那对于用户来说就没有任何意义。
8387

8488
所以我们需要分布式爬虫。从本质上来讲,分布式爬虫是一套任务分发和执行系统。而常见的任务分发,因为上下游存在速度不匹配问题,必然要借助消息队列。
89+
90+
![dist-crawler](../images/ch6-dist-crawler.png)
91+
92+
上游的主要工作是根据预先配置好的起点来爬取所有的目标“列表页”。

images/ch6-dist-crawler.png

28.2 KB
Loading

0 commit comments

Comments
 (0)