Algorithms# 001:Reservoir Sampling
摘要:Reservoir Sampling 是一系列的随机算法,其目的在于从包含 n 个项目的集合 S 中选取 k 个样本,其中 n 为一很大或未知的数量,尤其适用于不能把所有 n 个项目都存放到主内存的情况,Reservoir Sampling 使用固定长度的链表,从而保证内存大小的可控化。
Google 面试题
Google 曾经有一道面试题,十分有趣:
I have a linked list of numbers of length N. N is very large and I don’t know in advance the exact value of N.
How can I most efficiently write a function that will return k completely random numbers from the list
题目非常简单:有 N 个元素的链表,事先不知道有多长,写一个函数可以高效地从其中取出 k 个随机数。
在知道文件行数的情况下,我们可以很容易的用 C 运行库的 rand 函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助我们做出猜想,来使得对每一行取出的概率相等,也即随机,水塘抽样就是这么一个概念,Wikipedia 上对水潭抽样是这么介绍的:
水塘抽样是一系列的随机算法,其目的在于从包含 n 个项目的集合 S 中选取 k 个样本,其中 n 为一很大或未知的数量,尤其适用于不能把所有 n 个项目都存放到主内存的情况。
最常见例子为 Jeffrey Vitter 在其论文 Random Sampling with a Reservoir 中所提及的算法 R。
参照 Dictionary of Algorithms and Data Structures 所载的 O(n)算法,包含以下步骤(假设阵列 S 以0开始标示):
1.从 S 中抽取首 k 项放入「水塘」中
2.對於每一個 S[j]項(j ≥ k):
3.隨機產生一個範圍從0到 j 的整數 r
4.若 r < k 則把水塘中的第 r 項換成 S[j]項
即在0-j 项中生成随机数 r,被挑中的 r 就被丢弃掉,同时后边的队列补充一个 j 进来,因为我们 array R[k]类似一个 reservoir 水库(蓄水池),所以该算法取名为水塘抽样
The algorithm creates a “reservoir” array of size k and populates it with the first k items of S. It then iterates through the remaining elements of S until Sis exhausted. At the $i^{th}$ element of S, the algorithm generates a random number j between 1 and i. If j is less than k, the $j^{th}$ element of the reservoir array is replaced with the ith element of S. In effect, for all i, the $i^{th}$ element of S is chosen to be included in the reservoir with probability $k/i$. Similarly, at each iteration the $j^{th}$ element of the reservoir array is chosen to be replaced with probability ${j/k}*{k/i}$, which simplifies to ${j/i}$. It can be shown that when the algorithm has finished executing, each item in S has equal probability (i.e. k/length(S)) of being chosen for the reservoir.
Java 代码实现
1 | final int SAMPLE_COUNT = 10; |