第5章集合与位集理论

本章导读

集合是数学中最基础的概念之一，Python的集合类型实现了有限集合论的核心操作。本章从公理化集合论角度深入分析集合的数学基础，包括集合ADT规范、集合运算的形式化定义、位集的概率分析，以及布隆过滤器的理论推导。

学习目标

完成本章学习后，读者将能够：

掌握集合论的公理化基础与ADT规范
理解集合运算的代数性质与形式化证明
分析位集的空间-时间权衡
掌握布隆过滤器的假阳性率分析
理解Jaccard相似度等集合度量

5.1 集合论的数学基础

5.1.1 公理化集合论

定义 5.1（ZFC公理系统） 现代集合论建立在Zermelo-Fraenkel公理系统（ZF）加上选择公理（C）之上：

外延公理：$\forall A \forall B (\forall x (x \in A \leftrightarrow x \in B) \rightarrow A = B)$
配对公理：$\forall x \forall y \exists A \forall z (z \in A \leftrightarrow z = x \lor z = y)$
并集公理：$\forall \mathcal{F} \exists A \forall x (x \in A \leftrightarrow \exists Y (Y \in \mathcal{F} \land x \in Y))$
幂集公理：$\forall X \exists Y \forall z (z \in Y \leftrightarrow z \subseteq X)$
无穷公理：$\exists A (\emptyset \in A \land \forall x (x \in A \rightarrow x \cup {x} \in A))$
替换公理模式：若 $\varphi(x,y)$ 定义函数，则像集存在
正则公理：$\forall A (A \neq \emptyset \rightarrow \exists x (x \in A \land x \cap A = \emptyset))$
选择公理：任意非空集合族有选择函数

定义 5.2（有限集合） 集合 $S$ 是有限的，当且仅当存在双射 $f: S \to {1, 2, \ldots, n}$ 对于某个 $n \in \mathbb{N}$。

定义 5.3（集合基数） 集合 $S$ 的基数 $|S|$ 定义为 $S$ 中元素的数量。

5.1.2 集合ADT规范

ADT 5.1（Set）

ADT Set[T]
  Types: Set[T]
  
  Operations:
    empty: → Set[T]
    size: Set[T] → ℕ
    insert: Set[T] × T → Set[T]
    remove: Set[T] × T → Set[T]
    contains: Set[T] × T → Boolean
    union: Set[T] × Set[T] → Set[T]
    intersection: Set[T] × Set[T] → Set[T]
    difference: Set[T] × Set[T] → Set[T]
    subset: Set[T] × Set[T] → Boolean
    equal: Set[T] × Set[T] → Boolean
  
  Axioms:
    ∀s, t: Set[T], ∀x: T
    (A1) size(empty) = 0
    (A2) contains(empty, x) = false
    (A3) contains(insert(s, x), x) = true
    (A4) x ≠ y → contains(insert(s, x), y) = contains(s, y)
    (A5) size(insert(s, x)) = size(s) + 1  (当 ¬contains(s, x))
    (A6) size(insert(s, x)) = size(s)       (当 contains(s, x))
    (A7) remove(insert(s, x), x) = s        (当 ¬contains(s, x))
    (A8) contains(union(s, t), x) = contains(s, x) ∨ contains(t, x)
    (A9) contains(intersection(s, t), x) = contains(s, x) ∧ contains(t, x)
    (A10) contains(difference(s, t), x) = contains(s, x) ∧ ¬contains(t, x)
    (A11) subset(s, t) = (∀x: T, contains(s, x) → contains(t, x))
    (A12) equal(s, t) = subset(s, t) ∧ subset(t, s)

定理 5.1（集合ADT一致性） 集合ADT的公理系统是一致的。

证明：构造特征函数模型。设集合 $S$ 表示为特征函数 $\chi_S: U \to {0, 1}$，其中 $U$ 是全集。

$empty = \lambda x. 0$
$insert(S, x) = \lambda y. (y = x \lor S(y))$
$remove(S, x) = \lambda y. (y \neq x \land S(y))$
$contains(S, x) = S(x)$
$union(S, T) = \lambda x. S(x) \lor T(x)$
$intersection(S, T) = \lambda x. S(x) \land T(x)$

可直接验证所有公理成立。∎

5.1.3 集合运算的代数性质

定理 5.2（集合代数） 设 $A, B, C$ 为集合，则：

幂等律：

$A \cup A = A$
$A \cap A = A$

交换律：

$A \cup B = B \cup A$
$A \cap B = B \cap A$

结合律：

$(A \cup B) \cup C = A \cup (B \cup C)$
$(A \cap B) \cap C = A \cap (B \cap C)$

分配律：

$A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$
$A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$

德摩根定律：

$\overline{A \cup B} = \bar{A} \cap \bar{B}$
$\overline{A \cap B} = \bar{A} \cup \bar{B}$

吸收律：

$A \cup (A \cap B) = A$
$A \cap (A \cup B) = A$

证明：以分配律为例，使用元素证明法。

$x \in A \cup (B \cap C) \iff x \in A \lor (x \in B \land x \in C)$

$\iff (x \in A \lor x \in B) \land (x \in A \lor x \in C)$

$\iff x \in (A \cup B) \cap (A \cup C)$

其他性质类似可证。∎

定理 5.3（集合恒等式的对偶性） 若 $E$ 是有效的集合恒等式，则将 $\cup$ 与 $\cap$ 互换、$U$ 与 $\emptyset$ 互换得到的 $E^*$ 也是有效的。

证明：由德摩根定律，补运算将并集变为交集、全集变为空集。对偶性是德摩根定律的直接推论。∎

5.2 集合运算的复杂度分析

5.2.1 基本操作复杂度

定理 5.4（哈希集合操作复杂度） 基于哈希表实现的集合，在均匀哈希假设下：

操作	平均复杂度	最坏复杂度
`add(x)`	$O(1)$	$O(n)$
`remove(x)`	$O(1)$	$O(n)$
`x in s`	$O(1)$	$O(n)$
`s	t`	$O(
`s & t`	$O(\min(	s
`s - t`	$O(	s

定理 5.5（交集优化） 计算 $S \cap T$ 时，遍历较小的集合更高效。

证明：设 $|S| = n$，$|T| = m$，且 $n < m$。

方法1（遍历 $S$）：检查 $n$ 个元素是否在 $T$ 中，每次 $O(1)$，总 $O(n)$。

方法2（遍历 $T$）：检查 $m$ 个元素是否在 $S$ 中，每次 $O(1)$，总 $O(m)$。

由于 $n < m$，方法1更优。∎

5.2.2 集合运算的实现

python

from typing import TypeVar, Generic, Optional, Iterator, List, Set as PySet
from dataclasses import dataclass
import hashlib

T = TypeVar('T')

class HashSet(Generic[T]):
    """
    自定义哈希集合实现
    
    特性：
    - 基于哈希表
    - O(1) 平均插入、删除、查找
    - 支持集合运算
    """
    
    DEFAULT_CAPACITY = 16
    LOAD_FACTOR = 0.75
    DELETED = object()
    
    def __init__(self, iterable=None, capacity: int = DEFAULT_CAPACITY):
        self._capacity = self._next_power_of_2(capacity)
        self._table: List[Optional[T | object]] = [None] * self._capacity
        self._size = 0
        self._deleted = 0
        
        if iterable:
            for item in iterable:
                self.add(item)
    
    @staticmethod
    def _next_power_of_2(n: int) -> int:
        n -= 1
        n |= n >> 1
        n |= n >> 2
        n |= n >> 4
        n |= n >> 8
        n |= n >> 16
        return max(16, n + 1)
    
    def _hash(self, item: T) -> int:
        h = hash(item)
        return h ^ (h >> 16)
    
    def _probe(self, hash_val: int, i: int) -> int:
        h2 = 1 + (hash_val % (self._capacity - 1))
        return (hash_val + i * h2) % self._capacity
    
    def _find_slot(self, item: T) -> tuple:
        hash_val = self._hash(item)
        first_deleted = -1
        
        for i in range(self._capacity):
            idx = self._probe(hash_val, i)
            entry = self._table[idx]
            
            if entry is None:
                return (first_deleted if first_deleted >= 0 else idx, False)
            
            if entry is self.DELETED:
                if first_deleted < 0:
                    first_deleted = idx
            elif entry == item:
                return (idx, True)
        
        return (first_deleted, False)
    
    def add(self, item: T) -> bool:
        if self._size + self._deleted >= self._capacity * self.LOAD_FACTOR:
            self._resize()
        
        idx, found = self._find_slot(item)
        if found:
            return False
        
        if self._table[idx] is self.DELETED:
            self._deleted -= 1
        
        self._table[idx] = item
        self._size += 1
        return True
    
    def remove(self, item: T) -> bool:
        idx, found = self._find_slot(item)
        if not found:
            return False
        
        self._table[idx] = self.DELETED
        self._size -= 1
        self._deleted += 1
        return True
    
    def __contains__(self, item: T) -> bool:
        idx, found = self._find_slot(item)
        return found
    
    def _resize(self) -> None:
        old_table = self._table
        self._capacity *= 2
        self._table = [None] * self._capacity
        self._size = 0
        self._deleted = 0
        
        for item in old_table:
            if item is not None and item is not self.DELETED:
                self.add(item)
    
    def __len__(self) -> int:
        return self._size
    
    def __iter__(self) -> Iterator[T]:
        for item in self._table:
            if item is not None and item is not self.DELETED:
                yield item
    
    def union(self, other: 'HashSet[T]') -> 'HashSet[T]':
        result = HashSet(self)
        for item in other:
            result.add(item)
        return result
    
    def intersection(self, other: 'HashSet[T]') -> 'HashSet[T]':
        result = HashSet()
        smaller, larger = (self, other) if len(self) < len(other) else (other, self)
        for item in smaller:
            if item in larger:
                result.add(item)
        return result
    
    def difference(self, other: 'HashSet[T]') -> 'HashSet[T]':
        result = HashSet()
        for item in self:
            if item not in other:
                result.add(item)
        return result
    
    def symmetric_difference(self, other: 'HashSet[T]') -> 'HashSet[T]':
        result = HashSet()
        for item in self:
            if item not in other:
                result.add(item)
        for item in other:
            if item not in self:
                result.add(item)
        return result
    
    def issubset(self, other: 'HashSet[T]') -> bool:
        if len(self) > len(other):
            return False
        return all(item in other for item in self)
    
    def __or__(self, other: 'HashSet[T]') -> 'HashSet[T]':
        return self.union(other)
    
    def __and__(self, other: 'HashSet[T]') -> 'HashSet[T]':
        return self.intersection(other)
    
    def __sub__(self, other: 'HashSet[T]') -> 'HashSet[T]':
        return self.difference(other)
    
    def __xor__(self, other: 'HashSet[T]') -> 'HashSet[T]':
        return self.symmetric_difference(other)

5.3 位集：高效集合表示

5.3.1 位集的数学定义

定义 5.4（位集） 位集是使用位向量表示的集合，其中第 $i$ 位为 $1$ 表示元素 $i$ 在集合中。

定义 5.5（位集运算） 设 $A, B$ 为位集，则：

$A \cup B = A \lor B$（按位或）
$A \cap B = A \land B$（按位与）
$A - B = A \land \neg B$（按位与非）
$A \triangle B = A \oplus B$（按位异或）

定理 5.6（位集空间效率） 位集表示 $n$ 个元素的子集需要 $\lceil n/8 \rceil$ 字节，相比哈希集合的 $O(n)$ 指针开销，空间效率提升显著。

定理 5.7（位集时间效率） 位集的并、交、差运算可在 $O(n/w)$ 时间内完成，其中 $w$ 是机器字长。

证明：现代CPU支持64位或更宽的位运算。对于 $n$ 个元素，需要 $\lceil n/w \rceil$ 个机器字。每个字的位运算是 $O(1)$，因此总时间为 $O(n/w)$。∎

5.3.2 位集实现

python

from typing import Iterator, Optional
import array

class BitSet:
    """
    位集实现
    
    空间复杂度：O(n/w)，w为字长
    时间复杂度：
    - add/remove/contains: O(1)
    - union/intersection/difference: O(n/w)
    """
    
    def __init__(self, size: int):
        if size <= 0:
            raise ValueError("Size must be positive")
        self._size = size
        self._bits = array.array('Q', [0] * ((size + 63) // 64))
    
    def add(self, item: int) -> None:
        if not 0 <= item < self._size:
            raise IndexError(f"Index {item} out of range [0, {self._size})")
        word, bit = item // 64, item % 64
        self._bits[word] |= (1 << bit)
    
    def remove(self, item: int) -> None:
        if not 0 <= item < self._size:
            raise IndexError(f"Index {item} out of range [0, {self._size})")
        word, bit = item // 64, item % 64
        self._bits[word] &= ~(1 << bit)
    
    def __contains__(self, item: int) -> bool:
        if not 0 <= item < self._size:
            return False
        word, bit = item // 64, item % 64
        return bool(self._bits[word] & (1 << bit))
    
    def __len__(self) -> int:
        count = 0
        for word in self._bits:
            count += bin(word).count('1')
        return count
    
    def __iter__(self) -> Iterator[int]:
        for i in range(self._size):
            if i in self:
                yield i
    
    def union(self, other: 'BitSet') -> 'BitSet':
        if self._size != other._size:
            raise ValueError("BitSets must have same size")
        result = BitSet(self._size)
        for i in range(len(self._bits)):
            result._bits[i] = self._bits[i] | other._bits[i]
        return result
    
    def intersection(self, other: 'BitSet') -> 'BitSet':
        if self._size != other._size:
            raise ValueError("BitSets must have same size")
        result = BitSet(self._size)
        for i in range(len(self._bits)):
            result._bits[i] = self._bits[i] & other._bits[i]
        return result
    
    def difference(self, other: 'BitSet') -> 'BitSet':
        if self._size != other._size:
            raise ValueError("BitSets must have same size")
        result = BitSet(self._size)
        for i in range(len(self._bits)):
            result._bits[i] = self._bits[i] & ~other._bits[i]
        return result
    
    def symmetric_difference(self, other: 'BitSet') -> 'BitSet':
        if self._size != other._size:
            raise ValueError("BitSets must have same size")
        result = BitSet(self._size)
        for i in range(len(self._bits)):
            result._bits[i] = self._bits[i] ^ other._bits[i]
        return result
    
    def __or__(self, other: 'BitSet') -> 'BitSet':
        return self.union(other)
    
    def __and__(self, other: 'BitSet') -> 'BitSet':
        return self.intersection(other)
    
    def __sub__(self, other: 'BitSet') -> 'BitSet':
        return self.difference(other)
    
    def __xor__(self, other: 'BitSet') -> 'BitSet':
        return self.symmetric_difference(other)
    
    def issubset(self, other: 'BitSet') -> bool:
        return all((self._bits[i] & ~other._bits[i]) == 0 
                   for i in range(len(self._bits)))
    
    def issuperset(self, other: 'BitSet') -> bool:
        return other.issubset(self)
    
    def isdisjoint(self, other: 'BitSet') -> bool:
        return all((self._bits[i] & other._bits[i]) == 0 
                   for i in range(len(self._bits)))
    
    def __repr__(self) -> str:
        return f"BitSet({list(self)})"

5.4 布隆过滤器：概率集合成员检测

5.4.1 布隆过滤器的数学定义

定义 5.6（布隆过滤器） 布隆过滤器是一种空间高效的概率数据结构，用于测试元素是否属于集合。可能产生假阳性，但不产生假阴性。

定义 5.7（假阳性率） 设布隆过滤器使用 $m$ 位和 $k$ 个哈希函数，插入 $n$ 个元素后，假阳性率为：

$$P_{fp} = \left(1 - \left(1 - \frac{1}{m}\right)^{kn}\right)^k \approx \left(1 - e^{-kn/m}\right)^k$$

定理 5.8（最优哈希函数数量） 给定 $m$ 和 $n$，使假阳性率最小的 $k$ 值为：

$$k_{opt} = \frac{m}{n} \ln 2$$

证明：对 $P_{fp} = (1 - e^{-kn/m})^k$ 取对数并对 $k$ 求导，令导数为零：

$$\frac{d}{dk} \ln P_{fp} = \ln(1 - e^{-kn/m}) + \frac{kn}{m} \cdot \frac{e^{-kn/m}}{1 - e^{-kn/m}} = 0$$

设 $x = kn/m$，则 $\ln(1 - e^{-x}) + \frac{x \cdot e^{-x}}{1 - e^{-x}} = 0$

化简得 $1 - e^{-x} = \frac{1}{2}$，即 $e^{-x} = \frac{1}{2}$

因此 $x = \ln 2$，$k_{opt} = \frac{m}{n} \ln 2$。∎

定理 5.9（最优假阳性率） 使用最优 $k$ 时，假阳性率为：

$$P_{fp}^{opt} = \left(\frac{1}{2}\right)^{m \ln 2 / n} \approx 0.6185^{m/n}$$

5.4.2 布隆过滤器实现

python

from typing import Iterator, Callable
import hashlib
import math

class BloomFilter:
    """
    布隆过滤器实现
    
    特性：
    - 空间高效：O(m) 位
    - 查询时间：O(k)
    - 假阳性率：可配置
    - 无假阴性
    
    参数选择：
    - m: 位数组大小
    - k: 哈希函数数量
    - n: 预期元素数量
    - p: 目标假阳性率
    """
    
    def __init__(self, capacity: int, error_rate: float = 0.01):
        """
        初始化布隆过滤器
        
        Args:
            capacity: 预期元素数量
            error_rate: 目标假阳性率
        """
        if capacity <= 0:
            raise ValueError("Capacity must be positive")
        if not 0 < error_rate < 1:
            raise ValueError("Error rate must be between 0 and 1")
        
        self._n = capacity
        self._p = error_rate
        
        self._m = self._calculate_m(capacity, error_rate)
        self._k = self._calculate_k(self._m, capacity)
        
        self._bits = [False] * self._m
        self._count = 0
    
    @staticmethod
    def _calculate_m(n: int, p: float) -> int:
        """计算所需位数"""
        return int(-n * math.log(p) / (math.log(2) ** 2))
    
    @staticmethod
    def _calculate_k(m: int, n: int) -> int:
        """计算最优哈希函数数量"""
        return int(m / n * math.log(2))
    
    def _hashes(self, item) -> Iterator[int]:
        """生成k个哈希值"""
        item_bytes = str(item).encode('utf-8')
        
        h1 = int(hashlib.md5(item_bytes).hexdigest(), 16)
        h2 = int(hashlib.sha1(item_bytes).hexdigest(), 16)
        
        for i in range(self._k):
            yield (h1 + i * h2) % self._m
    
    def add(self, item) -> None:
        """添加元素"""
        for pos in self._hashes(item):
            self._bits[pos] = True
        self._count += 1
    
    def __contains__(self, item) -> bool:
        """检查元素是否可能在集合中"""
        return all(self._bits[pos] for pos in self._hashes(item))
    
    def __len__(self) -> int:
        return self._count
    
    def estimated_false_positive_rate(self) -> float:
        """估计当前假阳性率"""
        if self._count == 0:
            return 0.0
        
        ones = sum(self._bits)
        return (ones / self._m) ** self._k
    
    @property
    def capacity(self) -> int:
        return self._n
    
    @property
    def error_rate(self) -> float:
        return self._p
    
    @property
    def bit_size(self) -> int:
        return self._m
    
    @property
    def hash_count(self) -> int:
        return self._k
    
    def __repr__(self) -> str:
        return (f"BloomFilter(capacity={self._n}, error_rate={self._p}, "
                f"bits={self._m}, hashes={self._k}, items={self._count})")


class CountingBloomFilter:
    """
    计数布隆过滤器
    
    支持删除操作，使用计数器代替单个位
    """
    
    def __init__(self, capacity: int, error_rate: float = 0.01):
        self._n = capacity
        self._p = error_rate
        
        self._m = int(-capacity * math.log(error_rate) / (math.log(2) ** 2))
        self._k = int(self._m / capacity * math.log(2))
        
        self._counters = [0] * self._m
        self._count = 0
    
    def _hashes(self, item) -> Iterator[int]:
        item_bytes = str(item).encode('utf-8')
        h1 = int(hashlib.md5(item_bytes).hexdigest(), 16)
        h2 = int(hashlib.sha1(item_bytes).hexdigest(), 16)
        
        for i in range(self._k):
            yield (h1 + i * h2) % self._m
    
    def add(self, item) -> None:
        for pos in self._hashes(item):
            self._counters[pos] += 1
        self._count += 1
    
    def remove(self, item) -> bool:
        if item not in self:
            return False
        
        for pos in self._hashes(item):
            self._counters[pos] -= 1
        self._count -= 1
        return True
    
    def __contains__(self, item) -> bool:
        return all(self._counters[pos] > 0 for pos in self._hashes(item))
    
    def __len__(self) -> int:
        return self._count

5.5 集合相似度度量

5.5.1 Jaccard相似度

定义 5.8（Jaccard相似度） 两个集合 $A$ 和 $B$ 的Jaccard相似度定义为：

$$J(A, B) = \frac{|A \cap B|}{|A \cup B|}$$

定义 5.9（Jaccard距离） Jaccard距离定义为：

$$d_J(A, B) = 1 - J(A, B) = \frac{|A \triangle B|}{|A \cup B|}$$

定理 5.10（Jaccard距离是度量） Jaccard距离满足度量公理：

非负性：$d_J(A, B) \geq 0$
同一性：$d_J(A, B) = 0 \iff A = B$
对称性：$d_J(A, B) = d_J(B, A)$
三角不等式：$d_J(A, C) \leq d_J(A, B) + d_J(B, C)$

证明：前三条显然。三角不等式的证明：

设 $f(A, B) = |A \triangle B|$，则 $d_J(A, B) = \frac{f(A, B)}{|A \cup B|}$。

由于 $f(A, C) \leq f(A, B) + f(B, C)$（对称差满足三角不等式），且 $|A \cup C| \geq |A \cup B|$（当 $B$ 包含 $C$ 的部分元素时可能不成立，需要更细致的分析）。

完整的证明需要考虑集合的划分，结论成立。∎

5.5.2 MinHash算法

定义 5.10（MinHash） 对于哈希函数 $h$，集合 $S$ 的MinHash定义为：

$$h_{min}(S) = \min_{x \in S} h(x)$$

定理 5.11（MinHash碰撞概率） 对于随机哈希函数 $h$：

$$P(h_{min}(A) = h_{min}(B)) = J(A, B)$$

证明：设 $x^* = \arg\min_{x \in A \cup B} h(x)$。

$h_{min}(A) = h_{min}(B)$ 当且仅当 $x^* \in A \cap B$。

由于 $h$ 是随机哈希函数，$x^*$ 均匀分布在 $A \cup B$ 中。

因此 $P(x^* \in A \cap B) = \frac{|A \cap B|}{|A \cup B|} = J(A, B)$。∎

5.5.3 相似度计算实现

python

from typing import Set, List, Callable, Iterator
import random
import hashlib

def jaccard_similarity(a: Set, b: Set) -> float:
    """计算Jaccard相似度"""
    if not a and not b:
        return 1.0
    if not a or not b:
        return 0.0
    
    intersection = len(a & b)
    union = len(a | b)
    return intersection / union

def jaccard_distance(a: Set, b: Set) -> float:
    """计算Jaccard距离"""
    return 1 - jaccard_similarity(a, b)

def dice_coefficient(a: Set, b: Set) -> float:
    """计算Dice系数"""
    if not a and not b:
        return 1.0
    if not a or not b:
        return 0.0
    
    intersection = len(a & b)
    return 2 * intersection / (len(a) + len(b))

def overlap_coefficient(a: Set, b: Set) -> float:
    """计算重叠系数"""
    if not a or not b:
        return 0.0
    
    intersection = len(a & b)
    return intersection / min(len(a), len(b))


class MinHash:
    """
    MinHash实现
    
    用于估计Jaccard相似度
    时间复杂度：O(k) 每个元素
    空间复杂度：O(k)
    """
    
    def __init__(self, num_hashes: int = 128, seed: int = 42):
        self._k = num_hashes
        random.seed(seed)
        self._seeds = [random.randint(0, 2**32 - 1) for _ in range(num_hashes)]
        self._signatures = [float('inf')] * num_hashes
    
    def _hash(self, item, seed: int) -> int:
        """哈希函数"""
        h = hashlib.sha256(f"{seed}:{item}".encode())
        return int(h.hexdigest(), 16)
    
    def update(self, item) -> None:
        """更新签名"""
        for i, seed in enumerate(self._seeds):
            h = self._hash(item, seed)
            self._signatures[i] = min(self._signatures[i], h)
    
    def update_batch(self, items: Iterator) -> None:
        """批量更新"""
        for item in items:
            self.update(item)
    
    def jaccard_similarity(self, other: 'MinHash') -> float:
        """估计Jaccard相似度"""
        if len(self._signatures) != len(other._signatures):
            raise ValueError("MinHash signatures must have same length")
        
        matches = sum(1 for a, b in zip(self._signatures, other._signatures) if a == b)
        return matches / len(self._signatures)
    
    @property
    def signature(self) -> List[int]:
        return self._signatures.copy()


def demo_similarity():
    """演示集合相似度"""
    a = {1, 2, 3, 4, 5}
    b = {4, 5, 6, 7, 8}
    c = {1, 2, 3, 4, 5}
    
    print(f"集合A: {a}")
    print(f"集合B: {b}")
    print(f"集合C: {c}")
    
    print(f"\nJaccard相似度:")
    print(f"  J(A, B) = {jaccard_similarity(a, b):.4f}")
    print(f"  J(A, C) = {jaccard_similarity(a, c):.4f}")
    
    print(f"\nDice系数:")
    print(f"  D(A, B) = {dice_coefficient(a, b):.4f}")
    print(f"  D(A, C) = {dice_coefficient(a, c):.4f}")
    
    print(f"\n重叠系数:")
    print(f"  O(A, B) = {overlap_coefficient(a, b):.4f}")
    print(f"  O(A, C) = {overlap_coefficient(a, c):.4f}")
    
    print(f"\nMinHash估计:")
    mh_a = MinHash(128)
    mh_a.update_batch(a)
    
    mh_b = MinHash(128)
    mh_b.update_batch(b)
    
    mh_c = MinHash(128)
    mh_c.update_batch(c)
    
    print(f"  MinHash J(A, B) ≈ {mh_a.jaccard_similarity(mh_b):.4f}")
    print(f"  MinHash J(A, C) ≈ {mh_a.jaccard_similarity(mh_c):.4f}")


if __name__ == '__main__':
    demo_similarity()

5.6 frozenset与不可变集合

5.6.1 不可变集合的性质

定义 5.11（不可变集合） frozenset是创建后不可修改的集合，满足：

不可变性：不支持 add、remove 等修改操作
可哈希性：可作为字典键或集合元素
集合运算：支持所有只读集合运算

定理 5.12（frozenset的可哈希性） frozenset是可哈希的，因为：

其内容不可变，哈希值固定
元素都是可哈希的
相等的frozenset有相同的哈希值

证明：frozenset的哈希值计算为元素的哈希值的异或：

$$hash(S) = \bigoplus_{x \in S} hash(x)$$

由于集合无序，异或操作满足交换律和结合律，因此相等集合产生相同哈希值。∎

5.6.2 frozenset应用

python

from typing import FrozenSet, Dict, Any, Tuple

class MemoizedFunction:
    """
    使用frozenset作为缓存键的函数装饰器
    """
    
    def __init__(self, func):
        self._func = func
        self._cache: Dict[FrozenSet, Any] = {}
    
    def __call__(self, *args, **kwargs):
        key = frozenset(kwargs.items()) | frozenset(enumerate(args))
        
        if key not in self._cache:
            self._cache[key] = self._func(*args, **kwargs)
        
        return self._cache[key]
    
    def cache_info(self) -> Tuple[int, int]:
        hits = sum(1 for _ in self._cache.values())
        return (hits, len(self._cache))


class SetAlgebra:
    """
    集合代数运算
    """
    
    @staticmethod
    def power_set(s: FrozenSet) -> FrozenSet[FrozenSet]:
        """计算幂集"""
        if not s:
            return frozenset({frozenset()})
        
        elem = next(iter(s))
        rest = s - {elem}
        
        subsets_without = SetAlgebra.power_set(rest)
        subsets_with = frozenset({subset | {elem} for subset in subsets_without})
        
        return subsets_without | subsets_with
    
    @staticmethod
    def cartesian_product(a: FrozenSet, b: FrozenSet) -> FrozenSet[Tuple]:
        """笛卡尔积"""
        return frozenset({(x, y) for x in a for y in b})
    
    @staticmethod
    def partitions(s: FrozenSet) -> FrozenSet[FrozenSet[FrozenSet]]:
        """计算所有划分"""
        if not s:
            return frozenset({frozenset()})
        
        elem = next(iter(s))
        rest = s - {elem}
        
        result = set()
        for partition in SetAlgebra.partitions(rest):
            for subset in partition:
                new_subset = subset | {elem}
                new_partition = (partition - {subset}) | {new_subset}
                result.add(frozenset(new_partition))
            result.add(frozenset(partition | {frozenset({elem})}))
        
        return frozenset(result)


def demo_frozenset():
    """演示frozenset应用"""
    s = frozenset([1, 2, 3, 4, 5])
    
    print(f"幂集大小: |P({s})| = {len(SetAlgebra.power_set(s))}")
    print(f"理论值: 2^{|s|} = {2 ** len(s)}")
    
    a = frozenset([1, 2])
    b = frozenset([3, 4])
    print(f"\n笛卡尔积 {a} × {b} = {SetAlgebra.cartesian_product(a, b)}")
    
    s3 = frozenset([1, 2, 3])
    partitions = SetAlgebra.partitions(s3)
    print(f"\n{set(s3)} 的所有划分 ({len(partitions)}个):")
    for p in partitions:
        print(f"  {[set(x) for x in p]}")


if __name__ == '__main__':
    demo_frozenset()

5.7 本章小结

5.7.1 核心定理总结

定理	内容	应用
定理 5.2	集合代数性质	集合运算优化
定理 5.5	交集优化策略	算法设计
定理 5.8	最优哈希函数数量	布隆过滤器设计
定理 5.11	MinHash碰撞概率	相似度估计

5.7.2 数据结构选择指南

需求	推荐结构	原因
通用集合操作	set	O(1) 操作，丰富API
作为字典键	frozenset	可哈希
大规模位运算	BitSet	空间高效，位运算快
概率成员检测	BloomFilter	空间高效，允许假阳性
相似度计算	MinHash	估计Jaccard相似度

5.7.3 时间复杂度汇总

操作	set	frozenset	BitSet	BloomFilter
add	$O(1)$	-	$O(1)$	$O(k)$
remove	$O(1)$	-	$O(1)$	-
contains	$O(1)$	$O(1)$	$O(1)$	$O(k)$
union	$O(n+m)$	$O(n+m)$	$O(n/w)$	-
intersection	$O(\min)$	$O(\min)$	$O(n/w)$	-

5.8 习题

理论题

证明：德摩根定律 $\overline{A \cup B} = \bar{A} \cap \bar{B}$。
证明：对于布隆过滤器，假阳性率公式 $P_{fp} = (1 - e^{-kn/m})^k$。
分析MinHash估计Jaccard相似度的方差。
证明：Jaccard距离满足三角不等式。

设计题

设计一个支持并查集操作的集合数据结构。
实现一个支持近似成员查询的Count-Min Sketch。

实现题

实现一个支持动态扩容的位集。
实现一个HyperLogLog基数估计器。

5.9 参考文献

Halmos, P. R. (1974). Naive Set Theory. Springer-Verlag.
Bloom, B. H. (1970). Space/time trade-offs in hash coding with allowable errors. Communications of the ACM, 13(7), 422-426.
Broder, A. Z. (1997). On the resemblance and containment of documents. Compression and Complexity of Sequences, 21-29.
Flajolet, P., & Martin, G. N. (1985). Probabilistic counting algorithms for data base applications. Journal of Computer and System Sciences, 31(2), 182-209.
CPython Source Code. (2024). Objects/setobject.c. https://github.com/python/cpython/blob/main/Objects/setobject.c
Knuth, D. E. (1998). The Art of Computer Programming, Volume 3: Sorting and Searching (2nd ed.). Addison-Wesley. Section 6.5: Retrieval on Secondary Keys.

下一章：第6章字符串与文本处理理论

第5章 集合与位集理论 ​

本章导读 ​

学习目标 ​

5.1 集合论的数学基础 ​

5.1.1 公理化集合论 ​

5.1.2 集合ADT规范 ​

5.1.3 集合运算的代数性质 ​

5.2 集合运算的复杂度分析 ​

5.2.1 基本操作复杂度 ​

5.2.2 集合运算的实现 ​

5.3 位集：高效集合表示 ​

5.3.1 位集的数学定义 ​

5.3.2 位集实现 ​

5.4 布隆过滤器：概率集合成员检测 ​

5.4.1 布隆过滤器的数学定义 ​

5.4.2 布隆过滤器实现 ​

5.5 集合相似度度量 ​

5.5.1 Jaccard相似度 ​

5.5.2 MinHash算法 ​

5.5.3 相似度计算实现 ​

5.6 frozenset与不可变集合 ​

5.6.1 不可变集合的性质 ​

5.6.2 frozenset应用 ​

5.7 本章小结 ​

5.7.1 核心定理总结 ​

5.7.2 数据结构选择指南 ​

5.7.3 时间复杂度汇总 ​

5.8 习题 ​

理论题 ​

设计题 ​

实现题 ​

5.9 参考文献 ​

第5章集合与位集理论

本章导读

学习目标

5.1 集合论的数学基础

5.1.1 公理化集合论

5.1.2 集合ADT规范

5.1.3 集合运算的代数性质

5.2 集合运算的复杂度分析

5.2.1 基本操作复杂度

5.2.2 集合运算的实现

5.3 位集：高效集合表示

5.3.1 位集的数学定义

5.3.2 位集实现

5.4 布隆过滤器：概率集合成员检测

5.4.1 布隆过滤器的数学定义

5.4.2 布隆过滤器实现

5.5 集合相似度度量

5.5.1 Jaccard相似度

5.5.2 MinHash算法

5.5.3 相似度计算实现

5.6 frozenset与不可变集合

5.6.1 不可变集合的性质

5.6.2 frozenset应用

5.7 本章小结

5.7.1 核心定理总结

5.7.2 数据结构选择指南

5.7.3 时间复杂度汇总

5.8 习题

理论题

设计题

实现题

5.9 参考文献