Question 1

CountSketch（カウントスケッチ）とは何ですか？

Accepted Answer

膨大なデータの中から、頻出する重要な項目だけを少ないメモリで効率的に推定するためのデータ圧縮技術。

Question 2

CountSketchについて詳しく教えてください

Accepted Answer

カウントスケッチ（CountSketch）は、巨大なデータの中で「どの要素が頻繁に出現するか」を、小さなメモリで近似的に把握する確率的データ構造です。ストリーミング処理・大規模機械学習・特徴量ハッシングなどで使われ、メモリ効率と計算速度を両立します。

## 解決する問題

例：10億件のWebアクセスログから「最も多く訪れたページ」を特定したい。

- 厳密に集計：すべてのページ数をカウントする辞書が必要 → 巨大なメモリ消費
- カウントスケッチ：固定サイズの配列で近似カウント → メモリ大幅節約

## 仕組み

```
要素x → ハッシュ関数で配列の位置を決定 → ±1 の符号付きでカウント
```

複数の独立したハッシュ関数を使い、それぞれ別の配列にカウント。問い合わせ時は中央値などを使って「真のカウント値」を推定します。

## 関連するデータ構造との比較

| 構造 | 用途 | 特徴 |
|-----|-----|-----|
| Bloom Filter | 集合の存在判定 | メンバーシップ確認のみ |
| Count-Min Sketch | 頻度カウン...

カウントスケッチ

解説