コマンドラインで集合演算

Linux

Retention Rateの計算ってめんどくさいですよね。
自分でプログラム書いてもいいけど、メモリ食うからちゃんと書かないといけないから、長くなっちゃうし。
Map Reduce使えばすぐだけど、そんなの手元にない場合が多いよね。

でも、手元にある大量のレコードがあるCSVファイルなどを簡単に集計したいときににコマンドによる処理が便利です。

前提

A={1,2,3}
B={3,4,5}

A∩B

積集合。AとB両方にある。

% cat A B | sort | uniq -d
3

A∪B

和集合。AかBに含まれる。

% cat A B | sort | uniq
1
2
3
4
5

A∪B – A∩B

排他。AまたはBに存在する。

% cat A B | sort | uniq -u
1
2
4
5

コメント