This document contains code to count unique users from log data. It splits each line on commas, extracts the user ID, initializes a hash to count IDs, increments the count for existing IDs or initializes a new count, then prints the total number of unique users.
43. #!/usr/bin/ruby
h = Hash.new
ARGF.each do |line|
line.chomp!
array = line.split(/,/)
uid = array[0]
c = array[1]
count = 1
if h.key? uid
count = h[uid].to_i + 1
end
h.store uid, count
end
printf("#{h.length}")
Editor's Notes
C++ ライブラリとして 2003 年初頭から運用が開始され,論文が執筆された 2004 年末の時点で同ライブラリを使用するプログラムは 900 ほど存在すると記されている
Yahoo! 最大の導入例 . 4,000ノード以上で検索エンジンのランキング部分の処理にHadoopを使用。 Facebook : ログ解析と機械学習に利用 , 4,800コアの600ノード規模The New York Times : Amazon EC2上でHadoopを利用し4TB分のデータをOCRし、80万枚のPNGに36時間で変換