This document discusses Mahout, an Apache project for machine learning algorithms like classification, clustering, and pattern mining. It describes using Mahout with Hadoop to build a Naive Bayes classifier on Wikipedia data to classify articles into categories like "game" and "sports". The process includes splitting Wikipedia XML, training the classifier on Hadoop, and testing it to generate a confusion matrix. Mahout can also integrate with other systems like HBase for real-time classification.
17. ? 多くの県で各判別がほぼ一致
? 富山や山梨は評価が二分(テストデータの東端)
? 西日本の方が多数
? 訓練データも西日本の方が多数(W23-E15)
? ニューラルネットワーク...
17
各判別器によるテストデータの判別結果
線形判別 最近傍法 決定木 ニューラル SVM バギング
ブース
ティング
ランダム
フォレスト
富山県 E W E W W E E W
石川県 W W E W W W W W
福井県 E W W W W W W W
山梨県 W W E W E W E E
長野県 E E E W E E E E
岐阜県 W W W W W E W W
静岡県 W W W W E W W E
愛知県 E E W W E W W W
三重県 W W W W W W W W
E: 東日本
W: 西日本