探究Linux下的libsvm支持向量机算法 (linux libsvm)
一、引言
支持向量机(SVM)是机器学习中的一个重要算法,能够进行二分类、多分类和回归等应用。在使用中,需要调整参数进行模型优化,但这个过程可能很费时。在Linux下,有一个开源的SVM库叫做libsvm,本文将介绍libsvm的使用方法及调整参数的技巧。
二、libsvm简介
libsvm是由台湾大学Yang、Chang等开发的SVM库,具有以下特点:
1.支持向量机中常用的三种核函数:线性核函数、径向基核函数和多项式核函数。
2.支持分类、回归和密度估计三种应用。
3.隐藏自由参数选项,可以自动寻求更佳参数组合。
4.支持多种格式的输入数据、输出预测结果和交叉验证等功能。
三、libsvm的安装与使用
在Linux系统中可以通过apt-get等工具安装libsvm库,也可以在官网下载源代码进行自己编译安装。安装之后,我们可以在自己的代码中调用libsvm库进行相关的分类、回归等任务。
二分类示例代码:
“`
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include “svm.h”
using namespace std;
int mn(int argc, char *argv[])
{
svm_problem prob;
svm_model *model;
svm_node *x_space = NULL;
vector vx;
vector vx_ptr;
vector vy;
int num_class;
vector label;
vector num_per_class;
ifstream fin(“trn_data.txt”);
int num_features, num_data;
fin >> num_features >> num_data;
prob.l = num_data;
vy.resize(num_data);
num_class = 0;
for (int i = 0; i
{
vy[i] = 1;
svm_node *x = new svm_node[num_features+1];
for (int j = 0; j
{
double value;
fin >> value;
x[j].index = j+1;
x[j].value = value;
}
x[num_features].index = -1;
vx_ptr.push_back(x);
}
fin.close();
prob.x = &vx_ptr[0];
prob.y = &vy[0];
svm_parameter param; // 设置训练参数
svm_set_default_parameter(¶m);
param.C = 1.0; // 容错系数
param.eps = 0.001; // 停止训练的精度
param.kernel_type = RBF; // 核函数类型
param.degree = 3; // 多项式核函数度数
param.gamma = 1.0 / num_features; // RBF核函数尺度
param.coef0 = 0; // 多项式核函数参数
param.nu = 0.5; // nu-SVM参数
param.p = 0.1; // EPSILON-SVR参数
param.shrinking = 1; // 是否使用缩小技术
param.probability = 0; // 是否使用概率估计法
param.nr_weight = 0; // 类别权重数
param.weight_label = NULL; // 每个权重对应的类别标签
param.weight = NULL; // 每个权重对应的权重系数
const char *error_msg = svm_check_parameter(&prob,¶m);
num_per_class.resize(num_class);
model = svm_trn(&prob,¶m); // 训练模型
svm_save_model(“svm.model”,model); // 保存模型
for (int i = 0; i
vx_ptr.clear();
svm_free_and_destroy_model(&model); // 释放空间
svm_destroy_param(¶m);
return 0;
}
“`
本示例代码为libsvm的一个简单的二分类使用方式,输入数据格式为txt文件,首先读入输入数据,并且将训练集数据存储到prob.x,标签存储在prob.y中。
然后设置svm_parameter struct,训练核函数类型为RBF,宽度使用的是gamma = 1 / n_features,容错系数为1,精度为0.001,其他参数则使用了默认值。最后调用svm_trn函数进行训练,得到模型即可保存成文件svm.model。需要注意的是,要及时地释放占用的内存。
四、libsvm参数调优
参数调优是SVM的一个很关键的部分,一般需要在交叉验证的过程中进行,选择效果更好的一组参数进行使用。libsvm支持自动化调整参数,只需要将C和gamma设置成特殊选项即可:
“`
param.C = 0;
param.gamma = 0;
param.search_optimization = true;
“`
然后再将svm_problem的l,x和y读入,运行svm_trn,即可自动进行参数选择。
五、libsvm进阶技巧
1.用SparseData处理数据
在实际应用中,使用稀疏的数据格式能够大幅降低训练所需时间。libsvm提供了SparseData类型,可以将数据存储在数组中,避免不必要的空间占用,例如:
“`
vector dat;
for(int i=0;i
SparseData data(dim);
for(int j=0;j
int pos; double val;
cin>>pos>>val;
data.addItem(pos-1,val);
}
dat.push_back(data);
}
prob.l=totalNum;
prob.y=new double[prob.l];
prob.x=new svm_node*[prob.l];
for(int i=0;i
prob.y[i]=y[i];
prob.x[i]=new svm_node[dat[i].size()+1];
for(int j=0;j
prob.x[i][j].index=dat[i].n_id[j]+1;
prob.x[i][j].value=dat[i].n_value[j];
}
prob.x[i][dat[i].size()].index=-1;
}
“`
2.增加可解释性
libsvm支持变量索引的映射,以方便用户进行变量标识,在输出预测结果时可以将变量的意义加上,例如:
“`
void outputPredict(FILE* output_file, svm_model *model, svm_node* d){
double prob_estimates[2];
prob_estimates[0] = -1;
prob_estimates[1] = -1;
double predict_label_val = svm_predict_probability(model, d, prob_estimates);
/* 发现此处只在prob_estimates!=NULL时才输出概率? */
if (prob_estimates != NULL)
fprintf(output_file, “%lg”, prob_estimates[getPredictVal(predict_label_val)]);
fprintf(output_file, ” %lg\n”, predict_label_val);
}
std::string getFeature(int idx) {
return “fid=” + to_string(idx%COL) + ” “;
}
“`
3.调整正负样本的判决边界
在实际应用中,正负样本的代价可能不同,并且在一些已知的情况下更改其代价是有益的,例如:
“`
void svmTrn() {
int i;
prob.l = trnXs.size();
prob.y = new double[prob.l];
prob.x = new svm_node *[prob.l];
for (i = 0; i
prob.x[i] = &vx_ptr[i][0];
for (int j = 0; j
prob.x[i][j].value = trnXs[i].getFeatureValue(j);
prob.y[i] = (double) trnYs[i];
}
param.gamma = 1.0 / COL;
param.C = (pos_num + neg_num) / (pos_num * C_pos + (pos_num+epsilon) * C_neg);
auto *model = svm_trn(&prob, ¶m);
svm_save_model(“model.txt”, model);
svm_free_and_destroy_model(&model);
}
“`
SVM是一种强大的机器学习算法,通过使用libsvm库,我们可以轻松地实现二分类、多分类和回归等任务。同时,libsvm还支持多种格式的输入数据、输出预测结果和交叉验证等功能,是机器学习中不可缺少的工具。
参考文献:
1. libsvm – A Library for Support Vector Machines
2. Support vector machine
3. SVM算法原理详解