探究Linux下的libsvm支持向量机算法 (linux libsvm)

一、引言

支持向量机(SVM)是机器学习中的一个重要算法,能够进行二分类、多分类和回归等应用。在使用中,需要调整参数进行模型优化,但这个过程可能很费时。在Linux下,有一个开源的SVM库叫做libsvm,本文将介绍libsvm的使用方法及调整参数的技巧。

二、libsvm简介

libsvm是由台湾大学Yang、Chang等开发的SVM库,具有以下特点:

1.支持向量机中常用的三种核函数:线性核函数、径向基核函数和多项式核函数。

2.支持分类、回归和密度估计三种应用。

3.隐藏自由参数选项,可以自动寻求更佳参数组合。

4.支持多种格式的输入数据、输出预测结果和交叉验证等功能。

三、libsvm的安装与使用

在Linux系统中可以通过apt-get等工具安装libsvm库,也可以在官网下载源代码进行自己编译安装。安装之后,我们可以在自己的代码中调用libsvm库进行相关的分类、回归等任务。

二分类示例代码:

“`

#include

#include

#include

#include

#include

#include

#include

#include

#include

#include

#include “svm.h”

using namespace std;

int mn(int argc, char *argv[])

{

svm_problem prob;

svm_model *model;

svm_node *x_space = NULL;

vector vx;

vector vx_ptr;

vector vy;

int num_class;

vector label;

vector num_per_class;

ifstream fin(“trn_data.txt”);

int num_features, num_data;

fin >> num_features >> num_data;

prob.l = num_data;

vy.resize(num_data);

num_class = 0;

for (int i = 0; i

{

vy[i] = 1;

svm_node *x = new svm_node[num_features+1];

for (int j = 0; j

{

double value;

fin >> value;

x[j].index = j+1;

x[j].value = value;

}

x[num_features].index = -1;

vx_ptr.push_back(x);

}

fin.close();

prob.x = &vx_ptr[0];

prob.y = &vy[0];

svm_parameter param; // 设置训练参数

svm_set_default_parameter(&param);

param.C = 1.0; // 容错系数

param.eps = 0.001; // 停止训练的精度

param.kernel_type = RBF; // 核函数类型

param.degree = 3; // 多项式核函数度数

param.gamma = 1.0 / num_features; // RBF核函数尺度

param.coef0 = 0; // 多项式核函数参数

param.nu = 0.5; // nu-SVM参数

param.p = 0.1; // EPSILON-SVR参数

param.shrinking = 1; // 是否使用缩小技术

param.probability = 0; // 是否使用概率估计法

param.nr_weight = 0; // 类别权重数

param.weight_label = NULL; // 每个权重对应的类别标签

param.weight = NULL; // 每个权重对应的权重系数

const char *error_msg = svm_check_parameter(&prob,&param);

num_per_class.resize(num_class);

model = svm_trn(&prob,&param); // 训练模型

svm_save_model(“svm.model”,model); // 保存模型

for (int i = 0; i

vx_ptr.clear();

svm_free_and_destroy_model(&model); // 释放空间

svm_destroy_param(&param);

return 0;

}

“`

本示例代码为libsvm的一个简单的二分类使用方式,输入数据格式为txt文件,首先读入输入数据,并且将训练集数据存储到prob.x,标签存储在prob.y中。

然后设置svm_parameter struct,训练核函数类型为RBF,宽度使用的是gamma = 1 / n_features,容错系数为1,精度为0.001,其他参数则使用了默认值。最后调用svm_trn函数进行训练,得到模型即可保存成文件svm.model。需要注意的是,要及时地释放占用的内存。

四、libsvm参数调优

参数调优是SVM的一个很关键的部分,一般需要在交叉验证的过程中进行,选择效果更好的一组参数进行使用。libsvm支持自动化调整参数,只需要将C和gamma设置成特殊选项即可:

“`

param.C = 0;

param.gamma = 0;

param.search_optimization = true;

“`

然后再将svm_problem的l,x和y读入,运行svm_trn,即可自动进行参数选择。

五、libsvm进阶技巧

1.用SparseData处理数据

在实际应用中,使用稀疏的数据格式能够大幅降低训练所需时间。libsvm提供了SparseData类型,可以将数据存储在数组中,避免不必要的空间占用,例如:

“`

vector dat;

for(int i=0;i

SparseData data(dim);

for(int j=0;j

int pos; double val;

cin>>pos>>val;

data.addItem(pos-1,val);

}

dat.push_back(data);

}

prob.l=totalNum;

prob.y=new double[prob.l];

prob.x=new svm_node*[prob.l];

for(int i=0;i

prob.y[i]=y[i];

prob.x[i]=new svm_node[dat[i].size()+1];

for(int j=0;j

prob.x[i][j].index=dat[i].n_id[j]+1;

prob.x[i][j].value=dat[i].n_value[j];

}

prob.x[i][dat[i].size()].index=-1;

}

“`

2.增加可解释性

libsvm支持变量索引的映射,以方便用户进行变量标识,在输出预测结果时可以将变量的意义加上,例如:

“`

void outputPredict(FILE* output_file, svm_model *model, svm_node* d){

double prob_estimates[2];

prob_estimates[0] = -1;

prob_estimates[1] = -1;

double predict_label_val = svm_predict_probability(model, d, prob_estimates);

/* 发现此处只在prob_estimates!=NULL时才输出概率? */

if (prob_estimates != NULL)

fprintf(output_file, “%lg”, prob_estimates[getPredictVal(predict_label_val)]);

fprintf(output_file, ” %lg\n”, predict_label_val);

}

std::string getFeature(int idx) {

return “fid=” + to_string(idx%COL) + ” “;

}

“`

3.调整正负样本的判决边界

在实际应用中,正负样本的代价可能不同,并且在一些已知的情况下更改其代价是有益的,例如:

“`

void svmTrn() {

int i;

prob.l = trnXs.size();

prob.y = new double[prob.l];

prob.x = new svm_node *[prob.l];

for (i = 0; i

prob.x[i] = &vx_ptr[i][0];

for (int j = 0; j

prob.x[i][j].value = trnXs[i].getFeatureValue(j);

prob.y[i] = (double) trnYs[i];

}

param.gamma = 1.0 / COL;

param.C = (pos_num + neg_num) / (pos_num * C_pos + (pos_num+epsilon) * C_neg);

auto *model = svm_trn(&prob, &param);

svm_save_model(“model.txt”, model);

svm_free_and_destroy_model(&model);

}

“`

SVM是一种强大的机器学习算法,通过使用libsvm库,我们可以轻松地实现二分类、多分类和回归等任务。同时,libsvm还支持多种格式的输入数据、输出预测结果和交叉验证等功能,是机器学习中不可缺少的工具。

参考文献:

1. libsvm – A Library for Support Vector Machines

2. Support vector machine

3. SVM算法原理详解


数据运维技术 » 探究Linux下的libsvm支持向量机算法 (linux libsvm)