Python计算思维：支持向量机

更新时间：2025-01-02 理论教育 版权反馈

【摘要】：而SVM采用分类边界上的样本，称为支持向量，通过这些支持向量确定最佳分割线。sklearn库中提供的svm子集包含了多种支持向量机算法的实现方案。鸢尾花数据集在8.2.9节中已有介绍，采用sklearn提供的交叉验证方法，将数据集随机分割成两部分：训练集和验证集。图8.4.2A股50ETF周K数据每个交易日的交易数据包括：开盘、最高、最低、各周期均线等。现在根据每天交易的信息，使用支持向量机方法建模，预测后续交易日指数的最高和最低位值。

支持向量机（Support Vector Machine，SVM）由Cortes和Vapnik于1995年首先提出，在求解小样本、非线性、高维空间模式识别问题中，表现出许多特有的优势。

SVM算法的基本原理是控制风险最小，也就是样本分类误判的风险最小。参见图8.4.1的分类问题。从图中可以看出，可以找到多条直线将该两类问题有效分开。

pagenumber_ebook=139,pagenumber_book=131

图8.4.1　两类问题分类svm示意图

但这么多解中，哪个解的风险最小？在很多算法中，采用所有样本参与建模评估来得到答案。而SVM采用分类边界上的样本，称为支持向量，通过这些支持向量确定最佳分割线。

sklearn库中提供的svm子集包含了多种支持向量机算法的实现方案。从大类上分，svm将问题分成两类：模式分类及回归建模。对分类问题，使用的SVC；对回归建模预测问题，使用SVR。具体算法特性及使用方法，请参阅网上相关文档。

【例8.4.1】鸢尾花数据集在8.2.9节中已有介绍，采用sklearn提供的交叉验证方法，将数据集随机分割成两部分：训练集和验证集。用SVC算法建模并预报，程序的代码如下：

pagenumber_ebook=139,pagenumber_book=131

程序：鸢尾花支持向量机

程序执行的结果为：

[2 1 1 0 0 2 0 1 0 2 2 1 1 2 0 1 2 2 0 0 1 2 0 1 1 2 1 0 0 2 0 0 2 1 2 2 0 1]

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

结果的第一行，是测试集的原值，第二行是对测试集的预报误差，结果全为0，说明没有误判。

【例8.4.2】采用n份交叉验证策略对鸢尾花数据集建模。n份交叉验证建模，通过k Fold实现，其实现代码如下：

pagenumber_ebook=140,pagenumber_book=132

程序：鸢尾花支持向量机—交叉验证

pagenumber_ebook=140,pagenumber_book=132

程序执行过程中对每份验证样本预测，其结果如下：

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

[0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]

[0 0 1 0 0 0 0 0 1 0 0 0 0 0 0]

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

[0-1 0 0 0 0 0 0 0 0 0 0 0 0 0]

[0 0 0 0 0 0-1 0 0 0 0 0 0-1 0]

[0 0 0-1 0 0 0 0 0 0 0 0 0 0 0]

用n份交叉验证，建模者可以从每份预测样本的预测值对整个模型进行评估，均衡性比较好。

实际应用中，根据处理问题类型的不同，可以采用不同的向量机模型。对线性可分问题，使用线性模型，非线性分类，则可以采用非线性模型。如下面的两条语句，分别调用了不同的线性和非线性SVM模型。

svm=svm.SVC（kernel=ˈlinearˈ） #线性模型

svm=svm.SVC（kernel=ˈrbfˈ） #非线性模型

【例8.4.3】股票交易中心每日都会产生与股价相关的大量数据，日积月累，变成数据的海洋，这其中自然隐含着某些规律。这里以沪市50ETF为例，下载其开市以来所有的周K线数据，如图8.4.2的Excel文件所示。

pagenumber_ebook=141,pagenumber_book=133

图8.4.2　A股50ETF周K数据

每个交易日的交易数据包括：开盘、最高、最低、各周期均线等。现在根据每天交易的信息，使用支持向量机方法建模，预测后续交易日指数的最高和最低位值。

对获取的excel文件，采用pandas将数据读入程序，考虑到不同的数据列数值量级差异很大，所以建模计算前，将其按列作数据预处理，将每列归为均值为0，方差为1。最后，将表的前13列作为自变量，最后两列作为函数展开建模。实现建模的Python代码如下：

pagenumber_ebook=141,pagenumber_book=133

程序：股票指数预测

import pandas as pd(www.daowen.com)

import numpy as np

data=pd.read_excel(r"E：\\00\\510050week-all.xlsx"，index_col=0，header=0)

#文件中，第一列为日期，第一行为标题，读取时予以指定

y High=np.array（data[ˈdest Highˈ]） #最高价格列，作为函数

y Low=np.array（data[ˈdest Lowˈ]） #最低价格列，作为函数

X=np.array(data)

X=X[：，：13] #数据的前13列作为自变量

std=X.std（axis=0） #取每列方差

mean=X.mean（axis=0） #每列的均值

X=X-mean #每列减去其均值

X=X/std #每列再除其方差

from sklearn import svm

from sklearn.model_selection import train_test_split

high X_train，high X_test，high Y_train，high Y_test=train_test_split（X，y High） #分割样本

svr=svm.NuSVR（kernel=ˈrbfˈ） #采用支持向量机回归算法

model High=svr.fit(high X_train，high Y_train)

pred High=model High.predict（high X_test） #预报测试集

error=（pred High-high Y_test）/high Y_test*100 #计算真值与预测值的误差

result High=np.c_[high Y_test，pred High，error]

print（"高位值预测结果"）

print(result High)

#对低位值建模

low X_train，low X_test，low Y_train，low Y_test=train_test_split（X，y Low） #分割样本

svr=svm.NuSVR(kernel=ˈrbfˈ)

model Low=svr.fit(low X_train，low Y_train)

pred Low=model Low.predict（low X_test） #预报测试集

error=(pred Low-low Y_test)/low Y_test*100

result Low=np.c_[low Y_test，pred Low，error]

print（"低位值预测结果"）

print(result Low)

程序在运行后，前几行的高位预测结果如下：

[[1.618 1.65159614 2.07639928]

[2.382 2.31447885 -2.83464114]

[1.399 1.43347895 2.46454284]

[1.703 1.66893212 -2.00046273]

[2.372 2.38187907 0.41648697]

[1.552 1.6198028 4.3687368]

[2.249 2.23597263 -0.57925156]]

结果中，第一列为真实值，第二列为预测值，第三列为百分误差。由于用于预测的数据都排除在建模数据外（独立测试），而预测的误差不大，说明建立的模型可以发现数据中的某些规律。机器学习是有效的规律发现过程，在数据量不断积累后，机器学习算法将更加体现其优势。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关Python计算思维与问题求解的文章

Python计算思维：支持向量机

如何撰写2025年学生军训迟到的检讨书

2025年学生迟到早读反思的写作指导

如何撰写2025年新学期学生军训迟到的检讨书

如何撰写2025年年度迟到检讨书

2025年高中生早晨迟到反思该如何写

如何撰写2025年军训迟到的检讨书

如何撰写2025年早读迟到的检讨书

2025年员工关于上班迟到的反思与改进计划

相关推荐