svm回归预测股票价格_如何运用大数据

‘壹’ 机器学习有哪些算法

朴素贝叶斯分类器算法是最受欢迎的学习方法之一，按照相似性分类，用流行的贝叶斯概率定理来建立机器学习模型，特别是用于疾病预测和文档分类。它是基于贝叶斯概率定理的单词的内容的主观分析的简单分类。

什么时候使用机器学习算法 - 朴素贝叶斯分类器？

（1）如果您有一个中等或大的训练数据集。

（2）如果实例具有几个属性。

（3）给定分类参数，描述实例的属性应该是条件独立的。

A．朴素贝叶斯分类器的应用

（1）这些机器学习算法有助于在不确定性下作出决策，并帮助您改善沟通，因为他们提供了决策情况的可视化表示。

（2）决策树机器学习算法帮助数据科学家捕获这样的想法：如果采取了不同的决策，那么情境或模型的操作性质将如何剧烈变化。

（3）决策树算法通过允许数据科学家遍历前向和后向计算路径来帮助做出最佳决策。

C．何时使用决策树机器学习算法

（1）决策树对错误是鲁棒的，并且如果训练数据包含错误，则决策树算法将最适合于解决这样的问题。

（2）决策树最适合于实例由属性值对表示的问题。

（3）如果训练数据具有缺失值，则可以使用决策树，因为它们可以通过查看其他列中的数据来很好地处理丢失的值。

（4）当目标函数具有离散输出值时，决策树是最适合的。

D.决策树的优点

（1）决策树是非常本能的，可以向任何人轻松解释。来自非技术背景的人，也可以解释从决策树绘制的假设，因为他们是不言自明的。

（2）当使用决策树机器学习算法时，数据类型不是约束，因为它们可以处理分类和数值变量。

（3）决策树机器学习算法不需要对数据中的线性进行任何假设，因此可以在参数非线性相关的情况下使用。这些机器学习算法不对分类器结构和空间分布做出任何假设。

（4）这些算法在数据探索中是有用的。决策树隐式执行特征选择，这在预测分析中非常重要。当决策树适合于训练数据集时，在其上分割决策树的顶部的节点被认为是给定数据集内的重要变量，并且默认情况下完成特征选择。

（5）决策树有助于节省数据准备时间，因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值也不会影响决策树，因为基于分裂范围内的一些样本而不是准确的绝对值发生数据分裂。

E.决策树的缺点

（1）树中决策的数量越多，任何预期结果的准确性越小。

（2）决策树机器学习算法的主要缺点是结果可能基于预期。当实时做出决策时，收益和产生的结果可能与预期或计划不同。有机会，这可能导致不现实的决策树导致错误的决策。任何不合理的期望可能导致决策树分析中的重大错误和缺陷，因为并不总是可能计划从决策可能产生的所有可能性。

（3）决策树不适合连续变量，并导致不稳定性和分类高原。

（4）与其他决策模型相比，决策树很容易使用，但是创建包含几个分支的大决策树是一个复杂和耗时的任务。

（5）决策树机器学习算法一次只考虑一个属性，并且可能不是最适合于决策空间中的实际数据。

（6）具有多个分支的大尺寸决策树是不可理解的，并且造成若干呈现困难。

F.决策树机器学习算法的应用

（1）决策树是流行的机器学习算法之一，它在财务中对期权定价有很大的用处。

（2）遥感是基于决策树的模式识别的应用领域。

（3）银行使用决策树算法按贷款申请人违约付款的概率对其进行分类。

（4）Gerber产品公司，一个流行的婴儿产品公司，使用决策树机器学习算法来决定他们是否应继续使用塑料PVC（聚氯乙烯）在他们的产品。

（5）Rush大学医学中心开发了一个名为Guardian的工具，它使用决策树机器学习算法来识别有风险的患者和疾病趋势。

Python语言中的数据科学库实现决策树机器学习算法是 - SciPy和Sci-Kit学习。

R语言中的数据科学库实现决策树机器学习算法是插入符号。

3.7 随机森林机器学习算法

让我们继续我们在决策树中使用的同样的例子，来解释随机森林机器学习算法如何工作。提利昂是您的餐厅偏好的决策树。然而，提利昂作为一个人并不总是准确地推广你的餐厅偏好。要获得更准确的餐厅推荐，你问一对夫妇的朋友，并决定访问餐厅R，如果大多数人说你会喜欢它。而不是只是问Tyrion，你想问问Jon Snow，Sandor，Bronn和Bran谁投票决定你是否喜欢餐厅R或不。这意味着您已经构建了决策树的合奏分类器 - 也称为森林。

你不想让所有的朋友给你相同的答案 - 所以你提供每个朋友略有不同的数据。你也不确定你的餐厅偏好，是在一个困境。你告诉提利昂你喜欢开顶屋顶餐厅，但也许，只是因为它是在夏天，当你访问的餐厅，你可能已经喜欢它。在寒冷的冬天，你可能不是餐厅的粉丝。因此，所有的朋友不应该利用你喜欢打开的屋顶餐厅的数据点，以提出他们的建议您的餐厅偏好。

通过为您的朋友提供略微不同的餐厅偏好数据，您可以让您的朋友在不同时间向您询问不同的问题。在这种情况下，只是稍微改变你的餐厅偏好，你是注入随机性在模型级别（不同于决策树情况下的数据级别的随机性）。您的朋友群现在形成了您的餐厅偏好的随机森林。

随机森林是一种机器学习算法，它使用装袋方法来创建一堆随机数据子集的决策树。模型在数据集的随机样本上进行多次训练，以从随机森林算法中获得良好的预测性能。在该整体学习方法中，将随机森林中所有决策树的输出结合起来进行最终预测。随机森林算法的最终预测通过轮询每个决策树的结果或者仅仅通过使用在决策树中出现最多次的预测来导出。

例如，在上面的例子 - 如果5个朋友决定你会喜欢餐厅R，但只有2个朋友决定你不会喜欢的餐厅，然后最后的预测是，你会喜欢餐厅R多数总是胜利。

A.为什么使用随机森林机器学习算法？

（1）有很多好的开源，在Python和R中可用的算法的自由实现。

（2）它在缺少数据时保持准确性，并且还能抵抗异常值。

（3）简单的使用作为基本的随机森林算法可以实现只用几行代码。

（4）随机森林机器学习算法帮助数据科学家节省数据准备时间，因为它们不需要任何输入准备，并且能够处理数字，二进制和分类特征，而无需缩放，变换或修改。

（5）隐式特征选择，因为它给出了什么变量在分类中是重要的估计。

B.使用随机森林机器学习算法的优点

（1）与决策树机器学习算法不同，过拟合对随机森林不是一个问题。没有必要修剪随机森林。

（2）这些算法很快，但不是在所有情况下。随机森林算法当在具有100个变量的数据集的800MHz机器上运行时，并且50,000个案例在11分钟内产生100个决策树。

（3）随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一，因为它们对噪声更加鲁棒。

（4）很难建立一个坏的随机森林。在随机森林机器学习算法的实现中，容易确定使用哪些参数，因为它们对用于运行算法的参数不敏感。一个人可以轻松地建立一个体面的模型没有太多的调整

（5）随机森林机器学习算法可以并行生长。

（6）此算法在大型数据库上高效运行。

（7）具有较高的分类精度。

C.使用随机森林机器学习算法的缺点

他们可能很容易使用，但从理论上分析它们是很困难的。

随机森林中大量的决策树可以减慢算法进行实时预测。

如果数据由具有不同级别数量的分类变量组成，则算法会偏好具有更多级别的那些属性。在这种情况下，可变重要性分数似乎不可靠。

当使用RandomForest算法进行回归任务时，它不会超出训练数据中响应值的范围。

D.随机森林机器学习算法的应用

（1）随机森林算法被银行用来预测贷款申请人是否可能是高风险。

（2）它们用于汽车工业中以预测机械部件的故障或故障。

（3）这些算法用于医疗保健行业以预测患者是否可能发展成慢性疾病。

（4）它们还可用于回归任务，如预测社交媒体份额和绩效分数的平均数。

（5）最近，该算法也已经被用于预测语音识别软件中的模式并对图像和文本进行分类。

Python语言中的数据科学库实现随机森林机器学习算法是Sci-Kit学习。

R语言的数据科学库实现随机森林机器学习算法randomForest。

‘贰’ 如何运用大数据

1.可视化分析
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
2. 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统
计
学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如
果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
3. 预测性分析
大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。
4. 语义引擎
非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。
大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术
数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。
数据存取：关系数据库、NOSQL、SQL等。
基础架构：云存储、分布式文件存储等。
数
据处理：自然语言处理(NLP，Natural Language
Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理
解也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。
统计分析：
假设检验、显着性检验、差异分析、相关分析、T检验、方差分析、
卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、
因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。
数
据挖掘：分类
（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity
grouping or association rules）、聚类（Clustering）、描述和可视化、Description and
Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
模型预测：预测模型、机器学习、建模仿真。
结果呈现：云计算、标签云、关系图等。

大数据的处理
1. 大数据处理之一：采集
大
数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的
数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除
此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时
有可能会有成千上万的用户
来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间
进行负载均衡和分片的确是需要深入的思考和设计。
2. 大数据处理之二：导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些
海量数据进行有效的分析，还是应该将这
些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使
用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。
3. 大数据处理之三：统计/分析
统
计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通
的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于
MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。
4. 大数据处理之四：挖掘
与
前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数
据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于

统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并
且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

svm回归预测股票价格

与svm回归预测股票价格相关的内容