摘要:一、任务 这次我们将了解在机器学习中支持向量机的使用方法以及一些参数的调整。支持向量机的基本原理就是将低维不可分问题转换为高维可分问题,在前面的博客具体介绍过了,这里就不再介绍了。 首先导入相关标准库: 作为一个例子,首先我们随机生成一些数据,考虑分类任务的简单情况,其中两个类别的点是良好分隔的: 阅读全文
posted @ 2019-09-28 22:04 |旧市拾荒| 阅读 (26) 评论 (0) 编辑
摘要:五、SVM求解实例 上面其实已经得出最终的表达式了,下面我们会根据一些具体的点来求解α的值。数据:3个点,其中正例 X1(3,3) ,X2(4,3) ,负例X3(1,1) 如下图所示 我们需要求解下式的极小值 注意约束条件(在这里不要忘记了yi代表的是数据的类别,+1代表正例,-1代表负例) 代入数 阅读全文
posted @ 2019-09-16 11:34 |旧市拾荒| 阅读 (98) 评论 (0) 编辑
摘要:一、问题引入 支持向量机(SVM,Support Vector Machine)在2012年前还是很牛逼的,但是在12年之后神经网络更牛逼些,但是由于应用场景以及应用算法的不同,我们还是很有必要了解SVM的,而且在面试的过程中SVM一般都会问到。支持向量机是一个非常经典且高效的分类模型。我们的目标: 阅读全文
posted @ 2019-09-15 22:18 |旧市拾荒| 阅读 (94) 评论 (0) 编辑
摘要:五、TF-IDF以及LDA主题模型 TF-IDF关键词提取 可以得到第2400条数据以及关键词 从最后一句话就可以大致得到这段文章的大致意思,那这些词就是这段文章的关键词。 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,它是一种主题模型,它包含文章,主题和词 阅读全文
posted @ 2019-09-04 08:22 |旧市拾荒| 阅读 (161) 评论 (0) 编辑
摘要:一、基础知识 假设有一份文本数据如下,数据量很大,现在要对整个语料库进行文本分析,category代表新闻种类,theme代表新闻主题,URL代表新闻链接地址,content代表新闻主题内容 停用词:在content这一列,在数据量很大的情况,很容易发现某些似乎与新闻本身意义不大的词大量出现,而我们 阅读全文
posted @ 2019-09-03 15:47 |旧市拾荒| 阅读 (253) 评论 (0) 编辑
摘要:一、任务简介 假设身处这样一个场景,用户输入的是一个错误单词,而我们需要做的就是来预测出用户实际想输入的单词。如果这个单词是正确的,那么结果肯定就是自己本身了。如果用户实际输入tha,那这个单词肯定是错误的,我们就可以通过一种算法来得到用户可能实际上真正想输入的是the。这种算法可以通过贝叶斯算法来 太阳城申博官网登入阅读全文
posted @ 2019-08-19 15:27 |旧市拾荒| 阅读 (44) 评论 (0) 编辑
摘要:一、贝叶斯简介 贝叶斯(约1701-1761) Thomas Bayes,英国数学家,贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,生不逢时,死后它的作品才被世人认可。 贝叶斯要解决的问题: 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大? 逆向概率:如 阅读全文
posted @ 2019-08-17 22:05 |旧市拾荒| 阅读 (33) 评论 (0) 编辑
摘要:四、特征重要性衡量 通过上面可以发现准确率有小幅提升,但是似乎得到的结果还是不太理想。我们可以发现模型似乎优化的差不多了,使用的特征似乎也已经使用完了。准确率已经达到了瓶颈,但是如果我们还想提高精度的话,还是要回到最原始的数据集里面。对分类器的结果最大的影响还是输入的数据本身。接下来采用的方法一般是 阅读全文
posted @ 2019-08-12 09:24 |旧市拾荒| 阅读 (242) 评论 (0) 编辑
摘要:一、任务基础 泰坦尼克号沉没是历史上最著名的沉船事故之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸 太阳城申博官网登入阅读全文
posted @ 2019-08-10 17:00 |旧市拾荒| 阅读 (277) 评论 (0) 编辑
摘要:一、集成算法 目的:让机器学习效果更好,单个机器学习算法不行,就用多个机器算法集成。 Bagging模型:训练多个分类器取结果的平均 Boosting模型:从弱学习器开始加强,通过加权来进行训练(加入一棵树,要比原来强) Stacking模型:聚合多个分类或回归模型(可以分阶段来做) 二、Baggi 太阳城申博官网登入阅读全文
posted @ 2019-08-04 17:15 |旧市拾荒| 阅读 (142) 评论 (0) 编辑
摘要:一、任务基础 导入所需要的库 加载sklearn内置数据集 ,查看数据描述 数据集包含房价价格以及影响房价的一些因素 查看数据集维度 查看第一条数据 二、构造决策树模型 决策树模型参数: (1)criterion gini or entropy 基尼系数或者熵(2)splitter best or 阅读全文
posted @ 2019-07-30 09:19 |旧市拾荒| 阅读 (175) 评论 (0) 编辑
摘要:一、决策树 在机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数 阅读全文
posted @ 2019-07-28 15:17 |旧市拾荒| 阅读 (145) 评论 (0) 编辑
摘要:最近使用python操作文件,经常遇到编码错误的问题,例如: 我看百度的解决方法就是手动指定编码方式,类似于以下这种方式: 虽然这种类似的方法也能解决。但是这种方法只能靠运气去碰,如果刚好碰到文件编码和你指定的编码一致,那么就不会报错了。这种方式在尝试的过程就会很麻烦。 这里就有一个解决的小技巧,我 阅读全文
posted @ 2019-07-19 16:26 |旧市拾荒| 阅读 (44) 评论 (0) 编辑
摘要:六、混淆矩阵: 混淆矩阵是由一个坐标系组成的,有x轴以及y轴,在x轴里面有0和1,在y轴里面有0和1。x轴表达的是预测的值,y轴表达的是真实的值。可以对比真实值与预测值之间的差异,可以计算当前模型衡量的指标值。 这里精度的表示:(136+138)/(136+13+9+138)。之前有提到recall 阅读全文
posted @ 2019-07-19 09:21 |旧市拾荒| 阅读 (277) 评论 (0) 编辑
摘要:一、任务基础 数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284807笔交易中有492笔被盗刷。数据集非常不平衡,正例(被盗刷)占所有交易的0.172%。,这是因为由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。特征V1,V2,... V 阅读全文
posted @ 2019-07-18 22:07 |旧市拾荒| 阅读 (516) 评论 (0) 编辑
菲律宾申博娱乐官网 申博游戏下载官方登入 申博官方网址 www.bet365x.com 太阳城现金网 www.360msc.com
菲律宾申博游戏 申博网址 申博太阳城官方现金直营网 申博娱乐现金网直营 菲律宾申博现金直营网 申博游戏手机怎么下载
百家乐微信支付充值 菲律宾申博开户合作 菲律宾太阳网址登入 菲律宾申博游戏 菲律宾太阳城申博直营网 申博娱乐网址大全直营网