新宇的博客

Keep on going and never give up!

集成学习-Boosting

Boosting、AdaBoost、GBDT

一、Boosting 1. Boosting介绍 1.1 实现过程 1.2 Boosting 和 Bagging的对比 区别一:数据方面 Bagging:对数据进行采样训练; Boosting:根据前一轮学习结果调整数据的重要性。 区别二:投票方面 Bagging:所有学习器平权投票; B...

聚类算法

K-means

物以类聚,人以群分 一、简介 1. 什么是聚类算法? 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。 在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算 方法有欧式距离法。 2. 分类 粗聚类 细聚类 二、聚类算法实现流程 随机设置K个特征空间内的点...

特征降维

特征选择、PCA

一、简介 1. 定义 降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 2. 降维的方式 特征选择 Filter(过滤式) 方差选择法 相关系数 皮尔逊相关系数 斯皮尔曼相关系数 ...

集成学习-Bagging

Bagging、随机森林

三个臭皮匠,顶个诸葛亮! 一、简介 1. 什么是集成学习 集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 2. 机器学习的两个核心任务 任务一:如何优化训练数据 主要用于解决欠拟合问题 任务二:如何提升泛化性能...

一、简介 目前信息检索存在的挑战: 网络上信息数量巨大,增长速度快 必须有效利用存储空间(存储索引和文档) 信息更新速度快,需要快速抓取技术(Fast crawling technology) 用户数量巨大,而且缺乏搜索经验 ...

让时间陪你慢慢变富

对于资产来说,流动性是决定性因素; 如何选择趋势?直接选择市场上所有人都看好的标的; 交易市场对长期投资者来说不是零和游戏,增常主要来源于经济的增长,而不是他人短期的亏损; 选择一个长期看好的标的,然后雷打不动的坚持定投,普通人唯一靠谱的方式只有定投; 采用定投—》微笑曲线, 不采用定投–〉猥琐曲线 复杂并不等于高级,进而...

韭菜的自我修养

投资建议

什么是韭菜?在非零和博弈的市场中以为自己在玩零和博弈(可以理解为赌博); 零和博弈:非合作博弈,一方收益必导致另一方损失 投机者拒绝学习,投资者善于学习(并非投机是短期,投资是长期) 交易市场的最大作用力:经济周期,即牛熊交替 被套住 != 价值投资 实力永远是第一位,提升自己的场外赚钱能力和抗风险能力; 永远保留一定比例,一定...

机器学习流程总结

一、 流程总结 导入相关模块 数值计算库 pandas numpy 绘图库 matplatlib seaborn 机器学习库 sklearn 数据基本处理 获取数据、查看数据基本信息及分布 确定特征值、目标值 缺失值处理 数据规范化处理、异常值处理 数...

比特币白皮书

p2p、去中心化、最长链原则、双花问题

Bitcoin:A Peer-to-Peer Electronic Cash System 一、文章简介 2008年的美国发生金融危机,波及到世界各地,各国法定货币大幅贬值,人们手里的钱变得不值钱了。 2008年11月1日,这个历史性的时刻,一位自称中本聪的人在网络上发表了一篇《比特币:一种点对点的电子现金系统》的论文,文中描述了一个全新的数字货币系统: 比特币。 比...

决策树

熵、信息增益(ID3)、信息增益率(C4.5)、基尼指数(CART)

一、算法简介 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 二、熵 1. 概念 物理学上 熵 Entropy 是“混乱”程度的量度 系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 信息理论 当系统的有序状态一致时...