新宇的博客

Keep on going and never give up!

特征提取

字典、文本、图像(待补充)

一、简介 1. 什么是特征提取 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 2. 分类 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 3. 特征提取API sklearn.feature_extraction 二、字典特征提取 1. API 作用:对字典数据进行特征值化(存在类别信息的做one-hot编码处理)...

逻辑回归

自然对数损失、精准率/召回率、ROC/AUC

一、概念 1. 定义 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。 2. 输入 3. 输出 二、损失及优化 1. 推导过程 注意:p1应该是w_T*x 2. API实现 三、分类评估方法 1. 精确率与召回率 1.1 混淆矩阵 1.2 精确...

过采样与欠采样

随机过采样、SMOTE、随机欠采样

一、基本介绍 类别不平衡问题: 采集的数据(建模样本)比例失衡; 二、如何解决 1. 过采样方法 增加一些少数类样本使得正、反例数目接近,然后再进行学习。 1.1 随机过采样方法 定义: 在少数类中随机选择一些样本,然后通过复制所选择的样本生成样本集E,将它们添加到S_min中来扩大原始数据集从而得到新的少...

算法复习思维导图


求导公式汇总

函数求导、矩阵求导、四则运算

一、常见函数的导数 二、导数的四则运算 三、矩阵(向量)求导 只看右侧 更多参考

线性回归

概念、损失函数、梯度下降、过/欠拟合、正则化

一、线性回归 1. 简介 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式; 2. 线性回归的特征与目标的关系分析 线性关系 单变量线性关系 多变量线性关系 非线性关系 3. 线性回归api...

数据分割

留出法、交叉验证法、自助法

一、留出法 1. 概念 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T 即 D = S ∪ T, S ∩ T = ∅ 在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计 泛化能力:训练好的模型对于未知数据和未知场景下的表现能力; 泛化误差:模型在未知数据上的误差,一...

特征预处理

归一化、标准化

去量纲化,使不同规格的数据转换到同一规格 一、归一化 1. 定义 通过对原始数据进行变换把数据映射到(默认为[0,1])之间 2. 公式 3. 举个例子 4. 总结 最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。 5. 代码 import pandas as pd from sklearn.preprocessing import...

K-近邻算法

K值选择、距离度量、分类决策

要点:模型、策略(误分类率最小)、算法(构建kd树) 一、模型 1. 定义 K Nearest Neighbor算法又叫KNN算法;俗语形容:近朱者赤,近墨者黑 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别; 2. 距离度量 欧式距离(欧几里得) ...

科学计算库(三)

seaborn

一、seaborn 1. seaborn是什么? Seaborn基于 Matplotlib核心库进行了更高级的API封装,可以轻松地画出更漂亮的图形,而Seaborn的漂亮主要体现在配色更加舒服,以及图 形元素的样式更加细腻。 # 安装 pip install seaborn==0.10.1 # 导入 import seaborn as sns 2. 绘制单变量分布 ...