zhyann的头像-白鸢的笔记
管理员
这家伙很懒,什么都没有写...
k值的选择-白鸢的笔记

k值的选择

K值选择说明K值过小:容易受到异常点的影响k值过大:受到样本均衡的问题 用这个例子来看from sklearn.neighbors import KNeighborsClassifier x = [[0], [1], [2], [3]] y = [0, 0, 1, 1] esti...
距离度量-白鸢的笔记

距离度量

1 欧式距离(Euclidean Distance):欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。X=[[1,1],[2,2],[3,3],[4,4]]; 经计算得:d ...
k近邻算法api初步使用-白鸢的笔记

k近邻算法api初步使用

机器学习流程1.获取数据集2.数据基本处理3.特征工程4.机器学习5.模型评估 Scikit-learn工具介绍Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现Scikit-learn文档完善,...
K-近邻算法简介-白鸢的笔记

K-近邻算法简介

1 什么是K-近邻算法根据你的“邻居”来推断出你的类别 1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容...
电影案例分析-白鸢的笔记

电影案例分析

2.1 问题一:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?得出评分的平均分 2.2 问题二:对于这一组电影数据,如果我们想Rating,Runtime (Minutes)的分布情...
分组聚合-白鸢的笔记

分组聚合

分组与聚合 1. 分组APIDataFrame.groupby(key, as_index=False)key:分组的列数据,可以多个案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','gre...
交叉表和透视表-白鸢的笔记

交叉表和透视表

数据准备import pandas as pd import numpy as np data = pd.read_csv('/root/Documents/stock_day.csv') print(data.index) time = pd.to_datetime((data.index)) # 转化为datetime print(time...
数据离散化和合并-白鸢的笔记

数据离散化和合并

1. 为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具 2. 什么是数据的离散化连续属性的离散化就是...
缺失值处理-白鸢的笔记

缺失值处理

我们想把NaN缺失值给处理掉 1. 如何处理NAN判断数据是否是NAN:pd.isnull(df)pd.notnull(df)处理方式:存在缺失值nan,并且是np.nan 删除存在缺失值的:dropna(axis='rows') 替换缺失值:filena(...
CTF-200-06-白鸢的笔记

CTF-200-06

简介point 10CTF-200-06Difficulty INTERMEDIATErated by community INTERMEDIATE Part 6 of Labor Day CTF Machine 实验环境攻击者 Kali 192.168.45.200受害者 IP 192.168.186.37   Linux...