在预处理中,涉及的常用函数如下:
df.isnull():判别数据中是否存在NAN数据;
df.dropna():按要求对存在NAN的行或列进行删除;
类别数据处理:有序特征映射,类标是有大小、可排序;利用字典
类标编码: 类标无大小之分,不可排序;利用枚举
使用LabelEncoder类可以更加方便的完成类标编码;
n_values:字符串'auto'、或者整数、或者整数数组;指定每一个属性取值上界;'auto'表示自动从训练数据中推断属性值取值的上界;一个整数表示所有属性取值的上界;数组表示每个元素依次指定了一个属性的上界;
数据集和测试集的划分:常用比例为6:4、7:3、8:2;对于庞大数据集,常用9:1或者99:1;
减少过拟合方法1:正则化(L1正则化和L2正则化)
header:将行号用作列名,且是数据的开头。注意当skip_blank_lines=True时,这个参数忽略注释行和空行。所以header=0表示第一行是数据而不是文件的第一行
|| 我只是好奇为什么我看到的大多数示例在使用正则表达式时都使用pile(