自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lestat.Z.的博客

You Know Nothing.

  • 博客(15)
  • 资源 (4)
  • 收藏
  • 关注

原创 Sparkexception: Values to assemble cannot be null

使用VectorAssembler的时候出现Sparkexception: Values to assemble cannot be null的错误,原因是因为Vector不能包含null值。解决方法如下:assembler.transform(df.na.fill(999999999))...

2019-09-30 15:06:52 327

原创 'requirement failed: Cannot have an empty string for name. '

今天测试pyspark重的encode出现了pyspark.sql.utils.IllegalArgumentException: 'requirement failed: Cannot have an empty string for name. '这个问题的主要原因是OneHotEncoder不能处理空字符串。所以我们需要将数据集中的空字符串提前处理一下。一般可以使用 dropna 或...

2019-09-30 13:50:57 648

原创 python中的quicksort 和mergesort

def quicksort(alist): return quicksorthelper(alist, 0 , len(alist)-1) def quicksorthelper(alist, first, last): if first < last: splitpartition = partition(alist, first, last) ...

2019-09-24 11:57:55 227

原创 pyspark代码练习12 ——SparseVector & DenseVector

Vector对象可以转换为:Array [Double]使用toArray。使用toDense作为DenseVector的密集向量。使用toSparse作为SparseVector的稀疏向量。from pyspark.ml.linalg import Vectors#Create a dense vector (1.0, 0.0, 3.0).dv = Vectors.d...

2019-09-15 20:17:15 869

原创 pyspark代码练习11 —— VectorAssembler

VectorAssembler是一个变换器,它将给定的列列表组合到一个向量列中。 将原始特征和由不同特征变换器生成的特征组合成单个特征向量非常有用,以便训练ML模型,如逻辑回归和决策树。 VectorAssembler接受以下输入列类型:所有数字类型,布尔类型和矢量类型。 在每一行中,输入列的值将按指定的顺序连接到一个向量中。from pyspark.ml.linalg import Vect...

2019-09-15 15:18:01 2689

原创 pyspark代码练习10 —— pipeline

from pyspark.ml.linalg import Vectorsfrom pyspark.ml import Pipelinefrom pyspark.ml.feature import OneHotEncoder, StringIndexerdf3 = spark.createDataFrame([ (Vectors.dense(10.2,), "a"), (Ve...

2019-09-14 20:32:17 343

原创 pyspark 代码练习9 —— StandardScaler

from pyspark.ml.feature import StandardScalerfrom pyspark.ml.linalg import Vectorsdf3 = spark.createDataFrame([ (Vectors.dense(10.2,), "a"), (Vectors.dense(1.6,), "b"), (Vectors.dense(23...

2019-09-14 20:29:17 537

原创 pyspark 代码练习8 —— OneHotEncoder

不使用pipeline版本from pyspark.ml.feature import OneHotEncoder, StringIndexerdf = spark.createDataFrame([ (0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")], ["id", "v...

2019-09-14 20:01:49 1302

原创 pyspark 代码练习7 —— 分层抽样

seed = 10sampleby = 'colA'fraction=0.8franctions = df.select(sampleby).distinct().withColumn('fraction', lit(fraction)).rdd.collectAsMap()print(fractions)sampled_df = df.stat.sampleBy(sampleby, f...

2019-09-11 12:26:41 647

原创 pyspark 代码练习6 —— multiprocessing

import multiprocessing as mpdef f(x, y): return (x. y) pool = mp..pool(8)stats = pool.map(lambda x: f(x, y), x_list)pool.close()pool.join()

2019-09-09 21:46:58 261

原创 pyspark代码练习5 —— percentiles

import pandas as pddf_pd = pd.DataFrame( data = {'bools':[0,1,0], 'floats': [-1.0,0.5,2.7], 'doubles': [21.05, 458738453.34, 9089787.7] 'integers':[1,34,89]})df = spark.createDataFrame(df_pd...

2019-09-08 11:36:54 129

原创 pyspark代码练习4 —— 打印dtypes类型

from pyspark.sql import dtypesfor t in ['BinaryType', 'BooleanType', 'DateType', 'DecimalType','DoubleType','FloatType','IntegerType','LongType','ShortType','StringType','TimestampType']: print(f'{t...

2019-09-08 11:30:13 235

原创 pyspark 代码练习3 —— unique/skew/kurt

#n_uniqueagg_expr = [approxCountDistinct(col(c)).alias(c) for c in df.columns]unique_stats = df.agg(*agg_expr)unique_stats = unique_stats.withColumn('summary', lit('n_unique'))#skewagg_expr = [s...

2019-09-08 11:10:52 349

原创 pyspark 代码练习2

记录下最近写过的pyspark代码,如下:def sparkDFunion(df1, df2): cols1 = df1.columns cols2 = df2.columns total_cols = sorted( cols1 + list(set(cols2) - set(cols1))) def expr(mycols, allcols): ''' return th...

2019-09-07 23:03:57 307

原创 pyspark 代码练习1

记录下最近写过的pyspark代码,如下:edaStats = namedtuple('edaStats', 'is_numeric, n_unique, n_missing, _min, _25, _50, _75, _max, n_unique, n_freq, mean ')def eda_stats(dataframe, field_name, field_type): is_...

2019-09-07 22:55:22 241

逻辑斯蒂回归于最大熵模型笔记

此文档为阅读李航老师的统计学习法逻辑斯蒂回归于最大熵模型章节的笔记

2019-02-23

SVM支持向量机笔记

李航老师的统计学习方法的个人笔记,此文档为阅读支持向量机部分的笔记

2019-02-20

决策树_Decision_Tree学习笔记

本文档为李航老师的统计学习方法,决策树章节部分的阅读笔记

2019-02-24

统计学习方法_朴素贝叶斯笔记

李航老师的统计学习方法,朴素贝叶斯章节部分的阅读笔记

2019-02-23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除