自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lestat.Z.的博客

You Know Nothing.

  • 博客(52)
  • 资源 (4)
  • 收藏
  • 关注

原创 记录下本周末搭建个人博客的过程Mac+Hexo+GitHubPages

前言之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是…一言难尽…搜索了一般,选取一个比较简单的实现方式:即Hexo+GitHub Pages以下记录如果搭建个人博客网站 lestatzhang.com的过程具体步骤安装Git安装Node.js安装Hexo博客初始化将本地博客与GitHub关...

2019-05-26 17:15:44 2451

原创 记录一个看着比较顺眼的blockquote的css装饰

代码如下blockquote { position: relative; padding: 10px 15px 10px 60px; box-sizing: border-box; font-style: italic; background: #f5f5f5; color: #777777; border-left: 4px solid ...

2019-05-31 23:38:13 287

原创 tr命令用法总结

tr命令用法总结功能简介命令格式常用选项常见用法大小写转换将Windows文件中的CRLF换为LF删除Windows文件中的'^M'字符删除连续的字符删除数字只保留数字功能简介Translate or Delete characters, 主要用来转换或者删除字符。命令格式tr [OPTION]... SET1 [SET2]其中SET为:CHAR1-CHAR2, 表示范围。只能由小...

2019-05-31 10:30:09 3458

原创 [数据仓库复习] ——数据仓库设计基础总结

小结关系模型、多维模型和Data Vault模型是三种常见的数据仓库模型。数据结构、完整性约束和SQL语言是关系模型的三个要素。规范化是通过应用范式规则实现的。第一范式(1NF)要求保持数据的原子性、第二范式(2NF)消除了部分依赖、第三范式(3NF)消除了传递依赖。关系模 型的数据仓库一般要求满足3NF。事实、维度、粒度是维度模型的三个核心概念。维度模型的四步设计法是选择业务流程、声...

2019-05-30 11:20:11 558

原创 [数据仓库复习] —— 数据仓库实施步骤

数据仓库实施步骤前言1. **定义范围**2. **确定需求**3. **逻辑设计**4. **物理设计**5. **装载数据**6. **访问数据**7. **管理维护**参考资料前言实施一个数据仓库项目的主要步骤是:定义项目范围、收集并确认业务需求和技术需求、逻辑设计、物理设计、从源系统向数据仓库装载数据、使数据可以被访问以辅助决策、管理和维护数据仓库。1. 定义范围在实施数据仓库前,...

2019-05-30 11:05:15 1129

原创 [数据仓库复习] —— 数据集市

数据集市数据集市数据集市的概念数据集市与数据仓库的区别数据集市设计数据仓库实施步骤参考资料数据集市数据集市的概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。数据集市与数据仓库的区别不同于数据集市,数据仓库处理整个组织范围内...

2019-05-29 15:08:33 952

原创 [数据仓库复习] —— 雪花模式

雪花模式雪花模式1. 数据规范化与存储2. 优点3. 缺点4.示例参考资料雪花模式雪花模式是一种多维模型中表的逻辑布局,其实体关系图有类似于雪花的形状,因此得名。与星型模式相同,雪花模式也是由事实表和维度表所组成。所谓 的“雪花化”就是将星型模式中的维度表进行规范化处理。当所有的维度表完成规范化后,就形成了以事实表为中心的雪花型结构,即雪花模式。将维度表进行规范化的具体做法是,把低基数的属性从...

2019-05-29 14:24:11 1117

原创 记录一个shell中解析含以多个字符做为分隔符的字符串的例子

字符串的分隔符为^@$|*解析的具体代码例子如下:$ cat myfile.txt#AAA^@$|*BBB^@$|*CCC^@$|*^@$|*EEE^@$|*FFF$ F3=$(cat myfile.txt| awk -F '\\\^\\\@\\\$[|]\\\*' '{print $3}')$ echo $F3#CCC...

2019-05-28 19:15:20 598

原创 [数据仓库复习] —— 星型模式

文章目录星型模式1. 事实表2. 维度表3. 优点4. 缺点参考资料星型模式星型模式是维度模型最简单的形式,也是数据仓库以及数据集市开发中使用最广泛的形式。星型模式由事实表和维度表组成,一个星型模式中可以有一个或多个事实表,每个事实表引用任意数量的维度表。星型模式的物理模型像一颗星星的形状,中心是一个事实表,围绕在事实表周围的维度表表示星星的放射状分支,这就是星型模式这个名字的由来。星型模式...

2019-05-28 19:04:36 1446

原创 [数据仓库复习] —— 维度数据模型

维度数据模型维度数据模型建模过程1. 选择业务流程2. 声明粒度3. 确认维度4. 确认事实维度规范化维度数据模型的特点参考资料维度数据模型简称维度模型(Dimensional modeling, DM),是一套技术和概念的集合,用于数据仓库设计。不同于关系数据模型,维度模型不一定要引入关系数据库。 在逻辑上相同的维度模型,可以被用于多种物理形式,比如维度数据库或是简单的平面文件。根据数据仓库大...

2019-05-28 18:38:49 613

原创 [数据仓库复习] 数据仓库简介小结

小结数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。数据仓库中的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。数据仓库的数据来自各个业务应用系统。很多因素导致直接访问业务系统无法进行全局数据分析的工作,这也是需要一个数据仓库的原因所在。操作型系统是一类专门用于管理面向事务的应用信息系统,而分析型系统是一种快速回答多维分析查询的实现...

2019-05-28 10:18:27 203

原创 [数据仓库复习] 数据仓库需求

数据仓库需求基本需求1. 安全性2. 可访问性3. 自动化数据需求1. 准确性2. 时效性3.历史可追溯性参考资料基本需求数据仓库的目的就是能够让用户方便地访问大量数据,允许用户查询和分析其中的业务信息。这就要求数据仓库必须是安全的、可访问的和自动化的。1. 安全性数据仓库中含有机密和敏感的数据。为了能够使用这些数据,必须有适当的授权机制。这意味着只有被授权的用户才能访问数据,这些用户在享...

2019-05-28 10:14:52 354 1

原创 [数据仓库复习] 抽取-转换-装载

抽取-转换-装载前言数据抽取1. 逻辑抽取全量抽取增量抽取2. 物理抽取联机抽取脱机抽取3.变化数据捕获数据转换数据装载开发ETL系统的方法常见ETL工具参考资料前言ETL一词,它是Extract、Transform、Load三个英文单词首字母的简写,中文意为抽取、转换、装载。ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节,一般会占到整个数据仓库项目工作量的一半以上。抽取: ...

2019-05-27 18:41:16 603

原创 如何删除github上的commit历史记录?

前言之前在做测试的时候提交了很多无用的记录,现在准备将这些无用的垃圾commit记录删除。解决方法具体步骤如下。#Clone your git repogit clone https://github.com/lestatzhang/lestatzhang.github.io.git;#Entre your local repocd lestatzhang.github.io;#C...

2019-05-27 17:19:57 7130

原创 [数据仓库复习] 数据仓库架构

数据仓库架构基本架构主要数据仓库架构1. 数据集市架构2. Kimball数据仓库架构3. 混合型数据仓库架构操作数据存储参考资料基本架构“架构”是什么?这个问题从来就没有一个准确的答案。在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。这里参考此定义,把数据仓库架构理解成构成数据仓库的...

2019-05-27 10:31:49 721

原创 [数据仓库复习] 操作型系统与分析型系统

操作型系统与分析型系统前言操作型系统操作型系统的特性1. 操作型系统的数据库操作2.操作型系统的数据库设计分析型系统1.分析型系统的数据库操作2.分析型系统的数据库设计操作型系统和分析型系统对比参考资料前言操作型系统完成组织的核心业务,例如下订单、更新库存、记录支付信息等。这些系统是事务型的,核心目标是尽可能快地处理事务,同时维护数据的一致性和完整性。分析型系统的主要作用是通过数据分析评估...

2019-05-26 22:46:47 433

原创 [数据仓库复习] 什么是数据仓库

什么是数据仓库什么是数据仓库数据仓库的定义建立数据仓库的原因参考资料什么是数据仓库本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。数据仓库的定义数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中首次提出了被广...

2019-05-26 21:48:07 147

原创 Mac上如何使用SSH连接到GitHub

Mac上如何使用SSH连接到GitHub关于SSH检查现有的SSH密钥生成新的SSH密钥并将其添加到ssh-agent生成新的SSH密钥将SSH密钥添加到ssh-agent将新SSH密钥添加到GitHub帐户测试使用SSH密钥密码添加或更改passphrase参考资料关于SSH使用SSH协议,你可以连接和验证远程服务器与服务。 使用SSH密钥,你可以在每次访问时不提供用户名或密码就可以连接到G...

2019-05-26 20:15:13 768

原创 关于org.apache.spark.sql.Row

关于org.apache.spark.sql.Row前言构造Row解析Row的值按索引进行字段访问 —— apply和get方法指定类型来获取字段 —— getAs方法Row与SchemaRow与匹配模式参考资料前言Row表示关系运算符的一行输出。 它是一个通用行对象,具有有序的字段集合,可以通过序数/索引(通过序数进行通用访问,generic access by ordinal),字段名(也...

2019-05-23 10:23:05 3313

原创 unable to find encoder for type stored in a dataset的解决方法

前言一般来说,在我们将数据读到DataFrame之后,会继续使用其他一些算子进行处理,如map,flatMap等,但是如果你直接对其调用这些算子时,可能会出现类似unable to find encoder for type stored in a dataset的错误,这种错误的产生一般是因为该DataFrame中的某些返回值的类型不能通过spark自身的的反射完成自动编码,如Map类型,它不...

2019-05-22 18:00:45 1465

原创 关于FPGrowth.FreqItemset中的WrappedArray的处理方法

一般我们可以用如下代码使用FPGrowthimport org.apache.spark.ml.fpm.FPGrowthval dataset = spark.createDataset(Seq( "1 2 5", "1 2 3 5", "1 2")).map(t => t.split(" ")).toDF("items")val fpgrowth = new FPG...

2019-05-22 17:40:50 580

原创 MongoDB常见问题 —— 复制和副本集

前言MongoDB支持哪种复制?MongoDB支持副本集,最多可包含50个节点。MongoDB 4.0删除了对不推荐使用的主从复制的支持。复制是否可以通过Internet和WAN连接工作?是。例如,部署可以在东海岸数据中心维护主要和次要以及在西海岸数据中心进行灾难恢复的次要成员。MongoDB可以通过“noisy”连接进行复制吗?是的,但可能会有连接失败和明显的延迟。该组的成员...

2019-05-19 15:46:18 179

原创 关于Spark UI中的Event Timeline

关于Event Timeline下面举个简单的例子,例如下图:现在这很有趣。 我们看到基本都是红色和蓝色,也就是大部分时间花在了Scheduler Delay和Task Deserialization Time上 而我们真正想要看到的是很多绿色 —— Executor Computing Time的比例,就是executor真正执行工作所花的时间。Scheduler Delay(蓝色部分)...

2019-05-19 10:15:22 918

原创 SparkUI Details of Stage中与task相关的摘要指标含义

Summary Metrics for Completed Tasks in Stage指标含义DurationexecutorRunTime,执行程序的时间的运行时间Scheduler Delay包括将任务从调度程序发送到执行程序的时间,以及将任务结果从执行程序发送到调度程序的时间。Task Deserialization TimeexecutorDese...

2019-05-18 19:37:08 1075

原创 Spark中将RDD转换成DataFrame的两种方法

总结下Spark中将RDD转换成DataFrame的两种方法, 代码如下:方法一: 使用createDataFrame方法//StructType and convert RDD to DataFrame val schema = StructType( Seq( StructField("name",StringType,true) ...

2019-05-17 21:37:53 5920

原创 关于Spark中RDD对象无法调用toDF的解决方法

前言今天在调试一个Scala程序时,IDEA报了can not resolve symbol toDF的错误, 查看了一下代码, 该行的逻辑是将RDD转成DataFrame,看起来似乎很正常, 但就是没有办法调用toDF方法,查看了一下上下文,原来是在代码重构的时候,不小心的将import sqlContext.implicits._给移除了。解决方法如果使用的是spark 2.0之前的版本...

2019-05-17 21:35:37 4887

原创 关于Kafka可靠性的保证与复制机制

Kafka可靠性的保证当我们谈论可靠性时,我们通常会谈到保证,保证是系统在不同情况下保留的行为。可能最着名的可靠性保证是ACID,这是关系数据库普遍支持的标准可靠性保证。 ACID代表原子性,一致性,隔离性和耐久性。当供应商解释他们的数据库符合ACID时,这意味着数据库保证了有关交易行为的某些行为。这些保证是人们信任关系数据库及其最关键应用程序的原因 —— 他们确切知道系统承诺的内容以及它在...

2019-05-14 14:42:40 1732

原创 在Kafka中消费具有特定偏移的记录

Consuming Records with Specific Offsets消费具有特定偏移的记录参考资料消费具有特定偏移的记录到目前为止,我们已经看到如何使用 poll() 开始消耗每个分区中最后一个已经发生的偏移量的消息,并继续按顺序处理所有消息。但是,有时我们肯想要以不同的偏移量开始阅读。如果你想从分区的开头读取所有消息,或者你想要一直跳到分区的末尾并开始只消费新消息,那么可以使用有...

2019-05-14 14:19:54 339

原创 java.lang.AssertionError: assertion failed: No plan for HiveTableRelation的解决方法

前言在使用pyspark跑sparksql的时候出现了类似如下的错误:java.lang.AssertionError: assertion failed: No plan for HiveTableRelation ....一般来说这种错误的产生是因为在创建SparkSession对象的时候HiveContext没有被启用。查了一下代码, 果不其然:#In pythonspark ...

2019-05-13 16:18:13 2496

原创 关于Kafka Producer中的分区

前言在前面的示例中,我们创建的ProducerRecord对象包括主题名称,键和值。 Kafka消息是键值对,虽然可以仅使用主题和值创建ProducerRecord,但默认情况下键设置为null,大多数应用程序生成带键的记录。Key的使用有两个目标:它们是与消息一起存储的附加信息它们还用于决定将消息写入哪个主题分区。具有相同Key的所有消息将转到同一分区。 这意味着如果进程只读取主题...

2019-05-13 14:47:49 887

原创 关于kafka中的序列化

Serializers前言自定义序列化器使用Apache Avro进行序列化将Avro记录与Kafka一起使用前言如前面的示例所示,生产者配置包括强制序列化器。 我们已经了解了如何使用默认的String序列化程序。 Kafka还包括integers和ByteArrays的序列化程序,但这并不包括大多数用例。 最终,你将希望能够序列化更多通用格式的记录。我们将首先展示如何编写自己的序列化程序,...

2019-05-13 10:59:30 2351

原创 关于kafka中的反序列化

Deserializers前言Custom deserializers使用Avro反序列化与Kafka消费者参考资料前言Kafka生产者需要序列化程序将对象转换为字节数组,然后发送到Kafka。 同样,Kafka消费者需要使用反序列化器将从Kafka收到的字节数组转换为Java对象。 在前面的示例中,我们假设每个消息的键和值都是字符串,我们在消费者配置中使用了默认的StringDeserial...

2019-05-12 20:33:48 2573

原创 Spark yarn模式下的资源分配配置

Spark on YARN模式下的资源分配配置前言Spark on Yarn中的两种部署模式关于Application Master (AM)的配置yarn-clientyarn-cluster关于Spark执行程序的容器关键要点参考资料前言Spark on YARN模式下的主要资源为CPU和内存。Spark资源分配配置在spark-defaults.conf中设置,其属性配置一般以 ***...

2019-05-11 21:14:37 848

原创 关于spark yarn模式下的常用属性

前言整理了spark官网提供的一些常用的spark属性。Spark属性属性名默认值描述spark.yarn.am.memory512m在Client模式下用于YARN Application Master的内存量,格式与JVM内存字符串相同(例如512m,2g)。在Cluster模式下,请改用spark.driver.memory。使用小写后缀,例如 k,m,g,t和...

2019-05-11 13:18:17 2924

原创 如何限制Spark作业失败的重试次数?

前言最近有个spark程序因为资源不足以及其他原因会在第一次提交时候失败,然后又会不断提交,导致过多的系统资源被无效占用。因此想限制Spark作业失败的重试次数,如果第一次失败,就让作业直接失败,那么该具体该如何实现呢?解决方法首先查看了spark的属性配置,发现我们使用spark.yarn.maxAppAttempts属性在提交程序时限制其重试次数,如:spark-submit --co...

2019-05-11 12:41:03 7833

原创 关于MongoDB中的oplog window

oplog窗口表示oplog中最旧和最新条目之间的时间间隔,这通常对应于主复制oplog中可用的大致时间量。因此,如果辅助节点的停机时间比此oplog窗口长,则除非它完全重新同步主节点中的所有数据,否则它不能与主节点同步。填充oplog所需的时间会有所不同:在繁忙的流量时间内,由于oplog将每秒接收更多操作,因此会缩小。如果主节点的oplog窗口太短,则应考虑增加oplog的大小。如...

2019-05-09 21:26:32 536

原创 记一个FPGrowth的简单例子

前言Frequent Pattern Mining挖掘频繁项目,项目集,子序列或其他子结构通常是分析大规模数据集的第一步,这是数据挖掘多年来一直活跃的研究课题。这也是关联规则挖掘的常用算法之一。关联规则中的一些基本概念关联规则:用于表示数据内隐含的关联性,一般用X表示先决条件,Y表示关联结果。支持度(Support):所有项集中{X,Y}出现的可能性。置信度(Confide...

2019-05-09 21:15:53 2302

原创 关于MongoDB中的oplog

关于MongoDB中的oplog什么是oplogoplog的用处oplog的大小影响Oplog大小设置的工作负载如何查看Oplog状态oplog数据结构什么是oplogThe oplog (operations log) is a special capped collection that keeps a rolling record of all operations that modif...

2019-05-08 22:30:47 1326

原创 如何在提交spark程序之后退出spark-submit

前言有时候需要在将spark程序提交到集群之后,退出spark-submit进程,那么该如果实现呢?解决方法方法很简单,可以通过在使用spark-submit时设置--conf spark.yarn.submit.waitAppCompletion = false来实现。 这样,客户端将在成功提交spark程序申请后将会自动退出。在集群模式下,Spark驱动程序在Application ...

2019-05-08 22:06:46 2518

原创 关于MongoDB连接字符串URI格式

连接字符串格式你可以使用以下任一方法指定MongoDB连接字符串:标准连接字符串格式DNS种子列表连接格式。标准连接字符串格式本节介绍用于连接MongoDB部署的MongoDB连接URI的标准格式:独立,副本集或分片集群。标准URI连接方案具有以下形式:mongodb://[username:password@]host1[:port1][,...hostN[:portN]]]...

2019-05-07 22:06:17 14474 2

逻辑斯蒂回归于最大熵模型笔记

此文档为阅读李航老师的统计学习法逻辑斯蒂回归于最大熵模型章节的笔记

2019-02-23

SVM支持向量机笔记

李航老师的统计学习方法的个人笔记,此文档为阅读支持向量机部分的笔记

2019-02-20

决策树_Decision_Tree学习笔记

本文档为李航老师的统计学习方法,决策树章节部分的阅读笔记

2019-02-24

统计学习方法_朴素贝叶斯笔记

李航老师的统计学习方法,朴素贝叶斯章节部分的阅读笔记

2019-02-23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除