自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lestat.Z.的博客

You Know Nothing.

  • 博客(22)
  • 资源 (4)
  • 收藏
  • 关注

原创 如何在pyspark中处理多余空格 —— regex_replace/trim

我们在做数据清洗时经常用和一些多余无用的空格打交道,例如移除开头和末尾的空格,或将多个连续空格替换成一个等。以下提供几个在pypark中处理字段中多余空格的例子。import pyspark.sql.functions as Ffrom pyspark.sql.functions import coldef single_space(col): return F.trim(F.reg...

2019-04-29 09:50:47 2079

原创 一个Python类中调用multiprocessing的小例子

import multiprocessing as mpimport functoolsimport logging#out of classdef call_func(instance, name, job_dict, arg): "indirect caller for instance methods and mp" return getattr(instance, name)...

2019-04-28 12:05:24 497

原创 MongoDB常见问题 —— 存储引擎

MongoDB常见问题 —— 存储引擎存储引擎基础知识什么是存储引擎?可以在副本集中混合存储引擎吗?WiredTiger存储引擎我可以将现有部署升级到WiredTiger吗?WiredTiger提供多少压缩?我应该设置WiredTiger内部缓存的大小?WiredTiger写入磁盘的频率如何?CheckpointsJournal Data如何在WiredTiger中回收磁盘空间?MMAPv1 存储...

2019-04-28 11:34:28 293

原创 MongoDB常见问题 —— 索引

MongoDB常见问题 —— 索引如何创建索引?索引构建如何影响数据库性能?如何查看集合中存在哪些索引?如何查看查询是否使用索引?如何确定要索引的字段?如何查看索引的大小?写操作如何影响索引?如何创建索引?要在集合上创建索引,请使用db.collection.createIndex()方法。 创建索引是一种管理操作。 通常,应用程序不应定期调用db.collection.createIndex...

2019-04-27 20:21:36 116

原创 Kafka的一些应用场景

Kafka的一些应用场景活动跟踪消息传递度量和日志记录提交日志流处理参考资料活动跟踪Kafka的原始用例,就像在LinkedIn上设计的那样,是用于用户活动的追踪。 网站的用户与前端应用程序交互,后者生成有关用户正在执行的操作的消息。 这可以是被动信息,例如页面查看和点击跟踪,也可以是其他更复杂的操作,例如用户添加到其配置文件中的信息。 消息将发布到一个或多个主题,然后由后端的应用程序使用。 ...

2019-04-27 12:45:27 2891

原创 Kafka的优点

Kafka的优点前言Kafka的优点多个生产者多个消费者基于磁盘的保留可扩展性高性能参考资料前言现在市场上的有很多发布/订阅消息传递系统,那么是什么让Apache Kafka成为一个不错的选择呢?或者说Kafka它有什么优势呢?Kafka的优点多个生产者无论这些客户是使用多个主题还是相同主题,Kafka都能够无缝地处理多个生产者。 这使得该系统非常适合聚合来自许多前端系统的数据并使其保持...

2019-04-27 12:25:29 3323 1

原创 Python Pandas中将csv文件转为excel的用法举例

Python Pandas中给我们提供了很多方便的api。比如我们就可以利用其与excel相关的api将csv转为excel,简单例子如下:from pandas.io.excel import ExcelWriterimport pandas as pd csv_files = ['file1.csv', 'file2.csv', ..., 'file5.csv']#excel nam...

2019-04-27 11:59:01 6298 4

原创 Ksh if判断中与文件相关的选项整理

整理了下Ksh中if判断中与文件相关的各种选项选项描述-a File如果指定的文件是指向另一个存在的文件的符号链接,则为True。-b File如果指定的文件存在并且是块特殊文件,则为True。-c File如果指定的文件存在且是字符特殊文件,则为True。-d File如果指定的文件存在且是目录,则为True。-e File如果指定的文件存在,则为True。-f File如果指...

2019-04-27 11:49:56 425

原创 HBase Rowkey设计(2) —— 时间戳反转

时间戳反转在Hbase中,使用单调增加的rowkey值是不推荐的。 通过将输入记录随机化为不按排序顺序,这样可以减轻由单调增加的rowkey引起的单个区域的数据堆积。一般情况下,最好避免使用时间戳或序列(例如,1,2,3) 作为行键。如果你确实需要将时间序列数据上传到HBase,那么可以参考下OpenTSDB中作为例子。 它有一个页面描述它在HBase中使用的模式。 OpenTSDB中的关键...

2019-04-27 11:30:08 3537 2

原创 Kafka中offsets.retention.minutes和log.retention.minutes之间的区别

前言在Kafka中,我们可能会发现两个与retention相关的配置:log.retention.minutesoffsets.retention.minutes那么它们之前的差别是什么呢?定义首先让我们看看它们在官方文档中的定义名称描述类型默认值有效值重要性log.retention.minutesThe number of minutes to keep a ...

2019-04-25 21:20:34 2190

原创 HBase Rowkey设计(1) —— 避免热点

HBase Rowkey设计之避免热点什么是热点(Hotspotting)如何避免热点SaltingHashingReversing the Key参考资料什么是热点(Hotspotting)HBase中的行按行按字典顺序排序。这种优化是为了方便扫描而设计的,可以将相关的行以及会被一起读取的行存取在临近位置。但是,设计不良的行键是热点的常见来源。当大量客户端流量指向群集的一个节点或仅几个节点时...

2019-04-24 22:04:59 323

转载 Phoenix综述

查看主页转载自:http://www.cnblogs.com/linbingdong/p/5832112.htmlPhoenix综述(史上最全Phoenix中文文档)网上关于Phoenix的资料寥寥无几,中文资料更是几乎没有。本人详细阅读Phoenix官网,整理成此篇中文文档,供后人参考。如有翻译错误的地方,请批评指出。1. Phoenix定义Phoenix最早是salefor...

2019-04-23 21:05:14 110

原创 MongoDB常见问题 —— MongoDB基础知识

MongoDB支持哪些平台?有关支持的平台列表,请参阅[支持的平台]。MongoDB集合与数据库中的表有何不同?MongoDB数据库将其数据存储在集合中,而不是表。 集合包含一个或多个BSON文档。 文档类似于关系数据库表中的记录或行。 每个文档都有一个或多个字段; 字段类似于关系数据库表中的列。如何创建数据库和集合?如果数据库不存在,MongoDB会在你第一次存储该数据库的数据时创建数...

2019-04-22 22:17:42 116

原创 关于MongoDB使用regex查询COLLSCAN反而比IXSCAN快的问题

问题描述今天做了一个POC测试,使用regex来查询满足条件的记录。MongoDB中的记录格式如下:{ shoplist: "FAMILY MART:STARTBUCKS:SEVEN ELEVEN:LAWSON" client_id: "1234568789"}使用的查询语句(python)如下:client['my_db']['shop'].find( { "$or": ...

2019-04-22 21:30:17 1094

原创 Kafka入门的一些基本概念

Kafka入门的一些基本概念消息和批处理 Messages and Batches模式(Schemas)主题和分区 Topics and Partitions生产者和消费者 Producers and Consumers代理和集群(Brokers and Clusters)多集群 Multiple Consumers

2019-04-21 20:10:49 2757

原创 关于Kafka消费者中的偏移量的提交(Commits and Offsets)

关于Kafka消费者中的偏移量的提交概述KafkaConsumer API中多种提交偏移的方法自动提交(Automatic Commit)提交当前偏移量异步提交(Asynchronous Commit)结合同步和异步提交提交指定的偏移量参考资料概述每当我们调用poll()时,它都会返回之前被写入Kafka的记录,即我们组中的消费者还没有读过的记录。 这意味着我们有一种方法可以跟踪该组消费者读取...

2019-04-21 16:22:27 3182

原创 MongoDB索引 —— 全文索引(Text Indexes)

文本索引概述版本支持创建文本索引指定权重通配符文本索引大小写不敏感(Case Insensitivity)变音符不敏感(Diacritic Insensitivity)标记分隔符(Tokenization Delimiters)支持的语言和停用词稀疏属性(sparse Property)限制每个集合只能有一个文本索引文本搜索和提示文本索引和排序复合索引删除文本索引校对选项(Collation Op...

2019-04-21 11:46:46 5276

原创 关于Avro和Paquet

前言项目中的数据一开始都是使用Avro格式存储, 但之后的新表都将使用parquet格式存储。于是在这里做点小笔记,毕竟两者之间的差异。Avro与PaquetAvro是基于行的存储格式。Parquet是基于列的存储格式。如果你的需求经常需要扫描或检索每个查询中中的所有字段,那么Avro通常是最佳选择。同时使用Avro的一个优点是轻量级和快速的数据序列化和反序列化,可以提供非常好的写入性能...

2019-04-15 22:37:48 1070

原创 如何解决Sparksession/HiveContext访问不到Hive表中新插入的记录, 或者元数据不一致的问题

问题描述在做某个POC项目的测试时候,先pyspark2界面count表A一共有3条,在另一个界面用beeline往这种表插入一条数据,然后继续在beeline中count,此时显示总数为4,插入正常。但是回到pyspark2的界面执行sql语句时候,发现还是3条。原因首先看下以下几个知识点:Hive Metastore当使用enableHiveSupport创建SparkSession...

2019-04-14 22:15:31 2195

原创 如何使Spark Dataframe区分具有重复名称的列,避免References ambiguous问题

前言有时候我们在使用Spark中执行Join时候,结果集出现重复的列名,从而导致References ambiguous问题。我们可以用以下方式来解决。实例首先模拟一些数据#In pythonfrom pyspark.mllib.linalg import SparseVectorfrom pyspark.sql import Rowdf1 = sqlContext.createD...

2019-04-11 10:51:45 3588

原创 关于sparksql中的hint

前言在Spark中,结构化查询可以通过指定查询提示(hint)来进行优化。查询提示,即向查询加入注释,告诉查询优化器提供如何优化逻辑计划, 这在查询优化器无法做出最佳决策时十分有用。Spark SQL支持COALESCE,REPARTITION以及BROADCAST提示。 在分析查询语句时,所有剩余的未解析的提示将从查询计划中被移除。Spark SQL 2.2增加了对提示框架(Hint ...

2019-04-08 11:31:21 1245

原创 如何在Spark-shell中停止打印INFO日志

文章目录前言解决方法- 使用自定义的Log4j.properties- 在代码中控制前言在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。解决方法- 使用自定义的Log4j.propertieslog4j.rootLogger=ERROR, console# set the log level for these com...

2019-04-02 10:09:36 2234 1

逻辑斯蒂回归于最大熵模型笔记

此文档为阅读李航老师的统计学习法逻辑斯蒂回归于最大熵模型章节的笔记

2019-02-23

SVM支持向量机笔记

李航老师的统计学习方法的个人笔记,此文档为阅读支持向量机部分的笔记

2019-02-20

决策树_Decision_Tree学习笔记

本文档为李航老师的统计学习方法,决策树章节部分的阅读笔记

2019-02-24

统计学习方法_朴素贝叶斯笔记

李航老师的统计学习方法,朴素贝叶斯章节部分的阅读笔记

2019-02-23

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除