其他教程:包含了所有代写案例以及部分答案
-
正则表达式表凡是被用来检索、替换那些切合某个模式(法则)的文本。在我看来,正则表达式的主要用途有两种:①查找特定的信息②查找并编辑特定的信息,也就是我们常常用的替换。。好比我们要在Word,记事本等内里利用快捷键Ctrl+F,举办查找一个特定的字符,可能替换一个字符,这就利用了正则表达式。正则表达式的成果很是强大,尤其是在文本数据举办处理惩罚中显得越发突出。R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都利用正则表达式的法则举办匹配。这几个函数原型如下:gr … 继续阅读“R语言之正则表达式”
:
-
The Data Incubator 中,有着的数据科学(data science)课程。个中大部门的课程都是基于企业和当局相助同伴的需求而设立的。此刻他们但愿开拓一更方向数据为驱动的方法,以相识应该为数据科学企业的培训(data science corporate training,以及享受其提供的免费助学金的有意愿进入业界数据科学规模的硕博士生们传授什么样的内容。功效如下。排名什么是最风行的呆板进修包(ML packages)?让我们来看一下基于包下载量(package downloads) … 继续阅读“最风行的呆板进修R语言软件包是哪些?”
:
-
打分卡转换我们在上一部门,我们已经根基完成了建模相关的事情,并用夹杂矩阵验证了模子的预测本领。接下来的步调,就是将Logistic模子转换为尺度打分卡的形式。 在成立尺度评分卡之前,我们需要选取几个评分卡参数:基本分值、 PDO(比率翻倍的分值)和优劣比。 这里, 我们取600分为基本分值,PDO为20 (每高20分优劣比翻一倍),优劣比取2.5。;可得下式: 620 = q – p * log(2.5)600 = q – p * log(2.5/2) … 继续阅读“手把手教你用R语言成立信用评分模子(完结篇)— 打分卡转换”
:
-
相关性阐明 & IV(信息值)筛选我们在上一篇变量筛选专题中,利用WoE完成了单变量阐明的部门。接下来,我们会用颠末清洗后的数据看一下变量间的相关性。留意,这里的相关性阐明只是劈头的查抄,进一步查抄模子的多重共线性还需要通过 VIF(variance inflation factor)也就是 方差膨胀因子举办检讨。 R代码:require(corrplot)cor1<-cor(train)corrplot(cor1,tl.cex = 0.5)输出图像: 从相关矩阵图中可以 … 继续阅读“手把手教你用R语言成立信用评分模子(三)— —Logistic模子建构”
:
-
单变量阐明在风险建模的进程中,变量选择可以详细细化为单变量变量筛选 (Univariate Variable Selection)和多变量变量筛选 (Multivariate Variable Selection)。多变量变量筛选一般会操作Stepwise算法在变量池中选取最优变量。 而单变量筛选,可能说单变量阐明,是通过较量指标分箱和对应分箱的违约概率来确定指标是否切合经济意义。详细的单变量阐明要领有许多种, 如我在《信用评级建模中的数据清洗与变量选择》中先容的的AR值 … 继续阅读“手把手教你用R语言成立信用评分模子(二)—单变量阐明”
:
-
How to master a skillJump into the middle of things, get your hands dirty, fall flat on your face, and then reach for the stars.—— Ben Stein语言选择一般而言, 咨询公司为贸易银行搭建统计评分卡模子,回收的语言大多是SAS,这是因为SAS语言背后,有SAS公司 (SAS Institute)提供很完备的产物方案和售后处事。对 … 继续阅读“手把手教你用R语言成立信用评分模子(一)”
:
-
在前一段时间的博客中,我表明白为什么你应该把握 R 语言(即便它最终大概过期):http://sharpsightlabs.com/blog/master-r-obsolete/。我写这篇文章是为了向那些声称把握 R 语言挥霍时间的人致辞。(因为它最终会变得过期)。可是当我认为 R 语言最终会变得过期时,这好像引起了惊骇——似乎 R 语言已颠末期了。我想要消除你的惊骇:R 语言仍然很风行。R 语言是已往十年中成长最快的编程语言之一。事实上,假如你开始进修数据科学,我仍然推荐从 R 语言开始。所以 … 继续阅读“R vs Python:R是此刻最好的数据科学语言吗?”
:
-
数据陈诉是作为数据阐明师必不行少的事情之一,而今朝大部门数据阐明师所处情况大概是Excel绘图制表,然后建造成word可能email的方法。对付周期性的陈诉,每次反复操纵其实蛮疾苦的。那么本日给各人安利一个可以自动化生成陈诉的包knitr,笔者用了半年多,只能说对付非码农的阐明师来说,的确就是天赐的福利。系统:windows / Linux(注:假如要生成PDF的陈诉需要安装 MiKTeX / TeX Live 2013)情况:Rstudio /Rstudio – server包:k … 继续阅读“R语言knitr之rmarkdown”
:
-
媒介固然很早就知道R被微软收购,也很早知道R在统计阐明处理惩罚方面很强大,开始一直没有动作过。。。直到直到12月初在微软技能大会,看到我软的工程师演示R的利用,我就震惊了,然后最近在网上处处相识和爬一些R的资料,看着看着就出神了,这就是个大宝库了,以前怎么没发明,看来照旧太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,比拟了今朝本身的事情和今后的偏向,很是适合我。所以绝不踌躇的把这个文档汉化了,所以各人一起享受吧。说明:本文已经提交到github,地点:https://gi … 继续阅读“Awesome R资源大全中文版来了,高出300+东西,还在等什么?”
:
-
前段时间,刘恺威疑似出轨的事件还没有完,林丹倒是认可被抓拍的工作是真的,而且当众致歉了。最近名流们都喜欢出轨,咱们就用R来阐明一下,林丹事件和刘恺威事件之间,粉丝们的评论,有什么配合性,又有什么差别性。 我们要阐明的样本,就是下面两条微博了。首先用R来抓取这两条微博的评论,这个我们之前的微信文章有先容,各人有需要可以看本文附录,这里我就不反复粘贴所利用的代码了。 首先,我们从转发的数据量上来看,很明明,各人越发存眷林丹的事件,越发越发愿意转发林丹的微博,来颁发本身的评论,这个也说明,网 … 继续阅读“用R阐明林丹出轨事件”
: