欢迎进入澳门名都手机论坛! 网站地图  |  XML地图

行业案例

数据分析案例笔记1

更新时间:2020-12-31 09:20
 

  1)2019年3月初全国政协委员、证监会前主席肖钢带来了“支持发展互联网小贷公司满足普惠消费信贷需求”的提案。肖钢表示中国消费信贷发展空间巨大特别是面向广大群众、与日常消费息息相关的小额、普惠型消费信贷市场。

  2)通过分析拍拍贷的用户数据可以得出客户的还款情况与其申请信息和认证信息、评级关系等各方面的相关性。

  a.完全线性可分时最原始的SVM最大的核心思想就是找到最大的分类间隔称之为硬间隔能完全将两类分开。

  b.大部分线性可分情况下的线c;引入软间隔允许一定量的样本分类错误。

  c.针对线c;引入核函数将样本空间投射到多维空间从而能线;利用python中的机器学习包sklearn导入svm然后构造一个SVC或者Linear SVC分类器。LinearSVC 是个线c;用于处理线性可分的数据只能使用线性核函数。针对非线c;需要用到 SVC。在 SVC 中我们既可以使用到线c;也能使用高维的核函数进行非线a;生成一个乳腺癌诊断的SVM分类器并计算这个分类器的准确率。

  5数据质量评估的方法如果 数据质量不高就要对数据进行清洗可以按照“完全合一”的准测评估数据的质量。

  b.全面性观察每条数据是否存在单位定义不一致比如身高记录的有厘米和米

  6)特征选择为了数据降维我们在相关性大的字段组别中分别取一个字段

  1.分析背景LendingClub是美国最大的P2P公司定位是无担保的纯信息中介利用互联网技术连接投资者和借款人降低中介成本。2.分析目的国内P2P行业的合规成本骤然提升问题平台频频爆雷跑路小平台逐渐出清。给出评审建议从而尽快完全去担保化转变为纯信息中介。3.给出评审建议

  a.客户在东南部沿海经济比较发达的地区职业类型为其他的建议加大宣传力度扩大业务范围。可以加大对该地区客户的推广力度。

  b.客户职业为教师、经理客户贷款占比较大对这两类职业客户可以做客户等级分类进行细化审核。

  c.工作年限为10拥有自有住宅的客户可以放宽审核条件对小于10年的有按揭或租房的客户加强审核。

  针对贷款目的为偿还其他债务的客户需要严格审核条件或要求其做一定的担保以降低坏账率。

  a.信用等级及贷款率与坏账率呈现一定的正态分布关系应该加强对B/C/D三个信用等级的客户审核。

  b.房屋的拥有类型与坏账率具有明显的相关性房屋拥有类型为

  租房的客户坏账率相对较高建议后期根据实际情况酌情加强这两类客户的审核。8.利用python对淘宝用户行为分析

  (1)随着信用等级越差贷款总额占的比率不断降低。约95%的客户处于信用等级A-D之间。约91%客户贷款利率在0.06-0.28之间对应于客户信用等级A-D。

  (2)随着信用等级越差不良贷款率也逐级增加客户占比逐级递减分组与信用等级变化趋势达到高度的一致这与前面相关系分析0.97得到的结果一致。

  (3)贷款总额占比与不良贷款率呈递减的关系换句话说高风险的客户越少有利于降低整体不良贷款率。如信用评级G不良率接近20%但是G的贷款占比只有0.16%对整体坏账率影响不大。

  (4)但是存在个别级或者分组利率贷款占比不合理的问题如D的贷款占比达到13.73违约率8%以上这会严重影响总的不良贷款率。需要加强防范降低该级别的违约率后期业务尽量降低该级别的贷款总额占比。同理分组利率[0.17,0.28也存在类似的问题。

  a.找出研究期间用户最活跃的日期和每日活跃的时间段了解用户的行为时间模式

  b.什么产品和产品类别具有最高的购买率找到最受欢迎的产品并优化产品销售

  c.哪些用户购买最多找到最核心的付费用户群统计这些用户购买的产品和类别并根据他们的购买偏好推出个性化的产品销售解决方案。

  3通过用户行为漏斗图可以得出以下结论用户行为包括点击、放入购物车、收藏和购买。点击占总操作数的89%而购物车中只有6%被放入购物车。最后实际购买量仅为2%。在链接中可能的原因是用户花费了大量的时间寻找合适的产品这可以优化电子商务平台的筛选功能使用户更容易找到合适的产品。

  a.2017年12月2日至12月3日为周六和周日。点击量急剧增加被怀疑是平台推广。在一天的不同时段点击量从19:00开始稳步上升在22点达到峰值23点略有下降24点显著下降。大多数用户会在晚上购物平台会推出活动来获得顾客的首选-----在晚上他们可以进行促销邀请朋友享受折扣增加用户数量利用口碑渠道获得新客户。

  1通过画出保值率与使用年份的散点图并作出简单拟合可以得出结论。车龄与保值率有很强的负相关指数拟合曲线拟合程度更高。

  优秀的数据可视化图表不仅仅是简单的罗列、总结数据......数据可视化的真正价值是设计出被读者轻松理解的数据展示

  ,但其中的深层逻辑对于未来仍有启发。本文力图从企业运营和管理的角度,梳理出发...

  方法与处理大量数据的复杂算法相结合。 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。 数据挖掘(Data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。 数据挖掘的基本任务 利用分类与预测、聚类分

  的一般过程 明确项目背景,待解决的问题 ; 分析逻辑,画出逻辑树,明确分析过程中的指标 ; 提数分析,同时进行可视化 ; 写分析报告 ; 数据来源及内容 数据来源以及代码参考

  63 本文在原有代码的基础上进行了进一步的整合分析。 数据内容 数据内容主要是行为数据。

  在我们的日常生活中起到的作用越来越重要,应用的场景也越来越多,在各个行业,都有

  的应用,提高了行业内的竞争力,同时对于消费者而言也是有利的。商家的活动针对性更强,同时节约了成本。下面,我将通过几个

  .医疗行业 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通...

  、体育赛事预测 世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。 “在百度对世界杯的预测中,我们一共考虑了团队实力、主场优势、最近表现、...

  0)。这里主要用python进行分析,主要内容分为:单变量,双变量,和多变量分析。 注意:我们在分析数据之前,一定要先了解数据。

  .导入python中相关的库 import numpy as np import pandas as pd import matplotlib....

  数据说明: 给定的数据为业务情景数据,所有数据均已进⾏了采样和脱敏处理,字段取值与分布均与真实业务数据不同。提供了时间为 20

  hk8hARHxkQcMS8SgABmcHQ 密码: fc7z 文件...

  、数据说明:该数据是以json格式储存的,该数据集共有十八个维度,我在这里只做两个任务。 a. 对时区进行计数 b. 对windows以及非windows用户进行分组统计,并统计出在相同时区下Windows用户和非Windows用户的百分数占比。 #用pandas对其进行展示,并进行可视化。 import json import pandas as pd im...

  第35题可使用这个函数: find_in_set(str,list)分析逗号分隔的list列表,如果发现str,返回str在list中的位置

 网站地图