您的浏览器禁用了javascript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系尊龙凯时网址。[中国数据智能管理峰会]:大数据在微众银行数据管理和应用方面思考和实践 -尊龙凯时人生就博
当前位置:尊龙凯时网址首页//报告详情/

[中国数据智能管理峰会]:大数据在微众银行数据管理和应用方面思考和实践 -尊龙凯时人生就博

2023-03-31邹普自***
" data-src="https://public.fxbaogao.com/report-image/2023/03/31/3669329-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" data-sizes="200px" data-error="fx-img-error-default;;;height: 720px;" data-srcset="https://public.fxbaogao.com/report-image/2023/03/31/3669329-1.png?x-oss-process=image/crop,x_0,y_0,w_1980,h_2800/resize,p_60" class="lazy"/>

大数据在微众银行数据管理和应用方面思考和实践日期:2023年03月31日演讲人:微众银行·邹普 目录0102030405背景介绍微众银行大数据it架构实时大数据应用面临的困惑和实践探索离线大数据管理和应用方面探索和实践未来规划 背景介绍 1.1 数据增长趋势global2018年约33zb2025年约175zb内容来源: idc数据时代2025china2018年约7.6zb 23.4 25年约8.6zb 27.8%全球数据圈规模(2010-2025) 应用潜力大·客户管理·风险控制·智能预测数据质量高·一致性要求高·容错率低下·准确度要求高数据量大·如银行业每100万美元收入实际数据量约820gb·金融交易数据线上化占比日趋增多结构化数据突出·客户数据·交易数据·行为数据1.2 金融数据的特点 1.3 银行大数据技术愿景质量效率成本 微众银行大数据it架构 2.1 微众银行大数据it架构关系型数据库非关系型数据库数据文件消息数据交换批量计算交互式计算实时计算复杂计算数据存储hive on hadoopsparksqlmapreducespark streamingstormflink复杂计算cpu复杂计算gpu日志平台工具数据工具应用工具功能平台数据治理数据安全运营管理数据报表数据分析反洗钱用户画像精准营销个性推荐监管报送数据归档存款平台应用贷款平台应用其他应用企同平台应用科管平台应用消金平台应用tbase/tidbes文件存储hadoop hdfshbase共享存储spark thriftserverspark sqltbase/tidbhbasephoenix on hbasekylin存款平台应用 准实时同步app准实时binlogkafka集群kafka集群统一抽数数据仓库hb ae集群(主)hb ae集群(备)查询系统查询系统分布式联机系统分布式联机系统idc多活appbdp2.2 核心大数据架构 实时大数据 ·金融系统高可用要求·集群一致性单idc风险·gc·合并·热点服务稳定性差·易接入·易运营/维护接入开发繁琐13.1 实时查询面临的痛点23 初始阶段·实时集群hbase和跑批共用hdfs·业务混用实时hbase集群集群拆分·部门/科室·业务场景进程剥离·rs拆分·gc参数调优010302跨集群多活·应用多活改造·大数据服务治理043.2 平台hbase的优化历程 主集群备集群其他集群多读多写client-metric规则引擎规则指标搜集运行状态报告健康监听连接器连接器连接器mcb as e操作平台元定义元校验元应用hive外表随机校验表全校验资源隔离资源限制资源监控连接器meta统计模块连接器组资源管理3.3 跨集群多活整体方案稳定性便捷性 t0t1融合游标分页通用sdkd1列簇d0列簇col1col2col3col4col5col1col2col3col4col5row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××row××××××××××第1页第2页t日分界3.4 实时查询应用实践之性能d0/d1列簇col1col2col3col4col5row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××row×××××t日分界内存分页游标分页afterbefore 3.5 实时查询应用实践之元数据hive数据仓库db online sourcedatabasedatabase...客户端online系统数据清洗业务数据t0数据hbasespark streamingspark enginermb(rpc)调用核心t0数据入库hbasedb : tdsq ldb : tdsq ldb : tdsq lrowkey规则列簇column读取校验应用读取校验应用读取校验应用联机系统服务元数据模型定期巡检t0准实时t1推数t0 rmb实时调用配置中心大数据查询系统大数据查询系统自动代码生成hbase元数据中心spark streaming 离线大数据 研发质量差任务依赖紊乱数据繁杂人力投入成本高•解释性脚本语言特性•流程难约束•任务作业多, 回归效率慢•依赖血缘评估准确度低•跨条线、部门依赖多•数据管理难度大•数据处理投入多•工具化缺乏4.1 离线大数据管理和应用破局之道研发标准任务重塑数据管理工具/平台化•研发流程•开发框架•回归测试•风险评估•数据模型•数据质量把控•数据提取•数据修复应用痛点应对之道 4.2 研发标准之流程业务需求准生产生产系统需求脚本管理作业任务自动化验证发布包路标开发阶段masterfixhotfixrelease基准环境联机校验模型拆表报送加工报表其他脚本扫描sqlscan规范扫描sonarsdl扫描dmpace situat测试环境回归流水线aomp表ddl系统 负责人业务pmpm分支管理开发质量物料生产验证测试防火墙 4.3 研发标准之框架调度系统job定义存储优化(拉链)导数(hbase)任务防重bdap变量控制线程管理脱敏数据质量日志管理异常标准化api封装指标采集文件外发小文件...等等作业管理工作节点工作节点工作节点工作节点代码扫描sql/hql管理开发白皮书流程管理作业开发任务编排信号收发submithadoophivesparkhbaseflinkesyarn 数据处理系统业务公共 业务抽象基础框架打标邮件发送拆表rmb 账户dwd层ods层ads层公共域老贴源(deposit/history_×××)对公拆表- 二级产品 三级产品对私拆表- 三级产品内部户拆表- 二级产品 三级产品dafbdc外围下游外围监管正常模型ads表bulkload表...等内部下游dim层bdapdws层特敏行列权限隔离对公账户管理域 交易域会计域 风控域 产品域 对私定期活期存放同业view指标/统计-- 最大交易日-- 6月不动户-- 交易汇总-- 等等运营域 新贴源(deposit_ods)bdc n(depods_×××)渠道摘要等等4.3 数据模型分层设计 4.4 数据管理之模型分层规范ads_根据业务需求命名dws_数据域_统计粒度_业务过程_统计周期(1d/nd/m)dwd_数据域_表名_(di/df)ods_外部表名_di/df dim_自定义_(df/zip) 模型命名规范:数据域:账户管理域/交易域/风控域/产品域/会计域/运营域/公共域 大数据系统业务规则系统规则测试数据类型一致性生产开发环境准生产字典(枚举)一致性主键鉴重/字段鉴空多子系统元数据校验趋势波动外联校验sit环境uat环境数据加工联机系统数据仓库系统校验引擎规则度量质量报告异常分发行号校验渠道校验户名校验业务自定义规则集回归生产数据试点日常调度主路监控质量规则联机阻断元数据定义开发插件事前预防事中控制事后发现4.5 数据管理之数据质量 jobjobjobjobjobjobjobjobjobjobjobjobjobjobjobjobflowflowflow...targettable血缘获取•表、字段血缘•作业流和表的血缘•信号依赖任务重塑•血缘任务整理•精简作业流•测试效率提升•降低业务门槛测试效率下游管理•上下游管理和风险评估•自动化提升实施效率下游依赖4.6 任务重塑之智能跑批 jobjobjobjobjobjobjobjobjobjobjobjobjobjobjobjobflowflowflow...targettable血缘获取•表、字段血缘•作业流和表的血缘•信号依赖任务重塑•血缘任务整理•精简作业流•测试效率提升•降低业务门槛测试效率下游管理•上下游管理和风险评估•自动化提升实施效率下游依赖4.7 任务重塑之智能跑批 4.8 平台化之autofix痛点分析 4.9 平台化之autofix智能跑批核心bdp统一修复作业任务业务dpc_deposit_fix_source_bdpdpc_deposit_fix_source_biz数据修改单数据授权数据整合dpc_deposit_merge数据备份数据清洗after:合并后校验下游直接血缘任务血缘树分析任务树重塑下游通知/重跑dpc_deposit_fix_check_definebefor e:整合后校验质量报告阻碍项异常业务类异常清洗报告标准化归档黑名单白名单itsm/datamap问题单操作令牌校验模型 7*24问题日期分片模型统一性能优化标准管理历史归档分布式版本控制系统多版本审计看板指标元数据dm(自动采集)dm(数据审批)基准库基准数据数据开发业务开发(监管)生产决策供数复核· 归档· 分析· 决策4.10 平台化之取数平台 ·可用率提升约60%·效率提升约80%·研发问题减少约40%·效率提升约35%离线实时4.11 实时数据和离线数据管理应用落地效果 未来演进方向 5.1 未来规划-开发框架平台化/可视化-部分场景探索newsql(tidb)应用-数据模型和集市优化(精细化运营)-数据质量持续性保障 thankyou!

关于尊龙凯时网址

发现报告是苏州互方得信息科技有限公司推出的专业研报平台。平台全面覆盖宏观策略、行业分析、公司研究、财报、招股书、定制报告等内容。通过前沿的技术和便捷的产品体验,为金融从业人员、投资者、市场运营等提供信息获取和整合的专业服务。

商务合作、企业采购、机构入驻、报告发布 > 添加微信:hufangde04

联系尊龙凯时网址

0512-88971002

hfd04@hufangde.com

中国(江苏)自由贸易试验区苏州片区苏州工业园区旺墩路269号星座商务广场1幢圆融中心33楼

微信公众号

发现报告

微信公众号

发现报告商业局

© 2018-2024 苏州互方得信息科技有限公司

||

网站地图