恒丰银行大数据集群实施与运维

数据流转与清洗

通过ETL(kettle、sqoop2)将RDBMS中的数据抽取到hadoop平台,经过数据稽核建立外表清除脏数据,再结合Hive中自定义UDF、UDAF、UDTF函数实现用户定制数据的转换和查询。

集群运维

集群的升级、客户故障排错、统计Hive表结构、PL/SQL的优化、IDC日常巡检(机房清洁巡检、机柜电力巡检、空调设备巡检、设备电源状态巡检)。

完成目标

由于星环科技的TDH较好的支持了SQL2003标准和PL/SQL语法,恒丰银行大数据应用项目从2015年5月开始,仅花费10天时间,完成了数据仓库平台从Oracle产品到Hadoop平台的迁移工作,整体处理能力获得了5-10倍的提升,解决了以往大体量数据统计分析应用相应很慢的问题,极大减轻各应用系统现有数据库的处理资源瓶颈问题。