EKS通常阅历分享Spark Amazon on EnginePlus受邀加入亚马逊云科技中国峰会

koi

2024-11-15发布
关注私信

667 282 170

近日，亚马逊云科技中国峰会在上海召开。亚马逊云科技的泛滥技术协作同伴受邀缺席峰会，围绕“构建新格式，重塑云时代”的主题，启动了系列主题演讲和产品展现，分享云计算畛域的先进技术阅历与企业成功通常。

Mobvista汇量科技资深架构师、EnginePlus产品担任人陈绪也到来现场，与嘉宾们分享了在Amazon Elastic KubernetesService (Amazon EKS) 上部署Spark的干货阅历，并以Mobvista汇量科技自身为例，引见了Spark on AmazonEKS的业务虚践成绩。

Spark on EKS: 业务增长带来应战

记者了解到，Spark 作为宽泛运行的大数据处置框架，提供了丰盛的DataFrame接口以及SQL查问的性能，同时也可以经过PySpark对接深度学习框架。据悉，汇量科技经常使用的Spark集群承当了大规模ETL、数据处置剖析、Ad-hoc查问，以及算法模型训练的关键义务，如今离线计算集群有上万CPU**，每日处置PB级的数据。

陈绪引见道，其团队最后驳回HDP，在EC2上搭建了弹性的Hadoop服务，但随着业务规模的开展，更多的应战开局浮现：一方面，团队宿愿各业务线之间可成功资源隔离，同时具有高效的弹性才干，以保证业务产出时效性;另一方面，系统遇到大规模的暂时查问作业时，查问数据量可达数十TB，这给集群的弹性伸缩带来了很大压力。对此，陈绪示意：“弹性伸缩的效率影响着作业口头时期和总体老本。因此，咱们经过调研，开局尝试经过容器化的架构来处置上述疑问。

汇量科技业务虚践成绩：EnginePlus

陈绪引见称，团队选用了Amazon EKS服务来搭建容器化Spark计算平台：“将不同的组件划分到若干不同的NodeGroup，包含SparkDriver、SparkExecutor，以及Zeppelin、Jupyter的Notebook”，从而为不同类型的节点组性能不同的资源类型，并区分成功弹性伸缩，取得更好的性价比。

提到EC2机型选用时，陈绪示意，关于大规模shuffle的作业，磁盘的IOPS和读写吞吐要求都很高，因此在大规模ETL集群中，团队会优先选用M5d、C5d、R5d等带有本地nvme磁盘的机型。在陈绪团队的消费集群上，IOPS可到达万级别，读写吞吐可以到达GB级别，而经常使用本地nvme磁盘机型，可以很好地处置磁盘性能瓶颈疑问。此外，陈绪还从资源治理、作业形态和日志、版本和局部bug修复等角度进一步讨论了Spark on AmazonEKS的业务虚践，并为来宾们引见了一系列技术通常的成绩——汇量科技自研的一站式云原生大数据和人工默认平台EnginePlus。

据了解，EnginePlus 将数据湖、计算剖析、人工默认集成在一致平台上，提供面向多种业务场景的实时数据湖框架 StarLake、机器学习框架MindAlpha 等自研开源工具，并能够与 Spark 计算框架深度集成，其实用场景包含互联网金融、出海电商、移动广告等。

陈绪引见称，在亚马逊S3存储和EKS之上，EnginePlus部署了StarLake数据湖框架和Spark云原生计算框架，从而构成了湖仓一体的一致计算引擎。在天级大作业的迁徙中，与Yarn相比，在AmazonEKS上部署Spark后，作业耗时大幅缩短。同时EnginePlus也针对容器化环境做了很多bug修复和易用性优化的开发上班，协助用户更好更繁难地在云上经常使用EnginePlus。

目前，EnginePlus曾经上线亚马逊云科技Marketplace，助力世界企业成功新一代数据默认开发，束缚业务消费劲。未来，EnginePlus将与亚马逊云科技携手并进，以其云原生、一站式数据默认的服务，赋能更多用户。

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#亚马逊 #EnginePlus #云科技

EKS通常阅历 分享Spark Amazon on EnginePlus受邀加入亚马逊云科技中国峰会

EKS通常阅历分享Spark Amazon on EnginePlus受邀加入亚马逊云科技中国峰会