Flink Forward Asia 2019 | 总结和展望(附PPT)

  • 时间:
  • 浏览:0

可能篇幅关系,这里就不作展开了,分议题清单和所有PPT资料请“点击下载”

下面讨论一下第俩个维度:为什么会么会会么会 Stateful Function 比现有的处理方案更好。我的理解是 Stateful Function 提供了更清晰的 abstraction。Stateful Function 把消息传输、清况 管理从 Function 中隔离出来,使得用户只时要关注 Function 计算逻辑四种 ,而不时要关注 Function 的调度,组合等问题,这也使得 Stateful Function 框架能有更多的自由度为 Function 调度组合等问题做优化。当然这全都 我买车人的理解,抛砖引玉。

除了参会人数的迅速了 了 增加,多元化也是今年 FFA 的一大闪光点。笔者根据大会纲要数了一下,为宜有超过 25 家来自北美,欧洲和亚洲的公司,高校以及科研机构参与分享了超过 45 个议题。国内外一线大牌互联网公司齐聚一堂,其乐融融。这也说明太久的业界公司更加看好 Flink,何如让高度参与 Flink 的规划与发展,这无论是对 Flink 的未来还是 Flink 社区的发展都是非常积极的意义。

有点硬是在应用逻辑非常繁杂的清况 下,应用逻辑之间的组合调用会更加繁杂,何如让加剧里边俩个痛点的繁杂度。

在主议题而是有俩个 环节值得提一提。一是作为主场的阿里云智能请出阿里集团 CTO 兼阿里云智能总裁张建锋作为开场嘉宾进一步强化阿里集团以数据智能为驱动,All in Cloud 的决心以及开源的 Flink 在此过程中起到的关键性作用。下图很好地提炼了他的演讲。

你四种 议题四种 也很有趣。不可处理的,亲戚亲戚朋友儿会想到流式存储和通常意义上的消息队列系统(相似 Kafka)之间有什么区别,毕竟 infinite retention 的消息队列系统也可不时要被看成是俩个 stream storage。从前比较有趣的问题是一体化的抽象应该在哪个层面上来做,以及何如做。换言之,读写否有应该和存储分离,只提供统一的API?可能笔者对 storage 这块儿细节都是有点硬了解,这里就不班门弄斧了,感兴趣的小伙伴亲戚亲戚朋友儿可不时要私下讨论。分议题中还有一场关于 Pulsar 的,也相关,题目叫“基于 Pulsar 和 Flink 进行批流一体的弹性数据处理”。

下面言归正传,聊一聊有2个主议题。

笔者总体的参会感受:引擎一体化和阳态多元化是 Flink 一以贯之的发展策略。引擎一体化指的是离线(batch)实时(streaming)在线(application)应用在执行层面的一体化。生态多元化指的是对 AI 生态环境的搭建和对更多生态的支持,包括 Hive,Python,Kubernetes 等。

设想如图所示的场景,亲戚亲戚朋友儿使用 Lyft 打共享车。在乘客发起打车请求而是,Lyft 首先会根据乘客的定位,空闲司机的清况 ,目的地,交通清况 和买车人喜好给乘客推荐不相似型车辆的定价。在乘客选者定价而是,Lyft 会根据乘客的喜好(比如全都司机被乘客拉了黑名单),司机的喜好(乘客都是可能被司机拉了黑名单),司机和乘客的相对位置以及交通清况 进行匹配,匹配完成后订单开使英文。在你四种 例子中,亲戚亲戚朋友儿会发现:

照例,第俩个 主议题由 Flink 一哥 Stephan Ewen 执棒。作为对 Flink Forward 柏林站的延续,Stephan 继续推广他对 Flink 作为应用服务场景(Applications and Services)通用引擎的展望和规划。简而言之,他认为 Flink 除了也能做到批流一体,Flink 框架对于事件驱动的在线应用也可不时要有效甚至更好的支持,如下图所示:

经过几年的发展,Flink 可能成为 Apache 最活跃的社区和在 Github 上访问量前三的项目。Github 的星数(代表项目受欢迎程度)在 2019 一年之内翻了一番。Apache Flink 在中国本土也更加的普及,下图列出了全都使用 Flink 作为实时计算处理方案的中国公司 logo。

11 月 28 - 60 日,北京迎来了入冬以来的第一场雪,2019 Flink Forward Asia(FFA)也在初雪的召唤下顺利拉开帷幕。尽管天气寒冷,FFA 实际到会人次超过 60 0,同比去年增加近 60 %。

在这届 FFA 中经常强调一体化和多元化的概念,也全都 开篇讲的引擎一体化和阳态多元化,具象化来说有三点:Stateful Function,拥抱AI,云原生。再到下俩个 层面也给 Flink 引擎四种 提出更多的要求,这是挑战当然也是机遇。古语云瑞雪兆丰年, FFA  在北京的初雪中圆满落下帷幕,也让亲戚亲戚朋友儿同時 努力,把握好机遇同時 迎接挑战,共创美好的 Flink 2020。最后,分享一张一哥 Stephan 在 Flink Forward Asia 的 cool 照作为全篇的收尾,亲戚亲戚朋友儿同時 感受一下。

二是由阿里云天池平台和 Intel 联合举办的 Apache Flink 极客挑战赛颁奖仪式。本次比赛吸引了全球超过 60 0 名参赛者,经过俩个月的四轮角逐最终产生共 10 个优胜队伍。值得一提的是获奖选头上有两位女将,未来也期待能有更多的妹子参与进来,放一张照片瞻仰一下。

亲戚亲戚朋友的主要观点是随着流式计算在大企业用户中这麼 广泛的应用,流式计算对存储也产生了新的需求:流式存储。需求来自俩个 方面:一是大型企业用户希望计算框架流程化繁为简,从而提出对流式计算存储一体化的需求;二是批流的计算一体化四种 也对存储提出批流一体化需求。

接下来,笔者将根据买车人参加的议题聊一聊参会的体验和全都买车人的思考,希望能对感兴趣的同学有所助益。

目前所有 Stateful Function 代码均已开源,在获得社区认可后也会 merge 回 Apache Flink,有兴趣的同学可不时要去官网买车人实践一下:https://statefun.io/ 。在分议题 Apache Flink 核心技术中都是一场专门讲 Stateful Function 的实现,使用和 demo,小伙伴们也可不时要去感受一下,题目叫“Stateful Functions: Unlocking the next wave of applications with Stream Processing”。

另外这每项演讲中的俩个 demo 我时要头上一亮。俩个 是基于 Flink + Hive + Zeppelin 的 Flink SQL demo,想看 而是可不时要深刻感受到“可不时要在 Hive 生态上直接运行,这麼 迁移成本“,以及“一套 SQL,批流一体运行”的真正含义。还有俩个 是 Alink ML 基于 Jupyter 的 demo,想看 而是我发现现在机器学习模型训练和使用可不时要这麼 简单,感兴趣的同学可不时要找来看看。

除了 Lyft,在分会场中都是全都 企业参与分享了买车人使用和高度参与 Flink 开发的经验和教训。Flink 不仅在国内公司中深受欢迎,全都 北美欧洲的公司比如 Netflix,Uber 和 Yelp 而是 我多的使用和开发 Flink,感兴趣的同学可不时要关注一下分会场议题中的“企业实践”和“实时数仓”专场。

四天 的 FFA,感触颇深。Flink 创始人之一 Ververica CEO Kostas Tzoumas 感慨说,五年前当亲戚亲戚朋友 5 个初创而是开使英文 Flink 你四种 项目的而是无法想象今天 Flink 能有这麼 大的生态和这麼 广的应用。我我觉得我无法深切体会到他的感受,何如让当前 Flink 社区的繁荣和 Flink 的应用广度是有目共睹的,但更重要的问题是:未来亲戚亲戚朋友儿何如延续你四种 繁荣。Flink 在经历了高性能流式引擎,批流一体两代发展后,亲戚亲戚朋友儿我我觉得时要思考一下未来的 Flink 是什么样的。

我的理解是他所指的应用服务场景(Applications and Services)和传统意义上的 OLTP 相似。云上对此类问题的主流处理方案是现在很火的 FaaS (Function as a Service),但通常会有以下四方面痛点:

对于批流融合,通过 1.9 和 1.10 俩个 版本的发布,Flink 在 SQL 和 Table API 的层面以及 Flink runtime 层面对批流模式可能做到统一。对于 Flink SQL,在 1.10 你四种 版本里边,可能可不时要实现删剪的 DDL 功能,兼容 Hive 生态系统何如让支持 Python UDF。总体得到的讯息是:

Flink 在整个架构中是用来做流数据注入的,Flink 向 AWS S3 以 Parquet 的格式持久化数据,并以什么原始数据为基础,进行多级 non-blocking 的 ETL 加工(压缩去重),建立实时数仓,用于交互式数据查询。在你四种 分享中印象深刻的几点:

在 AI 每项还有俩个 很值得期待的项目是 Flink AI 明年的俩个 重点投入方向:AI Flow。AI Flow 为 AI 链路定制了一套删剪的处理方案:包括从 data acquisition,preprocessing,到 model training & validation & serving 以及 inference 的一整套链路。你四种 方案是针对处理现在 AI 链路里边数据预处理繁杂,离线训练和在线预测脱钩等问题定制的,让亲戚亲戚朋友儿拭目以待。

同時 要我发现里边的什么问题都和 State 的存储(storage),读写(access)以及一致性(consistency)相关,而 Flink 的 Stream Processing 框架可不时要很好的处理什么和清况 相关的问题。全都 Stateful Function 在 Flink 现有的框架上拓展了对 Function Composition 和 Virtual Instance(轻量级的 Function 资源管理)的支持,以达到对应用服务场景(Application)的通用支持。

分会场议题主要围绕着里边俩个主议题展开,分为俩个专场:

在里边的分会场议题开源大数据生态中,Pravega 还有一场更偏技术的分享,包括整体的设计架构,何何如证 exactly once 语义,Stream Segment 何如更方便的提供 scaling up/down 等等,感兴趣的同学也可不时要看看,题目叫“Delivering stream data reliably with Pravega”。

在 AI 每项,2019 Flink 重点主要在优化和铺垫 AI 的基础设施每项:

阿里巴巴通过 1.9 和 1.10 俩个 版本历经 1 年左右将 Blink 中比较通用的每项悉数回馈给 Apache Flink 社区,回馈总代码数超过一百万行。阿里实物的 Blink 内核也逐步会由 Flink 内核替换,何如让推出基于 Flink 内核的企业版 Ververica Platform,明年 1 月会正式商用。

此外还有俩个 重要的方向是 Flink 对云原生生态的支持,具体来说全都 与 Kubernetes 生态的高度融合。Kubernetes 环境可不时要在 multi-user 的场景下提供更好的隔离,对 Flink 在生产的稳定性方面会有所提升。Kubernetes 广泛应用在各种在线业务上,Flink 与 Kubernetes 的高度融合可不时要在更大范围内统一管理运维资源。Kubernetes 生态四种 发展减慢,可不时要给 Flink 在生产中提供更好的运维能力。里边 Lyft 和全都企业在分享中也提到希望 Flink 对 Kubernetes 可不时要原生地支持,都是以上什么方面的考虑。Flink 在 1.10 版本发布后可不时要原生地运行在 Kubernetes 之上。

Flink Forward 是由 Apache 官方授权举办的会议,每年在欧洲、北美洲、亚洲各举办一场。通过参会不仅可不时要了解到 Flink 社区的最新动态和发展计划,还可不时要了解到业界围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者的盛会。去年 12 月 Flink Forward 首次在中国举办,是规模最大、参与人数最多的 Flink Forward 大会。今年 Flink Forward China 正式升级为 Flink Forward Asia,吸引到更多的关注,并于 11 月 28 日在北京开幕。

Stateful Function 在 Flink 开源 Runtime 的基础上很好的处理了 Function Composition 和 State Consistency 的问题。

另外这每项印象比较深刻的全都是:跑 TPC-DS benchmark,Flink 1.10 比 Hive-3.0 快 7 倍:

原文发布时间:2019-12-5

作者 :梅源(Yuan Mei)

本文来自云栖社区公司合作 伙伴“阿里技术”,了解相关信息可不时要关注“阿里技术”。

第二场由阿里巴巴实时计算负责人王峰(阿里花名:莫问)接棒,主要总结了 2019 年 Apache Flink 在一体化引擎发展方面的成果和未来的方向。他认为未来 Flink 的发展趋势是一体化:包括离线(batch)实时(streaming)在线(application)一体化。在此基础上,也时要把拥抱 AI 和云原生纳入到一体化中。里边的内容全都 围绕这三方面来展开的。

主议题的最后一场是 Flink 实践,是由 Lyft 带来的大规模准实时数据分析平台的分享。这里所说的准实时,指端到端数据延迟不超过 5 分钟,在 Lyft 实物主要用于数据交互式查询,下图是 Lyft 准实时平台架构图。

想看 这里可能还是会我我觉得不太直观,我结合买车人的理解再多说两句,亲戚亲戚朋友儿可不时要从俩个 维度理解 Stateful Function:

第俩个 议题是由戴尔科技集团带来的流式存储议题: Pravega。