马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

距离 2022 年 10 月 27 日马斯克以 440 亿美元完成 Twitter(现更名为 X 平台)私有化交易已然过去整整一年的时间。这一年里,马斯克大刀阔斧地改革,譬如大裁员重构 Twitter 2.0下场亲测各种功能要求员工到办公室上班……种种操作之下,不断地刷新了外界对于这位 CEO 以及最新 X 平台的认知。

更让人称奇的是,Twitter 在曾经有大约 8000 名员工,现如今只有 2000 名不到的情况下,平台依然运行良好,还上线了不少新的功能,这究竟是怎么做到的?

2023 年 10 月 27 日,X 平台的工程团队最新发布了一篇长帖透露了该平台运行的现状,以及其逆风而行之下采取的“下云”实践。短时间之内,这篇帖子已经吸引了 3618 万的关注度,更引发了数千条的评论。

马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

马斯克以 440 亿收购 X 平台这一年

在这篇帖子中,X 平台工程团队表示,“这一年 X 平台实现了工程卓越性进步,有时可能会被忽视”,进而其回顾了过去一年这个知名社交媒体平台在架构上所做出的改变。

详细来看,X 平台内部进行的一些最重要的改进如下:

  • 围绕一个统一的产品框架,整合了”For You”、”Following”、”Search”、”Profiles”、”Lists”、”Communities”和”Explore”的技术堆栈。
  • 从头开始完全重建了”For You”的服务和排名系统,导致代码行数减少了90%,从 70 万行减少到 7 万行,计算占用减少了 50%,每次请求中评分的帖子吞吐量增加了 80%。
  • 统一了”For You”和视频个性化以及排名模型,显著提高了视频推荐质量。
  • 重构了技术堆栈的 API 中间件层,简化了架构,去掉了超过 10 万行代码和数千个未使用的内部端点,并消除了未被采纳的客户服务。
  • 将帖子元数据获取延迟降低了 50%,全球 API 超时错误降低了 90%。
  • 阻止了机器人和内容抓取,速度比 2022 年增加了 37%。平均每天我们阻止了 100 多万次机器人注册攻击,减少了 95% 的直接消息垃圾邮件。
  • 关闭了萨克拉门托数据中心,重新配置了 5200 个机架和 14.8 万台服务器,带来了每年超过 1 亿美元的节省。总共,X 平台释放了 48 兆瓦的容量,重新配置了 60,000 磅的网络梯架,然后将其提供给其他数据中心。
  • 优化了 X 平台对云服务提供商的使用,并开始更多地在本地进行。这一转变使 X 平台的月度云成本降低了 60%。X 平台的工程团队所做的变化之一是将所有媒体/数据块工件从云中移出,这将其云数据存储大小降低了 60%,另外,该团队成功地将云数据处理成本降低了 75%。
  • 建立了本地 GPU 超级计算集群,设计、开发并交付了 43.2Tbps 的新网络结构,以支持这些集群。
  • 扩展了网络主干容量和冗余性,每年节省了 1390 万美元。
  • 开始自动化的高峰流量故障转移测试,以持续验证整个平台的可扩展性和可用性。

马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

在上述所做的 11 项调整列表中,最吸引人注目的无疑是 X 平台开始尝试“下云”带来的成本变化。

回顾技术圈的发展历程,随着互联网的普及、虚拟化技术的发展、大数据和分布式计算需求的涌现,越来越多的传统企业开始转型,采用按需的方式付费,避免了昂贵的硬件和基础设施投资,这使小型和中型企业能够以更低的成本获得弹性计算资源,上云由此也成为技术演进的一种必然趋势。

然而,就在上云如火如荼地进行了十多年之后,综合成本控制、数据隐私、安全性或者业务需求的改变等因素,一股“下云”的风潮悄然刮起,如今 X 平台便是最新实践者之一。

马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

节省资金,X 平台选择“下云”

事实上,“上云”亦或是“下云”,究竟是节约成本,还是增加成本,主要是因企业规模的不同而具有差异化,对于 X 平台而言,在今年早些时候,外媒 CloudZero 曾做过剖析。

其中,Twitter(现为 X 平台)在 2020 年 12 月宣布将使用 AWS 为其主时间线提供支持。当时,只知道两家公司签订了一份“多年期”协议,即 Twitter 和 AWS 将合作扩展社交媒体平台的基础设施、更快地发布功能并扩大其服务组合等,但其并没有对外透露过具体合作协议的数额。

直至今年 3 月,The Information 在一篇报道中披露,Twitter 和 AWS 双方签订了一份为期五年半、价值 5.1 亿美元的合同。除了与 AWS 签订协议之外,更早之前,Twitter 还和 Google Cloud 签订了一份价值 10 亿美元的合同。

同时,按照原来的协议,无论 Twitter 是否使用 AWS 的容量,其都同意向亚马逊支付费用。

然而,一切在马斯克接管 Twitter 之后,发生了巨大的变化。马斯克后来在梳理 Twitter 整体业务时,惊讶地发现 Twitter 现金流为负、仍未实现盈利,这也才有了文章伊始所提及他对 Twitter 做的一系列调整,并尽可能地去节约成本,自然云基础设施的成本也在考虑范畴。

后来,Twitter 关闭了在收到过多流量时使用的一些额外服务器容量,也尝试与 AWS、Google Cloud 和 Oracle 重新谈判有关云服务的合同,但有消息称,供应商不愿意重新谈判。对此,外媒 The Information 也爆料称,那时的 Twitter 共拖欠亚马逊 AWS 近 7000 万美元服务费。

当然,对于这笔资金,Twitter 是否有偿还尚未可知。但是通过其工程团队的最新推文,显然 Twitter 已经通过了「下云」节省了一笔不菲的资金支出。

马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

“下云”真的能省钱吗?

面对 X 平台公开“下云”带来的最新成本变化,被视为软件天才的 Ruby on Rails 创始人 DAVID HEINEMEIER HANSSON(简称 DHH)在第一时间发表了一篇《X celebrates 60% savings from cloud exit》(X 庆祝退出云后节省了 60%)的文章,他评价道:

「X 平台已经将 #CloudExit 作为其节约成本计划的关键组成部分。X 平台通过将工作从云端转移到他们自己的服务器上,每月的云成本降低了 60%。根据早期的报告,X 每年向 AWS 支付 1 亿美元,所以如果我们以这个数字为基础,他们目前正在云退出成就上节省 6000 万美元/年。太不可思议了!

……

CFO 和投资者不会对此视而不见。如果像马斯克正在证明的那样,可以用四分之一的员工运营像 X 这样的操作,并且仍然能够从”下云”中获得巨大利润,那么你就知道在许多情况下,大多数大型公司离开云计算都有巨大的节约等待着被释放。」

作为“下云”深度支持者,DHH 在今年 2 月便声称,自家应用程序在“下云”之后,预估将正在未来五年内节省约 700 万美元的服务器费用,而不用改变现有的运维团队规模。

为了详细说明,他还算了一笔账:

在 2022 年,其在云上花费了 320 万美元。其中将近 100 万美元用于在 S3 中存储 8PB 的文件,完全在多个区域进行了复制。剩下的约 230 万美元用于其他一切:应用服务器、缓存服务器、数据库服务器、搜索服务器等等。

这是其打算在 2023 年将云成本降至零的部分,并考虑在 2024 年退出 S3 中的 8PB 数据。

在经过深思熟虑、许多基准测试以及对 AMD 的新 Zen4 芯片与 Gen 4 NVMe 驱动速度考量之后,其打算向戴尔下订单,大约 60 万美元左右。

在云计算时代,花 60 万美元购买一堆硬件可能听起来很多。但如果在保守的五年内摊销,每年只需 12 万美元!

当然,这只是硬件的费用。它们还必须连接到电源和带宽。其目前通过 Deft 在两个数据中心之间每月花费大约 6 万美元来租用八个专用机架。然后,故意过度配置了空间,因此实际上只需要将所有这些新服务器放在现有机架中,而不需要更多的空间或电源。因此,支出仍然约为 72 万美元/年。

这总共是每年 84 万美元的费用。与云计算的 230 万美元相比,其将拥有更快速的硬件、更多的核心、极为便宜的 NVMe 存储,以及以非常低的成本扩展的空间(只要我们仍然可以放入每个数据中心的四个机架中)。

粗略地说,这可以让其每年节省 150 万美元。在此期间留出 50 万美元用于不可预见的费用,五年内仍然节省了 700 万美元!

与此同时,DHH 表示,#CloudExit 很可能正处于走向主流的关键时刻。

马斯克收购Twitter一年后:全力“下云”,成本速降60%,功能代码从70万行减少至7万!

“下云”是控制成本最有效的方式?

不过,对于现在不少还处于云业务转型过程中、以及从“云”种受益的很多公司而言,其无法认同“下云”的这一步操作。来自 HN 上的用户更是直言:

譬如 X 平台,他们在云计算上的花费减少了 60%,在本地完成了同样的工作,而成本却没有说明。而他们(和 DHH)显然认为,在描述他们的成就时,成本核算(即使是模糊和初步的方式)并不重要。

也有用户 @HillRat 认为:

Twitter 确实与 GCP(Google云端平台 ,Google Cloud Platform)签订了一份非常糟糕的固定成本合同,导致他们有大量未使用的云容量,而这些云容量的价格却过高。关闭数据中心可能会给他们留下大量的资本化设备,他们可以将 GCP 托管的数据处理转移到这些设备上。

换句话说,这些节省可能并非来自实际的技术效率,而只是摆脱了糟糕的合同状况,并利用了大量已经获得的硬件。(此外,X/Twitter 可能也无法使用 Twitter 所要求的报告和分析基础设施,因此关闭这些设施在业务流程上也不会有太大损失)。

对此,你怎么看待“上云”vs“下云”的趋势?

参考:

https://www.cloudzero.com/blog/twitter-aws

https://news.ycombinator.com/item?id=38041181

https://twitter.com/XEng/status/1717754398410240018

https://world.hey.com/dhh/we-stand-to-save-7m-over-five-years-from-our-cloud-exit-53996caa

https://world.hey.com/dhh/x-celebrates-60-savings-from-cloud-exit-7cc26895

以上文章内容仅代表原作者观点,不代表今日指点观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与今日指点联系。

发表评论