Bazel 非常复杂,在构建过程中会执行许多不同的操作,其中一些操作可能会影响构建性能。本页面尝试将其中一些 Bazel 概念与其对构建性能的影响进行了对应。我们在本文中列举了一些示例,介绍了如何通过提取指标来检测 build 性能问题,以及如何解决这些问题。因此,我们希望您在调查 build 性能回归问题时应用这些概念。
干净构建与增量构建
干净 build 是指从头开始构建所有内容,而增量 build 会重复使用部分已完成的工作。
我们建议您分别查看干净构建和增量构建,尤其是在您收集 / 汇总取决于 Bazel 缓存状态的指标(例如构建请求大小指标)时。这些指标也代表了两种不同的用户体验。与从头开始进行干净 build(由于缓存处于冷状态,因此需要更长时间)相比,随着开发者迭代代码,增量 build 的发生频率要高得多(由于缓存通常已处于温状态,因此速度通常更快)。
您可以使用 BEP 中的 CumulativeMetrics.num_analyses
字段对 build 进行分类。如果为 num_analyses <= 1
,则表示是干净 build;否则,我们可以大致将其归类为增量 build,因为用户可能已切换到其他标志或其他目标,导致实际上是干净 build。对增量的任何更严格的定义可能都必须以启发法的形式进行,例如查看已加载的软件包的数量 (PackageMetrics.packages_loaded
)。
将确定性 build 指标用作 build 性能的代理
由于某些指标(例如 Bazel 的 CPU 时间或远程集群上的队列时间)具有非确定性,因此衡量构建性能可能很困难。因此,使用确定性指标来衡量 Bazel 完成的工作量非常有用,因为工作量会影响 Bazel 的性能。
构建请求的大小会对构建性能产生重大影响。构建图的分析和构建工作量可能会随着 build 变大而增加。开发过程中自然会出现 build 的自然增长,因为系统会添加/创建更多依赖项,复杂性也随之增加,构建费用也会随之增加。
我们可以将此问题细分为各种构建阶段,并使用以下指标作为每个阶段完成的工作的代理指标:
PackageMetrics.packages_loaded
:成功加载的软件包数量。此处的回归表示需要执行更多工作才能在加载阶段读取和解析每个额外的 BUILD 文件。TargetMetrics.targets_configured
:表示 build 中配置的目标和方面的数量。回归表示在构建和遍历已配置的目标图方面需要完成更多工作。- 这通常是因为添加了依赖项,并且必须构建其传递闭包的图。
- 使用 cquery 查找可能添加了新依赖项的位置。
ActionSummary.actions_created
:表示在构建中创建的操作,回归表示构建操作图需要完成更多工作。请注意,这还包括可能未执行的未使用的操作。- 使用 aquery 调试回归问题;我们建议先使用
--output=summary
,然后再使用--skyframe_state
进一步展开细目。
- 使用 aquery 调试回归问题;我们建议先使用
ActionSummary.actions_executed
:执行的操作数量,回归直接表示执行这些操作的工作量增加。- BEP 会写出操作统计信息
ActionData
,其中显示执行次数最多的操作类型。默认情况下,它会收集前 20 个操作类型,但您可以传入--experimental_record_metrics_for_all_mnemonics
来收集已执行的所有操作类型的此类数据。 - 这应该还可以帮助您弄清楚执行了哪些操作。
- BEP 会写出操作统计信息
BuildGraphSummary.outputArtifactCount
:已执行操作创建的工件数量。- 如果执行的操作数量没有增加,则可能是因为规则实现方式发生了变化。
这些指标都受本地缓存状态的影响,因此您需要确保从中提取这些指标的 build 是干净的 build。
我们注意到,如果其中任何指标出现回归,系统可能会同时出现实际运行时间、CPU 时间和内存用量回归。
本地资源的使用
Bazel 会消耗本地机器上的各种资源(用于分析构建图、驱动执行以及运行本地操作),这可能会影响机器在执行构建以及执行其他任务时的性能 / 可用性。
所用时间
最容易受到噪声影响(并且可能因 build 而异)的指标可能是时间;尤其是系统时间、CPU 时间和实际运行时间。您可以使用 bazel-bench 获取这些指标的基准,并且通过足够数量的 --runs
,您可以提高测量的统计显著性。
实际时间是实际经过的时间。
- 如果仅系统运行时间出现回归,我们建议收集 JSON 轨迹配置文件并查找差异。否则,调查其他回归指标可能更有效率,因为它们可能会影响时钟时间。
CPU 时间是 CPU 执行用户代码所花费的时间。
- 如果两个项目提交之间的 CPU 时间出现回归,我们建议收集 Starlark CPU 性能剖析文件。您可能还应使用
--nobuild
将构建限制在分析阶段,因为大部分 CPU 密集型工作都是在该阶段完成的。
- 如果两个项目提交之间的 CPU 时间出现回归,我们建议收集 Starlark CPU 性能剖析文件。您可能还应使用
系统时间是 CPU 在内核中花费的时间。
- 如果系统时间回归,则当 Bazel 从文件系统读取文件时,它主要与 I/O 相关。
系统级负载性能分析
JSON 轨迹分析器使用 Bazel 6.0 中引入的 --experimental_collect_load_average_in_profiler
标志,在调用期间收集系统平均负载。
图 1. 包含系统平均负载的配置文件。
Bazel 调用期间出现高负载可能表示 Bazel 为您的机器并行安排了太多的本地操作。您可能需要考虑调整 --local_cpu_resources
和 --local_ram_resources
,尤其是在容器环境中(至少在 #16512 合并之前)。
监控 Bazel 内存用量
获取 Bazel 内存用量的主要来源有两个,即 Bazel info
和 BEP。
bazel info used-heap-size-after-gc
:调用System.gc()
后使用的内存量(以字节为单位)。- Bazel bench 也提供了此指标的基准。
- 此外,还有
peak-heap-size
、max-heap-size
、used-heap-size
和committed-heap-size
(请参阅文档),但相关性较低。
BEP 的
MemoryMetrics.peak_post_gc_heap_size
:垃圾回收后 JVM 堆峰值大小(需要设置尝试强制执行完整垃圾回收的--memory_profile
)。
内存用量回归通常是由于build 请求大小指标回归所致,这通常是由于添加了依赖项或规则实现发生了变化所致。
如需更精细地分析 Bazel 的内存占用情况,我们建议您为规则使用内置内存性能分析器。
对永久性工作器的内存性能分析
虽然永久性工作器有助于显著加快构建速度(尤其是对于解释型语言),但其内存占用量可能会出现问题。Bazel 会收集其工作器的指标,尤其是 WorkerMetrics.WorkerStats.worker_memory_in_kb
字段会指明工作器使用的内存量(通过助记符)。
JSON 轨迹性能分析器还会通过传入 --experimental_collect_system_network_usage
标志(Bazel 6.0 中的新标志)来收集调用期间的永久性工作器内存用量。
图 2. 包含工作器内存用量的配置文件。
降低 --worker_max_instances
的值(默认值为 4)可能会有助于减少永久性工作器使用的内存量。我们正在积极努力让 Bazel 的资源管理器和调度程序变得更智能,以便日后减少进行此类微调的频率。
监控远程 build 的网络流量
在远程执行中,Bazel 会下载执行操作时构建的工件。因此,网络带宽可能会影响 build 的性能。
如果您要对 build 使用远程执行,不妨考虑使用 BEP 中的 NetworkMetrics.SystemNetworkStats
proto 监控调用期间的网络流量(需要传递 --experimental_collect_system_network_usage
)。
此外,通过JSON 轨迹配置文件,您可以通过传递 --experimental_collect_system_network_usage
标志(Bazel 6.0 中的新标志)查看整个构建过程中的系统级网络使用情况。
图 3. 包含系统级网络使用情况的配置文件。
使用远程执行时网络使用率较高但变化不大,可能表示网络是构建过程中的瓶颈;如果您尚未使用该功能,不妨考虑通过传递 --remote_download_minimal
来启用“Build without the Bytes”。这样可以避免下载不必要的中间工件,从而加快构建速度。
另一种方法是配置本地磁盘缓存,以节省下载带宽。