永久性工作器

报告问题 查看来源 每晚 · 7.4。 ,了解所有最新动态。 7.3 · 7.2 · 7.1 · 7.0 · 6.5

本页介绍了如何使用永久性工作器、工作器的好处、要求以及工作器对沙盒的影响。

永久性工作器是由 Bazel 服务器启动的长时间运行的进程, 用作实际工具(通常是编译器)的封装容器,或者是 工具本身。为了从永久性工作器中受益,该工具必须 支持执行一系列编译,并且封装容器需要将 与下面所述的请求/响应格式相关联。相同 调用 worker 时,无论是否在函数中使用 --persistent_worker 标志, 并负责以适当的方式启动 以及在退出时关闭 worker。系统会为每个工作器实例分配 (但不通过 chroot 到)一个单独的工作目录 <outputBase>/bazel-workers

使用永久性工作器是一种执行策略,可减少启动开销、允许进行更多 JIT 编译,并支持缓存操作执行中的抽象语法树等。此策略通过向长时间运行的进程发送多个请求来实现这些改进。

持久性工作器已针对多种语言实现,包括 Java、ScalaKotlin 等。

使用 NodeJS 运行时的程序可以使用 @bazel/worker 帮助程序库 实现工作器协议

使用持久性工作器

Bazel 0.27 及更高版本 执行构建时默认使用永久性工作器 优先执行对于不支持永久性工作器的操作,Bazel 会回退为每个操作启动一个工具实例。您可以明确指定 通过设置 worker,将构建设置为使用永久性工作器 适用工具的策略 助记符最佳实践是,此示例中包含将 local 指定为 worker 策略的回退策略:

bazel build //my:target --strategy=Javac=worker,local

使用 worker 策略而不是本地策略可以增强编译 具体取决于实施情况。对于 Java,构建速度可提高 2-4 倍,增量编译的速度有时还会更快。使用工作器编译 Bazel 的速度大约是原来的 2.5 倍。有关详情,请参阅 “选择工作器数量”部分。

如果您还有与本地构建匹配的远程构建环境 则可以使用实验性功能 动态策略 它与远程执行和工作器执行竞争。要启用动态 传递 --experimental_spawn_scheduler 标志。此策略会自动启用工作器,因此无需指定 worker 策略,但您仍然可以使用 localsandboxed 作为后备。

选择工作器数量

每个助记符的默认工作器实例数为 4,但可以调整 替换为 worker_max_instances 标志。您需要在充分利用可用 CPU 和 您获得的 JIT 编译和缓存命中量。工作器越多,运行非 JIT 代码和命中冷缓存的启动开销就越多。如果要构建的目标数量较少,单个 Worker 可以 编译速度和资源用量之间的最佳权衡(例如, 请参阅问题 8586worker_max_instances 标志用于设置每个 助记符和标志集(见下文),因此在混合系统中,您最终可能使用 如果您保留默认值,则会获得大量内存。对于增量 build,使用多个工作器实例的好处更小。

此图显示了在具有 64 GB RAM 的 6 核超线程 Intel Xeon 3.5 GHz Linux 工作站上,Bazel(目标 //src:bazel)从头开始编译所需的时间。对于每个工作器配置,系统都会运行五次干净构建,并取最后四次构建的平均值。

整洁 build 性能提升情况图表

图 1. 干净 build 的性能改进图。

对于此配置,两个工作器的编译速度最快,尽管编译速度仅为 14% 如果您希望 使用的内存较少

增量编译通常会带来更大的优势。干净 build 相对较少,但在编译之间更改单个文件很常见,尤其是在测试驱动型开发中。上面的示例还具有一些 对增量编译时间执行打包操作。

仅重新编译 Java 源代码 (//src/main/java/com/google/devtools/build/lib/bazel:BazelServer_deploy.jar) 更改内部字符串常量之后, AbstractContainerizingSandboxedSpawn.java 提供 3 倍的速度提升(通过 1 个预热 build 平均进行 20 次增量构建) 已舍弃):

增量构建的性能改进图

图 2. 增量构建的性能改进图。

加速时间取决于所做的更改。6 倍的加速倍数为 在上述情况中衡量。

修改永久性工作器

您可以传递 --worker_extra_flag 标志,以按助记符指定工作器的启动标志。例如, 传递 --worker_extra_flag=javac=--debug 仅会为 Javac 开启调试功能。 每次使用此标志时,只能设置一个 worker 标志,且只能针对一个 mnemonic。您不仅要为每个助记符单独创建 Worker, 启动标志。助记符和启动的每种组合 标志会组合成 WorkerKey,并且对于每个 WorkerKey,最多 可以创建 worker_max_instances 个工作器。如需了解操作配置如何还可以指定设置标志,请参阅下一部分。

您可以使用 --high_priority_workers 标志,用于指定应优先于普通优先级运行的助记符 助记符这有助于优先考虑始终处于关键 路径。如果有两个或更多高优先级工作器在执行请求,则系统会阻止所有其他工作器运行。此标志可多次使用。

传递 --worker_sandboxing 标志会使每个 worker 请求为其所有输入使用单独的沙盒目录。设置沙盒需要一些额外的时间, 尤其是在 macOS 上,但可以提供更好的正确性保证。

--worker_quit_after_build 标志主要用于调试和性能分析。此标志会强制所有工作器 在构建完成后退出您还可以传递 --worker_verbose,以获取有关工作器正在执行的工作的更多输出。该标记会在 WorkRequest 中的 verbosity 字段,这样工作器实现也能 更详细。

工作器将其日志存储在 <outputBase>/bazel-workers 目录中, 示例 /tmp/_bazel_larsrc/191013354bebe14fdddae77f2679c3ef/bazel-workers/worker-1-Javac.log。 文件名包含 worker ID 和助记符。由于每个记忆法可能有多个 WorkerKey,因此您可能会看到给定记忆法对应的 worker_max_instances 日志文件不止一个。

对于 Android build,请参阅 Android build 性能页面了解详情。

实现持久性工作器

如需详细了解如何创建工作器,请参阅创建永久性工作器页面。

以下示例展示了使用 JSON 的工作器的 Starlark 配置:

args_file = ctx.actions.declare_file(ctx.label.name + "_args_file")
ctx.actions.write(
    output = args_file,
    content = "\n".join(["-g", "-source", "1.5"] + ctx.files.srcs),
)
ctx.actions.run(
    mnemonic = "SomeCompiler",
    executable = "bin/some_compiler_wrapper",
    inputs = inputs,
    outputs = outputs,
    arguments = [ "-max_mem=4G",  "@%s" % args_file.path],
    execution_requirements = {
        "supports-workers" : "1", "requires-worker-protocol" : "json" }
)

根据此定义,此操作的首次使用始于执行 命令行 /bin/some_compiler -max_mem=4G --persistent_worker。一项请求 编译 Foo.java 的代码应如下所示:

注意:虽然协议缓冲区规范使用“蛇形命名法”(request_id),但 JSON 协议使用“驼峰命名法”(requestId)。在本文档中,我们将在 JSON 示例中使用驼峰命名法,但在讨论字段时,无论协议如何,都将使用蛇形命名法。

{
  "arguments": [ "-g", "-source", "1.5", "Foo.java" ]
  "inputs": [
    { "path": "symlinkfarm/input1", "digest": "d49a..." },
    { "path": "symlinkfarm/input2", "digest": "093d..." },
  ],
}

工作器会以换行符分隔的 JSON 格式(因为 requires-worker-protocol 已设置为 JSON)在 stdin 上接收此数据。然后,Worker 会执行操作,并通过其标准输出将 JSON 格式的 WorkResponse 发送到 Bazel。然后运行 Bazel 解析此响应并手动将其转换为 WorkResponse proto。接收者 使用二进制编码的 protobuf 与关联的 Worker 进行通信,而不是 JSON,requires-worker-protocol 将设置为 proto,如下所示:

  execution_requirements = {
    "supports-workers" : "1" ,
    "requires-worker-protocol" : "proto"
  }

如果您没有在执行要求中添加 requires-worker-protocol, Bazel 会将工作器通信默认使用 protobuf。

Bazel 会从助记符和共享标志派生 WorkerKey,因此如果 更改 max_mem 参数,则单独的工作器会 每个使用的值。如果使用过多变体,可能会导致内存用量过多。

每个工作器目前一次只能处理一个请求。实验性多工器功能允许使用多个线程,前提是底层工具是多线程的,并且封装容器已设置为了解这一点。

此 GitHub 代码库 您可以看到使用 Java 和 Python 编写的示例工作器封装容器。如果您使用的是 JavaScript 或 TypeScript,则 @bazel/worker 软件包nodejs worker 示例可能对您有所帮助。

工作器对沙盒有何影响?

默认情况下,使用 worker 策略不会在 sandbox,类似于 local 策略。您可以设置 --worker_sandboxing 标志,以在沙盒中运行所有工作器,确保工具每次执行时都只能看到应有的输入文件。该工具可能仍会在请求之间内部泄露信息,例如通过缓存。使用 dynamic 策略需要将工作器置于沙盒中

为了允许在工作器中正确使用编译器缓存,系统会随每个输入文件一起传递摘要。因此,编译器或封装容器无需读取文件即可检查输入是否仍然有效。

即使使用输入摘要来防范不必要的缓存,沙盒化工作器提供的沙盒化程度也比纯沙盒要低,因为该工具可能会保留受先前请求影响的其他内部状态。

只有在工作器实现支持的情况下,多路复用工作器才能放入沙盒中,并且必须使用 --experimental_worker_multiplex_sandboxing 标志单独启用此沙盒化功能。如需了解更多详情,请访问 设计文档)。

深入阅读

如需详细了解永久性工作器,请参阅: