BazelCon 2024 报名现已开放！

此页面由 Cloud Translation API 翻译。

永久性工作器

报告问题查看源代码每夜 build · 8.0 7.4 . 7.3 · 7.2 · 7.1 · 7.0 · 6.5

本页介绍了如何使用永久性工作器、工作器的好处、要求以及工作器对沙盒的影响。

永久性工作器是由 Bazel 服务器启动的长时间运行进程，可用作实际工具（通常是编译器）的封装容器，或就是工具本身。为了从持久性工作器中受益，该工具必须支持执行一系列编译，并且封装容器需要在该工具的 API 和下述请求/响应格式之间进行转换。在同一 build 中，系统可能会在有 --persistent_worker 标志和没有 --persistent_worker 标志的情况下调用同一 worker，并且该 worker 负责适当地启动和与工具通信，以及在退出时关闭 worker。每个工作器实例都会被分配一个 <outputBase>/bazel-workers 下的单独工作目录（但不会切换到该目录）。

使用永久性工作器是一种执行策略，可减少启动开销、允许进行更多 JIT 编译，并支持缓存操作执行中的抽象语法树等。此策略通过向长时间运行的进程发送多个请求来实现这些改进。

持久性工作器已针对多种语言实现，包括 Java、Scala、Kotlin 等。

使用 NodeJS 运行时的程序可以使用 @bazel/worker 辅助库来实现 worker 协议。

使用持久性工作器

Bazel 0.27 及更高版本在执行 build 时默认使用永久性工作器，但远程执行优先。对于不支持永久性工作器的操作，Bazel 会回退为每个操作启动一个工具实例。您可以通过为适用的工具助记符设置 worker 策略，明确设置 build 以使用永久性工作器。最佳实践是，此示例中包含将 local 指定为 worker 策略的回退策略：

bazel build //my:target --strategy=Javac=worker,local

使用工作器策略（而非本地策略）可以显著提高编译速度，具体取决于实现方式。对于 Java，构建速度可提高 2-4 倍，增量编译的速度有时还会更快。使用工作器编译 Bazel 的速度大约是原来的 2.5 倍。如需了解详情，请参阅“选择工作器数量”部分。

如果您还有与本地构建环境匹配的远程构建环境，则可以使用实验性动态策略，该策略会对远程执行和 worker 执行进行竞态。如需启用动态策略，请传递 --experimental_spawn_scheduler 标志。此策略会自动启用工作器，因此无需指定 worker 策略，但您仍然可以使用 local 或 sandboxed 作为回退策略。

选择工作器数量

每个 mnemonic 的默认工作器实例数为 4，但可以使用 worker_max_instances 标志进行调整。充分利用可用 CPU 与获得的 JIT 编译和缓存命中次数之间存在权衡。工作器越多，运行非 JIT 代码和命中冷缓存的启动开销就越多。如果您要构建的目标数量较少，单个工作器在编译速度和资源使用率之间可能能实现最佳权衡（例如，请参阅问题 8586）。worker_max_instances 标志用于设置每个记忆法和标志集的最大工作器实例数量（见下文），因此在混合系统中，如果您保留默认值，最终可能会使用大量内存。对于增量 build，使用多个工作器实例的好处更小。

此图显示了在具有 64 GB RAM 的 6 核超线程 Intel Xeon 3.5 GHz Linux 工作站上，Bazel（目标 //src:bazel）从头开始编译所需的时间。对于每个工作器配置，系统都会运行五次干净构建，并取最后四次构建的平均值。

整洁 build 性能提升情况图表

图 1. 整洁 build 性能改进图表。

对于此配置，使用两个工作器可实现最快的编译速度，但与使用一个工作器相比，速度仅提高了 14%。如果您希望使用更少的内存，一个工作器是一个不错的选择。

增量编译通常会带来更大的优势。干净 build 相对较少，但在编译之间更改单个文件很常见，尤其是在测试驱动型开发中。上述示例中还包含一些非 Java 打包操作，这些操作可能会掩盖增量编译时间。

仅在更改 AbstractContainerizingSandboxedSpawn.java 中的内部字符串常量后重新编译 Java 源代码 (//src/main/java/com/google/devtools/build/lib/bazel:BazelServer_deploy.jar) 可将速度提高 3 倍（平均 20 次增量 build，其中一个预热 build 被舍弃）：

增量 build 性能提升情况图表

图 2. 增量 build 性能提升情况图表。

速度提升取决于所做的更改。在上述更改常用常量的情况下，测量到的加速比为 6 倍。

修改永久性工作器

您可以传递 --worker_extra_flag 标志，以按助记符指定工作器的启动标志。例如，传递 --worker_extra_flag=javac=--debug 会仅为 Javac 启用调试。每次使用此标志时，只能设置一个 worker 标志，且只能针对一个 mnemonic。系统不仅会为每个 mnemonic 单独创建 worker，还会为其启动标志的变体创建 worker。每个 mnemonic 和启动标志组合都会组合到 WorkerKey 中，并且每个 WorkerKey 最多可以创建 worker_max_instances 个 worker。如需了解操作配置如何还可以指定设置标志，请参阅下一部分。

您可以使用 --high_priority_workers 标志指定应优先于正常优先级的 mnemonic 运行的 mnemonic。这有助于确定始终位于关键路径中的操作的优先级。如果有两个或更多高优先级工作器在执行请求，则系统会阻止所有其他工作器运行。此标志可多次使用。

传递 --worker_sandboxing 标志会使每个 worker 请求为其所有输入使用单独的沙盒目录。设置沙盒需要额外一些时间，尤其是在 macOS 上，但可以更好地保证正确性。

--worker_quit_after_build 标志主要用于调试和性能分析。此标志会在构建完成后强制所有 worker 退出。您还可以传递 --worker_verbose，以获取有关工作器正在执行的工作的更多输出。此标志会反映在 WorkRequest 中的 verbosity 字段中，从而允许工作器实现更加详尽。

工作器会将日志存储在 <outputBase>/bazel-workers 目录中，例如 /tmp/_bazel_larsrc/191013354bebe14fdddae77f2679c3ef/bazel-workers/worker-1-Javac.log。文件名包含 worker ID 和助记符。由于每个记忆法可能有多个 WorkerKey，因此您可能会看到给定记忆法对应的 worker_max_instances 日志文件不止一个。

对于 Android build，请参阅 Android build 性能页面了解详情。

实现持久性工作器

如需详细了解如何创建工作器，请参阅创建永久性工作器页面。

以下示例展示了使用 JSON 的 Worker 的 Starlark 配置：

args_file = ctx.actions.declare_file(ctx.label.name + "_args_file")
ctx.actions.write(
    output = args_file,
    content = "\n".join(["-g", "-source", "1.5"] + ctx.files.srcs),
)
ctx.actions.run(
    mnemonic = "SomeCompiler",
    executable = "bin/some_compiler_wrapper",
    inputs = inputs,
    outputs = outputs,
    arguments = [ "-max_mem=4G",  "@%s" % args_file.path],
    execution_requirements = {
        "supports-workers" : "1", "requires-worker-protocol" : "json" }
)

采用此定义后，首次使用此操作时，系统会先执行命令行 /bin/some_compiler -max_mem=4G --persistent_worker。然后，编译 Foo.java 的请求将如下所示：

注意：虽然协议缓冲区规范使用“蛇形命名法”（request_id），但 JSON 协议使用“驼峰命名法”（requestId）。在本文档中，我们将在 JSON 示例中使用驼峰命名法，但在讨论字段时，无论协议如何，都将使用蛇形命名法。

{
  "arguments": [ "-g", "-source", "1.5", "Foo.java" ]
  "inputs": [
    { "path": "symlinkfarm/input1", "digest": "d49a..." },
    { "path": "symlinkfarm/input2", "digest": "093d..." },
  ],
}

工作器会以换行分隔的 JSON 格式（因为 requires-worker-protocol 已设置为 JSON）在 stdin 上接收此数据。然后，Worker 会执行操作，并通过其标准输出将 JSON 格式的 WorkResponse 发送到 Bazel。然后，Bazel 会解析此响应，并将其手动转换为 WorkResponse proto。如需使用二进制编码的 protobuf（而非 JSON）与关联的 Worker 进行通信，请将 requires-worker-protocol 设置为 proto，如下所示：

  execution_requirements = {
    "supports-workers" : "1" ,
    "requires-worker-protocol" : "proto"
  }

如果您未在执行要求中添加 requires-worker-protocol，Bazel 将默认使用 protobuf 进行 worker 通信。

Bazel 会根据记号和共享标志派生 WorkerKey，因此，如果此配置允许更改 max_mem 参数，则系统会为每个使用的值生成单独的工作器。如果使用过多变体，可能会导致内存用量过多。

每个工作器目前一次只能处理一个请求。实验性多工器功能允许使用多个线程，前提是底层工具是多线程的，并且封装容器已设置为了解这一点。

在此 GitHub 代码库中，您可以看到使用 Java 和 Python 编写的工作器封装容器示例。如果您使用的是 JavaScript 或 TypeScript，则 @bazel/worker 软件包和 nodejs worker 示例可能对您有所帮助。

工作器对沙盒有何影响？

默认情况下，使用 worker 策略不会在沙盒中运行操作，这与 local 策略类似。您可以设置 --worker_sandboxing 标志，以在沙盒中运行所有工作器，确保工具每次执行时都只能看到应有的输入文件。该工具可能仍会在请求之间内部泄露信息，例如通过缓存。使用 dynamic 策略需要将工作器置于沙盒中。

为了允许在工作器中正确使用编译器缓存，系统会随每个输入文件一起传递摘要。因此，编译器或封装容器无需读取文件即可检查输入是否仍然有效。

即使使用输入摘要来防范不必要的缓存，沙盒化工作器提供的沙盒化程度也比纯沙盒要低，因为该工具可能会保留受先前请求影响的其他内部状态。

只有在工作器实现支持的情况下，多路复用工作器才能放入沙盒中，并且必须使用 --experimental_worker_multiplex_sandboxing 标志单独启用此沙盒化功能。如需了解详情，请参阅设计文档）。

深入阅读

如需详细了解永久性工作器，请参阅：

原始的永久性工作器博文
Haskell 实现说明 {: .external}
Mike Morearty 撰写的博文 {: .external}
使用 Bazel 进行前端开发：Angular/TypeScript 和持久性 Worker（通过 Asana） {: .external}
Bazel 策略说明 {: .external}
bazel-discuss 邮寄列表上的信息丰富的工作器策略讨论 {: .external}