远程缓存

报告问题查看源代码

每夜版 · 9.0 · 8.6 · 8.5 · 8.4 · 8.3 · 8.2 · 7.7

本页面介绍了远程缓存、如何设置服务器来托管缓存，以及如何使用远程缓存运行 build。

远程缓存由开发者团队和/或持续集成 (CI) 系统用于共享 build 输出。如果您的 build 是可重现的，那么一台机器的输出可以安全地在另一台机器上重复使用，这可以显著加快 build 速度。

概览

Bazel 会将构建拆分为离散的步骤，称为操作。每个操作都有输入、输出名称、命令行和环境变量。每个操作的必需输入和预期输出都已明确声明。

您可以将服务器设置为 build 输出（即这些操作输出）的远程缓存。这些输出包含输出文件名的列表及其内容的哈希值。借助远程缓存，您可以重复使用由另一位用户的构建生成的构建输出，而不是每次都在本地构建新输出。

如需使用远程缓存，请执行以下操作：

将服务器设置为缓存的后端
配置 Bazel 构建以使用远程缓存
使用 Bazel 版本 0.10.0 或更高版本

远程缓存存储两种类型的数据：

操作缓存，即操作哈希到操作结果元数据的映射。
输出文件的内容可寻址存储区 (CAS)。

请注意，远程缓存还会存储每个操作的 stdout 和 stderr。因此，检查 Bazel 的 stdout/stderr 并不是估计缓存命中率的好方法。

构建如何使用远程缓存

将服务器设置为远程缓存后，您可以通过多种方式使用该缓存：

读取和写入远程缓存
读取和/或写入远程缓存，但特定目标除外
仅从远程缓存读取
完全不使用远程缓存

当您运行可以读取和写入远程缓存的 Bazel build 时，该 build 会按以下步骤操作：

Bazel 会创建需要构建的目标的图，然后创建所需操作的列表。每项操作都声明了输入和输出文件名。
Bazel 会检查本地计算机上是否存在构建输出，并重复使用找到的任何构建输出。
Bazel 会检查缓存中是否有现有的 build 输出。如果找到输出，Bazel 会检索该输出。这称为缓存命中。
对于找不到输出的必需操作，Bazel 会在本地执行这些操作并创建所需的 build 输出。
新的 build 输出会上传到远程缓存。

将服务器设置为缓存的后端

您需要设置一个服务器作为缓存的后端。HTTP/1.1 服务器可以将 Bazel 的数据视为不透明的字节，因此许多现有服务器都可以用作远程缓存后端。Bazel 的 HTTP 缓存协议支持远程缓存。

您负责选择、设置和维护将存储缓存输出的后端服务器。选择服务器时，请考虑以下因素：

网络速度。例如，如果您的团队在同一办公室，您可能需要运行自己的本地服务器。
安全性。远程缓存将包含您的二进制文件，因此需要确保其安全。
管理便捷度。例如，Google Cloud Storage 是一项全托管式服务。

有许多后端可用于远程缓存。选项包括：

nginx
bazel-remote
Google Cloud Storage

nginx

nginx 是一款开源 Web 服务器。借助其 [WebDAV 模块]，它可以作为 Bazel 的远程缓存。在 Debian 和 Ubuntu 上，您可以安装 nginx-extras 软件包。在 macOS 上，您可以通过 Homebrew 获取 nginx：

brew tap denji/nginx
brew install nginx-full --with-webdav

以下是 nginx 的配置示例。请注意，您需要将 /path/to/cache/dir 更改为 nginx 具有写入和读取权限的有效目录。如果输出文件较大，您可能需要将 client_max_body_size 选项更改为更大的值。服务器将需要其他配置，例如身份验证。

nginx.conf 中 server 部分的配置示例：

location /cache/ {
  # The path to the directory where nginx should store the cache contents.
  root /path/to/cache/dir;
  # Allow PUT
  dav_methods PUT;
  # Allow nginx to create the /ac and /cas subdirectories.
  create_full_put_path on;
  # The maximum size of a single file.
  client_max_body_size 1G;
  allow all;
}

bazel-remote

bazel-remote 是一种开源远程 build 缓存，可在您的基础架构中使用。自 2018 年初以来，该功能已在多家公司的生产环境中成功使用。请注意，Bazel 项目不为 bazel-remote 提供技术支持。

此缓存将内容存储在磁盘上，并提供垃圾回收功能，以强制执行存储上限并清理未使用的制品。缓存以 [Docker 映像] 的形式提供，其代码可在 GitHub 上找到。支持 REST 和 gRPC 远程缓存 API。

如需了解如何使用该工具，请参阅 GitHub 页面。

Google Cloud Storage

[Google Cloud Storage] 是一项全托管式对象存储服务，提供与 Bazel 的远程缓存协议兼容的 HTTP API。您必须拥有已启用结算功能的 Google Cloud 账号。

如需使用 Cloud Storage 作为缓存，请执行以下操作：

创建存储分区。请务必选择离您最近的存储分区位置，因为网络带宽对于远程缓存非常重要。
为 Bazel 创建一个服务账号，以便向 Cloud Storage 进行身份验证。请参阅创建服务账号。
生成一个 Secret JSON 密钥，然后将其传递给 Bazel 以进行身份验证。请务必妥善存储密钥，因为任何拥有该密钥的人都可以从您的 GCS 存储分区读取任意数据或向其中写入任意数据。
通过向 Bazel 命令添加以下标志来连接到 Cloud Storage：
- 使用标志将以下网址传递给 Bazel：--remote_cache=https://storage.googleapis.com/bucket-name，其中 bucket-name 是您的存储分区的名称。
- 使用标志 --google_credentials=/path/to/your/secret-key.json 或 --google_default_credentials 传递身份验证密钥，以使用应用身份验证。
您可以配置 Cloud Storage 以自动删除旧文件。如需了解详情，请参阅管理对象生命周期。

其他服务器

您可以将任何支持 PUT 和 GET 的 HTTP/1.1 服务器设置为缓存的后端。用户报告称，使用 Hazelcast、Apache httpd 和 AWS S3 等缓存后端取得了成功。

身份验证

自版本 0.11.0 起，Bazel 添加了对 HTTP 基本身份验证的支持。您可以通过远程缓存网址将用户名和密码传递给 Bazel。语法为 https://username:password@hostname.com:port/path。请注意，HTTP 基本身份验证通过网络以明文形式传输用户名和密码，因此务必始终将其与 HTTPS 搭配使用。

HTTP 缓存协议

Bazel 支持通过 HTTP/1.1 进行远程缓存。该协议在概念上很简单：通过 PUT 请求上传二进制数据 (BLOB)，并通过 GET 请求下载二进制数据。操作结果元数据存储在路径 /ac/ 下，输出文件存储在路径 /cas/ 下。

例如，假设远程缓存在 http://localhost:8080/cache 下运行。下载 SHA256 哈希值为 01ba4719... 的操作的操作结果元数据的 Bazel 请求如下所示：

GET /cache/ac/01ba4719c80b6fe911b091a7c05124b64eeece964e09c058ef8f9805daca546b HTTP/1.1
Host: localhost:8080
Accept: */*
Connection: Keep-Alive

使用 SHA256 哈希 15e2b0d3... 将输出文件上传到 CAS 的 Bazel 请求如下所示：

PUT /cache/cas/15e2b0d3c33891ebb0f1ef609ec419420c20e320ce94c65fbc8c3312448eb225 HTTP/1.1
Host: localhost:8080
Accept: */*
Content-Length: 9
Connection: Keep-Alive

0x310x320x330x340x350x360x370x380x39

使用远程缓存运行 Bazel

将服务器设置为远程缓存后，您需要向 Bazel 命令添加标志才能使用远程缓存。请参阅下方的配置及其标志列表。

您可能还需要配置身份验证，这取决于您选择的服务器。

您可能需要在 .bazelrc 文件中添加这些标志，这样就不必每次运行 Bazel 时都指定它们。根据项目和团队动态，您可以将标志添加到以下 .bazelrc 文件中：

在本地机器上
在与团队共享的项目工作区中
在 CI 系统上

从远程缓存读取数据和向远程缓存写入数据

请谨慎决定哪些人有权写入远程缓存。您可能希望只有 CI 系统能够向远程缓存写入内容。

使用以下标志从远程缓存读取数据和向远程缓存写入数据：

build --remote_cache=http://your.host:port

除了 HTTP 之外，还支持以下协议：HTTPS、grpc、grpcs。

除了上述标志之外，还可使用以下标志仅从远程缓存读取数据：

build --remote_upload_local_results=false

排除特定目标使用远程缓存

如需排除特定目标，使其无法使用远程缓存，请使用 no-remote-cache 标记目标。例如：

java_library(
    name = "target",
    tags = ["no-remote-cache"],
)

从远程缓存中删除内容

从远程缓存中删除内容是服务器管理的一部分。从远程缓存中删除内容的方式取决于您设置的缓存服务器。删除输出时，可以删除整个缓存，也可以删除旧输出。

缓存的输出以一组名称和哈希值的形式存储。删除内容时，无法区分哪个输出属于特定 build。

您可能需要从缓存中删除内容，以便：

在缓存中毒后创建干净的缓存
通过删除旧输出内容来减少所用存储空间

Unix 套接字

远程 HTTP 缓存支持通过 Unix 网域套接字进行连接。此行为类似于 curl 的 --unix-socket 标志。使用以下内容配置 Unix 网域套接字：

   build --remote_cache=http://your.host:port
   build --remote_proxy=unix:/path/to/socket

Windows 不支持此功能。

磁盘缓存

Bazel 可以使用文件系统上的目录作为远程缓存。当您切换分支和/或处理同一项目的多个工作区（例如多个签出）时，此功能可用于共享 build 制品。按如下方式启用磁盘缓存：

build --disk_cache=path/to/build/cache

您可以使用 ~ 别名（Bazel 将替换为当前用户的主目录）将用户专用路径传递给 --disk_cache 标志。当您通过项目的已签入 .bazelrc 文件为项目的所有开发者启用磁盘缓存时，此功能会非常有用。

垃圾回收

从 Bazel 7.4 开始，您可以使用 --experimental_disk_cache_gc_max_size 和 --experimental_disk_cache_gc_max_age 为磁盘缓存或各个缓存条目的使用期限设置最大大小。在构建之间处于空闲状态时，Bazel 会自动对磁盘缓存进行垃圾回收；空闲计时器可以通过 --experimental_disk_cache_gc_idle_delay 进行设置（默认为 5 分钟）。

除了自动垃圾收集之外，我们还提供了一个工具，用于按需运行垃圾收集。

已知问题

构建期间的输入文件修改

如果输入文件在 build 期间被修改，Bazel 可能会将无效结果上传到远程缓存。您可以使用 --experimental_guard_against_concurrent_changes 标志启用更改检测。目前没有已知问题，并且在未来的版本中会默认启用。如需了解最新动态，请参阅 [问题 #3360]。一般来说，请避免在 build 期间修改源文件。

环境变量泄露到操作中

操作定义包含环境变量。这可能会导致无法在多台机器之间共享远程缓存命中。例如，具有不同 $PATH 变量的环境不会共享缓存命中。只有通过 --action_env 明确列入许可名单的环境变量才会包含在操作定义中。用于安装 /etc/bazel.bazelrc 的 Bazel Debian/Ubuntu 软件包，其中包含一个环境变量白名单，其中包括 $PATH。如果您获得的缓存命中次数少于预期，请检查您的环境中是否包含旧的 /etc/bazel.bazelrc 文件。

Bazel 不会跟踪工作区外部的工具

Bazel 目前不会跟踪工作区外部的工具。如果某项操作使用 /usr/bin/ 中的编译器，这可能会造成问题。这样一来，安装了不同编译器的两位用户就会错误地共享缓存命中，因为输出不同，但操作哈希相同。如需了解最新动态，请参阅问题 #4558。

在 Docker 容器内运行 build 时，增量内存中状态会丢失 即使在单个 Docker 容器中运行，Bazel 也使用服务器/客户端架构。在服务器端，Bazel 会维护内存中状态，从而加快 build 速度。在 Docker 容器（例如在 CI 中）内运行 build 时，内存中状态会丢失，Bazel 必须先重建该状态，然后才能使用远程缓存。

外部链接

在数据中心内构建：Bazel 团队在 FOSDEM 2018 上就远程缓存和执行发表了演讲。
通过远程缓存更快地构建 Bazel：一项基准比较研究：Nicolò Valigi 撰写了一篇博文，其中对 Bazel 中的远程缓存进行了基准比较研究。
调整规则以实现远程执行
排查远程执行问题
WebDAV 模块
Docker 映像
bazel-remote
Google Cloud Storage
Google Cloud 控制台
存储桶位置
Hazelcast
Apache httpd
AWS S3
问题 3360
gRPC
gRPC 协议
Buildbarn
Buildfarm
BuildGrid
问题 4558
应用身份验证
NativeLink

远程缓存 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

概览