스카이프레임

문제 신고 출처 보기 보통

Bazel의 병렬 평가 및 성과 증분 모델

데이터 모델

데이터 모델은 다음 항목으로 구성됩니다.

  • SkyValue. 노드라고도 합니다. SkyValues는 빌드 과정에서 빌드된 모든 데이터와 빌드의 입력을 포함하는 변경할 수 없는 객체입니다. 예를 들어 입력 파일, 출력 파일, 대상, 구성된 대상입니다.
  • SkyKey. SkyValue를 참조하기 위한 변경할 수 없는 짧은 이름입니다(예: FILECONTENTS:/tmp/foo 또는 PACKAGE://foo).
  • SkyFunction. 키와 종속 노드를 기반으로 노드를 빌드합니다.
  • 노드 그래프 노드 간 종속 항목 관계가 포함된 데이터 구조입니다.
  • Skyframe. 증분 평가 프레임워크 Bazel의 코드명이 기반합니다.

평가

빌드는 빌드 요청을 나타내는 노드를 평가하여 이루어집니다.

먼저 Bazel은 최상위 SkyKey의 키에 해당하는 SkyFunction를 찾습니다. 그런 다음 함수는 최상위 노드를 평가하는 데 필요한 노드의 평가를 요청합니다. 그러면 리프 노드에 도달할 때까지 다른 SkyFunction 호출이 발생합니다. 리프 노드는 일반적으로 파일 시스템의 입력 파일을 나타내는 노드입니다. 마지막으로 Bazel은 최상위 SkyValue의 값, 몇 가지 부작용 (예: 파일 시스템의 출력 파일), 빌드와 관련된 노드 간 종속 항목의 방향성 비순환 그래프로 끝납니다.

SkyFunction는 작업을 실행해야 하는 모든 노드를 미리 알릴 수 없는 경우 여러 패스로 SkyKeys를 요청할 수 있습니다. 간단한 예는 심볼릭 링크로 판명된 입력 파일 노드를 평가하는 것입니다. 함수는 파일을 읽으려고 시도하고 파일이 심볼릭 링크임을 인식하여 심볼릭 링크 대상을 나타내는 파일 시스템 노드를 가져옵니다. 하지만 그 자체가 심볼릭 링크일 수 있으며, 이 경우 원래 함수에서 타겟도 가져와야 합니다.

함수는 코드에서 SkyFunction 인터페이스로 표현되고 서비스에 제공되는 서비스는 SkyFunction.Environment라는 인터페이스로 표현됩니다. 함수에서 할 수 있는 작업은 다음과 같습니다.

  • env.getValue 호출을 통해 다른 노드의 평가를 요청합니다. 노드를 사용할 수 있으면 값이 반환됩니다. 그렇지 않으면 null가 반환되며 함수 자체는 null를 반환해야 합니다. 후자의 경우 종속 노드가 평가된 후 원래 노드 빌더가 다시 호출되지만 이번에는 동일한 env.getValue 호출이 null가 아닌 값을 반환합니다.
  • env.getValues()를 호출하여 다른 여러 노드의 평가를 요청합니다. 종속 노드가 동시에 평가된다는 점을 제외하면 이 방식은 본질적으로 동일합니다.
  • 호출 중에 계산 수행
  • 파일 시스템에 파일 쓰기와 같은 부작용이 발생합니다. 두 개의 다른 기능이 서로의 발을 밟지 않도록 주의해야 합니다. 일반적으로 쓰기 부작용 (데이터가 Bazel에서 바깥쪽으로 흐르는 경우)은 괜찮지만 읽기 부작용 (등록된 종속 항목 없이 데이터가 Bazel로 안쪽으로 흐르는 경우)은 등록되지 않은 종속 항목이므로 잘못된 증분 빌드가 발생할 수 있으므로 허용되지 않습니다.

제대로 작동하는 SkyFunction 구현은 종속 항목 요청 이외의 다른 방식 (예: 파일 시스템 직접 읽기)으로 데이터에 액세스하지 않습니다. 그러면 Bazel이 읽은 파일에 데이터 종속 항목을 등록하지 않아 잘못된 증분 빌드가 발생하기 때문입니다.

함수가 작업을 실행하기에 충분한 데이터를 확보하면 완료를 나타내는 null 이외의 값을 반환해야 합니다.

이 평가 전략은 다음과 같은 여러 이점이 있습니다.

  • 밀폐성. 함수가 다른 노드에 의존하는 방식으로만 입력 데이터를 요청하는 경우 Bazel은 입력 상태가 동일하면 동일한 데이터가 반환되도록 보장할 수 있습니다. 모든 Sky 함수가 확정적인 경우 이는 전체 빌드도 확정적이라는 의미입니다.
  • 정확하고 완벽한 성과 증분. 모든 함수의 모든 입력 데이터가 기록되면 Bazel은 입력 데이터가 변경될 때 무효화되어야 하는 정확한 노드 집합만 무효화할 수 있습니다.
  • 동시 로드 개수. 함수는 종속 항목을 요청하는 방식으로만 서로 상호작용할 수 있으므로 서로 종속되지 않는 함수는 동시에 실행할 수 있으며 Bazel은 순차적으로 실행되는 것과 동일한 결과를 보장할 수 있습니다.

성과 증분

함수는 다른 노드에 의존해야만 입력 데이터에 액세스할 수 있으므로 Bazel은 입력 파일에서 출력 파일까지의 전체 데이터 흐름 그래프를 빌드하고, 이 정보를 사용하여 실제로 다시 빌드해야 하는 노드(변경된 입력 파일 집합의 역전이적 클로저)에만 재빌드할 수 있습니다.

특히 상향식 전략과 하향식 전략이라는 두 가지 성과 증분 전략이 있습니다. 어느 것이 최적인지는 종속 항목 그래프의 모양에 따라 달라집니다.

  • 상향식 무효화 중에 그래프가 빌드되고 변경된 입력 세트가 알려진 후에는 변경된 파일에 전이적으로 종속되는 모든 노드가 무효화됩니다. 이는 동일한 최상위 노드가 다시 빌드되는 경우에 가장 적합합니다. 상향식 무효화를 사용하려면 이전 빌드의 모든 입력 파일에서 stat()를 실행하여 입력 파일이 변경되었는지 확인해야 합니다. inotify 또는 유사한 메커니즘을 사용하여 변경된 파일에 관해 학습하면 이를 개선할 수 있습니다.

  • 하향식 무효화 중에 최상위 노드의 전이적 클로저가 확인되고 전이적 클로저가 깨끗한 노드만 유지됩니다. 이는 노드 그래프가 크지만 다음 빌드에는 작은 하위 집합만 필요한 경우에 더 좋습니다. 상향식 무효화는 두 번째 빌드의 작은 그래프를 단순히 탐색하는 하향식 무효화와 달리 첫 번째 빌드의 큰 그래프를 무효화합니다.

Bazel은 상향식 무효화만 실행합니다.

Bazel은 추가 성과 증분을 위해 변경 프루닝을 사용합니다. 노드가 무효화되었는데 다시 빌드했을 때 새 값이 이전 값과 동일하다는 것이 확인되면 이 노드의 변경으로 인해 무효화된 노드가 '재활'됩니다.

이 기능은 예를 들어 C++ 파일의 주석을 변경하는 경우 유용합니다. 이 파일에서 생성된 .o 파일은 동일하므로 링커를 다시 호출할 필요가 없습니다.

증분 연결 / 컴파일

이 모델의 주요 제한사항은 노드 무효화가 어쩔 수 없는 상황이라는 점입니다. 종속 항목이 변경되면 종속 노드가 변경사항에 따라 이전 노드 값을 변경하는 더 나은 알고리즘이 있더라도 항상 처음부터 다시 빌드됩니다. 다음은 이러한 방법이 유용한 몇 가지 예입니다.

  • 증분 연결
  • JAR 파일에서 단일 클래스 파일이 변경되면 JAR 파일을 처음부터 다시 빌드하는 대신 내부에서 수정할 수 있습니다.

Bazel이 원칙적인 방식으로 이러한 요소를 지원하지 않는 이유는 다음 두 가지입니다.

  • 실적 향상은 제한적이었습니다.
  • 변형의 결과가 클린 재빌드의 결과와 동일한지, Google에서 비트별로 반복 가능한 빌드를 사용하는지 확인하기가 어렵습니다.

지금까지는 비용이 많이 드는 빌드 단계를 분해하고 이러한 방식으로 부분 재평가를 달성하여 충분한 성능을 달성할 수 있었습니다. 예를 들어 Android 앱에서는 모든 클래스를 여러 그룹으로 분할하고 개별적으로 덱싱할 수 있습니다. 이렇게 하면 그룹의 클래스가 변경되지 않아도 덱싱을 다시 실행할 필요가 없습니다.

Bazel 개념에 매핑

다음은 Bazel이 빌드를 실행하는 데 사용하는 주요 SkyFunctionSkyValue 구현을 간략히 요약한 것입니다.

  • FileStateValue와 같습니다. lstat()의 결과입니다. 기존 파일의 경우 이 함수는 파일의 변경사항을 감지하기 위해 추가 정보도 계산합니다. 이는 Skyframe 그래프에서 최하위 노드이며 종속 항목이 없습니다.
  • FileValue를 사용하여 파일 값을 확인할 수 있습니다. 파일의 실제 콘텐츠 또는 확인된 경로를 고려하는 모든 항목에서 사용됩니다. 상응하는 FileStateValue 및 해결해야 하는 모든 심볼릭 링크에 따라 다릅니다 (예: a/bFileValue에는 a의 확인된 경로와 a/b의 확인된 경로가 필요함). FileValueFileStateValue의 구분은 파일의 콘텐츠가 실제로 필요하지 않은 경우에 사용할 수 있기 때문에 중요합니다. 예를 들어 파일 시스템 glob (예: srcs=glob(["*/*.java"]))을 평가할 때는 파일 콘텐츠는 관련이 없습니다.
  • DirectoryListingStateValue를 참조하세요. readdir()의 결과입니다. FileStateValue과 마찬가지로 이는 가장 낮은 수준 노드이며 종속 항목이 없습니다.
  • DirectoryListingValue를 참조하세요. 디렉터리의 항목에 관심이 있는 모든 항목에 사용됩니다. 상응하는 DirectoryListingStateValue 및 디렉터리의 연결된 FileValue에 따라 다릅니다.
  • PackageValue의 인스턴스입니다. BUILD 파일의 파싱된 버전을 나타냅니다. 연결된 BUILD 파일의 FileValue에 종속되며, 패키지의 glob(내부적으로 BUILD 파일의 콘텐츠를 나타내는 데이터 구조)을 확인하는 데 사용되는 모든 DirectoryListingValue에 전이적으로 의존합니다.
  • ConfiguredTargetValue를 사용합니다. 구성된 타겟을 나타내며 타겟 분석 중에 생성되는 작업 세트와 종속된 구성된 타겟에 제공된 정보의 튜플입니다. 상응하는 타겟이 있는 PackageValue, 직접 종속 항목의 ConfiguredTargetValues, 빌드 구성을 나타내는 특수 노드에 따라 다릅니다.
  • ArtifactValue로 표현됩니다. 빌드의 파일(소스 또는 출력 아티팩트)을 나타냅니다. 아티팩트는 파일과 거의 동일하며 빌드 단계를 실제로 실행하는 동안 파일을 참조하는 데 사용됩니다. 소스 파일은 연결된 노드의 FileValue에 종속되고 출력 아티팩트는 아티팩트를 생성하는 작업의 ActionExecutionValue에 종속됩니다.
  • ActionExecutionValue로 변경되었습니다. 작업의 실행을 나타냅니다. 입력 파일의 ArtifactValues에 따라 다릅니다. 실행하는 작업은 SkyKey 내에 포함되는데 이는 SkyKey가 작아야 한다는 개념과 반대입니다. 실행 단계가 실행되지 않으면 ActionExecutionValueArtifactValue가 사용되지 않습니다.

시각적 보조 자료로 다음 다이어그램은 Bazel 자체 빌드 후 SkyFunction 구현 간의 관계를 보여줍니다.

SkyFunction 구현 관계 그래프