参加你附近的 ,了解 VS Code 中的 AI 辅助开发。

语法高亮中的优化

2017年2月8日 - Alexandru Dima

Visual Studio Code 1.9 版本包含了一个我们一直在努力的酷炫性能改进,我想讲述它的故事。

TL;DR 在 VS Code 1.9 中,TextMate 主题将更接近其作者的意图,同时渲染速度更快,内存消耗更少。


语法高亮

语法高亮通常由两个阶段组成。首先将标记分配给源代码,然后主题会针对这些标记,分配颜色,然后,您的源代码就以颜色呈现出来。它是将文本编辑器变成代码编辑器的重要功能。

VS Code(以及 Monaco 编辑器)中的标记化逐行,从上到下,单次通过运行。标记器可以在标记化行的末尾存储一些状态,该状态将在标记化下一行时传回。这是许多标记化引擎(包括 TextMate 语法)使用的一种技术,它允许编辑器在用户进行编辑时仅重新标记化一小部分行。

大多数情况下,在一行上键入只会导致该行重新标记化,因为标记器返回相同的结束状态,并且编辑器可以假定后续行不会获取新标记。

Tokenization Single Line

在极少数情况下,在一行上键入会导致当前行和下面某些行重新标记化/重新绘制(直到遇到相同的结束状态)。

Tokenization Multiple Lines

我们过去如何表示标记

VS Code 中的编辑器代码在 VS Code 出现之前很久就已编写。它以 Monaco 编辑器 的形式发布在各种 Microsoft 项目中,包括 Internet Explorer 的 F12 工具。我们当时的一个要求是减少内存使用。

过去,我们手动编写标记器(即使今天,在浏览器中解释 TextMate 语法也没有可行的方法,但那是另一个故事)。对于下面这一行,我们将从我们手写的标记器中获取以下标记:

Line offsets
tokens = [
  { startIndex: 0, type: 'keyword.js' },
  { startIndex: 8, type: '' },
  { startIndex: 9, type: 'identifier.js' },
  { startIndex: 11, type: 'delimiter.paren.js' },
  { startIndex: 12, type: 'delimiter.paren.js' },
  { startIndex: 13, type: '' },
  { startIndex: 14, type: 'delimiter.curly.js' }
];

保留该标记数组在 Chrome 中占用 648 字节,因此存储这样一个对象在内存方面非常昂贵(每个对象实例必须为指向其原型、属性列表等保留空间)。我们当前的机器确实有很多 RAM,但是为 15 个字符的行存储 648 字节是不可接受的。

所以,当时我们想出了一种二进制格式来存储标记,这种格式一直使用到并包括 VS Code 1.8。鉴于会有重复的标记类型,我们把它们收集在一个单独的映射(每个文件)中,做类似下面的事情:

//     0        1               2                  3                      4
map = ['', 'keyword.js', 'identifier.js', 'delimiter.paren.js', 'delimiter.curly.js'];
tokens = [
  { startIndex: 0, type: 1 },
  { startIndex: 8, type: 0 },
  { startIndex: 9, type: 2 },
  { startIndex: 11, type: 3 },
  { startIndex: 12, type: 3 },
  { startIndex: 13, type: 0 },
  { startIndex: 14, type: 4 }
];

然后,我们会将 startIndex(32 位)和 type(16 位)编码为 JavaScript 数字具有的 53 个尾数位中的 48 位。我们的标记数组最终将如下所示,并且映射数组将在整个文件中重复使用:

tokens = [
  //       type                 startIndex
  4294967296, // 0000000000000001 00000000000000000000000000000000
  8, // 0000000000000000 00000000000000000000000000001000
  8589934601, // 0000000000000010 00000000000000000000000000001001
  12884901899, // 0000000000000011 00000000000000000000000000001011
  12884901900, // 0000000000000011 00000000000000000000000000001100
  13, // 0000000000000000 00000000000000000000000000001101
  17179869198 // 0000000000000100 00000000000000000000000000001110
];

保留此标记数组在 Chrome 中占用 104 字节。元素本身应该只占用 56 字节(7 x 64 位数字),其余的可能是由 v8 存储数组的其他元数据,或者可能以 2 的幂次方分配支持存储造成的。然而,内存节省是显而易见的,并且每行标记越多,效果越好。我们对这种方法很满意,并且从那时起一直使用这种表示方式。

注意:可能有更紧凑的存储标记方式,但以二进制可搜索的线性格式存储它们在内存使用和访问性能方面提供了最佳权衡。


标记 <-> 主题匹配

我们认为遵循浏览器最佳实践是个好主意,例如将样式留给 CSS,因此在渲染上述行时,我们会使用 map 解码二进制标记,然后使用标记类型渲染它,如下所示:

  <span class="token keyword js">function</span>
  <span class="token">&nbsp;</span>
  <span class="token identifier js">f1</span>
  <span class="token delimiter paren js">(</span>
  <span class="token delimiter paren js">)</span>
  <span class="token">&nbsp;</span>
  <span class="token delimiter curly js">{</span>

然后我们会 用 CSS 编写我们的主题(例如 Visual Studio 主题):

...
.monaco-editor.vs .token.delimiter          { color: #000000; }
.monaco-editor.vs .token.keyword            { color: #0000FF; }
.monaco-editor.vs .token.keyword.flow       { color: #AF00DB; }
...

结果非常好,我们可以在某个地方翻转一个类名,然后立即将新主题应用于编辑器。


TextMate 语法

在 VS Code 发布时,我们有大约 10 个手写标记器,主要用于网络语言,这对于通用桌面代码编辑器来说绝对不够。于是引入了 TextMate 语法,这是一种描述性的标记化规则指定形式,已在众多编辑器中采用。然而,有一个问题,TextMate 语法的工作方式与我们的手写标记器不尽相同。

TextMate 语法通过使用 begin/end 状态或 while 状态,可以推送跨多个标记的范围。以下是 JavaScript TextMate 语法下的相同示例(为简洁起见,忽略空白):

TextMate Scopes


VS Code 1.8 中的 TextMate 语法

如果我们要通过范围堆栈进行切片,每个标记基本上都会得到一个范围名称数组,然后我们会从标记器中得到类似以下的内容:

Line offsets
tokens = [
  { startIndex: 0, scopes: ['source.js', 'meta.function.js', 'storage.type.function.js'] },
  { startIndex: 8, scopes: ['source.js', 'meta.function.js'] },
  {
    startIndex: 9,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.definition.function.js',
      'entity.name.function.js'
    ]
  },
  {
    startIndex: 11,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.parameters.js',
      'punctuation.definition.parameters.js'
    ]
  },
  { startIndex: 13, scopes: ['source.js', 'meta.function.js'] },
  {
    startIndex: 14,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.block.js',
      'punctuation.definition.block.js'
    ]
  }
];

所有标记类型都是字符串,我们的代码还没有准备好处理字符串数组,更不用说对标记二进制编码的影响了。因此,我们按照以下策略将范围数组“近似”*为一个字符串:

  • 忽略最不具体的范围(即 source.js);它很少增加任何价值。
  • 将每个剩余的范围在 "." 上分割。
  • 去重唯一片段。
  • 使用稳定的排序函数(不一定是字典排序)对剩余片段进行排序。
  • 将片段连接到 "." 上。
tokens = [
  { startIndex: 0, type: 'meta.function.js.storage.type' },
  { startIndex: 9, type: 'meta.function.js' },
  { startIndex: 9, type: 'meta.function.js.definition.entity.name' },
  { startIndex: 11, type: 'meta.function.js.definition.parameters.punctuation' },
  { startIndex: 13, type: 'meta.function.js' },
  { startIndex: 14, type: 'meta.function.js.definition.punctuation.block' }
];

*: 我们所做的完全是错误的,“近似”是一个非常客气的说法 :)

这些标记随后会“适应”并遵循与手动编写的标记器相同的代码路径(进行二进制编码),然后也会以相同的方式渲染:

<span class="token meta function js storage type">function</span>
<span class="token meta function js">&nbsp;</span>
<span class="token meta function js definition entity name">f1</span>
<span class="token meta function js definition parameters punctuation">()</span>
<span class="token meta function js">&nbsp;</span>
<span class="token meta function js definition punctuation block">{</span>

TextMate 主题

TextMate 主题使用 范围选择器,这些选择器选择具有特定范围的标记,并向它们应用主题信息,例如颜色、粗细等。

给定一个具有以下范围的标记:

//            C                     B                             A
scopes = ['source.js', 'meta.definition.function.js', 'entity.name.function.js'];

以下是一些会匹配的简单选择器,按其等级(降序)排序:

选择器 C B A
source source.js meta.definition.function.js entity.name.function.js
source.js source.js meta.definition.function.js entity.name.function.js
meta source.js meta.definition.function.js entity.name.function.js
meta.definition source.js meta.definition.function.js entity.name.function.js
meta.definition.function source.js meta.definition.function.js entity.name.function.js
entity source.js meta.definition.function.js entity.name.function.js
entity.name source.js meta.definition.function.js entity.name.function.js
entity.name.function source.js meta.definition.function.js entity.name.function.js
entity.name.function.js source.js meta.definition.function.js entity.name.function.js

观察:entity 优于 meta.definition.function,因为它匹配一个更具体的范围(分别是 A 优于 B)。

观察:entity.name 优于 entity,因为它们都匹配相同的范围(A),但 entity.nameentity 更具体。

父选择器

为了使事情复杂一点,TextMate 主题还支持父选择器。以下是一些使用简单选择器和父选择器的示例(同样按其等级降序排序):

选择器 C B A
meta source.js meta.definition.function.js entity.name.function.js
source meta source.js meta.definition.function.js entity.name.function.js
source.js meta source.js meta.definition.function.js entity.name.function.js
meta.definition source.js meta.definition.function.js entity.name.function.js
source meta.definition source.js meta.definition.function.js entity.name.function.js
entity source.js meta.definition.function.js entity.name.function.js
source entity source.js meta.definition.function.js entity.name.function.js
meta.definition entity source.js meta.definition.function.js entity.name.function.js
entity.name source.js meta.definition.function.js entity.name.function.js
source entity.name source.js meta.definition.function.js entity.name.function.js

观察:source entity 胜过 entity,因为它们都匹配相同的范围(A),但 source entity 也匹配父范围(C)。

观察:entity.name 胜过 source entity,因为它们都匹配相同的范围(A),但 entity.nameentity 更具体。

注意:还有第三种选择器,涉及排除范围,我们在此不讨论。我们没有添加对这种选择器的支持,并且我们注意到它在实际中很少使用。


VS Code 1.8 中的 TextMate 主题

以下是两个 Monokai 主题规则(为简洁起见,此处为 JSON;原始格式为 XML):

...
// Function name
{ "scope": "entity.name.function", "fontStyle": "", "foreground":"#A6E22E" }
...
// Class name
{ "scope": "entity.name.class", "fontStyle": "underline", "foreground":"#A6E22E" }
...

在 VS Code 1.8 中,为了匹配我们“近似”的范围,我们将生成以下动态 CSS 规则:

...
/* Function name */
.entity.name.function { color: #A6E22E; }
...
/* Class name */
.entity.name.class { color: #A6E22E; text-decoration: underline; }
...

然后,我们将把“近似”范围与“近似”规则的匹配留给 CSS。但是 CSS 匹配规则与 TextMate 选择器匹配规则不同,尤其是在排名方面。CSS 排名基于匹配的类名数量,而 TextMate 选择器排名对范围特异性有明确的规则。

这就是为什么 VS Code 中的 TextMate 主题看起来还可以,但从未完全符合其作者的意图。有时,差异很小,但有时这些差异会完全改变主题的感觉。


众星拱月

随着时间的推移,我们已经逐步淘汰了手写标记器(最后一个,用于 HTML,仅在几个月前)。因此,在今天的 VS Code 中,所有文件都使用 TextMate 语法进行标记化。对于 Monaco 编辑器,我们已经迁移到使用 Monarch(一种描述性标记化引擎,本质上与 TextMate 语法相似,但表达力更强,可以在浏览器中运行)来处理大多数受支持的语言,并且我们为手动标记器添加了一个包装器。总而言之,这意味着支持新的标记化格式将需要更改 3 个标记提供程序(TextMate、Monarch 和手动包装器),而不是 10 个以上。

几个月前,我们审查了 VS Code 核心中所有读取令牌类型的代码,我们注意到这些消费者只关心字符串、正则表达式或注释。例如,括号匹配逻辑会忽略包含范围 "string""comment""regex" 的令牌。

最近,我们得到了内部合作伙伴(Microsoft 内部使用 Monaco 编辑器的其他团队)的同意,他们不再需要在 Monaco 编辑器中支持 IE9 和 IE10。

可能最重要的是,编辑器最受关注的功能是 迷你地图支持。为了在合理的时间内渲染迷你地图,我们不能使用 DOM 节点和 CSS 匹配。我们可能会使用 canvas,并且我们需要在 JavaScript 中知道每个令牌的颜色,这样我们才能用正确的颜色绘制那些小字母。

也许我们最大的突破是,我们 不需要存储令牌,也不需要存储它们的范围,因为令牌只在主题匹配它们或括号匹配跳过字符串方面产生效果。

最后,VS Code 1.9 有哪些新功能

表示 TextMate 主题

一个非常简单的主题可能如下所示:

theme = [
  {                                  "foreground": "#F8F8F2"                           },
  { "scope": "var",                  "foreground": "#F8F8F2"                           },
  { "scope": "var.identifier",       "foreground": "#00FF00", "fontStyle": "bold"      },
  { "scope": "meta var.identifier",  "foreground": "#0000FF"                           },
  { "scope": "constant",             "foreground": "#100000", "fontStyle": "italic"    },
  { "scope": "constant.numeric",     "foreground": "#200000"                           },
  { "scope": "constant.numeric.hex",                          "fontStyle": "bold"      },
  { "scope": "constant.numeric.oct",                          "fontStyle": "underline" },
  { "scope": "constant.numeric.dec", "foreground": "#300000"                           },
];

加载时,我们将为主题中出现的每个唯一颜色生成一个 ID,并将其存储到颜色映射中(类似于我们上面对令牌类型所做的那样)。

//                          1          2          3          4          5           6
colorMap = ["reserved", "#F8F8F2", "#00FF00", "#0000FF", "#100000", "#200000", "#300000"]
theme = [
  {                                  "foreground": 1                           },
  { "scope": "var",                  "foreground": 1,                          },
  { "scope": "var.identifier",       "foreground": 2, "fontStyle": "bold"      },
  { "scope": "meta var.identifier",  "foreground": 3                           },
  { "scope": "constant",             "foreground": 4, "fontStyle": "italic"    },
  { "scope": "constant.numeric",     "foreground": 5                           },
  { "scope": "constant.numeric.hex",                  "fontStyle": "bold"      },
  { "scope": "constant.numeric.oct",                  "fontStyle": "underline" },
  { "scope": "constant.numeric.dec", "foreground": 6                           },
];

然后我们将从主题规则中生成一个 Trie 数据结构,其中每个节点都保存解析后的主题选项。

Theme Trie

观察:constant.numeric.hexconstant.numeric.oct 的节点包含将前景色更改为 5 的指令,因为它们 继承constant.numeric 的此指令。

观察:var.identifier 的节点保留了额外的父规则 meta var.identifier,并会相应地回答查询。

当我们要找出如何对范围进行主题化时,我们可以查询这个 Trie。

例如

查询 结果
constant 设置前景色为 4,字体样式为 斜体
constant.numeric 设置前景色为 5,字体样式为 斜体
constant.numeric.hex 设置前景色为 5,字体样式为 粗体
var 设置前景色为 1
var.baz 设置前景色为 1(匹配 var
baz 不执行任何操作(不匹配)
var.identifier 如果存在父范围 meta,则设置前景色为 3,字体样式为 粗体
否则,设置前景色为 2,字体样式为 粗体

标记化更改

VS Code 中使用的所有 TextMate 标记化代码都位于一个单独的项目 vscode-textmate 中,该项目可以独立于 VS Code 使用。我们更改了 vscode-textmate 中范围堆栈的表示方式,使其成为 一个不可变链表,该链表还存储完全解析的 metadata

当将新范围推送到范围堆栈时,我们将在主题 Trie 中查找新范围。然后,我们可以根据从范围堆栈继承的内容以及主题 Trie 返回的内容,立即计算范围列表的完全解析的所需前景色或字体样式。

一些示例

范围堆栈 元数据
["source.js"] 前景色为 1,字体样式为常规(无范围选择器的默认规则)
["source.js","constant"] 前景色为 4,字体样式为 斜体
["source.js","constant","baz"] 前景色为 4,字体样式为 斜体
["source.js","var.identifier"] 前景色为 2,字体样式为 粗体
["source.js","meta","var.identifier"] 前景色为 3,字体样式为 粗体

从范围堆栈中弹出时,无需计算任何内容,因为我们可以直接使用存储在前一个范围列表元素中的元数据。

以下是表示范围列表元素的 TypeScript 类:

export class ScopeListElement {
    public readonly parent: ScopeListElement;
    public readonly scope: string;
    public readonly metadata: number;
    ...
}

我们存储 32 位元数据。

/**
 * - -------------------------------------------
 *     3322 2222 2222 1111 1111 1100 0000 0000
 *     1098 7654 3210 9876 5432 1098 7654 3210
 * - -------------------------------------------
 *     xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
 *     bbbb bbbb bfff ffff ffFF FTTT LLLL LLLL
 * - -------------------------------------------
 *  - L = LanguageId (8 bits)
 *  - T = StandardTokenType (3 bits)
 *  - F = FontStyle (3 bits)
 *  - f = foreground color (9 bits)
 *  - b = background color (9 bits)
 */

最后,不再从标记化引擎将标记作为对象发出:

// These are generated using the Monokai theme.
tokens_before = [
  { startIndex: 0, scopes: ['source.js', 'meta.function.js', 'storage.type.function.js'] },
  { startIndex: 8, scopes: ['source.js', 'meta.function.js'] },
  {
    startIndex: 9,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.definition.function.js',
      'entity.name.function.js'
    ]
  },
  {
    startIndex: 11,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.parameters.js',
      'punctuation.definition.parameters.js'
    ]
  },
  { startIndex: 13, scopes: ['source.js', 'meta.function.js'] },
  {
    startIndex: 14,
    scopes: [
      'source.js',
      'meta.function.js',
      'meta.block.js',
      'punctuation.definition.block.js'
    ]
  }
];

// Every even index is the token start index, every odd index is the token metadata.
// We get fewer tokens because tokens with the same metadata get collapsed
tokens_now = [
  // bbbbbbbbb fffffffff FFF TTT LLLLLLLL
  0,
  16926743, // 000000010 000001001 001 000 00010111
  8,
  16793623, // 000000010 000000001 000 000 00010111
  9,
  16859159, // 000000010 000000101 000 000 00010111
  11,
  16793623 // 000000010 000000001 000 000 00010111
];

它们将以以下方式渲染:

<span class="mtk9 mtki">function</span>
<span class="mtk1">&nbsp;</span>
<span class="mtk5">f1</span>
<span class="mtk1">()&nbsp;{</span>

TextMate Scopes

标记直接从标记器以 Uint32Array 形式返回。我们保留支持 ArrayBuffer,对于上面的示例,它在 Chrome 中占用 96 字节。元素本身应该只占用 32 字节(8 x 32 位数字),但我们可能再次观察到一些 v8 元数据开销。

一些数字

为了获得以下测量结果,我选择了三个具有不同特征和不同语法的文档:

文件名 文件大小 行数 语言 观察
checker.ts 1.18 MB 22,253 TypeScript TypeScript 编译器中使用的实际源文件
bootstrap.min.css 118.36 KB 12 CSS 精简 CSS 文件
sqlite3.c 6.73 MB 200,904 C SQLite 的连接分发文件

我在 Windows 上的一台功能强大的台式机上运行了测试(使用 Electron 32 位)。

我不得不对源代码进行一些更改,以便进行同类比较,例如确保在两个 VS Code 版本中都使用完全相同的语法,关闭两个版本中的富语言功能,或者取消 VS Code 1.8 中不再存在的 100 堆栈深度限制等等。我还不得不将 bootstrap.min.css 分割成多行,以使每行少于 20k 字符。

标记化时间

标记化在 UI 线程上以让步方式运行,所以我不得不添加一些代码来强制它同步运行,以便测量以下时间(呈现 10 次运行的中位数):

文件名 文件大小 VS Code 1.8 VS Code 1.9 加速
checker.ts 1.18 MB 4606.80 毫秒 3939.00 毫秒 14.50%
bootstrap.min.css 118.36 KB 776.76 毫秒 416.28 毫秒 46.41%
sqlite3.c 6.73 MB 16010.42 毫秒 10964.42 毫秒 31.52%
Tokenization times

尽管现在标记化也进行主题匹配,但时间节省可以通过对每行进行一次遍历来解释。以前,会有一个标记化过程、一个将范围“近似”为字符串的辅助过程,以及一个二进制编码标记的第三个过程,现在标记直接从 TextMate 标记化引擎以二进制编码方式生成。需要垃圾回收的生成对象数量也大大减少。

内存使用

折叠功能消耗大量内存,特别是对于大文件(这是下次优化的目标),所以我关闭了折叠功能,收集了以下堆快照数据。这显示了模型占用的内存,不包括原始文件字符串。

文件名 文件大小 VS Code 1.8 VS Code 1.9 内存节省
checker.ts 1.18 MB 3.37 MB 2.61 MB 22.60%
bootstrap.min.css 118.36 KB 267.00 KB 201.33 KB 24.60%
sqlite3.c 6.73 MB 27.49 MB 21.22 MB 22.83%
Memory usage

内存使用量减少可以通过不再保留令牌映射、连续具有相同元数据的令牌的折叠以及使用 ArrayBuffer 作为支持存储来解释。我们可以通过始终将仅包含空白字符的令牌折叠到前一个令牌中来进一步改进,因为空白字符的渲染颜色无关紧要(空白字符是不可见的)。

新的 TextMate 范围检查器小部件

我们添加了一个新小部件来帮助编写和调试主题或语法:您可以在命令面板中运行它,选择开发人员:检查编辑器标记和范围⇧⌘P(Windows、Linux Ctrl+Shift+P)。

TextMate scope inspector

验证变更

对编辑器此组件的更改存在一些严重风险,因为我们方法中的任何错误(在新 Trie 创建代码中,在新二进制编码格式中等)都可能导致用户可见的巨大差异。

在 VS Code 中,我们有一个集成套件,它断言我们发布的五种主题(Light, Light+, Dark, Dark+, High Contrast)中所有编程语言的颜色。这些测试在更改我们的主题或更新特定语法时都非常有帮助。73 个集成测试中的每一个都包含一个固定文件(例如 test.c)以及五种主题的预期颜色(test_c.json),它们在我们的 CI 构建 中每次提交时运行。

为了验证标记化更改,我们使用旧的基于 CSS 的方法,收集了所有 14 个随附主题(不仅仅是我们编写的五个主题)的这些测试的着色结果。然后,在每次更改后,我们使用新的基于 Trie 的逻辑运行相同的测试,并使用定制的可视化差异(和补丁)工具,查看每一个颜色差异,并找出颜色更改的根本原因。我们使用这种技术捕获了至少 2 个错误,并且能够更改我们的五个主题,以在 VS Code 版本之间实现最小的颜色更改。

Tokenization validation

之前和之后

以下是 VS Code 1.8 和现在 VS Code 1.9 中各种颜色主题的外观:

Monokai 主题

Monokai before

Monokai after

Quiet Light 主题

Quiet Light before

Quiet Light after

Red 主题

Red before

Red after

总结

我希望您能欣赏升级到 VS Code 1.9 后获得的额外 CPU 时间和 RAM,并且我们能继续让您以高效愉悦的方式进行编码。

编程愉快!

Alexandru Dima, VS Code 团队成员 @alexdima123