现已推出!阅读 10 月份的新功能和修复。

VS Code 中的数据整理器快速入门指南

数据整理器 是一种以代码为中心的、集成到 VS Code 和 VS Code Jupyter 笔记本中的数据查看和清理工具。它提供了一个丰富的用户界面,用于查看和分析数据,显示有见地的列统计信息和可视化效果,并在您清理和转换数据时自动生成 Pandas 代码。

以下是一个从笔记本中打开数据整理器以分析和清理数据的示例,该示例使用内置操作来清理数据。然后,自动生成的代码将导出回笔记本。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本页面的目标是帮助您快速上手数据整理器。

设置您的环境

  1. 如果您尚未安装,请安装 Python(**注意:**数据整理器仅支持 Python 版本 3.8 或更高版本)。
  2. 安装数据整理器扩展

首次启动数据整理器时,系统会询问您要连接到哪个 Python 内核。它还会检查您的机器和环境以查看是否安装了必要的 Python 包,例如 Pandas。

打开数据整理器

无论何时在数据整理器中,您都在一个沙盒环境中,这意味着您可以安全地探索和转换数据。原始数据集不会被修改,除非您显式导出更改。

从 Jupyter 笔记本启动数据整理器

如果您在笔记本中有一个 Pandas 数据帧,您将在运行 df.head()df.tail()display(df)print(df)df 之后看到一个 **在数据整理器中打开“df”** 按钮(其中 df 是数据帧的变量名)出现在单元格底部。

a screenshot showing the entry point into Data Wrangler from a notebook

直接从文件启动数据整理器

您也可以直接从本地文件(例如 .csv)启动数据整理器。为此,请在 VS Code 中打开包含您要打开的文件的任何文件夹。在文件资源管理器视图中,右键单击该文件,然后单击 **在数据整理器中打开**。

a screenshot showing the entry point into Data Wrangler from a file

UI 导览

数据整理器在处理数据时有两种模式。每种模式的详细信息将在以下部分中解释。

  1. **查看模式:**查看模式优化了界面,以便您快速查看、筛选和排序数据。此模式非常适合对数据集进行初步探索。
  2. **编辑模式:**编辑模式优化了界面,以便您可以对数据集应用转换、清理或修改。当您在界面中应用这些转换时,数据整理器会自动生成相关的 Pandas 代码,并且可以将其导出回您的笔记本以供重复使用。

注意:默认情况下,数据整理器在查看模式下打开。您可以在设置编辑器中更改此行为 .

查看模式界面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. **数据摘要** 面板显示了整个数据集或特定列的详细摘要统计信息(如果选择了特定列)。

  2. 您可以从列的标题菜单中对列应用任何 **数据筛选器/排序**。

  3. 在数据整理器的 **查看** 或 **编辑** 模式之间切换,以访问内置数据操作。

  4. **快速洞察** 标题是您可以在其中快速查看有关每列的宝贵信息的地方。根据列的数据类型,快速洞察将显示数据的分布或数据点的频率,以及缺失值和不同的值。

  5. **数据网格** 为您提供了一个可滚动窗格,您可以在其中查看整个数据集。


编辑模式界面

切换到编辑模式将在数据整理器中启用其他功能和用户界面元素。在下面的屏幕截图中,我们使用数据整理器将最后一列中的缺失值替换为该列的中位数。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. **操作** 面板是您可以在其中搜索数据整理器所有内置数据操作的地方。操作按类别组织。

  2. **清理步骤** 面板显示了先前应用的所有操作的列表。它允许用户撤消特定操作或编辑最新操作。选择一个步骤将突出显示数据网格中的更改,并显示与该操作关联的生成代码。

  3. **导出菜单** 允许您将代码导出回 Jupyter 笔记本或将数据导出到新文件。

  4. 当您选择了操作并预览其对数据的影响时,网格将叠加一个 **数据差异** 视图,以显示您对数据所做的更改。

  5. **代码预览** 部分显示了当选择操作时,数据整理器生成的 Python 和 Pandas 代码。如果没有选择操作,它将保持为空。您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。

示例:替换数据集中缺失的值

给定一个数据集,常见的清理任务之一是处理数据中存在的任何缺失值。下面的示例显示了如何使用数据整理器将一列中的缺失值替换为该列的中位数。虽然转换是通过界面完成的,但数据整理器也会自动生成用于替换缺失值的 Python 和 Pandas 代码。

an example of using Data Wrangler to replace missing values in your dataset

  1. 在 **操作面板** 中,搜索 **填充缺失值** 操作。
  2. 在参数中指定您想要替换缺失值的內容。在本例中,我们将用该列的中位数替换缺失值。
  3. 验证数据网格是否显示了数据差异中的正确更改。
  4. 验证数据整理器生成的代码是否符合您的预期。
  5. 应用该操作,它将添加到您的清理步骤历史记录中。

下一步

本页介绍了如何快速上手数据整理器。有关数据整理器的完整文档和教程,包括数据整理器当前支持的所有内置操作,请参阅以下页面。

使用数据整理器