VS Code 中 Data Wrangler 快速入门指南
Data Wrangler 是一个以代码为中心的数据查看和清理工具,它集成到 VS Code 和 VS Code Jupyter Notebook 中。它提供了一个丰富的用户界面来查看和分析你的数据,显示富有洞察力的列统计信息和可视化,并在你清理和转换数据时自动生成 Pandas 代码。
以下是一个从笔记本打开 Data Wrangler 的示例,用于分析和清理数据,并使用内置操作。然后,自动生成的代码将导出回笔记本。

本页旨在帮助你快速启动并运行 Data Wrangler。
设置你的环境
- 如果你尚未安装 Python,请安装(注意:Data Wrangler 仅支持 Python 3.8 或更高版本)。
- 安装 Data Wrangler 扩展
当你首次启动 Data Wrangler 时,它会询问你希望连接到哪个 Python 内核。它还会检查你的机器和环境,以查看是否安装了所需的 Python 包,例如 Pandas。
打开 Data Wrangler
无论何时你在 Data Wrangler 中,你都处于一个沙盒环境中,这意味着你可以安全地探索和转换数据。原始数据集不会被修改,直到你明确地导出你的更改。
从 Jupyter Notebook 启动 Data Wrangler
如果你的笔记本中有一个 Pandas 数据框,你现在会看到一个 在 Data Wrangler 中打开 'df' 按钮(其中 df 是你的数据框的变量名),在运行 df.head()、df.tail()、display(df)、print(df) 和 df 中的任何一个之后,会出现在单元格底部。

直接从文件启动 Data Wrangler
你也可以直接从本地文件(例如 .csv)启动 Data Wrangler。为此,请在 VS Code 中打开包含你希望打开的文件的任何文件夹。在文件资源管理器视图中,右键单击该文件并单击 在 Data Wrangler 中打开。

UI 导览
Data Wrangler 在处理数据时有两种模式。每种模式的详细信息在下面的后续部分中解释。
- 查看模式:查看模式优化了界面,以便你快速查看、过滤和排序数据。这种模式非常适合对数据集进行初步探索。
- 编辑模式:编辑模式优化了界面,以便你对数据集应用转换、清理或修改。当你通过界面应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,并且可以将其导出回你的笔记本以供重用。
注意:默认情况下,Data Wrangler 以查看模式打开。你可以在“设置”编辑器中更改此行为 。
查看模式界面

-
如果选择了某个列,数据摘要面板会显示你的整个数据集或特定列的详细摘要统计信息。
-
你可以从列的标题菜单中对列应用任何数据筛选/排序。
-
在 Data Wrangler 的查看或编辑模式之间切换以访问内置数据操作。
-
快速洞察标题是你快速查看每个列的有用信息的地方。根据列的数据类型,快速洞察会显示数据的分布或数据点的频率,以及缺失值和不同值。
-
数据网格为你提供了一个可滚动窗格,你可以在其中查看整个数据集。
编辑模式界面
切换到编辑模式可在 Data Wrangler 中启用附加功能和用户界面元素。在下面的屏幕截图中,我们使用 Data Wrangler 将最后一列中的缺失值替换为该列的中位数。

-
操作面板是你搜索 Data Wrangler 所有内置数据操作的地方。操作按类别组织。
-
清理步骤面板显示了所有已应用操作的列表。它使用户能够撤消特定操作或编辑最近的操作。选择一个步骤将突出显示数据网格中的更改,并显示与该操作关联的生成代码。
-
导出菜单允许你将代码导出回 Jupyter Notebook 或将数据导出到新文件。
-
当你选择了一个操作并预览其对数据的影响时,网格会叠加一个你对数据所做更改的数据差异视图。
-
代码预览部分显示了 Data Wrangler 在选择操作时生成的 Python 和 Pandas 代码。当没有选择操作时,它保持为空。你可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。
示例:替换数据集中的缺失值
给定一个数据集,常见的数据清理任务之一是处理数据中存在的任何缺失值。下面的示例演示了如何使用 Data Wrangler 将列中的缺失值替换为该列的中位数。虽然转换是通过界面完成的,但 Data Wrangler 还会自动生成替换缺失值所需的 Python 和 Pandas 代码。

- 在操作面板中,搜索填充缺失值操作。
- 在参数中指定你希望用什么替换缺失值。在此示例中,我们将用该列的中位数替换缺失值。
- 验证数据网格是否显示了数据差异中的正确更改。
- 验证 Data Wrangler 生成的代码是否符合你的预期。
- 应用该操作,它将被添加到你的清理步骤历史记录中。
后续步骤
本页介绍了如何快速开始使用 Data Wrangler。有关 Data Wrangler 的完整文档和教程,包括 Data Wrangler 当前支持的所有内置操作,请参阅以下页面。