🚀 在 VS Code 中

Data Wrangler 在 VS Code 中的快速入门指南

Data Wrangler 是一个以代码为中心的数据查看和清理工具,它集成到 VS Code 和 VS Code Jupyter Notebooks 中。它提供了一个丰富的用户界面,用于查看和分析您的数据,显示有见地的列统计信息和可视化效果,并自动生成 Pandas 代码,当您清理和转换数据时。

以下是一个示例,从笔记本打开 Data Wrangler,使用内置操作分析和清理数据。然后,自动生成的代码被导出回笔记本中。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本页的目标是帮助您快速启动并运行 Data Wrangler。

设置您的环境

  1. 如果您尚未安装 Python,请安装 Python注意:Data Wrangler 仅支持 Python 3.8 或更高版本)。
  2. 安装 Data Wrangler 扩展

当您首次启动 Data Wrangler 时,它会询问您要连接到哪个 Python 内核。它还会检查您的机器和环境,以查看是否安装了所需的 Python 包,例如 Pandas。

打开 Data Wrangler

任何时候您在 Data Wrangler 中,您都处于一个沙箱环境,意味着您可以安全地探索和转换数据。 原始数据集不会被修改,除非您明确导出您的更改。

从 Jupyter Notebook 启动 Data Wrangler

如果您的笔记本中有一个 Pandas 数据帧,您现在将看到一个在 Data Wrangler 中打开 'df' 按钮(其中 df 是您的数据帧的变量名),在运行 df.head()df.tail()display(df)print(df)df 中的任何一个后,出现在单元格底部。

a screenshot showing the entry point into Data Wrangler from a notebook

直接从文件启动 Data Wrangler

您还可以直接从本地文件(例如 .csv)启动 Data Wrangler。 为此,请在 VS Code 中打开任何包含您要打开的文件的文件夹。 在文件资源管理器视图中,右键单击文件,然后单击在 Data Wrangler 中打开

a screenshot showing the entry point into Data Wrangler from a file

UI 导览

Data Wrangler 在处理您的数据时有两种模式。 每种模式的详细信息在下面的后续部分中进行说明。

  1. 查看模式: 查看模式优化了界面,使您可以快速查看、筛选和排序您的数据。 此模式非常适合对数据集进行初始探索。
  2. 编辑模式: 编辑模式优化了界面,使您可以对数据集应用转换、清理或修改。 当您在界面中应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,这可以导出回您的笔记本以供重用。

注意:默认情况下,Data Wrangler 在查看模式下打开。 您可以在设置编辑器中更改此行为

查看模式界面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 数据摘要”面板显示详细的摘要统计信息,针对您的整体数据集或特定列(如果已选择)。

  2. 您可以从列的标题菜单中对列应用任何“数据筛选器/排序”。

  3. 在 Data Wrangler 的“查看”或“编辑”模式之间切换,以访问内置的数据操作。

  4. 快速洞察”标题是您可以快速查看有关每列的宝贵信息的地方。 根据列的数据类型,“快速洞察”显示数据分布或数据点的频率,以及缺失值和不同值。

  5. 数据网格”为您提供一个可滚动的窗格,您可以在其中查看您的整个数据集。


编辑模式界面

切换到“编辑”模式会在 Data Wrangler 中启用其他功能和用户界面元素。 在以下屏幕截图中,我们使用 Data Wrangler 将最后一列中的缺失值替换为该列的中位数。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作”面板是您可以搜索 Data Wrangler 的所有内置数据操作的地方。 这些操作按类别组织。

  2. 清理步骤”面板显示先前已应用的所有操作的列表。 它使用户能够撤消特定操作或编辑最近的操作。 选择一个步骤将突出显示数据网格中的更改,并将显示与该操作关联的生成的代码。

  3. 导出菜单”允许您将代码导出回 Jupyter Notebook 或将数据导出到新文件。

  4. 当您选择了一个操作并正在预览其对数据的影响时,网格会覆盖一个数据差异视图,显示您对数据所做的更改。

  5. 代码预览”部分显示 Data Wrangler 生成的 Python 和 Pandas 代码,当选择一个操作时。 当未选择任何操作时,它保持为空。 您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。

示例:替换数据集中缺失值

给定一个数据集,常见的数��清理任务之一是处理数据中存在的任何缺失值。 下面的示例显示了如何使用 Data Wrangler 将列中的缺失值替换为该列的中位数。 虽然转换是通过界面完成的,但 Data Wrangler 还会自动生成替换缺失值所需的 Python 和 Pandas 代码。

an example of using Data Wrangler to replace missing values in your dataset

  1. 在“操作面板”中,搜索“填充缺失值”操作。
  2. 在参数中指定您要用什么替换缺失值。 在本例中,我们将用该列的中位数替换缺失值。
  3. 验证数据网格是否向您显示了数据差异中的正确更改。
  4. 验证 Data Wrangler 生成的代码是否是您想要的。
  5. 应用该操作,它将被添加到您的清理步骤历史记录中。

后续步骤

本页介绍了如何快速开始使用 Data Wrangler。 有关 Data Wrangler 的完整文档和教程,包括 Data Wrangler 当前支持的所有内置操作,请参阅以下页面。

使用 Data Wrangler