Data Wrangler 在 VS Code 中的快速入门指南
Data Wrangler 是一个以代码为中心的数据查看和清理工具,它集成到 VS Code 和 VS Code Jupyter Notebooks 中。它提供了一个丰富的用户界面,用于查看和分析您的数据,显示有见地的列统计信息和可视化效果,并自动生成 Pandas 代码,当您清理和转换数据时。
以下是一个示例,从笔记本打开 Data Wrangler,使用内置操作分析和清理数据。然后,自动生成的代码被导出回笔记本中。
本页的目标是帮助您快速启动并运行 Data Wrangler。
设置您的环境
- 如果您尚未安装 Python,请安装 Python(注意:Data Wrangler 仅支持 Python 3.8 或更高版本)。
- 安装 Data Wrangler 扩展
当您首次启动 Data Wrangler 时,它会询问您要连接到哪个 Python 内核。它还会检查您的机器和环境,以查看是否安装了所需的 Python 包,例如 Pandas。
打开 Data Wrangler
任何时候您在 Data Wrangler 中,您都处于一个沙箱环境,意味着您可以安全地探索和转换数据。 原始数据集不会被修改,除非您明确导出您的更改。
从 Jupyter Notebook 启动 Data Wrangler
如果您的笔记本中有一个 Pandas 数据帧,您现在将看到一个在 Data Wrangler 中打开 'df' 按钮(其中 df
是您的数据帧的变量名),在运行 df.head()
、df.tail()
、display(df)
、print(df)
和 df
中的任何一个后,出现在单元格底部。
直接从文件启动 Data Wrangler
您还可以直接从本地文件(例如 .csv
)启动 Data Wrangler。 为此,请在 VS Code 中打开任何包含您要打开的文件的文件夹。 在文件资源管理器视图中,右键单击文件,然后单击在 Data Wrangler 中打开。
UI 导览
Data Wrangler 在处理您的数据时有两种模式。 每种模式的详细信息在下面的后续部分中进行说明。
- 查看模式: 查看模式优化了界面,使您可以快速查看、筛选和排序您的数据。 此模式非常适合对数据集进行初始探索。
- 编辑模式: 编辑模式优化了界面,使您可以对数据集应用转换、清理或修改。 当您在界面中应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,这可以导出回您的笔记本以供重用。
注意:默认情况下,Data Wrangler 在查看模式下打开。 您可以在设置编辑器中更改此行为 。
查看模式界面
-
“数据摘要”面板显示详细的摘要统计信息,针对您的整体数据集或特定列(如果已选择)。
-
您可以从列的标题菜单中对列应用任何“数据筛选器/排序”。
-
在 Data Wrangler 的“查看”或“编辑”模式之间切换,以访问内置的数据操作。
-
“快速洞察”标题是您可以快速查看有关每列的宝贵信息的地方。 根据列的数据类型,“快速洞察”显示数据分布或数据点的频率,以及缺失值和不同值。
-
“数据网格”为您提供一个可滚动的窗格,您可以在其中查看您的整个数据集。
编辑模式界面
切换到“编辑”模式会在 Data Wrangler 中启用其他功能和用户界面元素。 在以下屏幕截图中,我们使用 Data Wrangler 将最后一列中的缺失值替换为该列的中位数。
-
“操作”面板是您可以搜索 Data Wrangler 的所有内置数据操作的地方。 这些操作按类别组织。
-
“清理步骤”面板显示先前已应用的所有操作的列表。 它使用户能够撤消特定操作或编辑最近的操作。 选择一个步骤将突出显示数据网格中的更改,并将显示与该操作关联的生成的代码。
-
“导出菜单”允许您将代码导出回 Jupyter Notebook 或将数据导出到新文件。
-
当您选择了一个操作并正在预览其对数据的影响时,网格会覆盖一个数据差异视图,显示您对数据所做的更改。
-
“代码预览”部分显示 Data Wrangler 生成的 Python 和 Pandas 代码,当选择一个操作时。 当未选择任何操作时,它保持为空。 您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。
示例:替换数据集中缺失值
给定一个数据集,常见的数��清理任务之一是处理数据中存在的任何缺失值。 下面的示例显示了如何使用 Data Wrangler 将列中的缺失值替换为该列的中位数。 虽然转换是通过界面完成的,但 Data Wrangler 还会自动生成替换缺失值所需的 Python 和 Pandas 代码。
- 在“操作面板”中,搜索“填充缺失值”操作。
- 在参数中指定您要用什么替换缺失值。 在本例中,我们将用该列的中位数替换缺失值。
- 验证数据网格是否向您显示了数据差异中的正确更改。
- 验证 Data Wrangler 生成的代码是否是您想要的。
- 应用该操作,它将被添加到您的清理步骤历史记录中。
后续步骤
本页介绍了如何快速开始使用 Data Wrangler。 有关 Data Wrangler 的完整文档和教程,包括 Data Wrangler 当前支持的所有内置操作,请参阅以下页面。