现已发布!阅读有关一月份的新功能和修复。

VS Code 中的数据科学教程

本教程演示如何使用 Visual Studio Code 和 Microsoft Python 扩展以及常见的数据科学库来探索一个基本的数据科学场景。具体来说,使用泰坦尼克号的乘客数据,您将学习如何设置数据科学环境、导入和清理数据、创建用于预测泰坦尼克号上生存情况的机器学习模型,以及评估生成模型的准确性。

先决条件

完成本教程需要进行以下安装。如果您尚未安装,请确保安装它们。

  • Visual Studio Code

  • 来自 Visual Studio Marketplace 的 VS Code 的 Python 扩展VS Code 的 Jupyter 扩展。有关安装扩展的更多详细信息,请参阅 扩展市场。这两个扩展均由 Microsoft 发布。

  • 带有最新 Python 的 Miniconda

    注意:如果您已经安装了完整的 Anaconda 发行版,则无需安装 Miniconda。或者,如果您不想使用 Anaconda 或 Miniconda,可以创建一个 Python 虚拟环境并使用 pip 安装本教程所需的包。如果您选择此路径,则需要安装以下包:pandas、jupyter、seaborn、scikit-learn、keras 和 tensorflow。

    python -m pip install pandas jupyter seaborn scikit-learn keras tensorflow
    

设置数据科学环境

Visual Studio Code 和 Python 扩展为数据科学场景提供了一个出色的编辑器。通过对 Jupyter notebook 的原生支持以及 Anaconda,可以轻松入门。在本节中,您将为本教程创建一个工作区,创建一个包含本教程所需数据科学模块的 Anaconda 环境,并创建一个 Jupyter notebook,您将使用它来创建机器学习模型。

  1. 首先,为数据科学教程创建一个 Anaconda 环境。打开 Anaconda 命令提示符并运行 conda create -n myenv python=3.10 pandas jupyter seaborn scikit-learn keras tensorflow 以创建一个名为 myenv 的环境。有关创建和管理 Anaconda 环境的附加信息,请参阅 Anaconda 文档

  2. 接下来,在方便的位置创建一个文件夹,用作本教程的 VS Code 工作区,并将其命名为 hello_ds

  3. 通过运行 VS Code 并使用 文件 > 打开文件夹 命令,在 VS Code 中打开项目文件夹。您可以安全地信任打开文件夹,因为是您创建了它。

  4. VS Code 启动后,创建将用于本教程的 Jupyter notebook。打开命令面板(⇧⌘P (Windows, Linux Ctrl+Shift+P))并选择 创建: 新建 Jupyter Notebook

    Creating a new Jupyter Notebook

    注意:或者,您可以从 VS Code 文件资源管理器中,使用新建文件图标创建一个名为 hello.ipynb 的 Notebook 文件。

  5. 使用 文件 > 另存为... 将文件保存为 hello.ipynb

  6. 创建文件后,您应该在 notebook 编辑器中看到打开的 Jupyter notebook。有关 Jupyter notebook 原生支持的附加信息,您可以阅读 Jupyter Notebooks 主题。

    Viewing a new Jupyter Notebook

  7. 现在选择 notebook 右上角的 选择内核

    Selecting a Jupyter Notebook Kernel

  8. 选择您在上面创建的 Python 环境来运行您的内核。

    Choose a kernel from created environment

  9. 要通过 VS Code 的集成终端管理您的环境,请使用(⌃` (Windows, Linux Ctrl+`))打开它。如果您的环境未激活,可以像在终端中一样激活它 (conda activate myenv)。

准备数据

本教程使用 泰坦尼克号数据集,该数据集可在 OpenML.org 上获取,数据来自范德堡大学生物统计学系,网址为 https://hbiostat.org/data。泰坦尼克号数据提供了有关泰坦尼克号乘客生存情况以及年龄和票价等级等乘客特征的信息。使用这些数据,本教程将建立一个模型来预测给定乘客是否会在泰坦尼克号沉没中幸存下来。本节将展示如何在 Jupyter notebook 中加载和操作数据。

  1. 首先,从 hbiostat.org 下载泰坦尼克号数据作为 CSV 文件(右上角有下载链接),并将其命名为 titanic3.csv,然后将其保存到您在上一步中创建的 hello_ds 文件夹中。

  2. 如果您尚未在 VS Code 中打开文件,请通过转到 文件 > 打开文件夹 来打开 hello_ds 文件夹和 Jupyter notebook (hello.ipynb)。

  3. 在您的 Jupyter notebook 中,首先导入 pandasnumpy 库,这两个是用于操作数据的常用库,并将泰坦尼克号数据加载到 pandas DataFrame 中。为此,将下面的代码复制到 notebook 的第一个单元格中。有关在 VS Code 中使用 Jupyter notebook 的更多指导,请参阅 使用 Jupyter Notebooks 文档。

    import pandas as pd
    import numpy as np
    data = pd.read_csv('titanic3.csv')
    
  4. 现在,使用“运行单元格”图标或 Shift+Enter 快捷键运行该单元格。

    Running a Jupyter notebook cell

  5. 单元格运行完成后,您可以使用“变量资源管理器”和“数据查看器”查看已加载的数据。首先选择 notebook 顶部工具栏中的 变量 图标。

    Select Variables icon

  6. VS Code 底部将打开一个 JUPYTER: 变量 窗格。它包含当前正在运行的内核中定义的所有变量的列表。

    Variables pane

  7. 要查看之前加载的 Pandas DataFrame 中的数据,请选择 data 变量左侧的数据查看器图标。

    Select Data Viewer icon

  8. 使用数据查看器可以查看、排序和筛选数据行。查看数据后,可以帮助可视化不同变量之间的关系,对某些方面进行绘图会很有帮助。

    Data viewer and variable explorer

    或者,您可以使用其他扩展(如 Data Wrangler)提供的​​数据查看体验。Data Wrangler 扩展提供了丰富的用户界面,可显示有关数据的见解,并帮助您执行数据分析、质量检查、转换等操作。在我们的文档中了解有关 Data Wrangler 扩展的更多信息。

  9. 在对数据进行绘图之前,需要确保数据中没有问题。如果您查看泰坦尼克号 csv 文件,您会注意到一个问题是使用了问号(“?”)来标识数据不可用的单元格。

    虽然 Pandas 可以将此值读入 DataFrame,但对于像 age 这样的列,结果是其数据类型将被设置为 object 而不是数字数据类型,这对绘图是有问题的。

    可以通过将问号替换为 pandas 能够理解的缺失值来纠正此问题。在 notebook 的下一个单元格中添加以下代码,将 agefare 列中的问号替换为 numpy NaN 值。请注意,替换值后我们还需要更新列的数据类型。

    提示:要添加新单元格,您可以使用现有单元格左下角的插入单元格图标。或者,您也可以使用 Esc 进入命令模式,然后按 B 键。

    data.replace('?', np.nan, inplace= True)
    data = data.astype({"age": np.float64, "fare": np.float64})
    

    注意:如果您需要查看已为某列使用的数据类型,可以使用 DataFrame dtypes 属性。

  10. 现在数据状况良好,您可以使用 seabornmatplotlib 查看数据集中某些列与生存情况的关系。在 notebook 的下一个单元格中添加以下代码并运行它,以查看生成的图表。

    import seaborn as sns
    import matplotlib.pyplot as plt
    
    fig, axs = plt.subplots(ncols=5, figsize=(30,5))
    sns.violinplot(x="survived", y="age", hue="sex", data=data, ax=axs[0])
    sns.pointplot(x="sibsp", y="survived", hue="sex", data=data, ax=axs[1])
    sns.pointplot(x="parch", y="survived", hue="sex", data=data, ax=axs[2])
    sns.pointplot(x="pclass", y="survived", hue="sex", data=data, ax=axs[3])
    sns.violinplot(x="survived", y="fare", hue="sex", data=data, ax=axs[4])
    

    Graphing the titanic data

    提示:要快速复制图形,可以将鼠标悬停在图形的右上角,然后单击出现的 复制到剪贴板 按钮。您还可以单击 展开图像 按钮来更好地查看图形的详细信息。

    Plot Viewer Buttons

  11. 这些图形有助于查看生存率与数据输入变量之间的一些关系,但也可以使用 pandas 来计算相关性。为此,所有使用的变量都需要是数字才能进行相关性计算,而性别目前存储为字符串。要将这些字符串值转换为整数,请添加并运行以下代码。

    data.replace({'male': 1, 'female': 0}, inplace=True)
    
  12. 现在,您可以分析所有输入变量之间的相关性,以确定哪些特征将是机器学习模型的最佳输入。值越接近 1,该值与结果的相关性就越高。使用以下代码计算所有变量与生存率之间的相关性。

    data.corr(numeric_only=True).abs()[["survived"]]
    

    Determining the correlation between input variables and survival

  13. 查看相关性结果时,您会注意到像性别这样的某些变量与生存率具有相当高的相关性,而像亲属(sibsp = 兄弟姐妹或配偶,parch = 父母或子女)这样的其他变量似乎相关性很低。

    让我们假设 sibspparch 在影响生存方面是相关的,并将它们组合成一个名为“relatives”的新列,看看它们的组合是否与生存率有更高的相关性。为此,您将检查给定乘客的 sibspparch 的数量是否大于 0,如果是,则可以说他们在船上有亲属。

    使用以下代码创建一个名为 relatives 的新变量和列到数据集中,并再次检查相关性。

    data['relatives'] = data.apply (lambda row: int((row['sibsp'] + row['parch']) > 0), axis=1)
    data.corr(numeric_only=True).abs()[["survived"]]
    

    Determining the correlation between having relatives and survival

  14. 您会注意到,事实上,从一个人是否有亲属的角度来看,而不是有多少亲属来看,与生存的相关性更高。有了这些信息,现在可以从数据集中删除低价值的 sibspparch 列,以及任何包含 NaN 值的行,以得到一个可用于训练模型的数据集。

    data = data[['sex', 'pclass','age','relatives','fare','survived']].dropna()
    

    注意:尽管年龄的直接相关性较低,但我们保留了它,因为它看起来合理,它可能仍然与其他输入结合起来具有相关性。

训练和评估模型

数据准备就绪后,现在可以开始创建模型。在本节中,您将使用 scikit-learn 库(因为它提供了一些有用的辅助函数)来对数据集进行预处理、训练一个分类模型来确定泰坦尼克号上的生存情况,然后使用该模型和测试数据来确定其准确性。

  1. 训练模型的常见第一步是将数据集划分为训练数据和验证数据。这允许您使用部分数据来训练模型,使用部分数据来测试模型。如果您使用所有数据来训练模型,您将无法估算它在模型尚未见过的数据上的实际表现。scikit-learn 库的一个好处是它提供了一个专门用于将数据集分割为训练和测试数据的方法。

    在 notebook 中添加并运行一个包含以下代码的单元格,以分割数据。

    from sklearn.model_selection import train_test_split
    x_train, x_test, y_train, y_test = train_test_split(data[['sex','pclass','age','relatives','fare']], data.survived, test_size=0.2, random_state=0)
    
  2. 接下来,您将对输入进行归一化,使所有特征都得到同等对待。例如,在数据集中,年龄的值范围大约在 0-100 之间,而性别只是 1 或 0。通过对所有变量进行归一化,您可以确保所有值的范围都相同。使用以下代码在一个新的代码单元格中对输入值进行缩放。

    from sklearn.preprocessing import StandardScaler
    sc = StandardScaler()
    X_train = sc.fit_transform(x_train)
    X_test = sc.transform(x_test)
    
  3. 您可以在众多不同的机器学习算法中进行选择来对数据进行建模。scikit-learn 库也支持其中的许多 算法,并提供了一个 图表 来帮助您为场景选择合适的算法。现在,使用 朴素贝叶斯算法,这是一种常见的分类问题算法。添加一个包含以下代码的单元格来创建和训练该算法。

    from sklearn.naive_bayes import GaussianNB
    model = GaussianNB()
    model.fit(X_train, y_train)
    
  4. 有了训练好的模型,现在可以尝试用它来测试被保留下来的测试数据。添加并运行以下代码来预测测试数据的结果并计算模型的准确性。

    from sklearn import metrics
    predict_test = model.predict(X_test)
    print(metrics.accuracy_score(y_test, predict_test))
    

    Running the trained model against test data

    查看测试数据的结果,您会发现训练好的算法在估计生存率方面有大约 75% 的成功率。

(可选)使用神经网络

神经网络是一种使用权重和激活函数(模拟人脑神经元的某些方面)的模型,它根据提供的输入来确定结果。与您之前研究的机器学习算法不同,神经网络是一种深度学习形式,您不需要提前知道解决问题集的理想算法。它可以用于许多不同的场景,分类是其中之一。在本节中,您将使用 Keras 库和 TensorFlow 来构建神经网络,并探索它如何处理泰坦尼克号数据集。

  1. 第一步是导入所需的库并创建模型。在这种情况下,您将使用 Sequential 神经网络,这是一种分层神经网络,其中多个层按顺序相互馈送。

    from keras.models import Sequential
    from keras.layers import Dense
    
    model = Sequential()
    
  2. 定义模型后,下一步是添加神经网络的层。为了简单起见,我们只使用三层。添加以下代码来创建神经网络的层。

    model.add(Dense(5, kernel_initializer = 'uniform', activation = 'relu', input_dim = 5))
    model.add(Dense(5, kernel_initializer = 'uniform', activation = 'relu'))
    model.add(Dense(1, kernel_initializer = 'uniform', activation = 'sigmoid'))
    
    • 第一层将设置为维度 5,因为您有五个输入:性别、票价等级、年龄、亲属和票价。
    • 最后一层必须输出 1,因为您想要一个指示乘客是否生存的一维输出。
    • 中间层为 5 是为了简单起见,尽管该值可以是不同的。

    整流线性单元 (relu) 激活函数用作前两层的良好通用激活函数,而最终层需要使用 sigmoid 激活函数,因为您想要的输出(乘客是否生存)需要在 0-1 的范围内缩放(乘客生存的概率)。

    您也可以使用此代码行查看所构建模型的摘要

    model.summary()
    

    Viewing a summary of the sequential neural network

  3. 模型创建后,需要对其进行编译。作为其中的一部分,您需要定义将使用哪种优化器、如何计算损失以及应优化哪个指标。添加以下代码来构建和训练模型。您会注意到训练后的准确率约为 61%。

    注意:此步骤根据您的机器不同可能需要几秒钟到几分钟的时间。

    model.compile(optimizer="adam", loss='binary_crossentropy', metrics=['accuracy'])
    model.fit(X_train, y_train, batch_size=32, epochs=50)
    

    Build and train the neural network

  4. 现在模型已构建并训练完毕,我们可以看看它在测试数据上的表现。

    y_pred = np.rint(model.predict(X_test).flatten())
    print(metrics.accuracy_score(y_test, y_pred))
    

    Evaluate the neural network

    与训练类似,您会发现现在在预测乘客生存方面有 79% 的准确率。使用这个简单的神经网络,结果比之前尝试的朴素贝叶斯分类器的 75% 准确率要好。

后续步骤

现在您已经熟悉了在 Visual Studio Code 中执行机器学习的基础知识,以下是一些您可以查看的其他 Microsoft 资源和教程。

© . This site is unofficial and not affiliated with Microsoft.