手把手：如何方便地使用Python和Pandas来匿名信

　　大数据文摘出品

　　编译：毅航、胡笳、Aileen

　　最近，我收到了一个数据集，其中包含有关客户的敏感信息，这些信息在任何情况下都不应公开。数据集位于我们的一台服务器上，一个相当安全的地方。

　　但我想将数据复制到我的本地磁盘上，以便更方便地处理数据，同时又不希望担心数据不安全。于是，我写了一个改变数据的小脚本，同时仍然保留了一些关键信息。我将详细介绍我所采取的所有步骤，并重点介绍一些方便的技巧。

　　任务

　　我们的任务是准备一个数据集，以便以后能用于机器学习（例如分类，回归，聚类）而且不包含任何敏感信息。最终的数据集不应与原始数据集有太大差异，且应该反映原始数据集的分布。

　　动手开始吧!

　　我使用Jupyter notebook作为编程环境。首先，让我们引入所有必须的库。

　　import pandas as pdimport numpy as npimport scipy.stats%matplotlib inlineimport matplotlib.pyplot as pltfrom sklearn_pandas import DataFrameMapperfrom sklearn.preprocessing import LabelEncoder# get rid of warningsimport warningswarnings.filterwarnings("ignore")# get more than one output per Jupyter cellfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"# for functions we implement laterfrom utils import best_fit_distributionfrom utils import plot_result

　　我假设您已熟悉此处使用的大多数库。我只想强调三件事。sklearn_pandas是一个方便的库，减少了使用两个包之间的差距。

　　sklearn_pandas：

　　https://github.com/scikit-learn-contrib/sklearn-pandas

　　它提供了一个DataFrameMapper类，使得处理pandas.DataFrame更容易，因为它可以在更少的代码行中完成变量的编码转换。

　　我利用IPython.core.interactiveshell ...更改了Jupyter Notebook默认配置，用来显示多个输出。这里有一篇很好的博文介绍了其他关于Jupyter的实用小技巧。

　　最后，我们将一些代码放入一个名为utils.py的文件中，我们把这个文件放在Notebook代码文件旁边。

　　Jupyter的实用小技巧：

　　https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/

　　df = pd.read_csv("../data/titanic_train.csv")

　　我们的分析采用Titanic Dataset的训练数据集。

　　数据集链接：

　　https://www.kaggle.com/c/titanic

　　df.shapedf.head()

　　现在我们已经加载了数据，后面将删除所有可识别个人身份的信息。列[“PassengerId”，“Name”]包含此类信息。请注意，[“PassengerId”，“Name”]对于每一行都是唯一的，因此如果构建机器学习模型，无论如何都需要在后续删除它们。

　　同样对[“Ticket”，“Cabin”]列也进行类似的操作，因为这两列对于每一行几乎都是唯一的。

　　出于演示方便，我们不会处理缺失值。我们只是忽略所有包含缺失值的观察结果。

　　df.drop(columns=["PassengerId", "Name"], inplace=True) # dropped because unique for every rowdf.drop(columns=["Ticket", "Cabin"], inplace=True) # dropped because almost unique for every rowdf.dropna(inplace=True)

　　结果看起来像这样。

　　df.shapedf.head()

　　接下来，为了剔除更多信息，并作为后续步骤的预处理，我们将对“Sexed”和“Embarked”进行数值编码转换。

　　“Sex”被编码为“0,1”，“Embarked”被编码为“0,1,2”。LabelEncoder()类为我们完成了大部分工作。

　　encoders = [(["Sex"], LabelEncoder()), (["Embarked"], LabelEncoder())] mapper = DataFrameMapper(encoders, df_out=True) new_cols = mapper.fit_transform(df.copy()) df = pd.concat([df.drop(columns=["Sex", "Embarked"]), new_cols], axis="columns")

　　DataFrameMapper来自sklearn_pandas包，接收元组（tuple）列表作为参数，其中元组的第一项是列名，第二项是转换器。

　　我们在这里使用LabelEncoder()，但也可以使用其它转换器（MinMaxScaler()，StandardScaler()，FunctionTransfomer()）。

　　在最后一行中，我们将编码后的数据与其余数据连接起来。请注意，您也可以写axis = 1，但是axis =“columns”可读性更强，我鼓励大家使用后者。

　　df.shapedf.head()

　　df.nunique()

　　通过从同一分布中抽样来匿名化

　　上述代码我打印了每列的唯一值的取值个数。我们假设具有少于20个取值个数的是名义变量或分类变量，具有大于等于20个取值个数的都是连续变量。

　　我们将名义/分类变量放在一个列表中，将其它变量放在另一个列表中。

　　categorical = []continuous = []for c in list(df): col = df[c] nunique = col.nunique() if nunique < 20: categorical.append(c) else: continuous.append(c)

　　for c in list(df): 迭代所有列。对于list(df)，我们也可以写成df.columns.tolist()。我还是喜欢list(df)。

　　以下是本文的核心思想：对于每个分类变量，我们将计算其每项取值出现的频率，然后为每个取值创建具有相同频率的离散概率分布。

　　对于每个连续变量，我们将从预定义的分布列表中确定最佳连续分布。我们怎么做呢？一旦确定了所有概率分布（离散和连续），我们就可以从这些分布中进行采样以创建新的数据集。

　　处理名义/分类变量

　　这是一个简单的例子，只用三行代码。

　　for c in categorical: counts = df[c].value_counts() np.random.choice(list(counts.index), p=(counts/len(df)).values, size=5)

　　首先，我们确定变量中每个唯一值出现的频率。然后我们使用这个经验概率函数并将其传递给np.random.choice()以创建一个具有相同概率函数的新随机变量。

　　处理连续变量

　　幸运的是，StackOverflow上有一个类似问题的讨论。主要解决方案如下，对于每个连续变量做如下处理：

　　使用预定义数量的区间来创建直方图

　　尝试一系列连续函数，让每个函数都去拟合该直方图，拟合过程中会产生函数的参数。

　　找到具有最小误差（最小残差平方和）的函数，该函数与该直方图将被我们用来模拟连续变量分布。

　　该解决方案的作者将所有内容整齐地分为两个函数。我创建了第三个函数并将所有内容放在一个名为utils.py的文件中，后面将在Jupyter Notebook中使用utils.py中定义的函数。

　　best_distributions = []for c in continuous: data = df[c] best_fit_name, best_fit_params = best_fit_distribution(data, 50) best_distributions.append((best_fit_name, best_fit_params))# Resultbest_distributions = [ ('fisk', (11.744665309421649, -66.15529969956657, 94.73575225186589)), ('halfcauchy', (-5.537941926133496e-09, 17.86796415175786))]

　　Age的最佳分布是fisk，Fare的最佳分布是halfcauchy，让我们来看看结果。

　　plot_result(df, continuous, best_distributions

　　还不错哦。

　　把代码整合到一个函数中

　　def generate_like_df(df, categorical_cols, continuous_cols, best_distributions, n, seed=0): np.random.seed(seed) d = {} for c in categorical_cols: d[c] = np.random.choice(list(counts.index), p=(counts/len(df)).values, size=n) for c, bd in zip(continuous_cols, best_distributions): dist = getattr(scipy.stats, bd[0]) d[c] = dist.rvs(size=n, *bd[1]) return pd.DataFrame(d, columns=categorical_cols+continuous_cols)

　　现在我们有了一个函数，可以用它来创建100个新的观测值。

　　gendf = generate_like_df(df, categorical, continuous, best_distributions, n=100)gendf.shapegendf.head()

　　作为后置处理步骤，还可以对连续变量进行取舍。我选择不这样做。我所做的是删除了所有列名，因为这也可能泄漏有关数据集的一些信息，简单地用0,1,2…替换它们。

　　gendf.columns = list(range(gendf.shape[1]))

　　最后，大功告成。

　　gendf.to_csv("output.csv", index_label="id")

　　总结

　　这种方法的一个缺点是变量之间的所有交互都丢失了。例如，假设在原始数据集中，女性（Sex= 1）存活的机会（Survived= 1）比男性（Sex= 0）高，而在生成的数据集中，这个信息丢失了，其它变量之间可能存在的关系也会丢失。

　　我希望你发现这篇文章有用，可以在文末留言区讨论。

　　文中所有代码

　　https://github.com/r0f1/dev_to_posts/tree/master/fake_data

　　相关报道：

　　https://dev.to/r0f1/a-simple-way-to-anonymize-data-with-python-and-pandas-79g

查看原文 >>

手把手：如何方便地使用Python和Pandas来匿名信

热门新闻

周热门

手把手：如何方便地使用Python和Pandas来匿名信

中国车市破与立：谁是2021年最大变量

耀才证券研究部团队：港股能否打破横行区间仍存变量

国际金价日线或三连跌 部分国家有意松绑出行限制

太阳黑子周期：长波视角下的农产品波动核心变量

新京报：管控住“无症状感染者”这个关键变量

评论：房地产行业新变量来临 哪些企业做好了准备？

2020年螺纹钢走势的关键变量是它！（视频）

美国大选进入一周年倒计时 弹劾调查或成“变量”

西媒称共享经济走到转折点：看似完美却缺少变量

媒体：500强，不看常量看变量

苹果又获新专利 通过RFID标签追踪食物营养信息

太空飞行给人体带来六大变化 令人震惊

美国制裁华为 背后不可忽视的变量

都是一样的大脑，为什么男人偏理性而女人偏感性？

SQL诊断优化，以后就就交给数据库自治服务DAS！

热门新闻

周热门

国际金价日线或三连跌部分国家有意松绑出行限制

评论：房地产行业新变量来临哪些企业做好了准备？

美国大选进入一周年倒计时弹劾调查或成“变量”

苹果又获新专利通过RFID标签追踪食物营养信息

太空飞行给人体带来六大变化令人震惊

美国制裁华为背后不可忽视的变量