全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Pandas数据重塑:多列映射与DataFrame合并策略

本文详细介绍了在Pandas中如何将一个DataFrame的多个列经过特定转换后,映射到另一个DataFrame的统一列结构中,并最终进行垂直合并。通过实例演示了列重命名、数据类型转换以及列选择等预处理步骤,最终利用`pd.concat`实现不同结构DataFrame的有效整合,以满足复杂数据清洗与整合的需求。

在数据分析和处理中,我们经常会遇到需要整合来自不同数据源或不同结构的数据集。一个常见的场景是,我们有两个或多个DataFrame,它们包含部分相同的核心信息,但也有各自独特的列。为了将这些数据合并到一个统一的结构中,我们可能需要对其中一个或多个DataFrame进行列的重命名、数据转换甚至列的选择性丢弃,以使其与目标结构对齐。本教程将通过一个具体示例,详细阐述如何实现这种多列映射与DataFrame的合并。

1. 问题背景与数据结构

假设我们有两个DataFrame,df1和df2,它们都包含人物信息,但df2额外包含一个nick_name列,并且我们希望将df2中的nick_name作为合并后数据行的name,同时对sex列进行缩写,并将这些转换后的信息添加到df1的下方。

初始DataFrame示例:

首先,我们创建这两个DataFrame:

import pandas as pd
import numpy as np

# 第一个DataFrame (df1)
data1 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female']
}
df1 = pd.DataFrame(data1)

print("df1:")
print(df1)
# Output:
#          name  age     sex
# 0   smith row   26    male
# 1   sam smith   30    male
# 2  susan storm  25  female

# 第二个DataFrame (df2)
data2 = {
    'name': ['smith row', 'sam smith', 'susan storm'],
    'age': [26, 30, 25],
    'sex': ['male', 'male', 'female'],
    'nick_name': ['smity', 'sammy', 'suanny']
}
df2 = pd.DataFrame(data2)

print("\ndf2:")
print(df2)
# Output:
#          name  age     sex nick_name
# 0   smith row   26    male     smity
# 1   sam smith   30    male     sammy
# 2  susan storm  25  female    suanny

我们的目标是生成一个包含df1所有行,以及由df2转换而来的新行(其中name来自nick_name,sex是原sex的首字母,age则为空值)的DataFrame。

2. 数据预处理与列映射

为了实现上述目标,我们需要对df2进行一系列的预处理操作,使其结构和内容与我们期望的合并结果相匹配。

2.1 映射 nick_name 到 name

首先,我们将df2中的nick_name列的值赋给name列。这样,在后续合并时,这些昵称将作为新的名字出现。

# 将df2的'nick_name'列值赋给'name'列
df2['name'] = df2['nick_name']

print("\ndf2 after mapping nick_name to name:")
print(df2)
# Output:
#          name  age     sex nick_name
# 0       smity   26    male     smity
# 1       sammy   30    male     sammy
# 2      suanny   25  female    suanny

2.2 转换 sex 列为首字母

接下来,我们需要将df2的sex列中的完整性别描述(如'male', 'female')转换为其首字母(如'm', 'f')。这可以通过字符串切片操作实现。

# 将df2的'sex'列转换为首字母
df2['sex'] = df2['sex'].str[0]

print("\ndf2 after transforming sex column:")
print(df2)
# Output:
#          name  age sex nick_name
# 0       smity   26   m     smity
# 1       sammy   30   m     sammy
# 2      suanny   25   f    suanny

2.3 丢弃不必要的列

根据目标输出,我们不需要df2中的原始age列和nick_name列(因为nick_name已经映射到name)。因此,我们可以将它们从df2中删除。

# 丢弃df2中不再需要的列
df2 = df2.drop(columns=['age', 'nick_name'])

print("\ndf2 after dropping unnecessary columns:")
print(df2)
# Output:
#          name sex
# 0       smity   m
# 1       sammy   m
# 2      suanny   f

此时,df2的结构已经接近我们期望的合并形式。它现在只有name和sex两列,与df1的目标结构(name, age, sex)相比,缺少age列,这将在合并时自动处理为NaN。

3. 合并DataFrame

现在,两个DataFrame都已准备就绪,我们可以使用pd.concat()函数将它们垂直合并。pd.concat()是Pandas中用于沿特定轴(默认是行轴)连接Series或DataFrame对象的强大工具。

# 合并df1和预处理后的df2
# ignore_index=True 会重置合并后的索引
df_combined = pd.concat([df1, df2], ignore_index=True)

print("\nCombined DataFrame:")
print(df_combined)
# Output:
#          name   age     sex
# 0   smith row  26.0    male
# 1   sam smith  30.0    male
# 2  susan storm  25.0  female
# 3       smity   NaN       m
# 4       sammy   NaN       m
# 5      suanny   NaN       f

从结果可以看出,df1的所有行都被保留,df2转换后的行被添加在其下方。由于转换后的df2不包含age列,在合并时,这些新行的age列自动填充为NaN(Not a Number),并且为了兼容NaN,age列的数据类型也会自动转换为浮点数。

4. 注意事项与最佳实践

  1. 列名一致性:pd.concat()在垂直合并时,会根据列名进行对齐。如果一个DataFrame中存在而另一个DataFrame中不存在的列,则会在缺失的DataFrame中填充NaN。这是本例中age列在df2转换行中显示NaN的原因。
  2. 数据类型兼容性:在进行列映射和转换时,请确保最终的数据类型是兼容的。例如,将字符串转换为数字或反之,可能会导致错误或意外行为。本例中,sex列从完整字符串变为单字符,这在字符串类型中是兼容的。
  3. ignore_index=True:使用ignore_index=True参数可以确保合并后的DataFrame拥有一个连续的、从0开始的整数索引,避免了原始DataFrame索引的重复或冲突。
  4. 动态映射:虽然本例中我们是直接通过列赋值进行映射,但在更复杂的“动态”场景中,例如根据字典进行批量重命名、或根据条件应用不同的转换规则,可以结合使用df.rename()、df.apply()、df.map()或自定义函数来实现更灵活的映射逻辑。
  5. 内存效率:对于非常大的DataFrame,频繁地创建中间DataFrame副本(如df2 = df2.drop(...))可能会有性能开销。在某些情况下,可以考虑链式操作或使用assign()方法来提高效率。

5. 总结

本教程演示了如何通过一系列有策略的列操作(包括列赋值、数据转换和列删除)来重塑一个DataFrame,使其能够与另一个DataFrame的结构对齐,并最终通过pd.concat()进行垂直合并。这种方法在处理异构数据源,需要将特定信息映射到统一结构,并进行整合时非常有用。掌握这些Pandas技巧,能够大大提高数据清洗和预处理的效率和灵活性。


# app  # 工具  # 数据清洗  # pandas  # 数据类型  # 字符串  # 数据结构  # 字符串类型  # 切片  # map  # 类型转换  # number  # 对象  # 数据分析  # 多个  # 使其  # 首字母  # 转换为  # 重命名  # 本例  # 链式  # 这是  # 有两个  # 也有 


相关文章: 哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?  建站之星图片链接生成指南:自助建站与智能设计教程  油猴 教程,油猴搜脚本为什么会网页无法显示?  广州美橙建站如何快速搭建多端合一网站?  宝塔面板如何快速创建新站点?  如何用景安虚拟主机手机版绑定域名建站?  太平洋网站制作公司,网络用语太平洋是什么意思?  网站app免费制作软件,能免费看各大网站视频的手机app?  专业的网站制作设计是什么,如何制作一个企业网站,建设网站的基本步骤有哪些?  如何快速启动建站代理加盟业务?  香港服务器WordPress建站指南:SEO优化与高效部署策略  黑客入侵网站服务器的常见手法有哪些?  早安海报制作网站推荐大全,企业早安海报怎么每天更换?  php8.4新语法match怎么用_php8.4match表达式替代switch【方法】  如何快速生成凡客建站的专业级图册?  微信推文制作网站有哪些,怎么做微信推文,急?  建站主机类型有哪些?如何正确选型  建站org新手必看:2024最新搭建流程与模板选择技巧  如何快速搭建FTP站点实现文件共享?  再谈Python中的字符串与字符编码(推荐)  常州自助建站:操作简便模板丰富,企业个人快速搭建网站  零基础网站服务器架设实战:轻量应用与域名解析配置指南  建站之星后台管理系统如何操作?  建站之星如何实现网站加密操作?  ppt制作免费网站有哪些,ppt模板免费下载网站?  青岛网站设计制作公司,查询青岛招聘信息的网站有哪些?  巅云智能建站系统:可视化拖拽+多端适配+免费模板一键生成  如何通过老薛主机一键快速建站?  如何在云指建站中生成FTP站点?  Thinkphp 中 distinct 的用法解析  建站主机功能解析:服务器选择与快速搭建指南  如何通过主机屋免费建站教程十分钟搭建网站?  如何在Golang中处理模块冲突_解决依赖版本不兼容问题  如何做网站制作流程,*游戏网站怎么搭建?  Python路径拼接规范_跨平台处理说明【指导】  ,sp开头的版面叫什么?  如何通过宝塔面板实现本地网站访问?  如何制作网站标识牌,动态网站如何制作(教程)?  重庆网站制作公司哪家好,重庆中考招生办官方网站?  如何用PHP工具快速搭建高效网站?  建站之星多图banner生成与模板自定义指南  Swift中循环语句中的转移语句 break 和 continue  如何在Tomcat中配置并部署网站项目?  浙江网站制作公司有哪些,浙江栢塑信息技术有限公司定制网站做的怎么样?  如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?  大同网页,大同瑞慈医院官网?  如何在Windows环境下新建FTP站点并设置权限?  c# 在ASP.NET Core中管理和取消后台任务  如何用PHP快速搭建CMS系统?  如何在阿里云虚拟机上搭建网站?步骤解析与避坑指南 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。