本文深入探讨了pandas dataframe在通过循环或重复赋值创建大量新列时,可能遇到的“dataframe高度碎片化”性能警告。该警告通常指示了低效的内存操作和性能瓶颈。文章将详细解释警告产生的原因,并提供一个高效的解决方案,即利用`pd.concat`一次性创建并合并所有新列,从而显著提升性能并避免不必要的内存重分配,确保数据处理的流畅性。
在使用Pandas处理大量数据时,如果需要从现有列派生出大量新列,并采用逐个赋值的方式,可能会遇到PerformanceWarning: DataFrame is highly fragmented的警告。这个警告提示DataFrame的内存布局变得高度碎片化,通常是由于频繁调用frame.insert操作导致的,这会严重影响性能。
当您通过 df['new_col'] = ... 这种语法为DataFrame添加新列时,Pandas在底层可能会执行frame.insert操作。如果DataFrame已经很大,并且您反复执行此操作来添加数百甚至上千个新列,每次添加新列都可能导致DataFrame在内存中重新分配空间,并将现有数据复制到新的内存位置。这种频繁的内存重分配和数据复制是导致性能下降和“高度碎片化”警告的主要原因。尤其是在处理具有百万行、需要拆分为数百个子列的场景中,这个问题会尤为突出。
考虑以下一个典型的触发场景:
import pandas as pd
import numpy as np
import string
# 模拟一个具有100万行和一列长字符串的DataFrame
np.random.seed(0)
df = pd.DataFrame({
"long_string": ["".join(np.random.choice(
[*string.printable[:62]], size=5000)) for _ in range(10000)]
})
def parse_long_string_fragmented(df):
# 假设需要从'long_string'中解析出972个子字符串
# 这是一个简化示例,实际可能需要更多列
for i in range(1, 10): # 仅演示少量列,避免示例过长
start = (i - 1) * 2
end = i * 2
df[f'a{i:03d}'] = df['long_string'].str[start:end]
# 如果循环次数足够多(例如972次),将触发PerformanceWarning
return df
# 调用函数,如果列数足够多,将看到警告
# out_fragmented = parse_long_string_fragmented(df.copy())上述代码中,通过循环逐一创建新列,每次循环都会修改原DataFrame的结构,从而可能触发性能警告。
解决DataFrame高度碎片化问题的核心思想是:避免对原始DataFrame进行多次修改,而是将所有新列一次性创建,然后一次性合并到原始DataFrame中。pd.concat是实现这一目标的高效工具。
以下是使用pd.
concat解决上述问题的具体实现:
import pandas as pd
import numpy as np
import string
# 1. 准备示例数据
np.random.seed(0)
df = pd.DataFrame({
"long_string": ["".join(np.random.choice(
[*string.printable[:62]], size=5000)) for _ in range(10000)]
})
# 2. 定义所有列的切片规则
# 假设我们有972个切片规则,这里用字典来存储
# 键为新列名,值为(起始索引, 结束索引)
slices_mapper = {f"a{i+1:03d}": (i*2, (i+1)*2) for i in range(972)}
# 对于最后一个切片,如果需要到字符串末尾,结束索引可以设为None
# 例如,如果最后一个切片是'a972',从4994开始到末尾
slices_mapper['a972'] = (4994, None) # 覆盖之前的定义,确保最后一个切片正确
def parse_long_string_efficient(df, mapper):
# 3. 批量生成所有新列
# 使用字典推导式为每个切片规则生成一个Series
# 然后用pd.concat(axis=1)将这些Series合并成一个新DataFrame
new_cols_df = pd.concat(
{
col_name: df["long_string"].str[start_idx:end_idx]
for col_name, (start_idx, end_idx) in mapper.items()
},
axis=1 # 沿列方向合并
)
# 4. 将新生成的DataFrame连接到原始DataFrame
# df.join() 是一个高效的连接操作,因为它默认基于索引进行连接
return df.join(new_cols_df)
# 调用高效的解析函数
output_df = parse_long_string_efficient(df.copy(), slices_mapper)
print(output_df.head())
print(f"\nDataFrame形状: {output_df.shape}")代码解释:
通过pd.concat和df.join的组合,我们避免了对原始DataFrame进行数百次的修改操作。Pandas只需要进行一次大的内存分配和数据复制(如果需要的话),而不是数百次小的、重复的内存操作。这显著减少了计算时间和内存开销,从而消除了“DataFrame高度碎片化”的性能警告。
通过采纳本文介绍的pd.concat策略,您可以有效规避Pandas DataFrame的高度碎片化问题,确保数据处理流程的流畅性和高效性。
# app
# 工具
# 性能瓶颈
# pandas
# for
# 字符串
# 循环
# 值传递
# 切片
# 连接到
# 适用于
# 数据处理
# 因为它
# 数百
# 它也
# 流畅性
# 是一个
# 您的
# 百次
相关文章:
香港网站服务器数量如何影响SEO优化效果?
建站之星在线版空间:自助建站+智能模板一键生成方案
如何在IIS中新建站点并配置端口与IP地址?
猪八戒网站制作视频,开发一个猪八戒网站,大约需要多少?或者自己请程序员,需要什么程序员,多少程序员能完成?
如何快速查询域名建站关键信息?
c++怎么用jemalloc c++替换默认内存分配器【性能】
大同网页,大同瑞慈医院官网?
建站主机解析:虚拟主机配置与服务器选择指南
已有域名和空间如何快速搭建网站?
建站之星如何保障用户数据免受黑客入侵?
电影网站制作价格表,那些提供免费电影的网站,他们是怎么盈利的?
5种Android数据存储方式汇总
c# 在高并发下使用反射发射(Reflection.Emit)的性能
北京制作网站的公司排名,北京三快科技有限公司是做什么?北京三快科技?
制作企业网站建设方案,怎样建设一个公司网站?
如何快速上传建站程序避免常见错误?
网站制作说明怎么写,简述网页设计的流程并说明原因?
如何快速搭建高效可靠的建站解决方案?
建站主机服务器选型指南与性能优化方案解析
长沙企业网站制作哪家好,长沙水业集团官方网站?
如何通过.red域名打造高辨识度品牌网站?
香港服务器网站生成指南:免费资源整合与高速稳定配置方案
建站主机无法访问?如何排查域名与服务器问题
历史网站制作软件,华为如何找回被删除的网站?
如何选择建站程序?包含哪些必备功能与类型?
网站图片在线制作软件,怎么在图片上做链接?
如何获取上海专业网站定制建站电话?
贸易公司网站制作流程,出口贸易网站设计怎么做?
网站制作怎么样才能赚钱,用自己的电脑做服务器架设网站有什么利弊,能赚钱吗?
小自动建站系统:AI智能生成+拖拽模板,多端适配一键搭建
番禺网站制作公司哪家值得合作,番禺图书馆新馆开放了吗?
西安大型网站制作公司,西安招聘网站最好的是哪个?
关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)
,怎么在广州志愿者网站注册?
娃派WAP自助建站:免费模板+移动优化,快速打造专业网站
建站之星后台密码遗忘?如何快速找回?
上海网站制作开发公司,上海买房比较好的网站有哪些?
深入理解Android中的xmlns:tools属性
如何快速搭建二级域名独立网站?
广州营销型建站服务商推荐:技术优势与SEO优化解析
如何通过PHP快速构建高效问答网站功能?
建站主机数据库如何配置才能提升网站性能?
如何在阿里云完成域名注册与建站?
建站之星安装步骤有哪些常见问题?
建站之星×万网:智能建站系统+自助建站平台一键生成
建站之星代理如何获取技术支持?
小型网站制作HTML,*游戏网站怎么搭建?
Android滚轮选择时间控件使用详解
保定网站制作方案定制,保定招聘的渠道有哪些?找工作的人一般都去哪里看招聘信息?
大学网站设计制作软件有哪些,如何将网站制作成自己app?
*请认真填写需求信息,我们会在24小时内与您取得联系。