全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python爬虫性能调优技巧_减少IO与连接复用【技巧】

必须使用 requests.Session() 复用连接池以避免重复 TCP/TLS 握手,配合 aiohttp.AsyncResolver 和超时拆分(connect/read)可显著降低高频请求延迟。

requests.Session() 必须用,别每次 new 一个 client

HTTP 连接建立开销远大于发送请求本身,反复创建 requests.get() 会触发 TCP 三次握手 + TLS 握手(HTTPS),尤其在高频请求时延迟飙升。用 Session 复用底层连接池,自动保持 Keep-Alive。

  • 默认 Session 启用连接池(pool_connections=10, pool_maxsize=10),足够多数爬虫场景
  • 若并发高(如 >50 路请求),显式调大 pool_maxsize,否则会阻塞在连接获取上
  • 别在循环里反复 session = requests.Session() —— 这等于没用
session = requests.Session()
session.mount('https://', requests.adapters.HTTPAdapter(pool_maxsize=20))
for url in urls:
    resp = session.get(url, timeout=5)  # 复用连接,非新建

异步 HTTP(aiohttp)比多线程 requests 更省资源

当目标站点响应快、IO 密集(比如爬 1000 个轻量 API),用 threading + requests 会因 GIL 和线程切换反而拖慢;而 aiohttp 单线程即可并发数百请求,内存和 CPU 占用更低。

  • aiohttp.ClientSession 同样复用连接,但需配合 async/await
  • 注意 DNS 解析默认是同步阻塞的,加 connector = aiohttp.TCPConnector(resolver=aiohttp.AsyncResolver()) 避免卡住
  • 别混用 time.sleep() —— 必须用 await asyncio.sleep()
import aiohttp
import asyncio

async def fetch(session, url): async with session.get(url, timeout=5) as resp: return await resp.text()

async def main(): connector = aiohttp.TCPConnector(resolver=aiohttp.AsyncResolver()) async with aiohttp.ClientSession(connector=connector) as session: tasks = [fetch(session, url) for url in urls] results = await asyncio.gather(*tasks)

别让 DNS 查询成为瓶颈

每次请求都走系统 DNS 解析?尤其用 IP 池或固定域名时,重复查 example.com → 93.184.216.34 很浪费。requests 和 aiohttp 默认不缓存解析结果。

  • requests:用 requests-toolbeltHostHeaderSSLAdapter 不解决问题;更直接的是预解析 + headers={'Host': 'example.com'} + 直连 IP
  • aiohttp:启用 use_dns_cache=True(默认已开),但首次仍需解析;可手动 socket.gethostbyname('example.com') 后拼 http://IP/ 并设 Host
  • 注意 HTTPS 直连 IP 会校验失败,得关 SSL 验证(不推荐)或用 SNI 手动指定 —— 大多数情况不如用域名 + DNS 缓存

超时与重试必须精细控制,否则 IO 卡死

没设 timeout?一个慢接口就能让整个线程/协程挂住几十秒;盲目重试?可能放大服务压力或触发封禁。

  • 拆分 timeout:requests.get(url, timeout=(3.05, 27)) 表示 connect ≤ 3.05s,read ≤ 27s —— 避免 DNS 慢+连接快但响应慢的误判
  • requests:用 urllib3.util.Retry 控制重试逻辑,禁用对 POST 的自动重试(非幂等)
  • aiohttp:无内置重试,需自己封装,注意别用 while True 无限重试,加指数退避和最大次数
  • 别全局设 timeout=0.1 —— 网络抖动时大量失败,实际吞吐反而下降

真正卡性能的地方,往往不是解析 HTML,而是连接建立、DNS 查询、TLS 握手这些“看不见”的环节。把 Session 复用、DNS 缓存、超时拆分这三件事做扎实,比优化 XPath 表达式有用十倍。


# python  # html  # ssl  # session  # ai  # keep-alive  # 爬虫  # dns 


相关文章: TestNG的testng.xml配置文件怎么写  建站之星收费标准详解:套餐费用及年费价格表一览  黑客如何利用漏洞与弱口令入侵网站服务器?  网站代码制作软件有哪些,如何生成自己网站的代码?  外贸公司网站制作哪家好,maersk船公司官网?  建站之星如何通过成品分离优化网站效率?  图片制作网站免费软件,有没有免费的网站或软件可以将图片批量转为A4大小的pdf?  网页制作模板网站推荐,网页设计海报之类的素材哪里好?  制作网站的过程怎么写,用凡科建站如何制作自己的网站?  如何在服务器上配置二级域名建站?  如何快速辨别茅台真假?关键步骤解析  网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?  测试制作网站有哪些,测试性取向的权威测试或者网站?  如何在IIS管理器中快速创建并配置网站?  湖南网站制作公司,湖南上善若水科技有限公司做什么的?  制作充值网站的软件,做人力招聘为什么要自己交端口钱?  建站三合一如何选?哪家性价比更高?  香港服务器部署网站为何提示未备案?  无锡营销型网站制作公司,无锡网选车牌流程?  购物网站制作费用多少,开办网上购物网站,需要办理哪些手续?  如何在阿里云购买域名并搭建网站?  建站之星如何开启自定义404页面避免用户流失?  大型企业网站制作流程,做网站需要注册公司吗?  浅析上传头像示例及其注意事项  ,柠檬视频怎样兑换vip?  招贴海报怎么做,什么是海报招贴?  怀化网站制作公司,怀化新生儿上户网上办理流程?  英语简历制作免费网站推荐,如何将简历翻译成英文?  如何制作一个表白网站视频,关于勇敢表白的小标题?  实现点击下箭头变上箭头来回切换的两种方法【推荐】  定制建站流程步骤详解:一站式方案设计与开发指南  如何快速搭建高效WAP手机网站吸引移动用户?  制作宣传网站的软件,小红书可以宣传网站吗?  网站制作企业,网站的banner和导航栏是指什么?  深圳网站制作设计招聘,关于服装设计的流行趋势,哪里的资料比较全面?  哈尔滨网站建设策划,哈尔滨电工证查询网站?  深圳 网站制作,深圳招聘网站哪个比较好一点啊?  北京专业网站制作设计师招聘,北京白云观官方网站?  c# 服务器GC和工作站GC的区别和设置  如何在云服务器上快速搭建个人网站?  Android自定义listview布局实现上拉加载下拉刷新功能  建站之星免费模板:自助建站系统与智能响应式一键生成  韩国服务器如何优化跨境访问实现高效连接?  网站制作价目表怎么做,珍爱网婚介费用多少?  详解免费开源的DotNet二维码操作组件ThoughtWorks.QRCode(.NET组件介绍之四)  如何规划企业建站流程的关键步骤?  高防服务器如何保障网站安全无虞?  如何使用Golang安装API文档生成工具_快速生成接口文档  油猴 教程,油猴搜脚本为什么会网页无法显示?  网站制作的方法有哪些,如何将自己制作的网站发布到网上? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。