Lazy loaded image
技术分享
过年啦,千万别让外甥闲着!我用Cursor爬了100份卷子:“你还敢打游戏?
Words 1317Read Time 4 min
2025-7-10
2025-7-10
type
status
date
slug
summary
tags
category
icon
password
过年回家,是合家欢聚的热闹时刻。可我的外甥,放假依然在家“葛优躺”
图片 (199x187)
图片 (199x187)
不是打游戏就是看动漫,什么学习?通通抛到九霄云外。
图片 (800x603)
图片 (800x603)
看得我这个沉迷AI编程的舅舅,脑袋都快冒烟了!你说将来谁给我端碗饭呀?没辙,我只能使出杀手锏——自己写个小爬虫,抓一堆卷子回来让他“开卷有益”!
话不多说,一切为了年后的“少儿不宜”——我外甥的快乐寒假,现在马上进入正题!

一、脑洞大开:我要写个小爬虫

我先跟我的得力 AI 伙伴——Cursor 商量了一下需求:
1.我需要一个爬虫脚本,从某个试卷网站批量下载试卷。
2.下载的文件还是 .rar 压缩包,解压后只需要其中的 .doc 文件。
3.最好支持多线程下载,以便能在我家网速还行的时候迅速搞定。
4.最后自动把 .rar 删了,省得占地方。
5.没啥特别复杂的容错需求,但也要跑得稳。
Cursor 秒回我一个“稳得一匹”的多线程爬虫思路,而且还贴心地给了下载、解压、删除一条龙服务的示例。完美,我先在本地跑起来看看!
图片 (1080x641)
图片 (1080x641)
二、搬砖现场:我的爬虫代码 Cursor 给出的思路非常清晰,我又稍微改动了一下(主要是加了点自己的注释和打印语句,毕竟我得知道下载到哪了),然后就得到了下面这段终极解决方案:

代码亮点

1.多线程下载:
ThreadPoolExecutor(5) 预设了 5 个线程,让下载像子弹一样飞快。
2.RAR 解压 + 清理:
写完一个 extract_rar() 就把 .rar 解压,再把多余的压缩包删干净。
3.批量爬:
for page in range(1, 10): 我这里选了 1~9 页,总共要批量下载。

三、与 Cursor 的斗智斗勇:代码优化过程

我最初是打算写一堆 requests 请求再手动解压,但 Cursor 一语点醒梦中人:“请用多线程与自动解压!”
  • 我之前用 Python 自带的 zipfile,结果发现我下到的是 .rar 格式文件,Cursor 贴心地提醒说:“你可以用 pip install rarfile 嘛。”
  • 然后又顺带安利我 ThreadPoolExecutor,让整个下载效率直接飞起。
整个过程可谓火花四溅,Cursor 不仅安抚了我的懒癌,还帮我排查了编码问题,比如网站的 root.encoding = "gb2312",非常中国特色。要是没这行,怕是中文会变成火星文吧!

四、实践出真知:再买个打印机!

搞定代码后,我立刻:
1.买了一台打印机 2.下载了100套试卷 3.打印装订好
准备在大年初一的时候,亲手交给我亲爱的外甥。毕竟谁说程序员就不会关心教育下一代呢?只是我们的方式...可能比较特别😏
图片 (800x603)
图片 (800x603)
五、总结
  • 编程真的离不开AI助手了。Cursor不仅帮我生成代码,还能智能优化、提供建议
  • 多线程果然是提升效率的利器,下载速度提升了好几倍
  • 最重要的是 - 我终于有"教育资源"了
过年嘛,干活和快乐都要两手抓!希望大家看到这里,能体会到我这位苦口婆心的舅舅的良苦用心……
好了,撒花!祝大家新年快乐!记得早点写好爬虫,让你家孩子也能随时开卷!
图片 (225x225)
图片 (225x225)
PS: 各位读者朋友如果也想要这个代码,可以在评论区留言。不过我建议谨慎使用,毕竟...过年还是要让孩子们适当放松的嘛!
 
上一篇
我用AI+高德MCP 10分钟搞定苏州三日游
下一篇
Claude团队公布的5个提示工程秘诀,助你把AI"调教"到极致!