Lazy loaded image
技术分享
过年啦,千万别让外甥闲着!我用Cursor爬了100份卷子:“你还敢打游戏?
Words 1296Read Time 4 min
2025-8-29
2025-8-29
网址
Caption
type
date
slug
summary
tags
category
icon
password
Post URL
Platforms
Notionsocial
Time
Likes
First Comment
Media
Views
Comments
Status
status
过年回家,是合家欢聚的热闹时刻。可我的外甥,放假依然在家“葛优躺”
图片 (199x187)
图片 (199x187)
不是打游戏就是看动漫,什么学习?通通抛到九霄云外。
图片 (800x603)
图片 (800x603)
看得我这个沉迷AI编程的舅舅,脑袋都快冒烟了!你说将来谁给我端碗饭呀?没辙,我只能使出杀手锏——自己写个小爬虫,抓一堆卷子回来让他“开卷有益”!
话不多说,一切为了年后的“少儿不宜”——我外甥的快乐寒假,现在马上进入正题!

一、脑洞大开:我要写个小爬虫

我先跟我的得力 AI 伙伴——Cursor 商量了一下需求:
1.我需要一个爬虫脚本,从某个试卷网站批量下载试卷。
2.下载的文件还是 .rar 压缩包,解压后只需要其中的 .doc 文件。
3.最好支持多线程下载,以便能在我家网速还行的时候迅速搞定。
4.最后自动把 .rar 删了,省得占地方。
5.没啥特别复杂的容错需求,但也要跑得稳。
Cursor 秒回我一个“稳得一匹”的多线程爬虫思路,而且还贴心地给了下载、解压、删除一条龙服务的示例。完美,我先在本地跑起来看看!
图片 (1080x641)
图片 (1080x641)
二、搬砖现场:我的爬虫代码 Cursor 给出的思路非常清晰,我又稍微改动了一下(主要是加了点自己的注释和打印语句,毕竟我得知道下载到哪了),然后就得到了下面这段终极解决方案:

代码亮点

1.多线程下载:
ThreadPoolExecutor(5) 预设了 5 个线程,让下载像子弹一样飞快。
2.RAR 解压 + 清理:
写完一个 extract_rar() 就把 .rar 解压,再把多余的压缩包删干净。
3.批量爬:
for page in range(1, 10): 我这里选了 1~9 页,总共要批量下载。

三、与 Cursor 的斗智斗勇:代码优化过程

我最初是打算写一堆 requests 请求再手动解压,但 Cursor 一语点醒梦中人:“请用多线程与自动解压!”
  • 我之前用 Python 自带的 zipfile,结果发现我下到的是 .rar 格式文件,Cursor 贴心地提醒说:“你可以用 pip install rarfile 嘛。”
  • 然后又顺带安利我 ThreadPoolExecutor,让整个下载效率直接飞起。
整个过程可谓火花四溅,Cursor 不仅安抚了我的懒癌,还帮我排查了编码问题,比如网站的 root.encoding = "gb2312",非常中国特色。要是没这行,怕是中文会变成火星文吧!

四、实践出真知:再买个打印机!

搞定代码后,我立刻:
1.买了一台打印机 2.下载了100套试卷 3.打印装订好
准备在大年初一的时候,亲手交给我亲爱的外甥。毕竟谁说程序员就不会关心教育下一代呢?只是我们的方式...可能比较特别😏
图片 (800x603)
图片 (800x603)
五、总结
  • 编程真的离不开AI助手了。Cursor不仅帮我生成代码,还能智能优化、提供建议
  • 多线程果然是提升效率的利器,下载速度提升了好几倍
  • 最重要的是 - 我终于有"教育资源"了
过年嘛,干活和快乐都要两手抓!希望大家看到这里,能体会到我这位苦口婆心的舅舅的良苦用心……
好了,撒花!祝大家新年快乐!记得早点写好爬虫,让你家孩子也能随时开卷!
图片 (225x225)
图片 (225x225)
PS: 各位读者朋友如果也想要这个代码,可以在评论区留言。不过我建议谨慎使用,毕竟...过年还是要让孩子们适当放松的嘛!
 
上一篇
我用AI+高德MCP 10分钟搞定苏州三日游
下一篇
Claude团队公布的5个提示工程秘诀,助你把AI"调教"到极致!