iMacros脚本运行三天,爬取了40万行现代化支付行号
离题万里的开场
码农界有个著名的“三次法则 (rule of three)”:如果一段代码重复出现了三次,就要考虑抽出来写一个子程序,以便复用。这是条宝贵的法则,可以衍生出更多的强迫症版本,随随便便就能举出很多喜闻乐见的例子:
比如
- 一个词在同一句话里出现三次就不能忍,必须换近义词;
- 一件事手动做三次就不能忍,必须写程序自动化;
- 一顿饭重复吃三口就不能忍,必须开发一个喂饭机;
- 同一处空气重复呼吸三口就不能忍,必须装一台呼吸机
……
发人深省,对不对?这些正是当今最严肃而真实的信仰,有着最为坚定的践行者。在古代2015年全球最大的雄性交友平台GitHub上出了个网红毛子码农、脚本狂魔Narkoz,他的人生信条是:如果一件事要耗费自己90秒以上,那就写个脚本。这些奇葩的脚本包括:
脚本
- 如加班到21点以后就自动给老婆发马屁短信;
- 收到蠢货DBA的任何求助邮件后自动恢复数据库的最近备份
- 让咖啡机等待17秒然后煮杯咖啡并等待24秒再灌入杯子(正好是作者起身走到咖啡机前的耗时)
- ……
从时间效益的经济学评价来讲,这个准则烂透了。这好比为了节约每天通勤的公交车钱,去买了一辆跑车。但跑车本身还是很拉风的。若能竖立起极客死宅的品牌形象,还是可能会产生某些潜在的溢价——比如说,会有更多的人请你修电脑。
判断一个人是否天生适合当码农,很重要的一点就是看他/她有没有这种懒癌强迫症。而这种强迫症的形上学本质是:对自由王国的无尽向往。——重复劳动太蠢了,它侮辱人类的尊严,阻碍我们证法悟道,必须消灭。这就是自动化的诞生。
所以——尽管技术上跌跌撞撞,也并不妨碍我隔三差五搞个三脚猫爬虫出来。这回的主题又跳跃了:爬取现代化支付行号。