本帖最后由 TimMiles 于 2020-2-29 21:06 编辑
参加了19年12月的PA考试并顺利通过,总结一些考试感悟和注意事项,供需要的朋友参考,不当之处希望和大家讨论交流。
1.复习材料:
· 4套真题: · 官网课程
2.复习节奏:
边工作边复习前后大概两个月时间准备,考前修了3天考试假。
· 从学习角度,每个算法都可以认真学习原理和推导过程,并在kaggle找具体例子做分析。 · 从应试角度,个人感觉有点像八股取士: o 复杂算法计算机运行时间长,不好解释,因此重点考定性理解。 o 简单算法包括GLM、决策树、随机森林,运行时间快,相对容易解释,定性理解和定量计算都有涉及。 o 题型包括沟通报告和数据分析的基本步骤,每一步都有重点关注问题和易考点,考前容易做准备: § Data:作图、数据原始状态,清洗至模型可用状态。 § Feature Selection:选取关键变量,也可构建关键变量。 § 模型构建及验证:学习重点是Mod6-8各算法的适用范围,选择模型和验证模型的过程会有应用,以及可解释性和预测效果。 § 模型解释:定量解释和定性解释。 § Executive Summary:注意听众是谁,专业or 非专业。行文逻辑例如,“研究目的—数据来源—Y是什么—X是什么—Y的情况(有无缺失错误、来源、分布)—X的情况(大致分类、对X的主要变化整合创造)—模型优点—模型简化—模型验证—模型解释—总结与建议 (可以从新模型、新数据、模型结果的应用推广等角度思考。)” o 4套真题对比来看,每套题的十几个问题都有共性,前后题目的联系也包含了不同算法之间逐步提高的过程,甚至可以总结每种题官方的参考答案是什么,融合自己的理解,梳理成为自己的语言便于记忆,考试时就能立即反应,节约时间。
3.提醒:
· 考试报名:每次考试有两天,上下各一场,官网放出的题目也一样。如果4场考试题目一样,报名时抓紧挑第二天的考试时间,这样如果有第一天考试的伙伴……你懂5的意思8……
· 考试内容:201912考试题目貌似官网未更新,回忆如下:报名时只剩第一天第一场的考试。题目和201906sample很像,判断投保人是否对公司有价值。考了decision tree,random forest,boosted tree的解释。GLM,然后和sample一样的cutoff计算。第一题分析变量关系费时间,最后总结时间不够。
· 考前15分钟:读题时间不能动笔写但可以充分利用。比如看每道题的考点、会议自己准备的内容,看每段代码都是什么意图,心里打好写作草稿和时间分配比例。跳过这个环节就直接进入5h答题环节,答题时间读题和读代码个人觉得会浪费时间、影响状态。
· 提交环节:5小时答题,最后不会留出专门时间给考生提交report和excel。建议像任何考试涂答题卡一样,在离考试结束10分钟或5分钟时,把做好的两份文件先上传,避免考试结束还没有上传文件导致可能连被判卷的机会都没有的悲剧。
· 代码:个人觉得代码不需要背,考试给的样例每个部分都有各自用途,能读懂理解即可。比如201912的考试,第一部分代码是数据处理,大概有几块代码,分别代表去除异常值、数据变换、画图、单变量分析、交叉分析等等,需要做的是按照题目要求和自己对数据的分析逻辑copy/paste code组成答题内容。特别提醒,第一题可能会涉及多个变量的分析和画图,耗时较长;而且第一题对后面题目如剔除哪个变量、选择哪个交叉项都有铺垫作用,因此要重点对待,考试时建议把握节奏,早做决断,言之合理即可。(楼主考试时第一题大概花了1h~1h20min,当时很慌,后面加快了节奏,report最后一段草草收笔,花了7、8分钟上传并检查。)
4.参考:
以下人大经济论坛的分享个人觉得很有帮助,前人栽树后人乘凉,供大家参考:
https://bbs.pinggu.org/thread-7293593-1-1.html https://bbs.pinggu.org/thread-7163725-1-1.html https://bbs.pinggu.org/thread-7515240-1-1.html
5.总结:
个人感觉,PA考试对培养数据分析能力有一定帮助,也是考试改革的重要组成部分。但受限于系统运行、算法难易、判卷标准等方面,可考范围比较基础、可准备范围好把握,猜测未来考试形式和考试内容还会有改变。建议备考思路为:
· 学习官网课程,重点module6-8。 · 理解算法内容,可以列excel表,比较各种算法定义、假设、适用范围、优缺点、主要代码、关键步骤、主要结果和作图的解释等。比如优缺点和解释结果可以提前背诵准备。 · 理解官网课程每个module后的case study。 · 反复阅读真题答案,比较相同题型、总结分析思路。就像托福雅思的写作老师教写作一样,解构executive summary的行文思路,总结每句话都说了什么意思,哪些句式是通用的,建好自己的框架。 · 总结每道题目的答法,形成executive summary的写作思路,考虑读者关注什么内容、每段有几句话都应该说什么并背诵,节省考试反应时间。 · 多和同事、同学交流备考经验,总会有意想不到的惊喜和收获。
如果统计学比较扎实,有一定R基础,那么我觉得应该把准备重点放在应试部分,总结题型、背诵要点、梳理写作逻辑,考前试验自己的储备和行文思路能否流畅准确输出,即使是重新做真题也可以。
总之,适合自己的方法才是最好的,希望大家顺利通过PA考试。
|