精算屋-熊猫论坛

精算屋熊猫论坛

本论坛旨在为精算师及未来精算师提供交流平台.
在这里我们提倡平等,开放,互助,创新
或许你还不是精算师,来到这里,你已经成为了我们的一员.

人气 2435

【非主流精算问题】R的sqldf包洗数出bug [复制链接]

喵小昭 2020-3-10 20:08:30
有木有童鞋用过R里面的sqldf包来清洗数据的?功能大概类似SQL,稍微快点儿~原始数据文件是csv,量级大概几十万条吧。比如设置好group by条件,筛选保费和件数两个字段,发现得到的件数是没问题的,但是保费数值会和实际数值有差异,感觉很诡异......确定代码和逻辑都没问题。如果朋友遇到过类似的情况,求交流~

回复

使用道具 举报

江湖小菜鸟 2020-3-10 21:02:29 来自手机
会不会是四舍五入问题
回复 支持 反对

使用道具 举报

tusiyu1020 2020-3-10 21:33:12
具体差异有多大? 原字段的小数位数有多少, 很有可能是舍入误差的影响。可以尝试先计算少量数据来确认问题
回复 支持 反对

使用道具 举报

喵小昭 2020-3-10 21:39:16
江湖小菜鸟 发表于 2020-3-10 21:02
会不会是四舍五入问题

结果差10%还多,应该不是小数位问题
回复 支持 反对

使用道具 举报

喵小昭 2020-3-10 21:40:04
tusiyu1020 发表于 2020-3-10 21:33
具体差异有多大? 原字段的小数位数有多少, 很有可能是舍入误差的影响。可以尝试先计算少量数据来确认问题

差百分之十几吧,应该不是小数位舍入误差的问题
回复 支持 反对

使用道具 举报

喵小昭 2020-3-10 21:57:15
貌似是源文件的数据格式的问题,csv里的保费那一列,手动设置成常规格式,就没问题了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|精算屋

GMT+8, 2024-11-22 05:40 , Processed in 0.108313 second(s), 23 queries .

Powered by Discuz! X3.4  © 2001-2017 Comsenz Inc.