“陈默,你来一下。”
王海站在他工位旁边,手指敲了敲隔板的边缘,力道不大,声音不轻不重。他手里拿着一个银色的u盘,拇指无意识地摩挲着u盘的边缘。
陈默从电脑屏幕上移开视线,抬起头。他正在处理一份上周的销售周报,数据有点对不上,他刚找到差异的原因。“王组,什么事?”
“有个新活,比较急。”王海把u盘递过来,“这是从天晟那边刚拷过来的第一批原始数据。量不小,乱七八糟的。你接手,做初步整理和清洗。要求我发你邮箱了,你先看看。”
陈默接过u盘。金属外壳冰凉,带着点湿气,大概是王海手心的汗。u盘很轻,贴着“天晟-2024q1原始”的标签,字迹有点潦草。
“这批数据是后续分析的基础,很重要,不能出错。”王海看着他,语气带着惯常的、交代任务时的严肃,“时间也比较紧,那边催得急,希望尽快看到初步分析方向。你抓紧,争取三天,最多四天,弄出个干净可用的基础数据集。有什么问题随时找我。”
“好。”陈默点点头,把u盘插进自己电脑的usb接口。指示灯亮起蓝光,开始闪烁。电脑发出读取硬件的提示音。
“行,那你先看要求,开始弄吧。”王海说完,转身要走,又停住,补了一句,“对了,跟李涛也说一声,让他把他手头那个客户画像的数据字段说明发你一份,可能用得上。你们俩配合一下。”
“知道了。”
王海走了。陈默点开邮箱,找到王海刚发来的邮件。标题是“天晟项目数据预处理要求(优先级:高)”。附件里有一个word文档。他下载,打开。
文档不长,大约两页。列出了数据源说明、需要保留的核心字段、数据清洗的基本规则(去重、缺失值处理、异常值识别阈值)、格式统一要求,以及最终需要交付的数据表结构和命名规范。最后用红色字体加粗了一句:“注意:数据质量直接影响后续所有分析结论的可靠性,务必仔细。时间节点:4个工作日后提交初步清洗后数据。”
陈默快速浏览了一遍。要求不算特别复杂,但数据量大、原始、杂乱的话,工作量会很大,而且需要极度仔细,一个字段处理不当,可能就会埋下雷。他看了一眼那个正在读取的u盘,指示灯还在闪烁。他点开“我的电脑”,找到新出现的盘符,双击打开。
里面塞满了文件和文件夹。名字都很随意:“data_part1.xlsx”、“天晟导出_0321.rar”、“logfiles_week12.zip”、“未命名文件夹”、“temp_old”。没有清晰的结构。陈默皱了下眉,点开那个最大的excel文件。文件打开得很慢,进度条一点点往前爬。
终于打开了。密密麻麻的单元格,一眼望不到边。列数很多,很多列名是英文缩写,有些干脆是“column_a”、“field_1”这样的默认名。数据格式混乱,同一列里,有的是数字,有的是文本,有的单元格是“n/a”,有的是“null”,有的是空白。日期格式五花八门,有些看起来像日期,但实际是文本。还有大量重复的记录。