一 提出问题

在大数据空间下的各行各业都面临著被人工智慧取代的时代,更需要对所处地区行业发展有著明确的了解,要求对行业动态有著相对敏锐的察觉进行深入思考。针对在第一关中在拉钩网上爬取到的上海最新的行业有关数据分析这一岗位的情况,利用excel我进行了数据清洗。

二 理解数据

对爬取的数据大致浏览后,删掉拉钩网无用的数据和网址,保留与职位有关的职位名称,企业名称,地点,薪资,经验学历要求以及企业性质

三 数据清洗

所谓数据清洗,即我们所说的数据预处理,把数据整理成我们希望的干净的样子。开始时我们已经把无关数据删除或隐藏起来,接下来要做的就是认真理解数据,删除重复值,例如员工ID这种唯一性数据的重复值需要删除。进一步进行缺失值处理。对于缺失值的处理,可以利用手动补全、删除、利用平均值替代、利用模型计算出缺失值这四种方法。

接下来进行比较重要的一步:一致化处理。

当爬取的数据存在于列表中某一列时,内容不一致导致后续统计结果不准确,这时可进行一致化处理,点击数据选项中的分列功能,选择分隔符号或固定宽度进行分列,把内容分为可直观看出一致性的及部分。注意分列单元格时把要分列的内容复制到最后面再进行,避免分列后内容覆盖旁边单元格的有效信息。

分列功能也可用于表现最高及最低薪水。利用此功能的分隔符号"-"为标志进行分列得到两组,再用净化功能删除所有的"k"和"-"。日期的格式设置可以用分列方式更改。当然,也可以用文本函数的方法分出高低薪水。

具体步骤是利用FIND和LEN函数通过「k"和"-"定位数位,再利用LEFT函数和MID函数进行栏位的截取,从而得到最高最低数值,此时若还要进行平均值的计算,注意把通过公式的来的最高最低薪水的字元串转化成数值。

对于薪水的比较,可以通过平均值的大小进行数据排序,可以更直观的通过我们对薪水的要求进而找到合适的工作岗位。

数据清洗的最后一步也较为重要:异常值处理

对于一些例如岗位名称的信息,名称冗多繁杂,没办法直观的过滤掉无用职位信息,这时就需要通过一些关键字的查找与定位筛选掉无用信息。这里我们就需要借助数据透视表进行分析。

插入数据透视表后,把职位名称分别拖到行与求和值的部分,这样就可以得到每个岗位名称在原始数据表中出现的次数,再根据职位名称进行降序排列,得到关键名称。

回到原表中,利用IF COUNT FIND函数的组合筛选出无关职位名称信息,进行"是"与"否"的标记,并用筛选功能筛选出"是」的岗位信息保存为数据新一轮清洗结果文件。

通过描述统计模型分析我们发现上海数据分析岗位薪水处于较高水平。大部分人薪水在15k,16k左右。


推荐阅读:
相关文章