现在很多公司打电话推销客户的进出口数据,说通过大数据捉取了他需要的产品信息,那么大数据怎么捉取的呢?


这个问题,干货满满,各种大数据技术在脑袋里面瞬间排好了队。但您问这样的问题,是想必是对大数据不熟悉,干货满满的技术点就不多说了。跟您简单举个例子,您就明白了。

在大数据时代背景下,用户信息充斥在网路中,将用户的每个具体信息抽象成标签

利用这些标签将用户形象具体化,这也就是我们常说的用户画像。像复杂的电商平台,用户画像涉及的标签达上百个,甚至更多。从而使得平台能为用户提供有针对性的服务。并且进行精准的商品推荐

比如:我在链家app上看过一些租房信息,并设置为了收藏,很快就有链家或链家授权的第三方中介人员联系到我,询问租房的需求。并按照我收藏的房屋特点,比如一室一厅,靠近地铁等标签,进行推荐。

再比如:我在今日头条的app上点击过或查看过相关英语学习或读在职研究生的相关广告,由于在头条进行过用户注册,包含个人的联系方式等信息。所以,不排除这些广告投放商可以通过头条的后台合作,拿到相关信息。

此外,像类似于电商平台,还可以根据用户的搜索的商品,使用协同演算法,将相关的商品推荐给用户,使得用户产生购买行为。

---------------------------------------假装有分割线-----------------------------------------------

大数据应用之广泛,现在以及未来的各行各业都离不开大数据。如果您对大数据还有其他的疑惑,或是特别想要探究大数据的神秘之处,建议您可以到 @尚矽谷教育 主页获取大数据【教程】自学试试。先了解一些。

发布于 2020-07-24继续浏览内容知乎发现更大的世界打开Chrome继续大大蛙大大蛙热爱电影,游戏的中二少年

根据我在这方面的理解,我认为是这样的

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个介面。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分散式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、感测器、激励器、信号调理、数据采集设备和应用软体。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于「查看商品详情」这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如「查看商品详情」这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带著问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。常用的数据采集方法归结为以下三类:感测器、日志文件、网路爬虫。

(1)感测器

感测器通常用于测量物理变数,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网路监控的流量管理、金融应用的股票记账和 web 伺服器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分散式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网路爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网路爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统介面等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


根据我在这方面的理解,我认为是这样的

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个介面。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分散式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、感测器、激励器、信号调理、数据采集设备和应用软体。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于「查看商品详情」这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如「查看商品详情」这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带著问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。常用的数据采集方法归结为以下三类:感测器、日志文件、网路爬虫。

(1)感测器

感测器通常用于测量物理变数,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网路监控的流量管理、金融应用的股票记账和 web 伺服器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分散式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网路爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网路爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统介面等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


其实就是进行用户画像,根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴「标签」,而标签是通过对用户信息分析而来的高度精炼的特征标识。

举例来说,如果你经常购买一些玩偶玩具,那么电商网站即可根据玩具购买的情况替你打上标签「有孩子」,甚至还可以判断出你孩子大概的年龄,贴上「有 5-10 岁的孩子」这样更为具体的标签,而这些所有给你贴的标签统在一次,就成了你的用户画像,因此,也可以说用户画像就是判断一个人是什么样的人。

除去「标签化」,用户画像还具有的特点是「低交叉率」,当两组画像除了权重较小的标签外其余标签几乎一致,那就可以将二者合并,弱化低权重标签的差异。

罗振宇在《时间的朋友》跨年演讲上举了这样一个例子:当一个坏商家掌握了你的购买数据,他就可以根据你平常购买商品的偏好来决定是给你发正品还是假货以提高利润。且不说是否存在这情况,但这也说明了利用用户画像可以做到「精准销售」,当然了,这是极其错误的用法。

目前这样的用户画像,大多集中于商用。大数据技术应用的经典案例:全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。

再贴一组好玩的数据:据某电商平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。(奇怪的知识又增加了~)


这是很多人都比较关心的问题之一,作为一名IT从业者,我来回答一下。

首先,当前大数据的信息采集渠道主要有三种,其一是互联网系统,其二是物联网系统,其三是传统信息系统(ERP),这些渠道都有可能会抓取到个人信息,其中互联网系统对于个人信息的抓取是比较普遍的。

大数据是一个庞大的生态体系,在大数据产业链下,数据采集是非常重要的环节,也可以说是大数据的基础。大数据采集的手段和方式也在不断升级,比如从早期的用户注册,到后来的用户数据爬取,到现在的用户行为数据收集等等,都在不断提升对于用户数据的抓取维度,数据的价值密度也在不断提升。

可以说,当前用户在互联网上的任何一个操作,都会被大数据系统所记录,未来也都很有可能会影响用户的一系列行为,所以要想在当前的互联网时代逃避大数据还是非常困难的,与其逃避大数据,不如拥抱大数据,让大数据为自己带来更多的方便,甚至会为自己的带来一些价值增量。

当前互联网在消费端逐渐进入到存量时代之后,用户数据会逐渐向大型互联网平台汇集,所以目前用户的数据往往都集中在一些大型互联网平台的手中,而大型互联网平台对于用户数据的抓取还是非常方便的,而且大型互联网平台自身就能够完成数据的价值增量过程,能够形成一个比较完整的闭环,这也能够避免很多数据交换风险。

大数据采集与预处理技术 刘丽敏,廖志芳,周筠 编 数据京东¥ 31.90去购买?

最后,相对于当前的互联网系统来说,很多线下数据的抓取往往具有更高的风险,所以用户一定要重视在线下保障自身的数据安全。

我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智慧领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。

如果有互联网、大数据、人工智慧等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!


因为现在的网路高速发展,大数据时代我们的信息是容易被透露。

就拿现在的国务院大数据通行码来说

这是国家和三大运营商合作的,它会根据你的出行记录展现你最近14天去过什么地方。

那么我们的这些数据是怎么来的呢,现在不管我们去什么地方,都会用到数据流量,产生数据流量那么三大运营商就可以对你的使用情况进行记录,在通过相关数据进行汇总形成你的通行码。

不光光是三大运营商,你去一些店面进行消费,办理会员卡,提交了你的信息,那么相关店铺就会拥有你的一些基本信息,虽然这些信息都是相对保密的,但是毕竟你的信息被别人获取的=了,而且现在网路很发达,稍有不慎这些信息就会被泄露。

微信、QQ等软体还有一个空间和朋友圈等功能,很多人发动态的时候会把自己的定位一起发布出去,那么软体也会记录你的一些信息。

当你打开你的定位系统,你的信息也是会被记录的。

在大数据时代,我们的个人隐私都需要自己好好保护,不随意泄露自己的信息。


大数据对用户信息的获取,将主要来源于平台数据共享。

我们现在使用的各种APP绝大部分都是实名注册的,产生的数据都将被系统记录保存。

1、我们使用的高德地图、腾讯地图、百度地图等APP会自动获取我们经常会去什么地方,通过什么样的方式去,打车、骑行、还是步行,从而推断你的出行习惯。

2、美团、饿了么等外卖APP会自动识别我们点餐的频率、点餐大概支出的价格、都爱吃什么类型的饭菜。

3、淘宝等电商平台会自动识别出,我们爱买什么样的衣服、价格区间、衣服的大小尺码、甚至连爱穿什么颜色的衣服,喜欢什么品牌的鞋子都能被记录。

4、银行或者理财软体将会对我们的投资理财习惯,支付金额大小流水等进行全面且深刻的统计和分析,从而对我们进行更加全新的定位。

上面还仅仅只是简单列出了我们平时比较常见的数据,还有特别多的没有说。


大数据抓取信息这个事,自从有了互联网了就没法断绝,而移动互联网的出现和发展更加速了这个趋势。

当你使用app同意授权的时候,就注定你的信息已经交给app的主体了。


01 在互联网上,没有人知道你是一条狗

上世纪90年代,《纽约客》曾有一句俚语闻名全球:在互联网上,没有人知道你是一条狗。那个时候,互联网刚刚兴起,其虚拟和匿名属性让在互联网上的人可以充分隐藏自己,一个矮子可以在互联网上把自己塑造得高大威猛,一个屌丝也可以把自己塑造成高富帅而不被人知道。

但互联网的快速发展完全超出了一开始的想像,虽然匿名性可以让一个人深度隐藏,但互联网开放的属性同样也可能让一个人暴露自己。

02 人肉搜索让人藏无所藏

2006年,一位网名「碎玻璃渣子」的网友在网上公布了一段虐猫视频,视频中一位女性将高跟鞋跟踏进了小猫的肚子里,接著狠狠地插进小猫的嘴中和眼睛里……视频公布后,愤怒的网友发起了「人肉搜索」,只用了6天时间,网友便通过搜集的照片、IP和地址信息基本将「虐猫事件」的主角锁定。

人肉搜索能够成功地找到一个匿名的人,除IP地址的贡献外,最重要的有两点,一是搜索引擎的强大,二是大批量用户的参与(即现在说的UGC)。

搜索引擎能够追踪到匿名者在网上公开的蛛丝马迹,从而可以更便捷地通过这些线索一步步推进,大批量用户的参与更是实现了人人贡献线索的可能,从而让匿名者得意暴露。

2012年陈凯歌的电影《搜索》就探讨了这个问题。高圆圆饰演的叶蓝秋在获知自己罹患癌症之后,心灰意冷的她上了一辆公交车,她拒绝给车上的老大爷让座,这一过程被某记者拍下并报道。

很快,报道引发了一场社会大搜索,叶蓝秋上市企业董事长秘书的身份被揭开,对于叶蓝秋的道德沦丧的集体讨伐开始上演。

如果说对于虐猫的人肉搜索还带有正面色彩的话,那么《搜索》这部电影将人肉搜索的负面效应展现得淋漓尽致,它带来的是不分青红皂白的网路暴力。

论坛时代是匿名性体现得最充分的时代,而人肉搜索正诞生于这个时代,人肉搜索的本质是搜索+UGC,它可以说是匿名者的克星,搜索和UGC正是由互联网开放的本质决定的,在开放的互联网上,可以说几乎没有人能做到绝对隐匿。

03 实名制社交网路

早年的社交网路大部分是匿名制,而这一习惯随著Facebook的诞生发生逆转。

Facebook从诞生起就不遗余力地推行其用户的实名制,马克扎克伯格在解释原因时说道:「互联网世界中已经存在了太多太多的虚拟社区,在那里网民们可以彻底抛掉自己的真实身份和现实生活,投入到虚拟的狂欢中。与此相比,实名制的网站便显得弥足珍贵。」

社交网站的实名制让人「无处可藏」,电影《断线》讲了一个被社交网路影响的故事:一个热爱音乐的孤独少年,被两个熊孩子盯上,后者不费吹灰之力在社交网路上把所有信息找到,并投其所好假意成为其朋友,双方无话不谈后少年的私密照片被恶意传播,而这最终导致了少年的悲剧。

不说电影的导向性,社交网路的发展的确让实名制用户越来越多,Facebook,Linkedin,微博,知乎,现在几乎每一个社交网路都必须有实名的手机号,所谓「网路不是法外之地」,这让一个人的信息越来越容易被别人获取。

现在哪一个APP不知道你的电话号码?哪一个APP不会时常给你发促销简讯?哪一个APP不会给你打电话推销相关产品?

马克·扎克伯格曾预计到2030年时,Facebook用户总数将达50亿人。试想如果全球70%的人都使用Facebook,并且都是实名制,那地球将成为一个「透明球」。

04 移动互联网时代的APP许可权

移动互联网时代不仅让人无处可藏,更严重的是你很可能24小时都处于被追踪的状态。

如今在中国注册APP,很多时候都需要填写手机号,一旦填写,你的手机号便成了此APP(背后的公司)的数据,接踵而来的很可能是各种促销和广告信息。安装APP时会有各种许可权提醒,你同意得越多,隐私也就越少。

你的使用或购买行为也会被记录,比如根据你买猫粮或狗粮的行为,电商网站会判断你家养的是猫还是狗,根据你购买的频率,它会在你刚刚需要购买的时候提醒你。

你的通话信息会被记录,它可以通过判断你经常联系的人推测你的妻子、父母的联系方式,想一想你的支付宝是不是已经开通了「我的家」功能,里面有你所有家庭的支付宝账号?

通过跟踪你的位置信息,它可以轻易地判断你的家和公司分别在哪。想一想,滴滴出行会不会知道你的家和公司在哪?它当然知道了。

可以说,在移动互联网时代是没有绝对意义上的隐私的。

2019年,日本某女团的成员松冈笑南在社交网路上po了两张自己的自拍照片,就是下面这样普通的自拍照片。

没想到,以为狂热粉看到松冈笑南的自拍照后,从她瞳孔中的倒影看到其住所附近的环境,再利用谷歌地图的街景功能,不断搜索和对比后,找到了具体准确地址。

9月1日,当松冈笑南回到东京江户川区的一间公寓中时,突然被这名粉丝用毛巾捂住嘴并拉倒在地,并对她进行了猥亵。

这位松冈笑南的粉丝有强大的技术和缜密的逻辑推理能力。但对于平台来说,获取这一切简直轻而易举。

浅黑科技在《妹子们注意了,一张照片可能会暴露了你家住址》中发现,通过获取一张开著GPS的照片,可以轻而易举地看到经纬度,再通过谷歌地球就可以将其精确到一栋楼上。

05 大数据时代让隐私几乎不复存在

我们身处大数据时代,并且越来越多的相关数据会被跟踪和记录,软银孙正义曾说「在2020年的时候,每个人被连接的设备数量会达到一千个。在2040年的时候,这样的现象将会非常普遍,所有的人和物都会通过移动设备联系起来。所有的数据都会在云终端进行储存。」

这意味著这些数据都会被服务商们掌控。

2018年,Facebook爆发隐私门事件,其数千万用户数据被第三方数据公司违规滥用,第三方公司根据这些数据精准推送政治广告,影响美国大选的走向。

其背后的公司剑桥分析也是这么影响英国脱欧进程的。

2018年李彦宏在中国发展高层论坛上针对隐私有过发言,他说 「中国人对隐私问题更加开放,或者说没有那么敏感。如果通过交换隐私而获得便捷、效率、安全,在很多情况他们是愿意这么做的。」

李彦宏的话被解读成「中国人愿意用隐私交换便捷性」,这引发了大批网友讨伐。

但仔细考虑,李彦宏说的就是事实,现在谁不是面对新闻APP推送的内容看得津津有味?谁不是在电商网站中刷自己可能感兴趣的商品?谁不是为了几个积分,为了砍几块钱就帮平台发展新用户,并将他们的信息泄露了?

「数据收集」,「属性判断」,「精准营销」,「大数据杀熟」,这些词对我们都已经见怪不怪了。

下面是KK在《必然》一书中列出的美国对公民进行常规追踪的清单,你感受一下:

拼车软体——优步、Lyft和其他零散的打车软体记录你的旅程。

手机位置和通话记录——你通话的时间、地点和对象会被储存数月。智能家居——智能恒温调节器(如Nest)检测你是否在家,同时记录你的行为模式,并将这些数据传输到云端。智能插座(如Belkin)监控你的用电量和用电时间并把数据分享到云端。   电子商务——亚马逊之类的零售商不仅追踪你购买的东西,还有你浏览或想买的东西。 电子钱包和电子银行——诸如Mint一类的信息采集组织追踪你的贷款、房贷以及投资等完整的财务状况。

人脸识别——脸谱网能在他人上传的照片中辨认(标记)你的头像。照片的拍摄地点代表了你过去所处的位置。   

网路活动——网页广告cookie追踪你上网时的举动。上千家顶尖网站中有80%利用网页cookies追踪你在网上的行踪。通过与广告网路的合约,你没有访问过的网站也能得到你的浏览历史。 社交媒体——它们能辨认你的家庭成员、朋友以及朋友的朋友,还能追踪你以前的老板以及现在同事,也能了解你如何度过闲暇时间。   搜索——谷歌默认永久记录你查询过的所有问题。  健康追踪——你进行身体活动的时间、地点通常会被24小时不间断记录,其中还包括每天睡觉和起床的时间。

经济学人曾说数据是互联网时代的石油,掌握了数据的巨头们,实际上也掌握了你的隐私。

通过无所不在无所不包的数据,几乎关于你的一切细节都会被了解(如果这些数据的所有者想了解的话),数据的拥有者当然知道你是一条狗,甚至他们知道你有几根毛。

原文发布于2016年

在互联网上很多人知道你是一条狗?

mp.weixin.qq.com图标

你的手机号、姓名、身份证号、网站注册号、淘宝账号、京东账号等等的信息都可以作为索引,把与你所有关联的信息搜索出来。拿到这些信息后,可以查询你的运行轨迹(出行轨迹、购物历史、查看记录、搜索记录、检索记录),分析你的历史,推断你的未来,推断出你的喜好、你的动机、你的下一步行为。特别是各大平台、应用联合起来,组合成一个全维度的你。仅仅是一个导航系统,就能还原你开车到过的所有地点。你是透明的,只是你没有那么重要而已。


主要通过以下方式:整理公共信息,包括统计局数据、公司年报、市场机构研究报告等公开的零散信息;直接购买资料库,购买大量产品资料库,如博客、onesource、wind等;自建资料库,收集第一手资料,如自定问卷,或收集企业经营线资料,如年度消费者调查或品牌调查。


在移动互联网时代,主要是两种:一种是APP平台足够大,产生的数据足够多,用户访问APP的行为都会被记录下来在后台形成日志。一种是靠各种sdk采集,现在APP的开发,很对基础功能都有第三方提供,术业有专攻嘛。上层APP只要授权了,底层sdk就搭便车,也能拿到这些授权获取数据。

先说基础条件:移动设备有两种基础信息来把人和设备绑定在一起,一个是手机号,一个是设备自带的信息,比如imsi等。如果这两种信息分开,其实人和设备还是能分离的,也就是大家拿到的数据只知道这个设备干了啥,还不会跟现实生活中的人能关联上的,不能通过设备知道你是谁,你住在哪里。但是很遗憾,这两个信息在你设备使用APP的时候,就通过各种方式提供给APP了。

先说手机设备的各种信息,这个信息是很多APP能使用的先决条件,很多APP的基础授权都包含了这些信息,用户也默认都给了。

第二是手机号这些信息,基本上注册用户的时候都会引导你去填手机号,很多APP还会去尝试获取通讯录,一旦你确认,你的生活圈子都被获取了。在中国手机号码实名之后,手机号码其实就是一把钥匙,跟你的实际信息绑定在一起。

OK,这个是数据获取这一侧,数据获取到时候,在这些公司后台,都会有dmp平台,全称是data manage platform,在这里,你所有的数据会被清洗,同时按照你行为数据给你打上各种标签。

如果到这一步,还算OK,但是实际过程中还有各种数据交换的网路,注意下这里说的是数据交换,不是之前那种数据买卖。我举个更多人都遇到的例子:无处不在个性化广告。大家经常发现,我上头条,立马能给我推我之前在京东广告,在微博推的是我在淘宝刚看的商品广告。这个就是各种广告联盟在互换数据导致的精准广告。光广告有很多种类型,我用一种常见的rtb广告举例,你当前打开的APP把你现在手机设备信息发送个一个ad-exchange的网路,在这个网路中秋,潜在的广告主会根据APP发过来的唯一信息做比对,大家设备信息都一样的,两边才能对应上,然后发现这个用户在我这里有访问记录,哪那我就可以出高价,从这个APP唤醒这个用户:你之前来过我这里,再来啊。这样,参与的双方会完成信息的互换,关于这个用户,双方都多了一条数据。

写到这里,有人会问,这些信息,国家强制立法不用行不行?答案是真不行,至少在目前看不到希望。为啥,在互联网上还有大家看不见的灰产和黑产,合法的APP需要这些信息去识别各种作弊用户,否则平台就被薅光了,这个就不展开说了,


这个问题,应该是如何从大数据中获取有价值的信息,这也是行业领域对大数据技术最常见的诉求之一,要想从大数据中获得有价值的信息往往需要从三个方面入手,分别是数据采集、数据分析、数据应用和验证。

1,数据采集,大数据进行数据价值化的第一步,数据采集的质量对于后续数据价值化的影响非常大,通常在进行数据采集的时候,需要做好的,数据采集从三个渠道取得信息,分别是互联网、物联网和传统信息系统。

2,数据分析,大数据价值化的核心步骤,数据分析有两种主要方式,其一是统计学方式,其二是机器学习方式。数据分析除了要掌握专业的数据分析技术之外,还需要具有一定的行业知识。目前不同行业都有针对性比较强的数据分析工具,通过这些工具可以完成大量的数据分析任务。

3,数据应用是大数据分析的目的,当然在进行数据应用之前往往还需要一个验证的过程。数据验证主要分为两个验证阶段,第一是演算法验证阶段,第二是场景验证阶段。虽然目前很多演算法验证能够取得较好的成绩(实验环境下),但是场景验证的结果往往更值得关注。

最后,随著大数据技术体系的不断成熟,未来通过大数据技术来完成数据的价值化将有广阔的应用空间。


尽管「大数据」一词近年来屡遭热捧

但很多人都还不知道什么是大数据

更不知道大数据有甚卵用

这两年,发现「大数据」这个词出现的越来越频繁了

不仅企业,连国家都在部署大数据战略

一番百度了之后

Oh~ emmmmmmmmm~ +_+

还是没搞懂大数据到底是个什么玩意儿

直到有一天

我发现一个秘密

不管我在网上搜索什么

页面都会跳出我要搜索的相关产品或关联事物

然后,我恍然大悟!

大数据智能匹配你的专属留学院校和专业

已失效 

所谓大数据,就是演算法!

它能够「算」出我们「心中所想」

那么问题来了

大数据技术是如何采集到我们的信息的呢?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个介面。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分散式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、感测器、激励器、信号调理、数据采集设备和应用软体。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于「查看商品详情」这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如「查看商品详情」这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带著问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。

常用的数据采集方法归结为以下三类:感测器、日志文件、网路爬虫。

(1)感测器

感测器通常用于测量物理变数,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网路监控的流量管理、金融应用的股票记账和 web 伺服器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分散式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网路爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网路爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统介面等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


1.通过系统日志采集大数据

用于系统日志采集的工具,目前使用最广泛的有:Hadoop 的Chukwa、ApacheFlumeAFacebook的Scribe和LinkedIn的Kafka等。这里主要学习Flume。

Flume是一个高可靠的分散式采集、聚合和传输系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据,同时对数据进行简单处理,并写到诸如文本、HDFS这些接受方中。Flume的核心其实就是把数据从数据源收集过来,再将收集到的数据送到指定的目的地……

2.通过网路采集大数据

网路采集是指通过网路爬虫或网站公开API等方式,从网站上获取大数据信息,该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集。


拿电商来说。比如你现在去京东搜几下java的书,等会它就会在你的主页面那里推荐这类书


推荐阅读:
相关文章