往往带着很浓重的个人特色。
汇报人员继续说:“然后我们根据这四万个id,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”
这是个极大的工作量。
一个id在微博上有可能有成千上万个同名的账号。
这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了api接口的。)。
爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。
注意哦,这只是一个id的工作量。
比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。
那这些张三的人的所有的动态都得爬下来。
可是你怎么知道这一万个张三里面,哪一个是你想要的呢。
豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。
那么他们的发言里一定会提到同样的东西。
这个时候就要再拿出来一个新的id,比如李四。
利用李四这个id,在微博上进行搜索,又出来一万个李四。
照例,全给爬取下来。
接下来是王五、赵六……
然后再进行横向比对,一个个的去试!
总能试出来蛛丝马迹。
这个工作量是无比巨大的,对计算机的要求也很高。
这种情况下,豆半只能增加人手,外聘公司。
只是过去的这一夜,花了至少上千万。
但是这是目前为止豆半唯一的方法了。
其实还有一个方法,那就是豆半后台有这些新注册的人绑定的电话号码,如果他们拿着这些电话号码去找微博,在微博数据库里直接用电话号码查找的话,基本
本网站为网友提供小说上传储存空间平台,为网友提供在线阅读交流、txt下载,平台上的所有文学作品均来源于网友的上传
用户上传的文学作品均由网站程序自动分割展现,无人工干预,本站自身不编辑或修改网友上传的内容(请上传有合法版权的作品)
如发现本站有侵犯权利人版权内容的,请向本站投诉,一经核实,本站将立即删除相关作品并对上传人ID账号作封号处理