谈到抖音网络舆情监测,很多人都觉得不可能,因为抖音是出了名的反爬虫比较厉害的媒体,更何况监测抖音上面的视频文字信息,但是就有这么一些公司可以做到这个事情,今天小编专访了甲鱼网络舆情监测软件,他们是如何做到的,这个监测主要分2大块,第一大块视频的全面性,第二大块,把监测到的视频进行切片,然后对图片上面的文字用OCR技术进行识别,这样就实现了短视频的监测,下面小编就来给大家详细的分析一下吧。
1、抖音全面性监测是怎么样做到的?
首先把抖音目前有的8亿多个账号全部采集到,然后对每个账号进行定向监测,一旦账号发信息就可以马上监测到,这个就是抖音的全面性监测,原理很简单,但是其中的过程有多难想必大家不知道,第一个难点是8亿多个抖音账号怎么采集到,而且还有很多僵尸账号,一般的舆情监测软件厂商根本没有办法做到。第二个难点就是对8亿多个账号进行实时采集,这个对服务器的需求是非常大的,同时多个账号进行并发是一个非常大的难题,利用传统的算法根本没有办法解决这个问题,这个都是采用新的爬虫算法解决的。
2、如何进行抖音的视频里面的文字监测?
把抖音里面的每个视频都通过信息流技术进行一定的切片,然后利用OCR图片识别进行短视频里面的文字识别,想必很多人会问这么多的视频下载下来,要多少服务器,还需要多少服务器去切片,这个就是这个项目最大的难点,但是才用信息流的技术可以利用极少的服务器资源实现该需求。
3、抖音发布的定位如何监测到
这个其实是最简单的了,只要发布者公布的定位信息才可以采集到,没有公布的定位信息是采集不到的。视频都可以采集到,还会差一个定位吗?这个是没有一点难度的。