TikTok算法究竟是怎样的原理呢?
关于 TikTok 算法的深度剖析
TikTok 作为一款流行的短视频应用,在全球吸引了海量用户,这在很大程度上要归功于其独特的算法。据 Sensor Tower 的数据,今年 5 月抖音和 TikTok 的全球下载量已突破 20 亿次,仅在美国就有 1 亿用户。如此庞大的数据基础,让 TikTok 得以训练出成熟的推荐模型,这是其他公司难以效仿的优势所在。
TikTok 公司高管近期向美国媒体透露了“杀手级”算法的工作原理。包括如何利用机器学习最大化提高用户参与度,以及如何突破“信息茧房”的束缚。TikTok 的算法能为用户推荐下一个要看的视频,这不仅助力其获得超高人气,也带来了数百亿美元的估值。受美国压力,字节跳动准备出售 TikTok 美国业务,算法成为交易焦点之一。TikTok 高管通过电话会议表示,希望通过披露算法和数据操作细节,消除外界的谣言和误解。
TikTok 高管为记者提供了参观洛杉矶新“透明中心”的虚拟之旅,这里将展示算法和数据操作的工作流程。算法使用机器学习来确定用户最可能参与的内容,并通过寻找相似视频或有相似用户偏好的人喜欢的视频来为用户提供更多内容。当用户首次打开 TikTok 时,会看到 8 个热门视频,之后算法会根据用户观看或参与的情况以及正在做的事情,持续为用户提供 8 个更新的视频。
TikTok 算法的具体运作
算法会根据视频信息,如字幕、标签或声音等细节来识别相似视频。同时考虑用户设备和账户设置,包括语言偏好、国家/地区设置和设备类型等数据。当收集到足够多用户数据后,应用能够根据相似用户的喜好绘制用户偏好,并分组到“集群”中,也会根据类似主题对视频分组。
使用机器学习,TikTok 的算法可根据用户与其他用户集群、所喜欢内容的接近程度提供视频,旨在避免冗余内容,如看到多个相同音乐或来自同一创作者的多个视频。TikTok 承认算法可能产生“信息茧房”,强化用户现有偏好,而不是展示更多样化内容或拓宽视野。
TikTok 对“信息茧房”的应对
TikTok 表示正在研究“信息茧房”,包括其持续时间以及用户遇到的情况,以便在必要时更好地打破。同时,TikTok 的产品和政策团队会研究哪些账户和视频信息可能与错误信息有关,链接到错误信息的视频或创作者会被送到全球内容审查员那里进行管理。
TikTok 还介绍了在数据、隐私和安全方面的最新举措,试图对平台上的事件进行分类和预防,在问题蔓延前检测问题模式。TikTok 负责美国公共政策的副总裁迈克尔·贝克曼表示,尽管成立仅两年,但有长远目标,在科技狂潮时代,人们对平台的审核内容和算法工作持怀疑态度,公司希望通过透明度努力成为硅谷领导者。
TikTok 首席安全官罗兰·克劳蒂埃计划年底前在美国招聘 100 多名数据、安全和隐私专家,并将在华盛顿特区建立监测、反应和调查反应中心。
对 TikTok 算法的评价
研究人员 Bondy Valdovinos Kaye 认为没有这套算法,TikTok 就不会是现在的 TikTok。视频编辑应用 Veed 的创始人 Sabba Keynejad 表示还没看到哪家公司在推荐系统上能真正赶上 TikTok 的水平,虽然算法基于业界标准架构,但不同的是每次点击都会揭示用户喜好,且 TikTok 拥有庞大用户基数。牛津大学互联网研究院的 Nikita Aggarwal 评价 TikTok 能以 YouTube 等长视频平台无法想象的规模测试用户兴趣。
此外,TikTok 可以每小时为用户提供上百个不超过一分钟的短视频,前 Amazon 产品负责人 Eugene Wei 认为只需要几秒钟反馈就能记录对视频的感受,且全屏应用可假定用户的任何行为都反映对视频的看法。
TikTok 算法机制详解
首先,TikTok 算法类似抖音,流量分配去中心化。在其他平台若没粉丝,发的内容可能无人关注,但在 TikTok 不管好坏都有一定浏览量,这就是流量池。算法会给每个视频一定的初始流量,然后根据表现给予更多流量,视频内容必须足够好和吸引人。
流量池有不同等级和权重,抖音流量池评判标准包括点赞数、评论数、转发数和完播率。即使新账号 0 粉丝,发视频也有 300 左右浏览量,只要有优质内容就有机会成为大号,要保持良好心态坚持发。
当获得第一波流量池后,会根据其表现判断内容是否受欢迎,若受欢迎会给予第二波流量池,以此类推。同时存在“叠加推荐”,遵循播放量(完播率)>点赞量>评论量>转发量的指标。
还有“挖坟”概念,即以前发的视频可能突然火了,若之前视频反馈不好但后来有个别用户喜欢,TikTok 就会认为很受用户喜欢。但也要注意,若有一条视频违规,TikTok 可能会降权。