“黑箱”是控制论中的概念。作为一种隐喻,它指的是为人所不知的那些既不能打开,又不能从外部直接观察其内部状态的系统[7]。而“技术黑箱”特指人工制造品(artifacts),其作为知识已经被部分人知道,但另一部分人不一定知道。在新闻生产的整个链条中,算法权力得以充分施展的是自动化决策环节,分别体现在算法自动生成新闻内容、智能推荐新闻产品、借助模拟程序或预测模型讲述新闻故事三个层面。[8]在这里,由算法自动生成的新闻稿件是人工制造品,而算法程序和工作原理作为知识,被集成于某种框架之中,对开发者、设计者而言是已知的知识,对受众或用户则构成了一个“技术黑箱”。
1)算法权力的技术黑箱
按照功能划分,算法有优先级排序算法、分类算法、关联度算法和滤波算法等多种类型,而自动化决策往往不是单一的某个算法可以完成的,有时可能需要多种算法的叠加。其中涉及基于大体量数据的复杂运算程序和机器学习技术,即便是专业的新闻记者和编辑,也未必能够参透算法的内部运作机理。
美国学者尼克·迪亚克普拉斯(Nick Diakopoulos)研究了算法“黑箱”的两种常见情形。[8]第一种情形对应监督式机器学习技术,属于算法“黑箱”初级形态,多见于结构化数据丰富的财经和体育新闻报道领域,也是目前国内运用比较多的算法形式。如图3(a)所示,这一过程有固定的模板,输入和输出都是已知信息。算法自动按照给定的规则填充公式化的表达,生成稿件内容。这里算法本身是黑箱,用户基于公开的应用程序编程接口(API)可以全部观察到输入和输出两端的情况。第二种情形属于算法“黑箱”的中间形态,常见于新闻众包模式。如图3(b)所示,算法输入侧即新闻线索挖掘、数据收集等环节,其具有不透明性,对用户而言是未知的,但符合某种统计学规律,只有输出侧是已知的。
本文认为,在上述两种情形之外,还存在对应无监督式机器学习的第三种形态,也即算法“黑箱”的进阶形态。如图3(c)所示,无需固定的输入输出模板,算法在没有任何人为干预的条件下,凭借自主学习能力自动地从数据中抽取知识。这里输入和输出两侧组成了一个闭环的黑箱,无论是新闻线索发掘、文本生成,还是后续的编辑审稿和新闻签发等诸多流程均是不透明的。
(www.daowen.com)
图3 新闻生产中的三种算法“黑箱”情形
2)算法中隐含的偏见和利益取向
计算机系统隐含的偏见和利益取向多年前就已引起广泛关注。多项研究均显示,软件产品具有隐蔽性的特征,特定的权力结构、价值观和意识形态已经事先被嵌入其中。在软件的遮蔽下,“有限性、许可、特权和障碍”[9]等限制不易被人察觉。
具体到算法设计过程来看,基础数据和推理假设是必不可少的两个因素。而这两者都有可能隐含设计者的偏见、价值观和意识形态取向。特别是社会化媒体搜索引擎的信息过滤和个性化推送环节,设计者和技术人员不仅影响算法的设计流程,而且在算法运行时仍可介入过滤程序,其中既可能带有算法设计者的主观偏见,也可能存在输入数据的可靠性以及由算法局限造成的歧视效应。[10]相应的后果是算法自动生成的新闻作品可能与设计初衷背道而驰,甚至包含不准确或虚假信息。这不仅有悖于客观、公正的新闻报道准则,也会直接影响到公共议程设置和舆论意见的形成。此外,算法智能推送所形成的“信息茧房”以及社会主体的身份被算法精准识别后可能遭遇的商业性歧视等,是不容忽略的系统性风险。
从介入新闻生产的多元利益主体来看,由于不具备独立研发智能算法的技术能力和人才资源,多数媒体只能寻求与技术公司合作,以业务外包、网络协作的方式完成基于算法的新闻生产。在技术公司、互联网公司乃至金融资本的夹击下,专业媒体不仅面临新闻内容分发渠道被挤占的窘境,也逐渐陷入被前者利益取向所操控的被动境地。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。