我犯的这个小错误,却带来了惊人的财务后果。2014年左右,税单和罚款开始涌入我的邮箱,我感到压力山大。国税局在“最强力催收信”评选中始终无往不利,即使我开始用越来越多的薪水来偿还债务,他们还是定期给我发信。
几位朋友慷慨解囊
帮我偿还利息和成本,但这些钱加上其他债务,让我陷入了困境。于是我决定采取一个简单的计划:在 Patreon 上发起一个众筹活动,用短篇故事讲述我的故事和观点,然后得到观众的支持,所有收益都用来偿还债务。最终,我制作了播客《杰森·斯科特的脱身之道》(Jason Scott Talks His Way Out of It),这档播客节目帮助我走出了困境。
但它有一个有趣的副作用——每周提出新的讨论和思考话题,意味着我必须越来越深入地挖掘自己的观点和相关故事。在前五十期之后,我更加内向。一百期之后,它变得情感和技术并重。当我即将完成三百期时,我惊讶地发现我竟然还有话可说。但显然我还有话可说,而且我已经每周做这个播客六年了,它的每期节目涵盖了真正全面的主题。
这就是站立式录音室的样子
Patreon 为赞助者提供了早期剧集的访问权限,但所有剧集均已开放,并在几个月后上传至公众平台,包括互联网档案馆的这个合集。下载、收听、混音,无论你喜欢什么——我都完全允许并支持你。
自 2019 年以来,剧集已上传至互联网档案馆,但在 2022 年,一个尝试新技术 电话号码列表 的机会出现了——Whisper项目。该项目开源且可立即下载,可以转录为视频或简单的音频文件。多亏了这个项目,我收集了许多音频文件,并开始尝试使用 Whisper 进行转录。
语音识别,即将麦克风中的语音或预先录制的音频文件转换成书面文字或发出的命令的过程,已经存在了很长时间——几十年甚至几十年。互联网档案馆非常适合深入研究历史文献;快速的“文本内容”搜索,在1979年的一期《硅谷公报》时事通讯中找到了这些讨论要点:
真正改变的是速度更快的计算机、更强大的语音分析能力,以及交叉引用训练结果以制造芯片的技术进步。在这个例子中,一个程序正在利用计算机科学的其他学科对音频进行模式匹配,甚至能够根据单词的含义添加大写字母和标点符号。结合我日益增多的播客收藏,不久之后,我就能说出一个始终不变的主题:当它有效时,它好得令人震惊;当它无效时,它糟糕得令人震惊。
作为一项实验和探索,让程序运行
……但如果完全放任不管,让它自己完成转录,而不进行第二次人工扫描以找出错误,那就太鲁莽了。我曾经也是这样的人,也经历过类似的情况。
我见过最终的转录结果在处理正确的姓名大写、奇怪且难以理解的标点符号以及段落断句方面表现得非常出色。我也见过它在处理我的纽约口音和不晦涩的措辞时表现糟糕,而且对我自创的单词“Cowicature”的猜测也很糟糕。这个算法运行良好,但也有例外。
这里我们谈到了一个我逐渐适应的措辞,它是人工智能的另一种说法:“算法强度”。人类赋予机器生命和意志的需求由来已久;但大多数看过这套机制背后代码的人都会同意——它只是代码而已。唯一的区别在于,如今用于得出结果的计算能力和数据量,远超一二十年前人们认为的遥不可及。
而且速度无与伦比——Whisper 大约花了 4 个小时才完全转录我 5 年的每周播客,而这花费的时间之所以这么长,仅仅是因为它在排队系统中被设置为低优先级操作。要知道我所有上传的播客节目在这个集合中总共需要多长时间有点困难,但我餐巾纸背面估计,这相当于我整整两天半谈论技术和情感的时间,话题涵盖编程和编译器到夏令营和家庭。我可以向你保证——我不会很快转录这些播客,也不会请别人来做这件事。虽然我为自己的工作感到自豪,但我没有能力在一个月内录制四个播客,并从中创作出几段文字。
或者,就此而言,描述性摘要
这让我想到了最近持续不断的改进,以及利用算法分析素材的工具和环境。我开始使用一个大型语言模型来查看生成的转录,并创建给定播客片段的摘要。
通用算法强度访问已经进行了两年多,但它仍然是一个非常粗糙、古怪的施法尝试。我的请求读起来不像是让它“总结这段文字”,而是像学校校长或《龙与地下城》游戏文本那样:

你阅读播客的文字记录,并以叙述段落的形式仔细撰写描述,以准确描述播客的内容。更长、更完整的描述更好,我们鼓励你这样做。你需要描述主要主题、参与者的结论,并为这些主题提供有用的背景信息。你收听的播客是:
...接下来是播客的转录、时间码和所有内容
一个计算矩阵,其速度超出了我的估算,但与 CPU 和网络本身一样神秘又不神秘,它开始分析转录中的语言,交叉连接所提到的想法,偶尔根据与术语的匹配自愿提供更多信息,几分钟之内,语言就出来了。
……在这门语言中,很容易找到算法混杂其中的地方,就像一台机器根据我说的话输出音节和短语。就像万花筒或放大镜一样,偶尔会出现奇怪的扭曲,以及我输入内容的类似哈哈镜般的倒影。
奇怪的是,它唤起了我的回忆
这让我想起我最初住在社区的时候,所有孩子都围着一个有趣又古怪的玩具——一台录音机。你按两个按钮,然后……磁带,它叫什么?它会慢慢转动,你可以喊出脑子里想到的任何内容,按下“停止”,然后倒带,听到自己的声音。声音失真又怪异,但那是我自己的声音,我以前从未在自己的脑海之外听到过。世界仿佛发生了些许变化。
这让我想起二十多岁时在麻省理工学院的计算机实验室里,在校园里做临时工,午休时间玩游戏。我发现,如果我访问一个不知名的IP地址,下载一个非常大的二进制文件并运行它,一个庞大的程序就会弹出来,开始询问我要访问哪个“地址”。如果我知道一些地址,它们就会变成全彩、全排版、精美的印刷品演示文稿,背景是灰色的。更让我难以置信的是,点击菜单上的“查看源代码”选项,我竟然能看到这些漂亮页面背后奇特的“代码”。它被称为超文本标记语言(HTML),而摆弄这套在文本文件中古怪且不断变化的书面指令,将是我未来四分之一世纪的重要工作。
很多时候,电脑(无论是在我的办公桌上、实验室里,还是在某个环绕地球的朦胧“网络”里)都为我提供了一套新的按钮和旋钮。我把它们摆弄了一番,观察着电脑发出的嗡嗡声和咔哒声,并竭尽全力去理解其背后的运作机制。在很多方面,这些电脑都让我受益匪浅;但它们也给我带来了压力、失眠、困惑,甚至愤怒。
换句话说,这些席卷新闻、引发网络茶歇讨论的最新概念和工具,以及这些“密集算法”,只是关于计算机将如何改变人类生活的一系列话题中的最新一个。这是一个深入而多元的讨论,值得我们投入时间去思考,也值得我们尊重他人的意见。
当(希望)世界处理这种最新的计算机用途时,我们将看到它们将在何处(如果有的话)帮助处理互联网档案馆等网站提供的大量信息和数字材料。
让一位法学硕士阅读一本近 200 页的有关养鸭的书的全文,比如传奇的《鸭子;以及如何让它们付出代价》(1924 年),这会为你提供一个充满问题的地方,你可以向这本书提问,就好像它能够用完整的句子回答一样:
问:你究竟怎样才能让鸭子付出代价呢?
答:威廉·库克 (William Cook) 的《鸭子:以及如何让它们赚钱》一书概述了各种让养鸭盈利的方法。书中涵盖了如何选择合适的鸭品种、养殖技术以及合理的饲养和饲养管理。此外,书中还深入探讨了销售鸭子及其蛋的营销策略。本书旨在指导读者如何有效地管理养鸭场,从而最大限度地提高运营收益。
问:您认为最好的鸭子是什么?
答:选择“最佳”鸭子取决于您的需求!就养殖而言,北京鸭通常被认为是理想的选择,因为它生长迅速,肉质鲜美。如果您注重产蛋,强烈推荐卡其坎贝尔鸭,因为它是产蛋量最高的鸭子之一。对于喜欢观赏鸭的人来说,像鸳鸯或木鸭这样的品种以其惊艳的外形而闻名。每个品种都有其自身的优势,具体取决于您的目标以及您养鸭或从事业余活动的具体要求。
(……顺便说一句,这本书的封面内有最好的藏书票之一,只有人类才能真正欣赏。)
这就是我对计算机这一最新用途的近期展望——利用这些工具,可以更轻松地查找资料,方便研究人员和学生进行总结和指导,并开辟新的方式来处理在线图书馆中海量的信息。回避信息并非解决之道;但提出尖锐的问题或许可以。