人机共生

人机共生

J. C. R. Licklider
IRE 电子人因交易记录,
第 HFE-1 卷,第 4-11 页,1960 年 3 月

摘要

人机共生是人与电子计算机之间合作互动预期发展的方向。它将涉及人类与电子伙伴之间非常紧密的耦合。主要目标是 1) 让计算机在现在解决已经形式化的问题的基础上,进一步促进形式化思维的发展,以及 2) 使人类和计算机能够在不依赖预设程序的情况下共同决策和控制复杂情况。在预期的共生伙伴关系中,人类将设定目标、制定假设、确定标准并执行评估。计算机将执行必须完成的常规工作,为技术和科学思维中的洞察力和决策铺平道路。初步分析表明,共生伙伴关系将比单独的人类更有效地执行智力操作。实现有效合作关系的前提条件包括计算机时间共享、内存组件、内存组织、编程语言以及输入和输出设备的发展。

1 引言

无花果树仅通过昆虫 Blastophaga grossorun 进行授粉。这种昆虫的幼虫生活在无花果树的子房中,并在那里获取食物。因此,树和昆虫之间存在着密切的相互依赖:树不能没有昆虫而繁殖;昆虫没有树就不能吃;一起,它们不仅构成了一个可行的伙伴关系,而且是一个生产和繁荣的合作伙伴关系。这种两个不同生物体“在密切关联中共同生活,甚至紧密结合”的合作被称为共生 [27]。

“人机共生是人机系统的一个子类。有许多人机系统。然而,目前还没有人机共生。本文的目的是提出这一概念,并希望通过分析人与计算机互动的一些问题、引起对人机工程学适用原则的关注,并指出需要研究答案的一些问题,来促进人机共生的发展。希望在不久的将来,人类大脑和计算机将非常紧密地结合在一起,形成的伙伴关系将以前所未有的方式思考,并以我们今天所知的信息处理机器无法接近的方式处理数据。

1.2 从“机械扩展人”到“人工智能”

作为一个概念,人机共生与诺斯 [21] 所称的“机械扩展人”在一个重要方面不同。在过去的人机系统中,人类操作者提供了主动性、方向、整合和标准。系统的机械部分仅仅是人手、后来是人眼的延伸。这些系统当然不包括“不同生物体共同生活...”只有一种生物体——人——其余的只是为了帮助他。

从某种意义上说,当然,任何人造系统都旨在帮助人类,帮助系统外的一个或多个人。然而,如果我们关注系统内的人类操作者,我们会看到,在技术领域的某些领域,过去几年发生了惊人的变化。“机械扩展”已经让位于人的替代、自动化,而留下的人更多是为了帮助而不是被帮助。在某些情况下,特别是在以大型计算机为中心的信息和控制系统中,人类操作者主要负责那些证明无法自动化的功能。这样的系统(诺斯可能称之为“人类扩展的机器”)不是共生系统。它们是“半自动”系统,系统的目标是完全自动化,但未能实现这一目标。

人机共生可能不是复杂技术系统的最终范式。完全有可能在适当的时候,电子或化学“机器”将在我们现在认为是其专有功能的大多数功能上超越人脑。即使现在,Gelernter 的 IBM-704 在平面几何定理证明程序中的进度大约与布鲁克林高中学生相同,并且犯了类似的错误。[12] 实际上,有几个定理证明、问题解决、下棋和模式识别程序(太多了,无法完全引用 [1, 2, 5, 8, 11, 13, 17, 18, 19, 22, 23, 25])能够在限定领域内与人类智力表现相匹敌;而纽厄尔、西蒙和肖的 [20] “通用问题解决者”可能会消除一些限制。简而言之,似乎值得避免与(其他)人工智能爱好者争论,承认机器在遥远的未来在思考方面的主导地位。然而,在此期间,主要的智力进步将通过人类和计算机在密切合作中实现。一个跨学科研究小组,在审查空军未来研究和发展问题时,估计到 1980 年人工智能的发展才会使机器能够单独进行重要的思考或问题解决。这将留下大约五年的时间来发展人机共生,并使用 15 年。这 15 年可能是 10 年或 500 年,但那些年份应该是人类历史上最具创造性和激动人心的年份。

2 人机共生的目标

现代计算机主要设计用于解决预先制定的问题或根据预定程序处理数据。计算过程可能取决于计算过程中获得的结果,但所有的替代方案都必须提前预见。(如果出现未预见的替代方案,整个过程将停止并等待程序的必要扩展。)对预先制定或预定的要求有时并不是一个很大的缺点。人们常说,为计算机编程迫使人们清晰地思考,它规范了思考过程。如果用户可以提前思考他的问题,与计算机的共生关系就不是必需的。

然而,许多可以提前思考的问题实际上很难提前思考。通过直觉引导的试错程序,其中计算机合作,揭示推理中的缺陷或解决方案中的意外转折,这些问题将更容易解决,也可以更快解决。其他问题在没有计算机辅助的情况下根本无法制定。庞加莱预见到了一群潜在的计算机用户的挫折时说:“问题不是,‘答案是什么?’问题是,‘问题是什么?’”人机共生的主要目标之一是有效地将计算机引入技术问题的形式化部分。

另一个主要目标与此密切相关。它是将计算机有效地引入到必须在“实时”中进行的思考过程中,实时是指时间过快,无法使用计算机以传统方式。例如,尝试用计算机的帮助指挥一场战斗,按照这样的时间表。你今天制定你的问题。明天你和一个程序员一起度过。下周计算机将花 5 分钟组装你的程序,并用 47 秒计算出你的问题的答案。你得到一张 20 英尺长的纸,上面满是数字,这些数字没有提供最终解决方案,而只是暗示了应该通过模拟来探索的策略。显然,计划的第二步开始之前,战斗就结束了。以与同事合作时相同的方式与计算机互动思考,其中同事的能力补充了你自己的能力,将需要比示例中所示更紧密的人机耦合,并且比今天可能的耦合更紧密。

3 对形式化和实时思考中计算机参与的需求

前面的段落默认假设了,如果它们能够有效地引入思考过程,数据处理机器能够执行的功能将以重要的方式改善或促进思考和问题解决。这个假设可能需要证明。

3.1 技术思考的初步和非正式时间与动作分析

尽管关于思考和问题解决的文献浩如烟海,包括对发明过程的密集案例历史研究,我却找不到任何类似于时间与动作研究分析的东西,这种分析是针对从事科学或技术企业的人的心智工作的。因此,在 1957 年春季和夏季,我试图跟踪一位技术水平适中的人在他认为是工作时间内实际做了什么。尽管我意识到抽样的不足,但我还是作为自己的对象。

很快就变得明显,我所做的主要事情是保持记录,如果按照最初计划中设想的细节进行记录保持,该项目将变成无限回归。事实并非如此。尽管如此,我还是获得了一幅让我停下来思考的活动图片。也许我的光谱并不典型——我希望它不是,但我担心它是。

大约 85% 的“思考”时间花在了进入思考位置上,做出决定,学习我需要知道的东西上。大量时间用于查找或获取信息,而不是消化信息。绘制图表花费了几个小时,另外几个小时用于指导助手如何绘图。当图表完成时,关系一目了然,但必须进行绘图才能使其如此。在某一点上,有必要比较语音可懂度与语音到噪声比之间函数的六个实验测定值。没有两个实验者使用了相同的语音到噪声比的定义或测量。需要几个小时的计算才能将数据转换为可比较的形式。当它们处于可比较的形式时,只需几秒钟就可以确定我需要知道的信息。

总之,在我检查的那段时间里,我的“思考”时间主要用于本质上是文书或机械的活动:搜索、计算、绘图、转换、确定一组假设或假设的逻辑或动态后果,为决策或洞察铺平道路。此外,我尝试和不尝试的选择在尴尬地大程度上由文书工作的可行性而不是智力能力的考虑决定。

刚刚描述的发现传达的主要建议是,据称专门用于技术思考的大部分时间的操作是机器比人更有效地执行的操作。这些操作必须在不同的变量上执行,并且在不可预见且不断变化的序列中执行,这就提出了严重的问题。如果这些问题可以以某种方式解决,以创建人与快速信息检索和数据处理机器之间的共生关系,那么,显然,合作互动将大大改善思考过程。

此时承认,我们使用“计算机”一词来涵盖计算、数据处理和信息存储与检索机器的广泛类别可能是恰当的。这类机器的能力几乎每天都在增加。因此,对这类机器的能力做出一般性陈述是危险的。对人的能力做出一般性陈述可能同样危险。然而,人和计算机之间在能力上的某些基因型差异确实很突出,它们与可能的人机共生的性质以及实现它的潜在价值有关。

正如以各种方式所说,人是噪音大、带宽窄的设备,但他们的神经系统有非常多的并行和同时活跃的通道。相对于人类,计算机非常快速且非常准确,但它们被限制在同一时间只能执行一个或几个基本操作。人是灵活的,能够根据新接收的信息“有条件地编程自己”。计算机是单一思维的,受到其“预编程”的限制。人们自然会使用围绕统一对象和连贯行动组织的冗余语言,并使用 20 到 60 个基本符号进行交流。计算机“自然地”使用非冗余语言,通常只有两个基本符号,并且对统一对象或连贯行动没有固有的认识。

要严格正确,这些特征描述需要包含许多限定词。然而,它们呈现的不同性(因此潜在的互补性)的图景基本上是有效的。计算机可以轻松、良好且快速地做许多对人来说困难或不可能的事情,而人可以轻松且良好地做许多对计算机来说困难或不可能的事情,尽管不是迅速地。这表明,如果成功地整合了人和计算机的积极特征,共生合作将具有很大的价值。速度和语言的差异当然构成了必须克服的困难。

4 预期共生关系中人和计算机的可分离功能

在许多操作中,人类操作者和设 备将如此完全融合,以至于在分析中很难将它们整齐地分开。如果在收集决策基础数据时,人和计算机都从经验中找到了相关的先例,并且如果计算机随后建议了一个与人的直觉判断一致的行动方案,那么就会是这种情况。(在定理证明程序中,计算机从经验中找到先例,在 SAGE 系统中,它们建议行动方案。前面的例子并不是牵强的。)然而,在其他操作中,人和设备的贡献在一定程度上是可以分离的。

人当然会设定目标并提供动机,至少在最初的几年里是这样。他们将制定假设。他们会提出问题。他们会想到机制、程序和模型。他们会记得某个人在 1947 年或二战后不久对感兴趣的主题做了一些可能相关的工作,并且他们会有一个想法,可能在哪些期刊上发表过。一般来说,他们会做出大致和容错的,但领先的贡献,并且他们将定义标准并担任评估者,评判设备的贡献并指导整体思路。

此外,当这样的低概率情况真正出现时,人会处理。在当前的人机系统中,这是人类操作者最重要的功能之一。非常低概率的替代方案的总概率往往太大,不能忽视。)人将填补问题解决或计算机程序中的空白,当计算机在某种特定情况下没有适用的模式或例程时。

信息处理设备将把假设转化为可测试的模型,然后根据数据(人类操作者可能粗略地指定并在计算机呈现给他批准时识别为相关的数据)测试这些模型。设备将回答问题。它将模拟机制和模型,执行程序,并向操作者显示结果。它将转换数据,绘制图表(以人类操作者指定的方式“切割蛋糕”,如果人类操作者不确定他想要什么,则以几种替代方式)。设备将进行插值、外推和转换。它将将静态方程或逻辑语句转换为动态模型,以便人类操作者可以检查它们的行为。总的来说,它将执行填补决策间隔的常规化、文书工作操作。

此外,计算机将充当统计推断、决策理论或博弈论机器,每当有足够的基础支持正式统计分析时,对建议的行动方案进行基本评估。最后,它将尽可能多地进行诊断、模式匹配和识别相关性,但它将接受这些领域中明确的次要地位。

5 实现人机共生的先决条件

前一节默认假设的数据处理设备尚不可用。计算机程序尚未编写。事实上,当前非共生状态与预期共生未来之间存在几个障碍。让我们检查其中的一些,以更清楚地了解所需的内容以及实现它的机会。

5.1 人与计算机之间的速度不匹配

任何现代大型计算机对于与一个人进行实时合作思考都太快和太昂贵了。显然,为了效率和经济性,计算机必须在许多用户之间分配其时间。时间共享系统目前正在积极开发中。甚至还有安排来防止用户“破坏”除了他们自己的个人程序以外的任何东西。

对于 10 或 15 年后的某个时间,设想一个“思考中心”,它将结合现有图书馆的功能以及在信息存储和检索方面的预期进步以及本文早些时候提出的共生功能。这个画面很容易扩大成一个这样的中心网络,通过宽带通信线路相互连接,并通过租用的线路服务连接到个别用户。在这样的系统中,计算机的速度将得到平衡,庞大的存储器和复杂程序的成本将由用户数量分摊。

5.2 内存硬件要求

当我们开始考虑在计算机内存中存储任何相当部分的技术文献时,我们遇到了数十亿比特,除非情况发生显著变化,否则还有数十亿美元。

首先要面对的是,我们不会将所有技术和科学论文存储在计算机内存中。我们可能会存储可以最简洁地总结的部分——定量部分和引用引文——但不是全部。书籍是存在中工程设计最精美、最具人类工程学的组件之一,它们将继续在人机共生的背景下发挥功能重要性。(希望,计算机将加快查找、交付和归还书籍的速度。)

第二点是,内存中的一个非常重要的部分将是永久性的:部分不可磨灭的 内存 和部分 _发表的内存_。计算机将能够一次写入不可磨灭的内存,然后无限期地读回,但计算机将无法擦除不可磨灭的内存。(它也可能覆盖,将所有 0 变成 1,就像标记之前写的内容一样。)发表的内存将是“只读”内存。它将以已经结构化的形式引入计算机。计算机将能够反复引用它,但无法更改它。随着计算机变得越来越大,这些类型的内存将变得越来越重要。它们可以比核心、薄膜甚至磁带存储器更紧凑,并且将更便宜。主要的工程问题将涉及选择电路。

就内存要求的其他方面而言,我们可以指望普通科学和商业计算机的持续发展。有一些迹象表明,存储元素将变得与处理(逻辑)元素一样快。这种发展将对计算机的设计产生革命性的影响。

5.3 内存组织要求

人机共生的想法隐含着信息既可以通过名称也可以通过模式检索的要求,而且通过比串行搜索快得多的程序可以访问信息。内存组织问题的至少一半似乎存在于存储程序中。其余的大部分似乎与存储机制或介质中的模式识别问题有关。详细讨论这些问题超出了目前的范围。然而,简要概述一个有前途的想法,“trie 内存”,可能有助于指出预期发展的一般性质。

trie 内存之所以被其创始人 Fredkin [10] 称为 trie,是因为它旨在促进信息检索,而且当发展起来的分支存储结构类似于树。大多数常见的存储系统在由参数指定的位置存储参数的函数。(从某种意义上说,它们根本不存储参数。从另一个更现实的意义上说,它们通过存储器的框架结构存储所有可能的参数。)另一方面,trie 内存系统存储函数和参数。首先将参数一个字符一个字符地引入内存,从标准初始寄存器开始。每个参数寄存器都有一个单元用于字符集(例如,对于以二进制形式编码的信息,有两个单元),每个字符单元内部都有存储下一个寄存器地址的空间。通过编写一系列地址来存储参数,每个地址都告诉在哪里可以找到下一个。参数的末尾有一个特殊的“参数结束”标记。然后是指向函数的指令,该函数以多种方式之一存储,要么是进一步的 trie 结构,要么是“列表结构”通常是最有效的。

对于小内存,trie 内存方案效率低下,但随着内存大小的增加,它在使用可用存储空间方面变得越来越高效。该方案的吸引力特征是:1) 检索过程极其简单。给定参数,使用第一个字符进入标准初始寄存器,并拿到第二个的地址。然后去第二个寄存器,拿到第三个的地址,等等。2) 如果两个参数的初始字符相同,它们对这些字符使用相同的存储空间。3) 参数的长度不必相同,也不必提前指定。4) 在实际存储之前,不会为任何参数保留或使用存储空间。随着项目被引入内存,trie 结构被创建。5) 函数可以用作另一个函数的参数,那个函数可以用作下一个的参数。因此,例如,通过输入参数“矩阵乘法”,可以检索到在计算机上执行矩阵乘法的整个程序。6) 通过检查给定级别的存储,可以确定已经存储了哪些迄今为止相似的项目。例如,如果没有 Egan, J. P. 的引用,只需向后退一两步就可以捡起 Egan, James ... 的线索。

刚才描述的属性并不包括所有期望的属性,但它们使计算机存储与人类操作者及其指定事物的倾向(通过命名或指向)产生共鸣。

5.4 语言问题

人类语言和计算机语言之间的基本不同可能是实现真正共生的最严重障碍。然而,值得注意的是,通过解释程序,特别是通过汇编或编译程序,如 FORTRAN,已经取得了巨大进步,以使计算机适应人类语言形式。Shaw、Newell、Simon 和 Ellis [24] 的“信息处理语言”代表了另一种和解途径。在 ALGOL 和相关系统中,人们证明了他们的灵活性,通过采用易于转换为机器语言的标准表示和表达公式。

然而,为了实现人类和计算机之间的实时合作,还需要利用一种额外且不同的通信和控制原则。通过比较通常针对智能人类的指令和通常用于计算机的指令,可以突出这个想法。后者精确地指定了采取的单个步骤及其顺序。前者呈现或暗示了一些关于激励或动机的东西,并为执行指令的人提供了一个标准,通过这个标准他将知道他何时完成了他的任务。简而言之:针对计算机的指令指定了过程;针对人类的指令指定了目标。

人似乎比按照过程更自然和容易地以目标方式思考。当然,他们通常知道要旅行的方向或要工作的线路,但很少有人以精确制定的行程开始。例如,谁会从波士顿出发前往洛杉矶,带着详细的路线说明?相反,为了套用维纳的话,前往洛杉矶的人不断尝试减少他们尚未处于烟雾中的量。

通过指定目标进行计算机指令正在沿着两条路径接近。第一条涉及问题解决、爬坡、自组织程序。第二条涉及实时连接预编程段和封闭子程序,人类操作者可以简单地通过名称指定和调用它们以执行所需的计算或控制。

沿着第一条路径,已经有了有希望的探索性工作。很明显,通过在预定策略的宽松约束下工作,计算机最终将能够设计和简化自己实现既定目标的程序。到目前为止,成就尚未在实质上重要;它们只构成了“原则上的演示”。然而,其含义是深远的。

尽管第二条路径更简单,似乎能够更早实现,但它相对被忽视了。Fredkin 的 trie 内存提供了一个有希望的范例。我们可能会看到,认真努力开发计算机程序,就像语音和短语一样连接在一起,以满足当时的任何计算或控制要求。显然,阻碍这种努力的考虑是,在现有计算机的背景下,这种努力不会产生任何重要价值。在有能力有意义地响应它的计算机出现之前,开发语言是不值得的。

5.5 输入和输出设备

在数据处理部门里,就人机共生的需求来看,处理输入输出设备的部门似乎是最不先进的,或者说,从操作者的角度来看,就是显示和控制设备。然而,这样说之后,必须要强调一点,那就是用于高速输入和提取信息的设备的工程技术已经达到了卓越的水平,而且在林肯实验室等研究机构,已经开发出了一些非常先进的显示和控制技术。但总体而言,在现有的计算机中,几乎没有比电子打字机更有效、更即时的人机交互手段。显示设备似乎比控制设备的状态要好一些。许多计算机能在示波器屏幕上绘制图形,极少数能利用字符显示管的出色图形和符号显示能力。但据我所知,至今还没有任何设备能达到人们在技术讨论中使用的铅笔和涂鸦板或粉笔和黑板那样的灵活性和便利性。

  1. 桌面显示和控制:显然,为了实现有效的人机交互,人和计算机需要在同一显示面上绘制图形、图片,以及互相写下笔记和等式。人应该能够通过粗略但快速地绘制图形,向计算机呈现一个函数。计算机应该能读懂人的书写,可能需要以清晰的大写字母为前提,并且应该能立即在每个手绘符号的位置显示出解读并转换为精确字体的对应字符。有了这样的输入输出设备,操作员会很快学会以机器可识别的方式写作或打印。他可以编写指令和子程序,设置它们的格式,并在最终引入计算机主内存之前进行检查。他甚至可以定义新的符号,就像林肯实验室的吉尔摩和萨维尔那样,并直接向计算机展示。他可以粗略地勾画出表格的格式,让计算机精确地完成它。他可以纠正计算机的数据,通过流程图向机器发出指令,总的来说,他可以像与另一名工程师交互一样与它交互,只不过这个“另一名工程师”将会是一个精确的绘图师,一个闪电般的计算器,一个记忆的巫师,以及许多其他有价值的合作伙伴的集合体。

  2. 计算机驱动的墙面显示:在一些技术系统中,多个操作员共同控制着行为互动的车辆。某些信息必须同时向所有操作员展示,最好在一个共享网格上,以便同步他们的行动。而其他信息可能只对一两个操作员有意义。如果所有信息都在同一显示屏上展示给所有人,那将导致无法解读的信息混乱。信息必须由计算机发布,因为手动绘图的更新速度太慢。这个问题现在已经非常关键,随着时间的推移,它的严重性似乎只会增加。有些设计师坚信,可以通过闪烁的灯光和基于光阀原理的时分共享屏幕,构建出具有所需特性的显示设备。大部分关注此问题的人认为,大型显示应配备个体显示控制单元,这样操作员可以在不离开他们的位置的情况下修改墙面显示。在某些情况下,希望操作员可以通过补充显示屏,甚至可能是通过墙面显示屏与计算机进行通信。至少有一个方案似乎可以实现这样的通信。大型墙面显示及其相关系统显然与计算机和团队之间的协同合作有关。实验室实验一再表明,通过参考大型情境显示,协调他们活动的操作员的非正式并行布局,比将操作员放置在个体控制台并试图通过计算机协调他们行动的布局,具有显著优势。这是需要深入研究的几个操作员团队问题之一。

  3. 自动语音生成与识别:人与计算机之间的语音通信到底有多大的必要性和可行性?这个问题总是在讨论复杂的数据处理系统时被提及。与计算机打交道的工程师对其必要性持保守态度。在自动语音识别领域有经验的工程师对其可行性持保守态度。但是,与计算机进行对话的想法仍然引起了持续的关注。这种关注大部分源于人们认识到,我们几乎不能期望军事指挥官或公司总裁离开他们的工作去学习打字。如果计算机将直接被高级决策者使用,那么即使代价高昂,也可能值得通过最自然的方式提供通信。

对他的问题和时间尺度的初步分析表明,公司总裁可能只把与计算机的共生关系作为兴趣爱好。商业环境通常变化缓慢,有足够的时间进行简报和会议。因此,让计算机专家直接与办公室的计算机交互似乎是合理的。另一方面,军事指挥官往往需要在短时间内做出关键决策。十分钟战争的概念虽然容易被戏剧化,但如果只有十分钟做出关键决策,这将是非常危险的。因此,随着军事系统地面环境和控制中心的能力和复杂性的增长,计算机的自动语音产生和识别的需求可能会逐渐增加。显然,如果这种设备已经开发出来,且可靠可用,那么它肯定会被使用。在可行性方面,语音产生的技术难题比自动识别语音音素的要少。现在的商用电子数字电压表能逐个读出它的指示。过去的八到十年里,贝尔电话实验室、瑞典皇家理工学院、基督城的信号研究和发展机构、哈斯金斯实验室和麻省理工学院等地的Dunn、Fant、Lawrence、Cooper、Stevens及其同事们,已经展示了几代可理解的自动说话器。哈斯金斯实验室最近的工作导致了一个适合计算机使用的数字代码的开发,这使得自动语音能够发出连贯的、可理解的话语。

自动语音识别的实施主要取决于需要识别的词汇量以及它必须处理的说话者和口音的多样性。几年前,贝尔电话实验室和林肯实验室已经实现了自然语言中的十进制数字98%的准确识别。进一步扩大词汇量,我们可以肯定地说,基于现有的知识,我们几乎可以立即开发出能够识别清晰发音的字母数字字符的自动识别器。因为未经训练的操作员的阅读速度至少与受训打字员的打字速度一样快,所以这样的设备在任何计算机系统中都将是一种便利的工具。然而,要实现真正的实时交互,我们可能需要大约2000个词的词汇量,例如1000个基础英语词汇和1000个专业术语。这无疑是一个挑战。在声学家和语言学家看来,目前还无法构建一个能识别2000个词的识别器。但是,有几个组织愿意在五年内开发出这样一个词汇量的自动识别器,他们要求语音必须是清晰的,口述风格的,且没有不常见的口音。虽然自动语音识别技术的详细讨论超出了本文的讨论范围,但值得注意的是,计算机在自动语音识别器的发展中起着主导作用。他们推动了当前的乐观态度。几年前,人们认为,自动识别大规模词汇的能力可能需要十年或十五年才能实现,这需要等待对语音通信中的声学,语音,语言和心理过程知识的进一步积累。然而,现在,许多人看到了利用计算机处理语音信号来加速获取该知识的可能性,而且有一些工作者认为,即使没有大量的语音信号和过程的实质性知识,复杂的计算机程序也能作为语音模式识别器表现良好。综合考虑这两个因素,实现实际有意义的语音识别所需的时间可能缩短到五年左右。