人机对话测评:理论、方法及其问题
人机对话测评:理论、方法及其问题
一、人机对话:人才测评领域中的新变革 信息化是一场革命。它带来人与人之间交往方式的改变和人类思维方式的转换。因为“社会(不管其形式如何)究竟是什么呢?是人们交往的产物。”信息社会、网络社会、虚拟空间的兴起,加强了人们之间多方面的交往,促进了人们丰富的社会关系的形成,对于人的发展有极大的影响:信息化创造的“虚拟实在”环境为人们的角色实践提供了绝好场所,人们可以在其中进行“角色换位”,把自己假定成不同的角色,体会不同角色的需求和情感并按自己理解的角色规范进行角色实践,并通过网络社会的信息反馈验证自己的角色行为,把握自己在现实生活中扮演各种角色的尺度。概言之,信息化带来交往方式、生存方式、教育方式等多方面的变革,为人格、能力的提升提供了进一步发展的可能性, 也带来人才测评理论与方法范式的重大转换。 信息化表现在人力资源管理领域,就是HR流程的“e”化。各类人才测评软件的开发与运用,是其中的一道道风景线。这些建构在人工智能、信息技术、高级程序语言、多媒体技术等基础之上的测评工具,不仅将一般的测评手段“e”化,更使之得以建筑在强大的技术平台之上,大大提升了一般人才测评方法的应用范围。直截地说,人机对话就是一般人才测评的理论与方法在计算机和网络中的实现,这一再现,具有重大的现实意义:当信息技术取代人的操作时,它使测评任务或流程自动化;当信息技术拓展人的工作时,它使测评任务或流程信息化;当利用信息技术进行重组时,它使测评任务或流程发生根本变化。 一般的人才测评,需要在一种真实、身临其境的刺激-反应条件下实现。然而,在实际的人才测评中,这往往是可望而不可即。因为现实中的许多情景可遇而不可求。比如地震、山洪暴发等突发事件对个人应急能力的考验,就具有不可预料性。有些情景即使能够刻意制造,也代价甚高且会对测试双方构成威胁,比如针对飞行员的培训和测试。这些局限性在其他领域中同样存在,并促使人们发展现实模拟情景的新途径。计算机技术的发展,使得这一历程能够在虚拟空间大行其道。人机对话测评,正是对信息化对测评传统理论与方法挑战的响应。它不仅能够使得受测对象获得自我认知,还可以使之在对话过程中获得学习经验;它不仅仅是一个测评的过程,还是一个学习的过程。由于人机对话具备众多其它测评方式所难以具备的优点,故而获得了各方面的普遍认同。这从网络测评的风行可以窥出,它折射了大众对人机对话测评的认同和参与。近年来,人才测评界推出了众多针对不同测评对象的测评软件。测评技术中的心理测验、专业笔试、系统仿真及人工智能专家系统等,都在人机对话中得到初步实现。所有这些,都昭示着人机对话在测评中运用的广泛前景。 二、人机对话:对一般人才测评方法的提升 一个常有的误解是:人机对话不过是把人才测评的方法搬到计算机上罢了,看起来似乎和一般人才测评方法的运用(以人与人之间的互动为基础)没有什么不同。的确,以往人才测评各方法的运用,多以人与人之间的直接互动为基础,即使是纸笔测评等貌似间接互动的测评,也不过是借助一种或几种中介物来进行“刺激-反应”式测评。这种测评的直接互动基础从哲学的角度——尤其是马克思关于人类社会发展的广义划分类型看,是有其局限性的。因为传统社会的根本特征是以人与人之间的依赖关系为基础,在这种社会,通过直接的人——人互动的镜子,确实能够较准确地反映“镜中之我”。但在信息化时代的市场经济条件下,社会的本质特征转化为以人对物的依赖为基础。在这种社会,人与人之间的关系在某种程度上以物——人——物的互动为基础。从表面看它反映的是物与物之间的关系,但其实更深刻地折射出人——人之间的社会关系。 这是一个否定之否定。在信息社会,这面镜子就是“虚拟实在”(钱学森称之为一面“灵镜”)。表现在测评手段的变化上,就是以网络化、信息化为基础的人机对话测评方式的崛起。不过在人机对话的背后,人机关系的背后,依然是人与人之间的社会关系在作祟,只是这种社会关系通过虚拟空间表现出来而已。 无论是从设计过程、运作程序,数据的收集和处理、测评结果解释、解释的话语系统等外在方面进行比较,或是从测评的理论依据与技术基础审视,不难看出:相对于一般的人才测评方法,“人机对话”方法并不是一种特定的测评方法,而是诸多人才测评方法在计算机上的再现。它能够实现对一般人才测评方法的综合,并为之提供更广阔的施展舞台。这种再现凭籍的并非纯粹的技术,而是出于对新的社会互动基础趋势的把握,出于对一般测评方法的优点和缺点在信息时代应有的改造。一般的测评方法如面试、公文处理等,固然各有相对的优势和适用的领域,但也有着共同的缺点,而人机对话,则正好能够从各个方面对之予以提升: 其一,经济上的制约。有些测评方法之所以被认为是适用于“高级人才”测评,不仅仅在于它是多么科学、典雅、可靠,而常常出于一个很现实的考虑:经济原因。例如,评价中心技术集无小组讨论、公文处理、结构化面试等测评方法于一体,整个实施过程要耗费很多人力、物力和时间,且对施测方的要求很高。简言之,经济因素决定了许多人才测评方法实施的难度,制约了其适用的范围。而人机对话则在某种程度上能够化解类似的窘况。人机对话测评系统由于具有强大的数据处理和情景模拟能力,能够模拟现实中的诸多测评方法,使测评能够随时随地大规模进行。规模效应首先带来的是测评经济成本的节约和机会成本的降低。 其二,人为因素的干扰。人才测评的客观性、科学性,从某种程度上取决于测评方法的适当选择及正确运用。不过,有些人为因素的干扰和方法本身无关,却只和方法所运作的技术平台相关联。譬如,人才测评追求信度、效度的努力一直都在进行。如何在测评中最大限度地做到价值中立、过程客观、程序公平,往往令人头疼。一个典型的例子是高考录取。其间的制度措施不可谓不多,但往往难尽人意。自实行网络远程录取和网上录取公示制度后,那些曾经伤心的故事就很少发生了。 人机对话对许多测评方法的境界提升,就表现在这里。它能够在事先充分考虑人为因素的干扰,采取技术手段予以屏蔽和排除,并“逼迫”整个测评的理念与制度发生变革;而另一个关键好处是:它即使不能够完全排除人为因素的干扰,至少也能够明确测评的信度与效度究竟如何,该怎样不断改进。一句话,在不可避免的谬误面前,人机对话能够使我们比较容易地明白:错误的幅度有多大,犯错误的概率有多大,规避的关键措施在那里。而这些,都曾不同程度地困扰着一般人才测评方法。 其三,作坊式运作的尴尬。一般的人才测评,即使是对众多测评方法的组合运用,往往摆脱不了作坊气息。这是因为:从根本上说一般的人才测评方法无法不建立在经验、直觉的判断基础之上。经验和直觉是很重要的,但又是远远不够的。譬如,一个老农民通过嘴巴品尝出哪种玉米是土玉米哪种玉米是杂交玉米,和一个研究者通过基因测试对这两种玉米品种的鉴别,结果似乎是差不多,他们都鉴别出了玉米的品种,前者的过程或许还更快更直接。但其中科技含量是不一样的。因为这些测评基本上不能够获得准确而详尽的数据,更不用说建立测评研究的数据库了。这就决定了传统测评的实施不能够循序渐进,测评各方法之间的组合常常貌合神离,难以获得整体合力。表现在测评领域,就是测评各行业间各自为政,老死不相往来;各类人才测评的常模难以建立;种种测评获得的宝贵数据闲置而不能够共享;人才测评在各性别、各年龄、各地区、各行业之间缺乏定量比较……。由于没有强大的人才测评数据平台的支持,作坊式测评年复一日,难以和国际接轨,不能和国际交流、竞争。譬如,几个著名的西方测评咨询机构之所以能够所向披靡,很大程度在于其实践的背后各有长期积累的数据平台的支撑。而反观国内,分割式测评、单一化测评、游戏式测评,比比皆是。这种现状制约了测评事业的可持续发展。“人机对话”测评方式的运用则可能逐步摆脱这种伤感的局面。因为它能够不断地收集测评数据,形成强大的测评数据库;它能够实现网上测评数据的交换,为测评提供数据支撑,使测评从间断流程转换为连续流程……。一言以蔽之,人机对话是使作坊式测评迈向数字测评时代的前奏。 其四,应对时代召唤的困惑。信息化社会的到来,为人才测评提出了新视角、新思维,也带来了测评方法的新问题、新思考。例如,网上办公的流行,数字化社区的建成,信息化政府的建设等,已经对人们的观念产生了巨大冲击。它呼唤着测评方法、内容、形式的新发展。人机对话则为响应这一挑战提供了新思路。一般的人才测评方法,尤其是心理测验的方法,在人机对话中的运用是很广泛的。这不仅是因为心理测验的量表比较容易实现人机对话,还在于心理变迁作为现代社会高速变迁的折射,常常在人自己身上反映得更深刻。 在一个转型的社会,最深刻的变化莫过于人的变化。人才测评要抓住根本,就要看到:人的根本就是人自身。信息社会的人才测评需要适应人自身的深刻变化,就必须对测评的动态性、追踪性、人性化、服务性、便捷性、简捷性、长期性、指导性等作出响应。而这诸多的新要求,恰恰是一般测评方法捉襟见肘,难以应对的。人机对话及其技术的发展,则为测评领域中这些难题的解决提供了部分答案。网络交往的动态性、人机对话的交互性、人机界面的日渐人性化、计算机数据处理及仿真模拟能力的日益强大等,使得一般的测评方法在人机对话中不断获得新内涵、新形式。譬如,针对领导人才素质测评而运用的公文处理测验,就应该而且可以在网上实现。因为许多政府机关已经实行了无纸化办公,它和传统的公文处理有很多不同之处。从长远看,这就不仅仅是改变测评内容所能够胜任的了,它必须转向人机对话这种测评方式。 三、人机对话:理论依据及其特点 人机对话不仅仅是一种纯粹的技术表现,它同样有自己发展中的理论依据。认识到这一点,对于正确认识人机对话测评的相对优势及其可能的缺点,不无裨益。在一般人才测评方法的理论假设之外,人机对话所凭籍的理论依据还包括: 认识心理学理论。认识主义心理学靠造行为主义心理学的反起家,带来了心理测验理论的新发展。 它使心理学和计算机结合,产生人工智能这一全新的领域;它用信息加工的观点来解释人的心理过程,较行为主义心理学的假设已经是大大前进了一步,使测评的假设由“刺激??反应式”转化为“产生式”;它借用了信息论、控制论和计算机、仿生学等新兴学科的理论,将人才测评置于更前沿、更科学的领域;它使心理测验回归到被遗忘的语义阐释的传统当中,重新审视传统的测评观点并将其在计算机上“复活”……。认识心理学理论在人机对话测评中的应用,拓宽了测评的视界,更新了测评的方式,是对实证主义测评范式的扬弃。所有这些,使人机对话作为一种测评方式的转向,具备了坚实的理论基础。 非智力理论。人才测评发展的新趋势是越来越注重对非智力因素的测评。实践智力概念的提出,就是显例。按照斯腾伯格提出的三种类型的智力理论,人的智力有三种类型,即:①合成智力。即在一个有结构的和定义完好的上下文中解释信息的能力;②经验智力。即从不同角度看待问题、从变化的情景中解释信息以及解决实际问题的能力;③情景智力。即适应变化环境的能力及操纵谈判系统的能力。 非智力理论为人机对话的运用提供的理论支持在于:一般的测评方法只能够在简单的文字、图片上假设情景,局限于合成智力及经验智力的测评,而人机对话则使非智力因素的再现和测试成为可能,使得人才测评具备更广的维度,更富层次性,更有针对性。 项目反应理论。为实现最优测评设计,项目反应理论的做法和经典测量理论是不同的。 它能够事先估计好所测能力范围内的估计标准误和拟编测验的信息函数,然后从题库中选择所测能力水平的题目。这为人机对话实现测评的个性化奠定了理论基础。计算机替代手工自动控制测评的测验精度,平衡题目内容和题目类型,调整测验篇幅,实现题目的自动选择;人机对话能够快捷地达到测评的最优化目标:测验篇幅最短;测验信息函数最大;测验离差最小;测验时间最短;测验信度最高;实得分数分布与目标分数的分布的拟合度最好。 人机对话的许多优点奠定在项目反应理论之上。譬如,它能够实现计算机化的适应性测评,随时使得后面的测评题目的呈现依据前面答题的反应情况来决定(传统的适应性测验的做法是改变起止点,极其笨拙);它可以根据不同的测评对象确立不同的常模等等。项目反应理论使得人机对话更具科学性和实用性。 人机交互作用理论。人机对话中的测评主体和客体能够相互学习,它很大程度上得益于人机交互作用。人机对话的一个重要特点就是利用人??机交互作用的沉浸性,根据测评客体的反应不断学习和选择不同的模拟情景,有针对性地施加测试项目。仿真、实时、主动型的计算机三维动态图像、声音使得测试成为动态的交互作用,给予测评客体逼真的效果;测评能够实现自助,实时监控,适应自助式开放训练教室的要求,自行选择时间进行自助训练,消除测评客体的精神负担,提高测评质量。人机交互作用理论消解了那种认为只有直接的面对面的测评才是可靠和可信的偏见,为人机对话的合法性提供了新依据与新辩护。 人机对话所依赖的技术特点从某种程度上决定了测评的特点。不过,人机对话的特点远远超越了纯粹技术的范畴。信息技术的迅速发展使得人机对话处于不断的变化之中。测评理论和技术的进步正朝着情景化的方向发展,有着浓厚的现实导向和实践导向,力图测评人在真实环境中的面貌。人机对话的特点,也围绕这个方向展开。具体来说,人机对话测评方式的特点表现为: (1)测评的形象性。专家人工智能装置、模拟系统的运用使得人机对话测评生动、直观,提高了人才参加测评、考核的兴趣和热情,克服了因测评主体的差异所带来的影响。(2)测评的简易性。人机对话测评可以提炼出最简捷的测评项目,最大限度地涵盖测评要素,特别是仿真模拟装置可以将复杂的测评要素、项目经过科学提炼、归纳,使之简单化、科学化,更容易操作化和评价,实现测评设计的复杂性与测评结果的简洁性的统一。(3)测评的安全性。人机对话测评的量表、测评的项目建立在大量的题库之上,测评的数据具有层级的保密性;测评能够加入测谎内容,并注明测评结果的适用范围和应当注意的事项;(4)测评的科学性。人机对话测评,能够随时检测测评的信度和效度,确保测评数据的科学性与准确性,可以排除人为因素,使测评成绩真实可靠,作到公开、公正、公平,提高测评和诊断的质量。人机对话获得的大量数据,为以后测评的不断完善打下基础,使测评保持连续性。(5)测评的经济性。人机对话测评可以节省大量人力物力,节约培训时间,降低成本。(6)测评的实效性。人机对话测评能够在人机的互动中实现双方的学习。它既可以集测评与评价与一体,在测评之后能够马上打印测评结果;又能够实现测评与评价的分离,将测评结果交于专家进行点评,保证测评结果的合理合法运用。 四、人机对话:应当注意的问题 人机对话不是万能的。人机对话本身所依据的理论基础与技术手段的不完善、人机对话测评的局限性、人机模拟与实践的差异、人??机系统中人的因素依然占主导地位等诸多因素,决定了人机对话还存在诸多问题: 其一,信息化是一面双面刃。首先,计算机自适应测验虽然使测评过程化繁为简,化重为轻,化多为少,却也使得越来越多的工作转化为数字化、符号化的选择与圈点。测评越来越变成对图表等符号的解读和解释,测评的世界越来越为这些物化的数字符号所制约、消融,测评双方的互动隐退于这些数字符号背后,所有这些很可能造成对测评主体的语言能力、思维创造能力乃至道德判断与选择力等不同程度的误读。此外,在自由的电子网络空间中与现实生活中的人格的不一致,在同一电子网络空间中这种人格和那种人格的不一致,这种人格的“自我同一性”在人机对话测评中可能被打破、被分裂、被扭曲的现实,可能引发测评中的多重人格和人格分裂现象,导致测评的紊乱。 其二,信息淹没和排挤测评。人机对话能够产生大量的数据。倘若不能对这些数据进行娴熟的专业处理,往往会产生信息迷乱。表现在人机对话中,就是过度的测评信息淹没和排挤测评主体与客体,测评的手段消解了测评目的。用罗斯扎克的话说,就是:“信息,到处是信息,唯独没有思考的头脑……信息太多,反而会排挤思想,使人在空洞零散的一堆事实面前眼花缭乱、六神无主、无所适从”。 这时,信息“拜物教”、电脑“拜物教”产生了,信息作为主体异己力量与主体对立起来。信息化测评很容易使人们过于沉溺于测评的技术,忽略、回避测评双方在生活世界的感受与交流,混淆“人机关系”和“人际关系”,混同“现实实践”与“虚拟实践”两种不同的检验标准,造成测评目的与手段的二律背反。 鉴于人机对话在应用中存在一些误区,端正对人机对话的态度已成为当务之急: 其一,要重视测评软件本身可能表现出来的问题。人机对话测评离不开测验软件的运用。软件的设计成熟与否决定了人机对话的成熟度。当前很多测评软件尤其是心理测评软件是从西方引进的,其理论和方法大都以西方心理学为中心。问题是,连著名的美国心理学史家G.墨菲也不得不承认:西方心理学的大多数问题只有在西方历史??西方地理的、经济的、军事的、科学的背景??的范围内才是有意义的问题。据统计,西方人才测评软件的多达15000种之多。如果不在本土化的基础上加以修订就直接运用,往往会出现问题。即使是自主开发的测评软件,也因为测试的原因,往往存在不好用、格式不统一等问题;至于设计思路上的问题,更会在人机对话中间接表现出来。据调查,现有各单位开发的测评软件在即时帮助、个人答题系统、团体数据处理系统和数据筛选系统等软件易用性的条目上,大多未能完全实现,测评报告不完善、功能模块不完整、保密性不强等问题,亟待解决。 其二,要防止过分迷信测评软件的倾向。任何测评软件都是基于一定的理论架构和特定的技术,不可能至善至美。所谓“智者溺于所闻”,人机对话在对“传统”测评方法予以超越的同时,也就埋下了局限的种子。如:忽略对面对面互动种种细节和处世态度的把握;迷信软件的程序而忽视测评主体和客体双方能动性的刻板思维;跨越了纸笔测验中的“语言陷阱”却有陷入“人机关系”陷阱的危险;网络模拟的沉浸性使得测评双方可能“梦里不知身是客,错把他乡作故乡”;偏信计算机得出的测评结果,执著于人机对话得出的数据而置测评常识于不顾……。所有这些倾向,都是值得警惕的。 其三,要防范过度的商业化取向。人机对话系统开发周期长、技术要求高,由于种种原因,目前人机对话的实施回报率很低,测验制作者或修订者得不到合理的经济利益,版权往往也受到很大程度上的侵害,得不到必要的法律保护。这样,不得不过度依赖人机对话软件及其测评来赢利,这却会吞噬其科学性与信誉,使人机对话测评急功近利,难以形成一个良好的外部环境,难以引导测评工作朝更广更深的方向发展。化用马克思的话讲,就是:过度的商业化倾向在给人机对话带来过多利润的同时,也为它蒙上了太多的耻辱。如何在人机对话的专业性、易用性、规范性及商业性方面谋求平衡,尚有待继续深入研究。 H.艾宾浩斯的名言“心理学有一长期的过去,但只有一短期的历史”。 倘若用来形容人机对话测评在人才测评中的运用,是同样贴切的。人机对话为人才测评注入了新形式和新内容,但这并不意味着一般的人才测评方法就“过时”了。恰恰是一般的人才测评方法,为人机对话的使用限定了范围。特别是现阶段,人机对话的应用需要和普通测评方法结合起来,借鉴其现实经验教训,才能够相得益彰,共同推进测评事业的发展。(申林 刘建洲)相关推荐: