ManBetX万博特约文章丨人智共创设计中的多模态创意状态识别综述
栏目:公司新闻 发布时间:2024-06-03

  ManBetX万博本文旨在对融合智能设计的人智共创设计过程进行深入分析,并探讨在智能创意背景下,设计师多模态状态识别的有效方法,以及未来研究的挑战。

  设计师与人工智能(AI)在设计领域的共创过程(人智共创)既是机遇也是挑战。随着 Web 3.0技术的蓬勃发展(Gan et al.,2023),人工智能与各领域的深度融合为人智协作开辟了新的可能性(Kulkarni et al.,2017;TONG et al.,1992;Wu et al.,2021)。人工智能已被证明是设计任务中的有效辅助工具,其在生成创意内容、评估创意方案及激发创意灵感等方面均展现出显著成效。

  设计过程是复杂且多维度的交互过程,涉及知识或目标驱动思维(自上而下)与情境驱动或驱动思维(自下而上)之间的复杂相互作用(Chrysikou, 2014)。在产品开发流程中,概念设计尤为关键(Li et al.,2010),其核心是创造性构想,包括设计问题的价值挖掘和设计方案的创意构思,实现这些目标的关键技术是多通道的创意捕捉和创意激发。

  人智协作概念创新设计中,人类设计师擅长创意构思,而智能系统则更擅长创意激发(Liu et al.,2020),设计过程中的关键步骤在于如何构建人智协作系统,使其能够预测设计师的设计状态,并根据这些状态适时调整系统的介入方式和程度。设计状态包括设计师注意力分配(Dybvik et al.,2022)、设计偏好(Gonçalves et al.,2014)、认知负荷(Ehkirch et al.,2021)和情绪状态(Shi et al.,2020)等。通过分析这些设计状态,人智协作系统可以选择最为合适的交互通道,为设计师推送具有启发性的设计资源,从而激发其创意思维。此外,系统还需要根据设计师对推送内容的接受程度和设计偏好的变化,动态调整反馈内容,以提升设计过程的整体效率(Wang et al.,2016)。

  在人智协作系统中,创意激发技术的核心在于创意内容的识别和推送。这要求系统能够整合和统一各类设计资源的特征,这些资源包括设计案例库、全球专利库、开源解决方案库,以及大模型等(Tholander et al.,2023)。通过有效管理和利用这些资源,人智协作系统可以为设计师提供更加精准和高效的支持,推动设计领域的创新和进步。

  传统设计过程以构思、呈现和修改为主线,至今仍在当代设计实践中占据重要地位。随着互联网技术的崛起,计算机逐渐演变成为跨设计领域的核心构思工具(Jonson,2005)。计算机辅助概念设计(CACD)成为研究焦点,通过比较计算机辅助设计过程与手绘草图设计过程 (Bilda et al., 2003;Plimmer et al.,2002),发现数字设计工具的引入使得设计师在关注细节与整体之间切换的频率增加,同时改进设计方案的频率也有所提升(Won, 2001)。进一步的研究,如 Lin et al.(2020)的工作,引入了具身机器人与设计师共同绘制草图,证明了机器人在协作创造过程中对设计师的创新思维和协作概念化过程的积极影响。

  自 2010 年以来,人工智能生成内容(AIGC)迅速发展,成为一种新的内容创建方式。它利用人工智能技术生成内容以满足用户需求,是对传统内容创作方式的补充,并展现出广阔的应用前景。与早期的计算机辅助设计不同,AIGC 在内容制作方面展现了一定的创新能力。从手工草图到人机共创,再到 AI生成,这一过程标志着设计过程的数字化转型。设计方法论也从个人创意逐步演进到协同创新,最终发展为智能生成,从而深化和智能化了人机关系。

  然而,人智共创过程与传统设计方法的显著差异带来了评估设计师状态的挑战。为了应对这一挑战,基于生理数据的评估方法成为了一个可行的方向,包括眼动追踪(Aalto et al.,2022)、脑电图(Cao et al.,2022)、姿态(Gunes et al.,2007)或者面部表情(Xu et al.,2023) 等成熟技术来捕捉情绪、认知负荷和注意力等关键指标。这些方法的目的是测量和推断设计师在人智共创设计过程中的状态,从而为优化人智协作和提高设计效率提供有力支持。

  创意设计过程是一个综合性强且复杂的过程,涵盖问题定义、用户研究、创意生成、概念开发、原型制作、测试和实施等多个阶段。在这一过程中,包括草图、文字、语音和生理信息等各种与创意过程相关的通道,扮演着至关重要的角色,共同助力设计师和设计团队激发创意思想并完善最终的设计概念。在早期设计阶段,草图和草模等视觉通道发挥着快速探索不同设计概念的重要作用。设计师通过绘制草图或制作草模,能够直观地呈现设计想法,进而快速迭代和优化设计方案。文字通道则在设计问题的定义和分解过程中发挥着不可或缺的作用,帮助设计师准确地传达设计需求和意图。随着设计流程的深入,生理信息通道如眼动和脑电等能够实时采集设计师的生理数据,与其他通道相辅相成,共同帮助理解设计师在不同阶段的设计状态。例如,眼动数据可以揭示设计师在设计过程中的视觉注意分布,而脑电数据则可以反映设计师的认知负荷和情绪状态。

  根据通道包含的信息类型,与设计创作过程相关的通道可以分为面向设计内容的通道和面向设计师的通道两大类。面向设计内容的通道主要关注如何表达设计的核心概念、结构和内容,包括草图、语义和草模等,帮助设计师将设计思想具体化,为设计方案的迭代和优化提供有力支持。而面向设计师的通道则侧重于如何识别设计师状态,协助识别设计内容,并提供关于设计师注意力、认知负荷、情绪等间接信息,帮助设计师更好地认识自己在设计过程中的状态和需求,从而作出更加明智的设计决策。

  草图、语义和物理模型已被认可为促进设计研究和构思的辅助工具(Christiaens et al.,2020),不仅帮助设计师将创意想法转化为可理解的形式,还促进了设计过程中的交流和协作。

  草图是创意过程中的有力工具,允许设计师快速记录和演示创意意图的基本概念。草图具有直观性和灵活性,使得设计师能够迅速捕捉和表达创意的火花。通过草图,设计师可以更好地理解和探索设计问题,从而推动创意的生成和发展。语义,包括文字和语音等,在传达创意意图方面发挥着重要作用。文字可以精确地描述设计细节、提供背景信息、解释设计决策,并传达设计情感和价值观。语音则能够实时地交流设计想法,促进团队成员之间的沟通和协作。通过语义的使用,设计师能够更有效地将创意想法传达给其他人,从而得到反馈和建议,进一步完善设计方案。物理原型是设计过程中的另一个重要工具,能够更全面地表现设计方案。通过物理原型,设计师可以模拟产品的实际使用场景,评估其可行性和用户体验。物理原型还具有直观性和可触性,使得设计师和用户能够更直接地感受到设计的形态、结构和功能。

  草图是设计和构思的重要组成部分,被设计师广泛采用作为产生和交流设计想法的手段。根据所使用的工具,草图可分为徒手素描(Freehand sketching)和计算机辅助草图(computer-aided sketching)两大类。其设计内容的提取,如表 1 所示。

  在设计中,语义信息用于记录和传达设计内容,包括概念、目标、功能、用途等。在草图中添加文字解释草图的含义、上下文或比例,有助于理解设计内容 (McGown et al.,1998)。通过结合草图中的文字解释和设计师在设计相关活动中的大声思考访谈,研究人员可以更深入地理解设计师在设计相关活动中的认知过程(R. Liu et al.,2021)和设计师执行任务的方式(Jaspers et al.,2004)。语义设计内容的提取,如表 2 所示。

  设计理念的物理表示称为物理原型(prototype)(Lim et al.,2008)。研究表明,原型有助于在创意开发的早期阶段更准确地规划设计过程(Youmans2011)。在早期设计阶段反复使用低保真模型,有助于更全面地突出关键设计问题,扩大创意空间,产生更具成本效益的设计解决方案(Isaet al.,2015)。

  在现代设计流程中,数字模型与物理原型常常是相互补充的。设计师首先通过数字模型进行初步的设计探索和优化,然后将这些数字模型转化为物理原型进行实际的测试和验证。设计人员通过制作和修改物理原型并结合数字模型ManBetX万博,数字模型的视觉解释被迅速投射到物理模型的有形界面上。通过这种方式,他们可以迅速地将数字模型的视觉解释投射到物理模型的有形界面上,从而更直观地理解设计的实际效果。这种方式可以模拟干预措施对计划设计方案的影响,并加快利益相关者之间的协作共识。

  在设计领域,了解设计师在创作过程中的设计状态至关重要。设计状态通常涉及设计师在创作过程中的认知负荷、注意力分配、情绪状态等多个方面。为了更准确地定义和评估设计师的设计状态,研究人员可以运用多通道生理信息分析技术,其中包括脑电图(EEG)、眼动追踪(Eye Tracking)及面部表情识别等。由于篇幅所限,本文以较常用的眼动追踪和脑电图通道及其双通道融合为例。

  思维活动在很大程度上是无意识现象(Jacob et al.,2003),在外部表现为视觉行为。因此,眼动追踪技术被认为是探索用户思维活动的最合适的方法之一(Clement et al.,2013)。相较于其他认知数据的收集方法,眼动数据的收集速度更为迅速且直接(Ware et al.,1986),能够实时地反映出注意力的变化,因此适合作为研究复杂内部过程中抽象概念的客观指标(Hyönä et al.,2002)。基于眼动的设计状态的提取,如表 3 所示。

  脑电图已被广泛应用于监测设计场景中的认知功能。脑电信号中包含的设计信息可以分为决策信息和偏好信息两类。决策信息主要揭示大脑在处理设计相关信息时的决策过程及其结果,而偏好信息则体现了设计师大脑对外界设计刺激的情感体验及价值判断。

  过去的研究已证实,大脑内侧额叶皮层与中额叶区域的 β 范围(16~18 Hz)、低频段的 F7 正面和 T6颞信道(Yılmaz et al.,2014),与个体的偏好密切相关(Boksem et al.,2015)。此外,情绪与注意力等心理因素也被证实与创意设计过程有关(Agarwalet al.,2019),脑电功率谱中的 α 波和 β 波,以及事件相关电位(ERP)中 N1、P3 等成分均与注意力和认知加工有关,γ 波段的神经振荡与设计师在创意设计过程中的神经信息传递和意识体验存在关联。基于脑电的设计状态的提取,如表 4 所示。

  鉴于单一通道生理数据测量的局限性,多模态系统的应用逐渐受到研究人员的关注,其中融合了多种生理和行为数据以提高评估结果的可信度和准确性(Guo et al.,2019;Wang et al.ManBetX万博,2020;Zheng et al.,2018)。

  多通道融合的创意捕捉(见表 5)主要包括数据融合和特征融合两种方式。数据融合的核心在于整合来自不同生理和行为数据源的信息,从而提升数据质量和分析精度。在实施典型的特征级或决策级融合之前,首先需要分析这些数据源之间的相关性。例如,Kumar et al.(2019)将客户的脑电图信号与在线评论的情感分析相结合,以实现对产品的综合评估。考虑到脑电图和在线评论在数据性质和分析方法上的显著差异,研究人员在决策级融合之前独立处理了这两种数据,并深入分析了它们的预测输出。

  特征融合则是根据一定的规则或算法,将来自不同特征提取器的特征组合成一个新的特征向量,旨在提升模型的性能。这种方法通常应用于特征级或决策级模态融合策略中。例如,Wangetal.(2020)应用了脑电图和眼动追踪信号的决策级融合进行设计决策预测,并实现了高达92.45%的准确率。Panda et al.(2020)融合了脑电图信号和客户评论信息,用于分析客户的决策过程。Maetal.(2019)提出了一种将脑电图、眼动追踪和肌电图融合到多模态残差LSTM(MMResLSTM)网络中的方法,以进行跨模态的时间相关性分析。

  至关重要,人工智能作为设计师的得力助手,其潜力巨大,但能否准确捕捉设计师的深层意图并提供恰当的设计方案,仍然是亟待解决的问题。此外,人工智能在创造性和情感表达方面的局限性也不容忽视,这对设计师与 AI 之间的协同工作提出了新的挑战。考虑到这些因素,设计师如何有效地与人工智能协同工作,共同完成设计任务,成为了一个值得深入探讨的课题。特别是在内容生成领域,人智协作的评估体系尚未成熟,还存在许多待解决的问题。

  随着设计智能在 AI 2.0 时代崛起为一个重要分支,期望本研究能为专注于设计智能新兴领域的研究人员带来灵感与帮助。我们鼓励研究人员在智能内容生成技术、创新方法等方面持续探索与开发,以解决设计智能领域所面临的复杂问题。通过共同努力,期待设计智能能在未来发挥更大的作用,推动设计领域的持续进步与发展。

  上海交通大学博士研究生。研究方向包括人机交互和健康促进领域的技术设计和评估。

  上海交通大学设计学院教授,医疗机器人研究院双聘教授;教育部“长江学者奖励计划”青年学者(2019),特聘教授(2022)。研究领域主要是智能设计、体验与交互设计。