图像与智能：走向艺术、设计、批评的多维路径-上美讲堂

图像与智能：走向艺术、设计、批评的多维路径

2023-06-10

2023年5月26日，罗马艺术大学校长助理、意大利卡坦扎洛国立美术学院教授、四川美术学院教授、上海美术学院特聘教授、博士生导师宋钢应邀在“上美讲堂”做了题为《图像与智能：走向艺术、设计、批评的多维路径》的讲座。在此次讲座中，宋钢教授从“新文科”建设与学科的"现场"和"在场"讲起，介绍了美术学、设计学、艺术学在数智场景下所发生的新转向，在思考了图像与智能关系的同时，对“网络艺术社会学”、“网络艺术设计学”、“网络艺术批评学”相关的研究现状及未来发展展开了阐述。

【现场与在场】

宋教授首先介绍说，目前从社会到艺术院校都在强调跨学科场景下的“新文科”概念。具体而言，"新文科″包含了原有文科形态普遍特征，同时与社会现场发生密切的关系，是在融合原有形态的基础上，具有新的特征、特质。因此，它具有前瞻性、创新性、兼融性、开拓性几个特点:

一、前瞻性:

为"新文科"一个学科持续发展的路径。奉献于社会现场的功能性目的。

二、创新性:

这是学科的基本属性与特征，通过学科的"新"，寻求价值的增长点，并对传统学科的机能进行当下转型，达到"三新"，及理论、机制、模式三位一体的创新。

三、兼融性:

它体现了学科的基本特征。就文科建设而言，它兼融了原有学科的复合、交叉、渗透以及前瞻性的开拓。换言之，是人文社会科学与自然科学彼此融合在文理、文医、文工交叉的跨学科等前沿高地。

四、开拓性:

具有文科的动态性。这是当下诸学科领域探究的过程中，存在某种的不确定性，存在某种的试验性，即在文科研究的过程中，不存在一个固定的模式、模板。因此，在实验的过程中需要不断的调试、调整等纠错等机制，达到学科研宄与课程设置的平衡，开创模式创新、夯实基础学科，开拓前沿学科，推动学科的交叉与融合。

在“新文科”建设的背景下，学科要走向“现场”与“在场”。宋教授指出，面对新一轮智能化转型升级的数智社会，高校的学科建设需要随着社会现场的变化而调整。美术学，设计学，艺术学学科变化需要和数智化转型相对应，以介入到当下和未来的数智社会中，要以“在场”的姿态进入到数智场景“现场”之中。要想做到数智化转型为高校赋能，需要用系统的观念看待现实学科转向社会“现场”的契机。

接着谈了目前热议的ChatGPT与文字、与智能图像的关系。并以ChatGPT的内部结构，语义、语景进行剖折。下面是他讲的相关内容：

“ChatGPT是一个可以进行对话的语言模型，它的含义，是“聊天”的意思，系指两个或两个以上的人之间的对话或讨论。关于ChatGPT的技术起源和聊天机器人背后的核心技术。用拆解的方式解释“GPT”。GPT的英文全称是Generative Pre-trained Transformer，中文的意思为“预生成性，预训练转换模型”。它是一种机器学习模型，用于自然语言处理任务，如语言翻译、文本摘要和文本补全。GPT模型的功能是在大型文本数据集上进行预训练，可以根据所提供的输入生成连贯且有意义的文本输出。

下面，我们来看GPT的第一个字母G，它代表Generative，意思是“生成式的”。这里，“生成”意味着它可以自己创建文本，根据从训练过的大量文本数据中所学到的知识制造出新的句子。即生成性AI。我们知道，在之前的人工智能机器学习，相当程度上只是通过观察，对分类的内容进行归纳。比较经典的说法是机器学习，如图像识别。那么对于机器来说，它就会去搜索和分析大量的图像，寻找与之匹配的图像。但时下GPT为代表的生成性AI,则是一种颠覆性技术突破。简单的说，它的功能是去生成新内容，而不只是分析现有的数据。

至于生成性AI模型，则是用于生成程序、代码以及具体的形态所指，如文字与图像，甚至是小说以及视觉形态与声音等。从ChatGPT到GPT4,从文本内容的生成，到形态以及视觉艺术、声音艺术等不同形式的生成。

GPT的第二个字母是P。它代表Pre-trained，意思是“预训练的”。意思是，在它开始之前，已经接受过大量数据的训练，但这些数据则是由人来编写。网上的内容都是进行预训练。这里，它使用的是两项技术，一为监督学习；另一个则是通过人类反馈再学习。

关于监督学习呢？就是预训练里面的监督学习。而如果没有自我辨别能力，还是有可能达不到目的。所以这个时候就用上人类反馈强化学习。强化了学习的质量。

在GPT发布之前,我们已经用类似的方法进行了大量的监督学习和通过人为反馈强化学习。因此，我们在使用它的时候，这个模型它能非常快速的生成连贯的句子以及图像与声音。

GPT的第三个字母,就是transformer,即转换器，是学习的算法架构，它是一种深度神经网络。功能是对自然语言处理的一种神经网络体系的结构。这个模型是使用一种叫自注意力的机制-self attention mechanism。允许模型在预测的时候，可以根据语言序列的任何位置，为输入数据的不同部分赋予不同语景的生成内容，并支持处理更大的数据集。当下的GPT模型都是采用的这种架构，原理用一个编码器来处理输入的序列，然后会有一个解码器来生成输出的序列。对于GPT而言，它会用对话的方式来提供给你答案，而不是像传统的搜索引擎给你一堆的信息源料。

对于AI的另一生成内容一“AIGC”，它在图像与智能的场景中，有其独特性，融智赋能的革命性，具有划时代的意义。它的全称是Artificial Intelligence Generative Content。它是运用AI模型，根据我们输入的指令，自动生成各种类型的文本、图像、音频、视频等内容。与其他AI技术的结合，如自然语言处理（NLP）、计算机视觉（CV）、语音识别（ASR）、语音合成（TTS）等技术手段的结合，达到从文本到图像、图像与文本、文本进入语音以及从语音到文本等不同技术的生成。此外，AIGC也可以与机器学习（ML）、深度学习（DL）、强化学习（RL）、对抗生成网络（GAN）等技术相结合，实现更自主和更灵活的内容生成。”

宋钢教授认为，之所以比较详细的介绍ChatGPT与AIGC形态，在于我们面对文字、图像与声音等智能场景，是我们处在一个大变革时代，处在一个历史的转折点。

今天，随着网络场景里的技术形态的升级，如大数据、物联网、云计算、人工智能、区块链，以及元宇宙层技术构架的数字孪生及相关的接口技术所产生的虚实相生、虚实相融所构成具有“五感情景的镜像化“。探讨图像与智能：美术学、设计学、艺术学的某种路径，从自然图像、艺术图象、AI图像到元宇宙图像入手。下面是他对智能场景与学科结合的探索。

AI生成的图像

【图像与智能】

宋教授展示了他为“铭心妙相：龙门石窟艺术对话特展”所制作的AI图像作品，他借用一张招贴海报进行无限制的重复与延伸，从而创造出了无限的可能，数十张不同大小的佛像图片从大到小排列，既体现了我们对佛教轮回的感悟，也体现了中国文化对图像世界的认知。宋教授指出，AI生成的图像稍显僵硬，一方面，因为它读取的个性数据不足而共性化数据过多，另一方面，则在于它是由逻辑指令生成，具有相当的确定性。这也打破了人们目前对ChatGPT技术对艺术、设计等领域冲击的担忧，但反逻辑思维是AI目前的功能所不具备的，这正是艺术家的个性特点与创造力的宝贵之处。

“铭心妙相：龙门石窟艺术对话特展”海报

由“铭心妙相：龙门石窟艺术对话特展”海报AI生成的作品

海水与落日

（以反逻辑的方式，手动与少量AI方式生成的作品）

宋教授接着展示了一系列他以梵蒂冈博物馆意大利雕塑家Amaldo Pomodoro的作品"La Sfera Grande"的雕塑、罗马纪念碑、重庆高架桥为原型制作的一系列AI图像。他指出，图像在每个时代有着不同的含义，例如古代人们到教堂观察图像，便是通过其整体环境来传达其道德与宗教语义，即我们所说的"文以载道"。在这里，这个"文"即是艺术的形式，而此时的"道"，则是内容。以今天的话来讲，则是内容决定形式。那么现代语义的图像则是形式学的概念，注重点、线、面、体的形式学语义与语景的结合。这不由地让我们思考：图像在当下的社会与智能现场又有什么语义与景观，他认为应该与社会学有关。是“现场与在场“的形态。这个"现场"是智能场景，而"在场"，则是学科的介入。

梵蒂冈博物馆Amaldo Pomodoro的雕塑及其AI生成的作品

罗马天使古堡旁的纪念碑雕塑及其AI生成的作品

重庆高架桥AI生成的作品

米开朗基罗的雕塑作品与口罩概念的AI结合

宋教授指出，自然图像、艺术图像以及AI图像乃至元宇宙图像存在着彼此交叉融合的关系。自然图像是网络艺术设计学的灵感之源，艺术家通过对自然图像的创新处理和重新设计，创作出具有独特艺术价值的作品；自然图像也可以提供智能场景所需的素材和灵感。艺术图像可以提供艺术家借鉴和创新，发挥自己的创造力和想象力，其作用更多是提升场景的美学价值和情感体验。在今天，人工智能技术的发展使得艺术家运用AIGC多模态模型生成图像。宋教授认为AI图像是艺术图像的另一路径，艺术家可以根据创意，以一种反逻辑的方式借用AI模型寻求殊途同归的图像创作方法，这对艺术家有一种更高的要求，要懂一定的技术，要了解计算机视觉的基本原理，同时保持艺术家身份的独特性。

宋钢油画作品及其AI生成的作品

宋教授强调，元宇宙的核心概念之一是“数字孪生”，在线上“镜像”地重塑人的五感，使得线下线上体验一致才真正能称之为“元宇宙”，其目的是提供一种新的场景可能性。目前蓬勃发展的AI技术只解决了算力和算法方面的问题，还需要由大数据、物联网、云计算、区块链等诸多接口技术与其不同多觉的传感器形成合力，才能真正为元宇宙的实现提供可能。智能和图像的概念，实际上包含了算力、算法、数据和面对场景的概念。宋教授展望了元宇宙的若干应用场景，包括虚拟演出（音乐会、演唱会等现场表演在元宇宙图像体中进行虚拟演出、虚拟会议、虚拟展览、虚拟演讲）虚拟展览和艺术品展示（高度真实和沉浸式的展览体验；虚拟游戏、虚拟演出和虚拟现实交互体验等领域）等，还有更多的元宇宙图景在未来会以人真实的“五感”为依托而不断呈现。

“龙门石窟对话展”的作品（佛像背景为笔者AI生成）

【教学案例】

宋教授介绍了“网络艺术社会学”、“网络艺术设计学”、“网络艺术批评学”这三门新兴学科的概念与经典教材，并通过从2018年-2023年至今6年时间，通过12个教学单元从本科到研究生课程必修、选修与工作坊的一系列学生作品，直观的展示这三门学科介入学科现场和智能场景的可能性。

以网络艺术社会学为例它是一门新兴的跨学科，是当代艺术“线上艺术“的形态。是由社会学、网络形态与艺术学三者融合而成。宋钢教授推荐了他们的教材《网络艺术社会学一现场与在场》、《算法、数据、算力、场景：AI时代的网络艺术社会学》。并指出，数智场景是通过数字化、景观化的方式重构现实与数字之间的联系。网络艺术社会学关注网络、美术学和数智社会之间的联系，以及人与数智社会的关联，以美术学视角为出发点，强调当代艺术是一个发展中的概念，总是以社会学的视角对社会现实的生态，透过社会学直逼艺术本体。在当下，当代艺术的边界越来越模糊，这种变革对当代艺术传播产生了本质性的影响。

网络艺术社会学的案例

网络艺术设计学是以数字经济为研究重点的一门学科，旨在推进智能平台系统化，达到学科研究的目的。其经典教材有《“智能App”的设计原理及路径》、《数字孪生时代的机遇与挑战:网络艺术设计学》、《网络艺术设计学背景下的元宇宙及运用场景》等。宋教授指出，数字经济在中国发展迅速，数字技术相关专业受到关注。设计学与社会现场联系紧密，网络艺术设计学将智能场景纳入视野。而且，网络艺术设计学体现在艺术设计智能的“网络形态”，以多学科交叉探究生态并进行系统梳理，整合全球智能制造与智能设计资源为一体的框架导图，进行学术、学科定位，建构智能现场前沿性、交叉型的网络艺术设计学新学科。

网络艺术设计学的案例

网络艺术批评学指通过网络传播的艺术批评现象，具有实时交互和互动功能，它与艺术批评学有相似之处，但面对不同场域空间，需要寻找相对有秩序的匹配。其经典教材有《网络艺术批评学：数字视野下的艺术批评学范式》。宋教授指出，正确理解网络艺术批评的针对对象是线上艺术现象，借助网络感知数据并进行判断，通过网络、艺术、批评三者合一解释现象。艺术批评在网络空间中与网络相互影响、融合，形成了新的艺术批评形态，即“网络艺术批评学”，它是一门新的艺术人文学科，具有社会“现场”的特征。他还讲，考虑到全校来自不同专业的研究生，有着不同的专业背景。因此在作业的要求上，展开网络艺术批评学的另一路经，让同学们借用线上批评的方法论，在原有线下学科的基础上，进行线上拓展。

网络艺术批评学的案例

【结语】

宋教授最后总结说，数字形态下的数智场景引起方方面面的变化，一如数字经济，它成为人们关注的重心，并已成为新一轮技术革命的触点，进一步推进各国经济的升级、转型。他希望通过介绍图像案例及教学展开方式的可能性，用学科建设的方法，从图像与智能的视角进入到美术学、设计学、艺术学的本体，重新思考场景、智能与专业的关系。

精彩问答

在互动环节，现场同学提出了问题。

同学A：请问模拟五感和元宇宙技术有怎样的关系？

宋钢：元宇宙的底层核心概念是数字孪生，五感是技术支撑。目前我们已经完成了视觉、听觉和触觉的技术实现，还有嗅觉和味觉两个感觉尚待数据传感系统的技术突破。当然，新形态总是探索在前，技术跟进，这需要几十个领域的介入，上万家公司协同合作才有可能实现。如“上大元宇宙“就是一个很有前瞻性的探索平台。我相信随着技术的不断跟进、升级，目前处于雏形阶段的元宇宙会不断完善，让我们在虚实之间获得良好的感性体验。

同学B：请问元宇宙的概念是被人类创造的还是发现的，我们研究它的意义何在？

宋钢：元宇宙当然是人类创造出来的概念。人类发展到某个阶段后提出了要从物质世界走向精神世界，技术与场景、社会和人类之间要寻找新的空间体验和可能性，这样一来，它逐渐从学术探索阶段进入到资本推动的社会场景之中；另一方面，还在于网络技术在“摩尔“概念技术升级的周期中，提出了全新的消费场景。相对而言，有了资本介入，就有市场回报的可能性。这是一个从量变到质变的过程。我相信人在社会“现场”有颠覆性创造的可能性，例如我们目前已经证实了量子纠缠形态的存在，而元宇宙技术也是如此，从概念的提出到技术场景的实施，它需要从无到有的渐变过程，是一个不断呈现技术的完善与体验过程。

学术支持及校对：宋天颐

更多精彩内容尽请关注

【上美讲堂】官方抖音、视频号