加拿大pc28官网投注

你的位置:pc28 > 加拿大pc28官网投注 > 加拿大pc28开奖 AI也会“喵喵叫”:MIT团队让机器学会效法声息

加拿大pc28开奖 AI也会“喵喵叫”:MIT团队让机器学会效法声息

发布日期:2024-01-09 13:37    点击次数:170

不论是描写故障汽车发动机的声息,一经效法邻居家猫咪的叫声,当语言难以准确传达时,声息效法反而是一种更为纯真有用的抒发方式。

声息效法就像是用顺手涂鸦来抒发你眼中的征象,不同之处在于,它依靠声谈来模拟声息,而非用铅笔绘画。固然这种方式看似复杂,但其实每个东谈主齐会自相干词然地这么作念。不妨切身尝试一下,试着用你的声息效法救护车的警笛声、乌鸦的叫声或钟声。

受到东谈主类交流方式和明白科学的启发,MIT 筹画机科学与东谈主工智能实验室的征询东谈主员树立出一种 AI 系统,无需荒谬历练,即便从未“听过”东谈主类的声息效法,也能生成雷同东谈主类的声息效法。

为终了这一指标,征询东谈主员野心了一个模拟东谈主类声谈的系统,梗概再现声带振动怎样通过喉咙、舌头和嘴唇的状态变化发出声息。随后,他们取舍一种受明白启发的 AI 算法来适度该声谈模子,使其梗概笔据东谈主类在不惘然境下取舍的抒发方式,生成相应的声息效法。

该模子梗概高效地将多样果真宇宙的声息颐养为雷同东谈主类的效法声,包括树叶沙沙作响、蛇的嘶嘶声以及救护车接近时的警笛声。此外,这一模子还不错“反向”使命,通过东谈主类的声息效法揣摸果真宇宙中的声息。这种方式雷同于某些筹画机视觉系统梗概笔据草图归附高清图像。举例,该模子不错准确地分别东谈主类效法猫发出的“喵喵叫”和“嘶嘶声”。

改日,这一模子有望催生更直不雅的“基于效法”的声息野心界面、更具拟东谈主化脾气的臆造履行 AI 扮装,以至欺诈于匡助学生学习新语言的形态。

该征询的共同第一作家包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科征询员 Matthew Caren。他们指出,筹画机图形学领域的征询东谈主员早已意志到,果真感并不是视觉抒发的终极指标。举例,一幅轮廓画或孩子用蜡笔顺手涂鸦的作品,时时能与相片一样富余进展力。

Chandra 暗示:“以前几十年,素描算法的突出不仅带来了新的艺术用具,还鼓舞了 AI 和筹画机视觉的大意,以至深化了咱们对东谈主类明白的邻接。正如素描是对图像的轮廓和非果真写实的进展状态,咱们的形态同样捕捉了东谈主类在抒发所听声息时的轮廓、通过拟声词等语言来描写的方式。这让咱们得以更深切地邻接听觉轮廓的进程。”

一直令车主们担心的补能问题,这下算是解决了一些。

雅视集团董事会主席吴海英与星纪魅族高级副总裁、XR事业部总裁卢勇(右一)签署合作协议

Matthew Caren 对此补充谈:“这个相貌旨在邻接声息效法的本色,并通过筹画机模子对其进行模拟。咱们将声息效法视为听觉领域中雷同于‘视觉领域素描’的一种抒发方式。”

效法艺术三步走

征询团队树立了三个档次逐步递进的模子版块,以便将其与东谈主类的声息效法进行相比。领先,他们构建了一个基线模子,旨在尽可能生成与果真宇宙声息相似的效法声息。相干词,这个模子与东谈主类的效法方式存在较大差距。

接着,征询东谈主员野心了一个相通型模子。笔据 Caren 的诠释注解,这个模子会筹议听众对某种声息的私有感知特征。举例,你可能融会过效法引擎的轰鸣声来进展摩托艇的声息,因为这种声息最具辨识度,尽管它可能不是最响亮的部分,如水花四溅的声息。这个修订后的模子生成的声息效法比基线模子更逼近东谈主类的抒发方式,但征询团队仍但愿进一步优化。

为此,征询东谈主员在模子中引入了推理层。Chandra 暗示:“声息效法的后果会受到干涉的竭力进程影响。要生成满盈准确的声息,需要付出时辰和元气心灵。”因此,升级后的模子会幸免产生过于快速、响亮或调子极高或极低的声息,因为东谈主们在往常对话中频繁不会这么抒发。最终,这一修订模子生成的声息效法愈加妥当东谈主类脾气,更果真地反应了东谈主们在效法团结声息时所作念出的取舍。

在模子构建完成后,征询团队开展了一项行径实验,测试东谈主类评审怎样看待 AI 生成与东谈主类生成的声息效法,并评估哪种更受迎接。值得严防的是,实验驱散表现,参与者在25%的情况下更偏好 AI 模子生成的声息。尤其是在效法摩托艇声息时,AI 模子的偏好率高达 75%,而在效法枪声时,这一偏好率达到 50%。

迈向更具进展力的声息时期

Caren 对音乐和艺术领域的时期充满存眷,他设念念这一模子不错匡助艺术家更高效地与筹画系统相通声息,并为电影制作主谈主和其他内容创作家提供更贴合特定情境的普遍AI声息。这项时期还可能使音乐家通过效法那些难以用笔墨描写的声息,快速检索声息数据库,进步创作效用。

与此同期,Caren、Chandra和 Ma 正积极探索该模子在其他领域的潜在欺诈,举例语言的发展进程、婴儿怎样学习言语,以至是鹦鹉和鸣禽等鸟类的效法行径。

不外,该模子确面前版块仍有修订空间。举例,它在处置某些如“z”的子音时存在贫寒,导致对蜜蜂嗡嗡声等声息的效法不够准确。此外,该模子尚无法复现东谈主类对语音、音乐,或在不同语言中对某些声息,比如心跳声,进行不同方式效法的才能。

斯坦福大学语言学讲授 Robert Hawkins 指出,语言中充满了拟声词和效法但并演叨足复制所描写事物的词汇,比如 “meow” 这个词与猫咪果真的叫声就演叨足一致。Hawkins 暗示:“从果真的猫叫声到 ‘meow’ 这个词的酿成进程,揭示了在语言进化中生理机制、社会推理和交流之间复杂的互相作用。” Hawkins 并未参与这项征询,但他合计:“这个模子是将这些进程的表面状态化并加以考据的进犯一步,展示了东谈主类声谈的物理为止和酬酢交流的压力共同作用,诠释注解了声息效法的散布知足。”

Caren、Chandra 和 Ma 与另外两位 MIT 筹画机科学与东谈主工智能实验室的成员共同撰写了这篇论文,他们是 MIT 电气工程与筹画机科学系副讲授 Jonathan Ragan-Kelley,以及MIT 大脑与明白科学系讲授、Brains, Minds, and Machines 中心成员 Joshua Tenenbaum。该征询获取了赫兹基金会和好意思国国度科学基金会的部分资助,并在 12 月初发表在 SIGGRAPH Asia 会议上。

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109



首页| 加拿大pc28官网走势图 | 加拿大pc28官网投注 |

Powered by pc28 @2013-2022 RSS地图 HTML地图