科学家开发“脑机语音文本界面”:大脑写皮肤听

王腾腾 王诗堃

2017年05月23日08:34  来源:南方日报
 
原标题:科学家开发“脑机语音文本界面”:大脑写皮肤听

  近期,脸书(Facebook)在F8全球开发者大会上透露,该公司一个60人的工程师团队,正在开发一个名为“脑机语音文本界面”,即用户无需说话,也无需手动输入,就能把用户大脑中的想法,直接展示在计算机屏幕中。大体而言,就是利用光学成像技术以每秒100次的速度扫描人脑,检测人们在脑海中默念的信息,并由计算机将其翻译成文字。

  脸书研发和硬件实验室Building 8的负责人雷吉娜·杜坎表示,团队的目标是使人们用意识就可以实现每分钟输出100个单词,比现在在手机上打字的速度快5倍。最终,脑机界面将可以让人们用意识,而不是通过屏幕或控制器来控制增强现实或虚拟现实体验。

  ●南方日报驻京记者 王腾腾 王诗堃

  策划:李江萍

  传统脑机接口 有相当风险,存在医学伦理争议

  在上述开发者大会上,脸书展示了一段视频。在视频中,一位在斯坦福大学接受试验的瘫痪病人,使用一个植入大脑的小型电极在键盘上移动电脑光标,能够每分钟输入8个英文单词。视频中的病人患有肌萎缩侧索硬化症,身体完全不能动——既不能行动也不能说话,但是她能够用自己的意念打字:一系列豌豆大小的电极植入用于控制运动的运动皮层,当她想象自己在移动鼠标时,电极会记录她的神经元动作,然后电脑会学着代她移动鼠标。

  实际上,上述成功的实验所使用的技术叫做“脑机接口”。目前,脑机接口的方式有植入式和非植入式两大类。

  植入式脑机接口包括针式与贴片式两种,两者都需要进行开颅手术,将电极埋藏在大脑皮层中,绕过头皮与头骨的阻碍,直接监测神经元的活动状况。这样读取信号的方式虽然直接,但由于需要用开放性的外科手术将电极植入到脑内神经组织,这不仅会对用户造成损伤,还要确保伤口长期不被感染,存在一定的技术难度。神经外科专家、中国医科大学附属盛京医院副教授鲍民告诉南方日报记者,脑机接口技术用于健全人,目前还很少有临床应用。鲍民强调,现有的脑机接口多是长期接口,需要颅内植入,但这类植入对于健全人来说并不适宜。他表示,这种手术对医生来说也有很大风险,更存在医学伦理争议。

  鲍民表示,目前通过脑深部电刺激(deep brain stimulation,DBS)对残障人士进行功能重建,在临床上应用得比较多,“利用脑机接口,在大脑上植入芯片,然后帮助肢体的功能重建。比如说有的人手部功能有缺失,原来大脑的信号传递到胳膊上需要一个通路,受到损伤以后通路断了,我们在临床上通过脑机接口把通路重建。”

  现在对于健康人来说最便利的还是非植入式脑机接口,它可以通过戴在头上的“头盔”读取神经信号。这样的方式相较于植入式来说不够直接,需要滤除很多噪声信号。因为神经细胞的放电信号从皮层经由颅骨传到头皮,相关电位会被大大削弱并带来很大的噪声干扰,因而无创伤式采集到的信号分辨率较低。

  此前,浙江大学附属第二医院成功在一名癫痫患者颅内植入电极,能够通过意念指挥机械手,做出“剪刀石头布”的动作,被认为是中国脑机接口研究在运动功能重建应用上的重要进展。但其存在的问题也很明显:在大脑皮层植入电极可以在相同时间内采集到更多、更准确的信号来反映大脑神经活动,但植入的皮层电极片不能长时间安置于脑内,患者在接受手术后最长一个月必须取出,很难作为“常规动作”进一步应用。鲍民还说,目前临床上主要进行重建自身肢体功能的研究和应用,而用脑机接口控制“机械臂”乃至电脑,尚需更多的实验。

  光学神经成像系统 希望实现每分钟输出100个单词

  虽然视频中的瘫痪病人已经实现了每分钟输出8个单词,这已经是了不起的飞跃,但是,脸书的60人团队并不满足于此。雷吉娜·杜坎提出,如果不使用想象中的手臂移动,直接解码语言呢?也就是说,机器会直接输出你的想法,并且是只输出你想表达的部分。这是建立在他们假定你决定要分享的内容才会被传递到大脑的语言中枢的前提下。

  在这个想法驱动下,约翰霍普金斯大学的物理学家兼神经科学教授Mark Chevillet带领超过60名科学家、工程师准备通过构建一套拥有极高的空间和时间分辨率的光学神经成像系统,以每秒100次的速度扫描大脑,以检测大脑中的意识,并将其转换成文本。

  这套系统不同于以往的脑机接口,首先是无创。目前成功的脑机接口大部分都是有创的,需要在大脑某区域植入电极。除了开颅,电极的损耗、免疫系统的影响体现着植入电极记录的不足,而这套光学神经成像系统采用无创传感器。

  另外,时间精度与空间精度都会得以提高。时间精度方面,当前的光学成像主要是功能性核磁共振(FMRI)和近红外成像(NIRS)。但遗憾的是,这两种成像原理都只是测量到血氧含量的变化;用来捕捉较快的单词就会显得力不从心了。以近红外成像为例,产生神经活动时,该脑区的血流量和耗氧量都将增加;脱氧血红蛋白和含氧血红蛋白对光的吸收程度不同,由此可以通过对光的吸收来反映大脑皮层的血氧代谢情况,从而耦合脑区的活动。而神经活动的基本单位——以毫秒为单位的动作电位,反应的是钠离子进入细胞、钾离子排出细胞的过程。这套成像系统的优点在于可以追踪测量的是动作电位中钠钾离子浓度变化时的光学特征,从而实现毫秒级的时间测量精度。

  空间精度方面,可以测量用小时候玩过的红色激光笔来对比分析:激光笔贴近手指的时候会发红光,是因为大多数光子在通过手指的时候因为散射而导致成像精度下降。准弹道光子因为不会散射而保持了非常高的精度,因此即使是无创的设备,也能够通过毛发、头皮和1cm厚的头骨解码每一个单词。

  这个实时的无声语言系统,希望实现每分钟输出100个单词。对于有需要的患者来说,这种神经假体能够提高增强现实的输入自然性,也可以无创地测量与语言相关的神经活动,在此基础上也能够开发规模化应用的系统。此外,语言的内容不仅包括发音、拼写,还包括语义。

  通过皮肤听别人说话 在手部皮肤下植入传感器来“听对方说话”

  还有一项技术就是通过触觉震动传感器将不同波段的震动编码语言并被受试者理解,为聋哑盲人服务。

  19世纪法国科学家发明的Braille盲文点字,使得盲人可以通过指尖接触凸点来阅读信息。20世纪早期发明的Tadoma识字法,通过与海伦·凯勒的合作,通过植入皮肤的触觉震动传感器感知讲话时气流压力的改变,声带的振动,下颚的变化,从而理解复杂的语言输入,并为盲聋儿童提供一种可规模化应用的沟通方法。

  视频中,实验者通过在手部皮肤下植入传感器,来“听对方说话”,并且实现处理、理解甚至重现老师所讲的话。这些话他无法看见、听见,仅仅通过触觉去感知,就重复出“请等一下”“你是不是忘了关灯”的原话。

  大脑关于听觉的加工大致是通过耳蜗对声音执行傅里叶变化,将声音以不同频域的信息进行编码,再由神经元进行计算。这项技术就是要实现能够模仿耳蜗的作用,仅通过皮肤来传输分解后的频率信息。

  雷吉娜·杜坎表示,该技术的目的是打破语言障碍,帮助那些既不能阅读也不能写字的人更好地交流。届时,人们不用说话和写字就能通过类似可穿戴设备这样的工具直接交流。“如果我们把这两个项目放到一起,也许在不久的将来,一个说中文的人就可以直接和一个说西班牙语的人交流了。”

  据介绍,该技术还可能拥有更广泛的用途,比如可以让人们在不看手机的情况下就能回复文字信息或电子邮件。

(责编:赵越、杨波)

推荐阅读