surfshark免费

Meta发表4合一Seamless Communication翻译AI模型套件,支援近百种语言输入

Meta

Meta上周(11/30)公布翻译AI模型套件Seamless Communication,包含提供更精准再现说话者情绪、及延迟仅2秒的几近同步翻译能力的新模型,支援近百种语言输入。

Seamless Communication为Meta为庆祝其AI研究机构基础AI研究(Fundamental AI Research,FAIR)成立10周年而发表的研究成果之一。Seamless Communication是以8月公布的多语双模(文字、语音)翻译模型SeamlessM4T第2版为基础而发展出的套件,号称能在翻译时保存不同语言的说话表情,以及说话者讲话同时加速翻译。

这个套件其实由4个模型组成,其中之一是SeamlessM4T第2代,以及SeamlessExpressive、SeamlessStreaming与Seamless。SeamlessExpressive是一种口译模型,解决传统AI翻译时无法抓住声音语调、停顿和重点,而失去情感和意图的重要讯号的问题。SeamlessExpressive是第一个掌握跨语言表情的公开系统。它使用的模型能保存说话者情绪、风格、说话速度、停顿和节奏,又能维持翻译品质。目前SeamlessExpressive支援英、中、西、法、德、义语。

SeamlessStreaming是同步翻译模型,主打2秒延迟的语音和文字翻译,可支援口译(speech-to-speech translation,S2ST)、听写翻译(speech-to-text translation,S2TT)及自动语音辨识(Automatic speech recognition,ASR)。在後二种任务上,SeamlessStreaming支援将近100种语言输入及输出,而在口译同步翻译则支援100种语言输入、36种语言输出。最後一种模型Seamless则是融合这三种语言模型於一。

Meta也将示范影片公布在GitHub以及HuggingFace网站上。…

surfshark免费

Ikea发表可侦测门窗、动静与漏水的智慧家庭感应器

Ikea

家居用品制造商Ikea周二(11/28)发表了3款可用来远端监控家中安宁的智慧家庭感应器,包括可用来监控门窗的Parasoll,感应室内或屋外动静的Vallhorn,以及可侦测有否漏水的Badring,Ikea并未公布相关产品的售价,但根据《The Verge》的报导,Parasoll与Badring的售价为9.99欧元,Vallhorn则只要7.99欧元。

Ikea早在2012年就启动了,要在家用产品中嵌入科技元素的Home Smart专案,陆续推出无线充电与智慧喇叭等产品,并在2017年发表了首批数位家居用品系列Trådfri,2019年更直接将该专案扩大成Ikea Home Smart事业部,目前旗下产品涵盖智慧音响、智慧窗帘、智慧照明、IKEA Home smart程式,以及用来连结所有智慧装置的Trådfri或Dirigera集线器。

新的Parasoll可安装在门窗上,一旦门窗被打开或关上,就会通知使用者;Vallhorn则可放置在室内或屋外,在侦测到任何运动时发出灯光,还能调整灯光的强度与颜色;Badring则可安装在用水区附近,会在侦测到漏水时启动内建的警报或是传送行动通知予使用者。

图片来源_Ikea

这些感应器都是采用Zigbee无线传输协定,可连结到Dirigera集线器,以触发其它的智慧家庭装置,或是传送通知至使用者的手机上。它们全都相容於Dirigera,但只有Vallhorn相容於旧版集线器Trådfri,此外,较新的Dirigera也允许Ikea的智慧家庭装置与Google、Amazon及苹果的相关装置互动。

Parasoll与Vallhorn预计於明年1月上市,Badring则要等到明年4月,Ikea亦计画将它们部署至全球市场。…

surfshark免费

Anthropic利用特徵解构神经网路提升模型的可解释性

OpenAI的竞争者Anthropic发表的最新人工智慧研究论文〈Decomposing Language Models With Dictionary Learning〉,提出一种称为字典学习的方法,增加对神经网路的解释性。这项研究让Anthropic更能够监控模型,进而引导模型的行为,提高企业和社会在采用人工智慧的安全性和可靠性。

由於神经网路是以资料进行训练,而非根据规则的程式设计,每一步训练,都会更新数百万甚至数十亿个参数,最终使模型得以更好地完成任务,但Anthropic提到,虽然研究人员可以理解训练网路的数学运算,但是却不真正明白模型是如何从一堆数学运算中,导出最後的行为。而这样的状况,使得研究人员很难判断模型出现的问题,而且也难以进行修复。

虽然现今人类已经进行了数十年的神经科学研究,对於大脑的运作有了深入的了解,但是仍然有很多大脑中的谜团尚待解密。类似的情况,人工神经网路也存在难以完全理解的部分,只不过与真实大脑不同,研究人员可以透过实验来探索其中的运作机制。

尽管如此,过去对神经元的实验并没有太多帮助,研究人员透过干预单一神经元,观察该神经元对特定输入的反应,他们发现,单一神经元的活化,与神经网路的整体行为并不一致。在小语言模型中,单一神经元会在英语对话、HTTP请求或是韩语文本等不相关的上下文都很活跃,电脑视觉模型中的同一神经元,可能会对猫脸和汽车都有反应。也就是说,在不同的情况下,神经元的活化可以代表着不同意义。

在Anthropic最新的研究中,研究人员扩大分析单位,不在单一的神经元中寻找规律,而是运用一种称为特徵(Feature)的概念。每个特徵都会对应一群神经元活动模式,这为研究人员提供了新的分析途径,能够将复杂的神经网路解构成更容易理解的单位。

在Transformer语言模型中,研究人员成功将一个包含512个神经元的层,分解成超过4,000个特徵。这些特徵涵盖了DNA序列、法律用语、HTTP请求、希伯来文和营养标示等范畴。此外,研究人员也确认了特徵的解释性远比单一神经元更高。

论文中也提到,研究人员发展了自动解释方法,来验证特徵的可解释性。藉由大型语言模型来生成小模型特徵的描述,并以另一个模型的预测能力对描述进行评分,而实验结果证实,特徵的得分仍高於神经元,如此便证实了特徵的活跃和模型下游行为具一致性。研究人员还发现,在不同模型间所学到的特徵大致通用,因此一个模型从特徵得到的经验,可能适用於其他模型。

这项研究的贡献,在於克服单一神经元的不可解释性,透过将神经元分群成特徵,研究人员将能够更好地理解模型,并且发展更具安全性和可靠性的人工智慧服务。未来Anthropic研究人员会扩大研究范畴,理解大型语言模型的行为。…

surfshark免费

Meta开源可用来侦测AI歧视问题的FACET资料集

Meta

Meta於本周开源了FACET(FAirness in Computer Vision EvaluaTion)资料集,以供不同的电脑视觉模型来评估它们在分类、侦测、实例分割与视觉定位等任务中,可能出现的偏差或歧视,以协助模型进行改善。

FACET是由3.2万张照片所组成,内含5万个人,每一张照片都由人类专家依照与人类相关的属性手动进行标记,由专门的人类注译员负责标记人口属性,包括性别与年龄等族群特徵,肤色及发型等生理特徵,以及诸如棒球选手或医生等分类,也包含了来自SA-1B资料集中6.9万名戴口罩民众的人口属性标记。

图片来源_Meta

此一资料集可用来协助回答某些问题,像是当某些表现的刻板印象多为男性属性时,AI模型是否能提供更好的辨别;开放辞汇检测模型能否够更好地侦测到那些被认为应该更年轻一些的背包客;标准检测模型是否难以侦测或分割肤色较深的人口;以及倘若上述牵涉到的是一名卷发人口,各种问题是否会被放大。

Meta以FACET来评测该公司所开发的DINOv2模型与SEERv2模型,以及OpenAI的OpenCLIP模型,整体而言,OpenCLIP在性别上的表现优於其它模型,而DINOv2则在年龄与肤色上有较佳的判断力。

Meta AI团队指出,FACET得以更深入地发现模型於类别等级上的潜在偏差,举例来说,以性别偏见最严重的「护士」类别来说,SEERv2与OpenCLIP的偏差比DINOv2更为明显,原因可能是SEERv2主要针对未经策画的社交媒体内容进行预训练,使得资料缺乏多样性,而OpenCLIP则采用经过CLIP模型过滤的网页爬梳资料,而放大了原本即存在的职业与性别的关联性。

FACET的开源将有助於研究人员执行类似的标竿测试,以理解自己的模型中所存在的偏差,亦可用来监控为了解决公平问题而采取的缓解措施所造成的影响。…

surfshark免费

Line日本开源自有大型语言模型

Line日本

Line日本总部本周宣布开源自有开发的日语大型语言模型(LLM)。

Line将以Apache License 2.0授权开源其japanese-large-lm模型,除了研究用途外,也允许商业用途,包含36亿及17亿个参数2个版本,两项专案都可以在HuggingFace Hub存取。

Line自2020年11月起,即致力於针对该公司大型语言模型HyperCLOVA,启动多项构筑和应用相关研发计画。Line於2021年5月开发者大会上,首次公开2,040亿个参数训练而成的韩文版LLM HyperCLOVA,11月则公布日语特化版,拥有850亿参数,并宣称将以其发展一系列自然语言处理服务。

而本次公开的japanese-large-lm模型是和HyperCLOVA由不同部门并行开发,前者即是Massive LM团队的开发成果。团队指出,本模型是用了Line自己的日语大型Web文本为基础来训练,并利用成员自行开发的HojiChar开源函式库,来过滤大量原始码及非日语文字等杂讯,最後用了650GB资料集来训练。开发时间上,以17亿参数版本而言,在A100 硬体上花了4000 GPU时间训练而成。

研究团队也提供了本次公开的两个模型和Rinna-3.6B及OpenCALM-7B模型的准确度和困惑度(perplexity score,PPL)比较数据。…