人工智能· https://www.unite.ai/zh-TW/ 人工智能大型動作模型 (LAM):人工智慧驅動的互動的下一個前沿mm更新 on 2024 年 5 月 6 日By Tehseen Zia 博士 大約一年前,DeepMind 聯合創始人 Mustafa Suleyman 預測 那個時代 生成AI 很快就會被更具互動性的東西所取代:能夠透過與軟體應用程式和人力資源互動來執行任務的系統。今天,我們開始看到這個願景隨著以下領域的發展而成形: 兔子人工智慧全新的人工智慧作業系統, R1。該系統展示了監控和模擬人類與應用程式互動的令人印象深刻的能力。 R1 的核心在於 大型動作模型 (LAM),一個高級人工智慧助手,擅長理解用戶意圖並代表他們執行任務。雖然以前被稱為其他術語,例如 交互式人工智能 和 大型代理模型,LAM 的概念作為人工智慧驅動的互動的關鍵創新正在獲得發展勢頭。本文探討了 LAM 的細節,以及它們與傳統 LAM 的差異。大型語言模型 (法學碩士)介紹了 Rabbit AI 的 R1 系統,並探討了 Apple 如何邁向類似 LAM 的方法。它還討論了 LAM 的潛在用途及其面臨的挑戰。 了解大型動作或代理模型 (LAM) LAM 是一種先進的人工智慧代理,旨在掌握人類意圖並執行特定目標。這些模型擅長理解人類需求、規劃複雜任務以及與各種模型、應用程式或人員互動來執行他們的計劃。 LAM 超越了簡單的 AI 任務,例如產生回應或影像;它們是成熟的系統,旨在處理複雜的活動,例如計劃旅行、安排約會和管理電子郵件。例如,在旅行規劃中,LAM 將與天氣應用程式協調進行預測,與航班預訂服務互動以查找合適的航班,並與飯店預訂系統互動以確保住宿。與許多僅依賴 神經網絡,LAM 利用混合法結合 神經符號編程。 這種整合 符號程式設計 有助於邏輯推理和規劃,而神經網路有助於識別複雜的感官模式。這種混合使 LAM 能夠解決廣泛的任務,這標誌著人工智慧驅動互動的微妙發展。 LAM 與 LLM 的比較 與 LAM 相比,LLM 是人工智慧代理,擅長解釋使用者提示並產生基於文字的回應,主要協助涉及語言處理的任務。然而,它們的範圍通常僅限於與文本相關的活動。另一方面,LAM 將人工智慧的功能擴展到語言之外,使它們能夠執行複雜的操作以實現特定目標。例如,法學碩士可以根據使用者指示有效地起草電子郵件,而法學碩士則更進一步,不僅可以起草,還可以理解上下文、決定適當的回應以及管理電子郵件的傳遞。 此外,LLM 通常設計用於預測文字序列中的下一個標記並執行書面指令。相較之下,LAM 不僅具備語言理解能力,還具備與各種應用程式和現實世界系統(例如物聯網設備)互動的能力。他們可以執行實體動作、控制設備以及管理需要與外部環境互動的任務,例如預約或預訂。這種語言技能與實際執行的結合使得 LAM 能夠比 LLM 更多樣化的場景進行操作。 LAM 的實際應用:Rabbit R1 兔子R1 是 LAM 實際應用的典型例子。這款人工智慧設備可以透過一個用戶友好的介面管理多個應用程式。 R2.88 配備 1 吋觸控螢幕、旋轉攝影機和滾輪,採用與 Teenage Engineering 合作打造的時尚圓形底盤。它採用 2.3GHz MediaTek 處理器,並配備 4GB 記憶體和 128GB 儲存空間。 R1 的核心在於其 LAM,它可以智慧地監控應用程式功能,並簡化複雜的任務,例如控制音樂、預訂交通、訂購雜貨和發送訊息,所有這些都透過單點互動進行。這樣,R1 消除了在多個應用程式之間切換或多次登入來執行這些任務的麻煩。 R1 中的 LAM 最初是透過觀察人類與 Spotify 和 Uber 等流行應用程式的互動來進行訓練的。透過此次培訓,LAM 能夠導航使用者介面、識別圖示和處理事務。這種廣泛的訓練使 R1 能夠流暢地適應幾乎任何應用。此外,特殊的訓練模式允許使用者引入和自動化新任務,不斷擴大 R1 的功能範圍,使其成為人工智慧互動領域的動態工具。 Apple 在 Siri 中受 LAM 啟發的功能取得進展 Apple 的人工智慧研究團隊最近分享了他們透過一項類似於 LAM 的新舉措來提升 Siri 功能的努力的見解。一份研究論文概述了該倡議 參考解析作為語言建模 (ReALM),旨在提高 Siri 理解對話上下文、處理螢幕上的視覺內容以及檢測周圍活動的能力。 ReALM 在處理使用者介面 (UI) 輸入時採用的方法與 Rabbit AI R1 中觀察到的功能相似,展示了 Apple 增強 Siri 對使用者互動的理解的意圖。 這種發展 指示 Apple 正在考慮採用 LAM 技術來改善使用者與其裝置的互動方式。儘管沒有關於 ReALM 部署的明確公告,但顯著增強 Siri 與應用程式互動的潛力表明,在使助理更加直觀和響應迅速方面有望取得進展。 LAM 的潛在應用 LAM 的潛力不僅限於增強使用者和裝置之間的互動;它們可以為多個行業帶來顯著的效益。 客戶服務: LAM 可以透過獨立處理不同管道的查詢和投訴來增強客戶服務。這些模型可以使用自然語言處理查詢、自動解決問題並管理調度,根據客戶歷史記錄提供個人化服務以提高滿意度。 衛生保健: 在醫療保健領域,LAM 可以透過組織預約、管理處方和促進跨服務溝通來幫助管理患者護理。它們還可用於遠端監控、解釋醫療數據以及在緊急情況下向工作人員發出警報,特別有利於慢性病和老年護理管理。 財經: LAM 可以提供個人化的財務建議並管理投資組合平衡和投資建議等任務。他們還可以監控交易以檢測和防止欺詐,與銀行系統無縫整合以快速解決可疑活動。 LAM 的挑戰 儘管 LAM 潛力巨大,但仍面臨一些需要解決的挑戰。 數據隱私和安​​全: 鑑於 LAM 需要廣泛存取個人和敏感資訊,確保資料隱私和安全是一項重大挑戰。 LAM 跨多個應用程式和平台與個人資料進行交互,引發了人們對這些資訊的安全處理、儲存和處理的擔憂。 道德和監管問題: 隨著 LAM 在決策和與人類環境互動中發揮更自主的作用,道德考量變得越來越重要。有關問責制、透明度以及將決策權委託給機器的程度的問題至關重要。此外,在各行業部署此類先進的人工智慧系統可能會面臨監管挑戰。 整合的複雜性: LAM 需要與各種軟體和硬體系統整合才能有效執行任務。這種整合很複雜,管理起來也很困難,特別是在協調不同平台和服務之間的操作時,例如即時預訂航班、住宿和其他後勤細節。 可擴展性和適應性: 雖然 LAM 旨在適應各種場景和應用,但擴展這些解決方案以一致且高效地處理多樣化的現實環境仍然是一個挑戰。確保 LAM 能夠適應不斷變化的條件並在不同的任務和用戶需求中保持效能對於其長期成功至關重要。 底線 大型動作模型 (LAM) 正在成為人工智慧領域的一項重大創新,不僅影響設備交互,也影響更廣泛的產業應用。透過 Rabbit AI 的 R1 進行了演示,並在 Apple 的 Siri 進步中進行了探索,LAM 正在為更具互動性和直覺的 AI 系統奠定基礎。這些模型有望提高客戶服務、醫療保健和金融等行業的效率和個人化。 然而,LAM 的部署也帶來了挑戰,包括資料隱私問題、道德問題、整合複雜性和可擴展性。隨著我們進一步廣泛採用 LAM 技術,旨在負責任且有效地利用其能力,解決這些問題至關重要。隨著 LAM 的不斷發展,它們改變數位互動的潛力仍然巨大,這凸顯了它們在人工智慧未來格局中的重要性。 AI·发展的10则现状|斯坦福研究报告 斯坦福大学以人为本人工智能研究院(HAI)发布2024年度《人工智能指数报告》 送交者: wangguotong[★★★声望勋衔13★★★] 于 2024-05-06 0:41 已读 229 次 大字阅读 wangguotong的个人频道 已关注 人工智能发展的10则现状|斯坦福研究报告 6park.com 作者:李飞飞 6park.com 4月15日,李飞飞领导的斯坦福大学以人为本人工智能研究院(HAI)发布2024年度《人工智能指数报告》。 这是《人工智能指数报告》的第七年。过去一年,以ChatGPT为代表的人工智能模型席卷世界,许多人预测,人工智能的“奇点时刻”正在临近,机器超越人类的时代已经来临。 这份报告涵盖了过去一年人工智能的技术进步、公众对该技术的看法以及其未来的发展趋势。它是技术飞速发展下的一个注脚,帮助我们理解当下正在发生的变化,以更好地理解我们所处的环境。 1 人工智能发展的十个事实 1. 人工智能在某些任务上超越了人类,但它需要追赶的地方还有很多 在图像分类、视觉识别和语言理解等领域,人工智能已经超越了人类的能力。然而,在竞赛数学、视觉理解和规划等更复杂的任务上,人工智能仍在追赶人类。 2. 美国仍处于领先地位,但中国已经成为最大的人工智能专利来源国 2023年,美国发布了61个值得关注的机器学习模型,欧盟和中国分别是21个和15个。但值得关注的是,中国已经在2022年以61.1%的份额成为全球人工智能专利最大来源国,美国人工智能专利份额则从2010 年的54.1%下降至2022年的20.9%。 3. 产业界仍在主导人工智能的前沿研究,进一步推动了相关人才从学术届转移 2023年,产业界发布了51个值得关注的机器学习模型,而学术界仅贡献了15个。缺乏算力的学术界在当下人工智能的发展上仍然处于劣势,推动了相关人才从学术届向产业界转移。2019年,美国和加拿大新增加的人工智能领域教师有13%来自产业界。到2021年,这一数字已下降至11%,2022年进一步下降至7%。 4. 人工智能模型研究变得更加昂贵 OpenAI的GPT-4训练成本高达7800万美元,而Google的Gemini Ultra更是达到了惊人的1.91亿美元。 5. 类似于ChatGPT的大语言生成模型仍然缺乏完善的伦理及风险评估 由于不同模型的测试基准并不相同,使得评估人工智能模型的偏见和伦理问题变得更加复杂。 随着生成模型开始可以生成高质量的文本、图像等,人工智能的基准测试已慢慢开始纳入人工评估(如Chatbot Arena排行榜),而不是单纯的计算机化排名(如ImageNet)。公众对人工智能的感受正在成为追踪人工智能进展的一个越来越重要的考虑因素。 6. 生成式人工智能的投资过去一年增长了近8倍 生成式人工智能的领域资金比2022年增长了近八倍,达到252亿美元。 7. 人工智能提高了劳动者的工作效率,产出的质量也变得更高 多项研究表明人工智能使劳动者能够以更快地速度完成任务并提高产出质量,还可以帮助弥合低技能劳动者和高技能劳动者之间的技能差距。但有研究警告称,在没有适当监督的情况下使用人工智能可能会导致劳动者的工作水平下降。 8. 人工智能帮助医学研究取得了突破性进展 过去几年,人工智能在MedQA(医学文本问答数据集)基准上表现出了显著的进步,这是评估人工智能临床知识的关键测试。GPT-4 Medprompt的准确率达到了90.2%,比2022年的最高分提高了22.6 个百分点。自2019年推出该基准测试以来,人工智能的准确性几乎增加了两倍。 9. 人工智能领域的法规数量急剧增加 2023年,美国人工智能相关法规数达到了25个,而2016年仅有1个。全球各国的法律法规提及人工智能的次数从2022年的1247次增加到2023年的2175次,几乎翻了一番。 10. 人们意识到人工智能正在产生的影响,对这项技术的发展也更加谨慎 益普索(Ipsos)的一项调查显示,去年,认为人工智能将在未来三到五年内极大影响他们生活的人比例从60%上升到66%。此外,52%的人表示对人工智能产品和服务感到焦虑,比2022年上升了13个百分点。皮尤研究中心的数据显示,52%的美国人表示对人工智能感到担忧,这一比例高于2022年的38%。 值得关注的是,年轻一代普遍对人工智能技术的发展更为乐观。59% 的Z世代受访者认为人工智能将改善人类的生活质量,而美国婴儿潮一代的这一比例仅为40%。此外,与低收入和受教育程度较低的人相比,收入和教育水平较高的人对人工智能的发展更加乐观。 2 人是核心 2022年底,ChatGPT的公开发布席卷了世界,随后出现了更多生成式人工智能工具。 从最初只能执行简单的任务到如今具备类似人类的能力,短短几年的时间,人工智能的发展速度令人咋舌,与此同时,人们对其潜在风险的担忧也日益增加。 事实上,人工智能存在的偏见问题直到现在依然没有被很好地解决。 2023年底,《华盛顿邮报》发表了一篇详尽的专题报道,深入探讨了机器学习技术中潜在的偏见。当前的AI图像生成模型,如Dall-E和 Stable Diffusion,有时仍会反映出社会的刻板印象。 例如,在生成“具有创造力的人”的图像时,这些系统往往倾向于呈现白人形象;而在描绘“社会服务人员”时,则多数情况下展示的是有色人种的形象。 其实,大型语言模型,即使是多模态的大型语言模型,可能也并不具备真正意义上的“思考”能力。大型语言模型很容易出现荒谬的概念性失误,也乐于编造听起来合理但实际上毫无意义的胡言乱语。 了解这些事实有助于我们避免过分迷恋模型的能力。然而,随着大型语言模型生成的文本、图像、语音和视频越来越复杂,真与假之间的界限愈加模糊。作为个人、机构,甚至社会,我们究竟有没有能力区分真实和虚构? 我们仍身处一场全球风暴之中,每天似乎都有新的头条新闻报道人工智能对全球劳动者构成的威胁。 随着人工智能在监控领域的应用日趋成熟,记者和人权活动家的担忧与日俱增,对隐私和个人尊严的古老威胁也在现代社会出现,相关报道使公众对人工智能形成了负面看法,这在整个科技领域都是非常罕见的。 科技不断发展,算法语言表达的高级程度已逼近人类水平。机器人正在逐渐学会应对真实的环境。视觉模型不仅可以通过照片进行训练,还可以在全三维世界中进行沉浸式实时训练。 人工智能能够像识别内容一样流畅地生成内容。与此同时,伦理问题在我们周围不断涌现,与人类经济社会发展的关联也日益紧密,但这就是科学一直以来的样子。 3 未来会怎样? 人工智能曾经是纯粹的科学,而现在,我们更愿意用:“现象”“颠覆”“谜题”“特权”“自然之力”来定义新一代人工智能所能做的一切,无论是好是坏,无论是在预期之内,还是在意料之外,都因其设计本身缺乏透明度而变得复杂。 如果在算法设计完成后,再加入安全性和透明度等考虑因素,无论设计得多么精妙,都不足以满足要求。下一代人工智能必须从开发之初就采取与现在完全不同的理念。以激情为起点固然很好,但我们要面对的是纷繁复杂而又不起眼的挑战,要取得真正的进展,就必须有敬畏之心。而硅谷似乎缺乏这种心态。 如今,人工智能是一种责任,是我们所有人共同承担的责任。 深度学习飞速发展,每一年都感觉像是要面对一个全新的领域,其应用的深度和多样性增长得如此之快,甚至全职研究生和博士后也很难跟上文献的步伐,更不用说教授们了。可能性无穷无尽,挑战也永无止境。 即使在这样一个黑暗的时代,人工智能也具有无与伦比的激励力量。面对全球亟待解决的问题,面对具有历史意义的机遇,面对可能需要几代人的努力才能揭开谜底的未知,真正解决所有问题的答案远远不是公司战略或学术课程所能提供的。 未来几年,从业者需要的不仅是专业技术知识,他们还必须了解哲学、伦理学,甚至法律。 想象空间是巨大的,但愿景需要一个重要的纽带串联起来,这个纽带就是大学。早在有人利用人工智能谋取利益之前,人工智能就已经在大学里起步了。在大学校园里,仍然最有可能感受到某些意想不到的研究突破带来的火花。感知机、神经网络、ImageNet,以及后来的很多东西都出自大学。 要从根本上重新构想人工智能,使其成为以人为本的实践,与其说这是旅程方向的改变,不如说是旅程范围的扩展。人工智能一直以来都追求科学性,而现在,它必须也追求人性。 人工智能应该秉承最优秀的学术传统,保持合作和敬畏,同时不惧怕直面现实世界。毕竟,星光是多样的。一旦白色的光辉展开,各种颜色就会发出耀眼夺目的光芒。

评论

热门博文