谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

阿爾法公社發布的AI創投週報聚焦於以大型語言模式和生成式AI為代表的人工智慧新趨勢的資訊週報。阿爾法公社希望發現並投資非凡創業家（AlphaFounders），相信非凡創業家在科技、商業和社會方面的巨大推動力，他們指引著創投生態的風向。

本週，我們觀察到以下AI領域的新動向與新趨勢：

1.AI視覺生成和多模態進展迅速：GoogleStyleDrop在風格一致性和可控性上成為新“SOTA模型”，劍橋、騰訊推出的PandaGPT統一6種模態。

2.AI程式設計能力成突破焦點：Google推出DIDACT程式設計新框架，百度Comate程式設計助理亮相，Github前CTO創業要打造程式設計領域的萬億參數大模型。

3.各種新的對齊方式想顛覆RLHF：直接偏好優化（DPO）簡化偏好學習Pipeline，史丹佛、GoogleDeepMind研究出更簡單有效的價值對齊方法。

4.人工智慧新研究讓排序演算法快70%：Google DeepMind的AlphaDev，在運行數萬億次的C 排序演算法中提高了70%的速度。

5.多家新創公司試圖解決AI算力問題：兩位哈佛輟學生打造大語言模式推理專用晶片，每美元效能提高了140倍，為生成式AI提供雲端運算能力的CoreWeave一個月內累積融資超4億美元。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

人工智慧產品和技術的新突破

1.Midjourney勁敵來了！ GoogleStyleDrop王牌「客製化大師」引爆AI藝術圈

Google最新推出的StyleDrop可稱作Midjourney的勁敵，它透過一張參考圖片，就能解構並復刻任何復雜的藝術風格，包括抽像作品，不同風格的LOGO等，與"前SOTA模型"相比，StyleDrop在風格一致性和文字對齊方面表現出色。它提供了更可控的繪畫過程，並能完成以往難以想像的精細工作。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

StyleDrop基於Muse構建，Muse是一種基於掩碼生成圖像Transformer的最新文本到圖像合成模型，它包含兩個用於基礎圖像生成和超分辨率的合成模組，每個模組都由一個文本編碼器T，一個transformer G，一個取樣器S，一個影像編碼器E和解碼器D組成。

StyleDrop的訓練過程包含兩個關鍵面向。首先是參數有效微調，透過對生成視覺Transformer的參數進行微調，使其在給定的參考影像上能夠產生相似風格的影像。其次是帶有回饋的迭代訓練，透過迭代訓練過程，逐步優化生成的圖像以提高風格一致性和文字對齊。

2.AI重寫排序演算法，速度快70%：Google DeepMind的AlphaDev革新運算基礎

Google DeepMind哈薩克的兩句話引爆電腦領域：「AlphaDev發現了一種全新且更快的排序演算法，我們已將其開源到主要C 庫中供開發人員使用。這只是AI提升程式碼效率進步的開始。」

AlphaDev基於AlphaZero模型，將排序問題轉換為單人"彙編遊戲"，透過搜尋大量可能的指令組合，發現比現有演算法更快的排序演算法，在運行數萬億次的C 排序演算法中提高了70%的速度。相關研究論文已在權威科學期刊Nature上發表，這項成果現已被納入LLVM標準C 庫Abseil並開源。

AlphaDev的主要作者之一Daniel J. Mankowitz表示：這項技術對程式設計和數位化社會有著重要影響，將為數十億人節省時間和精力，並有望優化整個運算生態系統。

3.投餵任意視頻，直出3D模型，華人一作登CVPR 2023

英偉達和約翰霍普金斯大學一項叫Neuralangelo的技術可以透過普通影片自動產生精細的3D模型。它採用基於SDF的神經渲染重建和多解析度雜湊編碼的架構，無需深度資料即可產生3D結構。目前，相關論文已經入選CVPR 2023。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

論文中使用DTU和Tanks and Temples資料集對Neuralangelo進行測試，結果顯示其在3D細節產生和影像還原方面表現準確。與NeuS和NeuralWarp等「前SOTA模型」相比，Neuralangelo在DTU資料集和Tanks and Temples資料集上都展現出出色的效果。

4.為語言大模型加上綜合視聽能力，達摩院開源Video-LLaMA

為了讓大語言模型理解和互動視訊內容，達摩院的研究人員提出了具有視聽能力的大型模型Video-LLaMA。模型能感知和理解視訊和音訊訊號，並理解使用者指令，完成根據音視頻描述、問答等複雜任務。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

不過，模型仍有感知能力有限、處理長影片困難和語言模型固有幻覺等限制。達摩院表示正在建立高品質的音訊-視訊-文字資料集來提升感知能力。

5.劍橋、騰訊AI Lab等提出PandaGPT模型：一個模型統一六種模態

近日，劍橋、NAIST和騰訊AI Lab的研究者推出了一款名為PandaGPT的跨模態語言模式。 PandaGPT結合了ImageBind的模態對齊能力與Vicuna的生成能力，實現了六種模態下的指令理解與跟隨能力。該模型展示了對不同模態的理解能力，包括基於圖像/影片的問答、創意寫作和視覺聽覺推理等。該模型可以處理圖像、視訊、文字、音訊、熱力圖、深度圖和IMU數據，並自然地組合它們的語義。

6.新加坡國立大學發表Goat，只用70億參數在算數上秒殺GPT-4

新加坡國立大學的研究人員透過微調LLaMA模型，開發了專供算術的模型Goat，參數大小為70億，它在算術能力方面顯著優於GPT-4。 Goat在BIG-bench算術子任務上表現卓越，準確率超過Bloom、OPT、GPT-NeoX等。其中零樣本的Goat-7B所達到的精確度甚至超過了少樣本學習後的PaLM-540。

Goat透過在合成的算術資料集上進行微調，在大數加減運算上達到了近乎完美的準確率，超過了其他預訓練語言模型。針對更具挑戰性的乘法和除法任務，研究人員提出了一種任務分類和分解的方法，透過分解為可學習的子任務來提高算術表現。這項研究為語言模型在算術任務上的進展提供了有益的探索和啟示。

7.訊飛星火認知大模型V1.5發布，多輪對話與數學能力再升級

6月9日，訊飛星火認知大模型V1.5發表。此版本在開放式問答方面取得突破，多輪對話和數學能力再升級，文本生成、語言理解、邏輯推理能力也提升。此外，科大訊飛此次也將「星火認知大模型」搬上行動端，發布其星火APP。

依照計畫，科大訊飛今年之內將進行三輪迭代升級，目標是在10月24日對標ChatGPT。 6月9日之外，下一個升級節點是在8月15日，主要是突破程式碼能力和多模態互動再升級。

8.Google公開AI 軟體工程框架DIDACT：數千名開發者內部測試

#Google最近公佈了名為DIDACT的框架，利用AI技術增強軟體工程，即時輔助開發人員編寫和修改程式碼。

DIDACT框架的模型具有多模態性質，可以根據開發人員的歷史操作來預測下一步的編輯操作。這種能力可以讓模型更好地理解開發人員的意圖，並提供準確的建議。模型還可以完成更複雜的任務，例如從空白檔案開始，連續預測接下來的編輯操作，直到產生完整的程式碼檔案。

DIDACT工具包括註解解析、建構修復和提示預測，每個工具在開發工作流程的不同階段整合。這些工具與開發人員的互動記錄被用作訓練數據，以幫助模型預測開發人員在軟體工程任務中的行動。

9.百度推出基於大模型的程式碼編寫助手Comate，文心一言高效能模式推理能力提升50倍

近日，百度智慧雲端推出Comate編碼智慧推薦工具並正式開放邀請測試。 Comate與GitHub Copilot等程式碼編寫助手相似，但用了更多中文註解和開發文件作為訓練資料。在編碼過程中，Comate可以根據開發者目前在寫的內容，推理出接下來可能的輸入選擇。根據百度介紹，目前Comate能力已經率先整合在百度所有業務線中並實現了很好的使用效果：核心研發部門中50%的程式碼可透過Comate產生。

此外，百度表示文心一言的推理表現已提升10倍。同時，基於文心千帆大模型平台提供的完備的工具鏈，在企業應用的高頻、核心場景中，文心一言的高性能模式“文心一言-Turbo”，推理服務性能已經提升了50倍。

10.思想克隆！前OpenAI研究員讓AI模仿人類思維

一項由前OpenAI研究團隊高級人員Jeff Clune領導的研究發現，透過讓人工智慧智能體模仿人類思考和行動，可以提升其效能和安全性。研究利用人類在行動時說出的想法資料集，讓智能體學習思考的能力，並將其與示範行為結合。這種方法被稱為“思想克隆”，透過上層組件產生思想，下層組件執行行動。

研究人員使用了從YouTube影片和文字錄音中收集的數百萬小時的思想資料進行訓練。實驗結果表明，「思想克隆」方法優於傳統的行為克隆方法，並且在分佈外任務中表現更好。這項研究對於人工智慧的發展具有重要意義，並提高了智能體的智慧水平和安全性，使其更易於理解和控制。

11.大幅優化推理過程，位元組高效能Transformer推理庫獲IPDPS 2023最佳論文獎

#位元組跳動與NVIDIA，加州大學河濱分校發表的論文《ByteTransformer: A High-Performance Transformer Boosted for Variable-Length》在IPDPS 2023中，榮獲了最佳論文。

ByteTransformer是位元組跳動開發的基於GPU的Transformer推理函式庫。 ByteTransformer是一種高效能的Transformer實現，它透過一系列最佳化手段，實現了在BERT transformer上的高效能表現。對於變長文字輸入，相較於其他Transformer實現，ByteTransformer在實驗中平均加速可達50%以上，適用於加速自然語言處理任務，提升模型訓練與推理的效率。

12.RLHF中的「RL」是必要的嗎？用二進位交叉熵直接微調LLM，效果更好

RLHF（人類回饋強化學習）是目前流行的讓大模型於人類對齊的方法，它使模型具有令人印象深刻的對話和編碼能力，但RLHF pipeline比監督學習複雜得多，涉及訓練多個語言模型，並在訓練的循環中從語言模型策略中取樣，產生大量的計算成本。

最近史丹佛大學等機構提出了一種叫做直接偏好優化（DPO）的研究，研究顯示：現有方法使用的基於RL的目標可以用簡單的二元交叉熵目標來精確優化，從而簡化偏好學習pipeline。也就是說，完全可以直接優化語言模型以堅持人類的偏好，而不需要明確的獎勵模型或強化學習。

13.用社群遊戲資料訓練社會對準模型，媲美RLHF

語言模型發展中的一個重要環節是使其行為符合人類社會價值觀，也被稱為價值對齊。目前主流的方法是RLHF。

然而，這種方法有幾個問題。首先，代理模型產生的獎勵容易被破解，導致不符合預期的回應。其次，代理模型與生成式模型需要不斷交互，導致訓練過程耗時且低效。第三，獎勵模型本身與人類思考模型不完全對應。

最近一項來自達特茅斯，史丹佛，GoogleDeepMind等機構的研究表明，利用社交遊戲建立高品質數據並結合簡單且高效的對齊演算法可能是實現價值對齊的關鍵。研究者提出了在多智能體遊戲資料上進行對齊訓練的方法。他們發展了一個名為沙盤的虛擬社會模型，在這個模型中社交個體透過符合社會規範的回答來留下良好的印象。透過對沙盒歷史資料的學習，他們提出了一種穩定對齊演算法。經實驗驗證，經過對齊訓練的模型能夠更快速地產生符合社會規範的回應。穩定對齊演算法在性能和訓練穩定性方面與RLHF相媲美，並提出了一種更簡單有效的價值對齊方法。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

人工智慧新創公司的新融資

1.前GitHub CTO創立的Poolside獲得2,600萬美元種子輪融資

近日，Poolside獲得由Redpoint Ventures領投的2600萬美元種子輪融資，Poolside的目標是透過追求軟體創造的AGI（人工通用智慧）來釋放人類的潛力，並基於一個基本觀念：在人類向AGI過渡的路徑上，應該透過建構特定能力而不是通用方法來實現。

Poolside的創辦人Jason Warner之前在Redpoint Ventures擔任董事總經理，更早前擔任GitHub的CTO，他的團隊負責開發GitHub Copilot。他與連續創業家Eiso Kant共同創立了Poolside，直接對標OpenAI。

Poolside正在建立強大的下一代基礎模型和基礎設施，它可能是一個專注在軟體和程式碼方向的萬億參數模型，利用這個模型的能力，藝術家，醫生，科學家，教育工作者可以超低門檻的建構軟體和產品，比今天的情況快1000倍，創建軟體將會變得人人可行，無所不在。

2.AI賦能的客戶成功平台UpdateAI獲IdealabX、Zoom Ventures、a16z投資的230萬美元早期投資

#UpdateAI是一家客戶成功平台供應商，近日獲得IdealabX領投的230萬美元融資。

UpdateAI簡化了客戶電話的繁瑣工作，讓客戶成功經理能專注於提供可擴展的客戶洞察。該平台與Zoom Meetings集成，並利用ChatGPT生成智慧會議摘要，提供簡潔的會議概述，自動化處理電話後的任務，例如向客戶發送跟進電子郵件。

UpdateAI的共同創辦人兼CEO Josh Schachter是複合背景的連續創始者，創立UpdateAI之前，他不但有兩段創業經驗和多次大公司產品經理職業經驗，且曾在波士頓諮詢擔任過總監，對企業的需求有深刻理解。

UpdateAI獲得了230萬美元的融資，本輪融資由IdealabX領投，Zoom Ventures、a16z參與。 UpdateAI先前已獲得170萬美元的融資，本輪融資使其總融資額達到400萬美元。

3.專注為生成式AI提供雲端運算能力的CoreWeave一個月內再獲2億美元策略融資

CoreWeave是專注在AI雲端運算的創業公司，它的投資人Magnetar Capital在先前領投了2.21億美元的B輪融資後，又領投了它2億美元的策略融資，目前CoreWeave是20億美金獨角獸。

CoreWeave提供了逾十二個SKU的NVIDIA GPU雲端服務，包括H100、A100、A40和RTX A6000，適用於人工智慧和機器學習、視覺效果和渲染、批次和像素流等各種用例。

CoreWeave由Intrator、Brian Venturo和Brannin McBee創立，他們最初專注於加密貨幣應用，此後轉向通用計算以及生成式AI技術，如文本生成AI模型。

在CoreWeave先前完成的2.21億美元B輪融資中，除了領投方Magnetar Capital外，還有NVIDIA、前GitHub CEO Nat Friedman和前蘋果高階主管Daniel Gross等投資人。

4.工作流程自動化引擎8Flow.ai獲得660萬美元種子輪融資

#近日，8Flow.ai獲得由Caffeinated Capital領投的660萬美元種子輪融資，BoxGroup、Liquid2等機構和前GitHub CEO Nat Friedman、Howie Liu等個人投資人也參投。

公司推出一款以企業為導向的自學習工作流程自動化引擎，與Zendesk、ServiceNow和Salesforce Service Cloud等工具集成，以協助代理人完成日常任務。未來，該公司計劃利用所有這些數據來訓練機器學習模型，產生針對每個用戶需求量身定制的人工智慧工作流程。

8Flow.ai的產品目前以Chrome瀏覽器擴充功能的形式存在，可以自動將相關資料從一個程式複製並貼上到另一個程式。該工具會自動學習每個代理人的常見步驟，並將其呈現為可以透過點擊觸發的操作。

8Flow.ai創辦人Boaz Hecht曾是SkyGiraffe的共同創辦人兼首席執行官，後來擔任ServiceNow平台副總裁，負責行動、人工智慧聊天機器人類產品。

5.醫療領域對話式人工智慧平台Hyro獲麥格理資本領投2000萬美元B輪融資

近日，醫療領域對話式人工智慧平台Hyro獲得麥格理資本領投的2,000萬美元B輪融資。

Hyro由兩位康乃爾大學校友Israel Krush和Rom Cohen共同創立，其中Israel Krush是連續創業家，擁有較豐富的產業經驗。

Hyro利用獨特的自然語言處理和知識圖譜技術，建構即插即用的醫療系統內部聊天介面，以涵蓋一般醫療部門85%的日常任務。 Hyro無需訓練資料就能進行客戶端維護工作，並即時更新內部資訊。平台自備的AI助理可以與醫療部門原有的工作流程相匹配，幫助他們集中溝通、改善服務並降低營運成本。

據悉，Hyro的ARR年增超過100%，大客戶包括Mercy Health、Baptist Health 、Intermountain Healthcare等。

6.商用低程式碼機器學習平台Predibase完成1220萬美元A輪融資

#Predibase是面向開發人員的商用低程式碼機器學習平台，它幫助不具備機器學習技能的使用者快速輕鬆地建置、迭代、部署複雜的AI應用程式。近日，Predibase獲得Felicis領投的1,220萬美元的A輪融資。

利用Predibase的平台，即使不具備機器學習技能的使用者快速輕鬆地建置、迭代、部署複雜的AI應用程式。使用者只需透過平台自帶的AI模型定義所需的內容，其餘操作由平台自動完成。新手用戶可以選擇推薦的模型架構，專家用戶可以根據自己的需求對所有模型參數進行微調，大大縮短了原先部署AI應用程式的時間。

Predibase的創辦人兼CEO Piero Molino擁有產業和學術的交叉背景，既在IBM和Uber有過職業經歷，又曾在史丹佛大學擔任研究科學家。

7.非結構化客戶資料AI分析平台Beehive AI獲510萬美元種子輪融資

Beehive AI是世界首個專門針對分析非結構化客戶資料的AI平台，它近日獲得Valley Capital Partners領投的510萬美元種子輪融資。

Beehive AI是一款端到端、可自訂的企業AI平台，用於消費者研究，具有前所未有的準確性、相關性和規模。透過分析非結構化的開放性數據，結合定量數據，Beehive AI幫助企業提取新的洞察力，幫助他們更了解並服務客戶。

該平台允許客戶上傳他們在任何平台上收集的現有數據，或啟動由AI設計的問卷調查，提問開放性問題，以從客戶那裡獲得豐富而細緻的反饋。然後，它對數據進行客製化分析，並允許客戶使用直覺的可程式儀表板來探索洞察力。

8.大語言模型推理專用晶片設計研發商Etched.ai獲536萬美元種子輪融資

#Etched.ai是大語言模型推理專用晶片設計研發商。近日，它獲得Primary Venture Partners領投，前Ebay執行長Devin Wenig等跟投的536萬美元種子輪融資，目前公司估值約3,400萬美元。

Etched.ai由哈佛輟學生Gavin Uberti和Chris Zhu創辦，設計了更專業、功耗較低的晶片，用於運行生成式AI模型，他們希望在2024年第三季將其晶片引入市場，並計劃向主要的雲端服務供應商銷售。

Etched.ai的創辦人表示，模擬顯示，與傳統GPU相比，他們的晶片在每美元效能方面提高了140倍。

9.以人工智慧提高雲端運算的成本效益，Antimetal獲430萬美元種子輪融資

近日，致力於開發AI技術提高雲端運算成本效益的Antimetal完成由Framework Ventures領投的430萬美元的種子輪融資。

Antimetal利用專有的機器學習模型來優化雲端運算部署，切入最主流的AWS雲端運算服務，未來也將拓展到Google、Microsoft等其他雲端運算平台。

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

公司開發線上演算法，用人工智慧來研究市場動態，然後整合、調度、轉售這些雲端運算資源。企業平均需要90天的時間才能賣出這些閒置的AWS資源，但透過Antimetal，完成交易的速度要快三倍左右。

公司創辦人兼CEO Matthew Parkhurst創業前長期就職於SaaS公司，有超過7年的產業經驗。

10.AI醫學影像新創公司Hypervision Surgical獲650萬英鎊種子輪融資

Hypervision Surgical近日獲得650萬英鎊的種子輪融資，由HERAN Partners、Redalpine和ZEISS Ventures投資。

Hypervision Surgical是一家來自倫敦國王學院的衍生企業，由臨床醫生、醫學影像和人工智慧專家團隊創建。它的目標是為臨床醫生配備先進的電腦輔助組織分析，以提高手術精確度和病人安全，並降低外科專業的患者發病率和醫療成本。

目前，公司正在透過結合AI高光譜成像和邊緣運算來開發用於外科手術的醫學影像。以此技術，在複雜的腫瘤手術中，外科醫生可以依靠精確的測量和組織特性資訊來區分健康和不健康的組織。

公司團隊核心成員Martin Frost曾是手術機器人公司CMR Surgical的創辦人兼前CEO。公司CEO Michael Ebner畢業於倫敦國王學院，並入選了英國皇家工程院。

本文由阿爾法公社綜合自多個資訊來源，並在ChatGPT的輔助下寫作。

關於阿爾法公社

谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI颠覆编程

以上是谷歌StyleDrop在可控性上卷翻MidJourney，前GitHub CTO用AI顛覆編程的詳細內容。更多資訊請關注PHP中文網其他相關文章！