人工智慧語音技術的三大挑戰-人工智慧-PHP中文網

人工智慧語音技術的三大挑戰

王林

發布： 2023-05-03 10:34:06

轉載

1136 人瀏覽過

人工智慧從業人員在談到語音對語音技術時通常會遇到常見的三個障礙。

人工智慧(AI)能夠產生類似人類的數據的前景已經被談論了幾十年。然而，資料科學家已經解決了這個問題，但收效甚微。精確確定創建此類系統的有效策略帶來了從技術到倫理以及兩者之間的各個方面的挑戰。然而，生成式人工智慧已成為值得關注的亮點。

在最基本的情況下，生成式人工智慧使機器能夠使用音訊檔案、文字和圖像等元素來產生從語音到寫作到藝術的內容。科技投資公司SequoiaCapita公司表示:「生成式人工智慧不僅會變得更快、更便宜，在某些情況下還會比人類手工創造的人工智慧更好。」

特別是基於生成語音的機器學習技術，最近的進展已經取得了巨大的進步，但人們仍然有很長的路要走。事實上，語音壓縮出現在人們非常依賴的應用程式中，例如Zoom和Teams，這仍然是基於上世紀80年代和90年代的技術。雖然語音對語音技術有無限的潛力，但評估生成式人工智慧發展障礙的挑戰和缺點至關重要。

以下是人工智慧從業人員在談到語音對語音技術時常見的三個障礙。

1.音質

可以說，最佳對話最重要的部分是它是可以理解的。在語音對語音技術的情況下，目標是聽起來像人。例如，Siri和Alexa的機器人語調就像機器一樣，而且並不總是清晰。這很難透過人工智慧實現，有幾個原因，但人類語言的細微差別起了很大作用。

梅拉比安法則可以幫助解釋這一點。人類的對話可以分為三個部分：55%的臉部表情，38%的語氣，以及僅僅7%的文字。機器理解依賴文字或內容來操作。只有在自然語言處理(NLP)方面取得了最近的進展，才有可能根據情緒、情緒、音色和其他重要(但不一定是口語)的語言方面來訓練AI模型。如果你只處理音頻，而不是視覺，這就更有挑戰性了，因為沒有超過一半的理解來自於面部表情。

2.延遲

人工智慧綜合分析可能需要時間，但在語音對語音通訊中，即時是唯一重要的時間。語音轉換必須在說話時立即發生。它還必須是準確的，你可以想像，這對一台機器來說不是一件容易的事。

即時的必要性因行業而異。例如，一個做播客的內容創造者可能更關心音質而不是即時語音轉換。但對於像客戶服務這樣的產業，時間是至關重要的。如果呼叫中心代理使用語音輔助人工智慧來回應來電者，他們可能會在品質上做出一些犧牲。儘管如此，時間對於提供積極的體驗還是至關重要的。

3.規模

為了讓語音對語音技術發揮其潛力，它必須支持各種口音、語言和方言，並且對每個人都可用——而不僅僅是特定的地區或市場。這需要掌握技術的特定應用程序，並進行大量的調優和培訓，以便有效地擴展。

新興的技術解決方案並不是萬能的;對於給定的解決方案，所有使用者都需要透過數千個體系結構來支援這種AI基礎設施。使用者還應該期望對模型進行一致的測試。這並不新鮮:機器學習的所有經典挑戰也適用於生成式AI領域。

那麼，人們如何開始解決這些問題，從而開始意識到語音對語音技術的價值呢?幸運的是，當你逐步分解它時，它就不那麼可怕了。首先，你必須掌握這個問題。前面我舉了一個呼叫中心和內容創作者的例子。確保你考慮了用例和期望的結果，並從那裡開始。

第二，確保您的組織擁有正確的體系結構和演算法。但在此之前，要確保企業有正確的數據。數據品質很重要，特別是在考慮人類語言和語音這樣敏感的東西時。最後，如果您的應用程式需要即時語音轉換，請確保該功能得到支援。最終，沒人想跟機器人說話。

雖然關於產生人工智慧深度造假、同意和適當披露的倫理擔憂現在逐漸浮出水面，但重要的是首先要理解和解決基本問題。語音對語音技術有可能徹底改變我們理解彼此的方式，為將人們團結起來的創新創造機會。但為了實現這一目標，必須先面對主要挑戰。 ?

以上是人工智慧語音技術的三大挑戰的詳細內容。更多資訊請關注PHP中文網其他相關文章！