文字到視訊模型如何污染線上資料空間

on Apr 1, 2024 21:37:26 GMT -6

Post on Apr 1, 2024 21:37:26 GMT -6

我稱它們為複雜層。當我逐年討論資料成長時，我有點觸及了複雜性層，但現在讓我們更深入地探討一下。計算泰勒，如果您碰巧看到這篇文章，我謹對您發人深省的問題以及我們在柏林進行的富有洞察力的討論表示感謝。本節中關於複雜性層的整個討論都受到我們對話的啟發，並源自於我在那次會議中所做的筆記。運算能力與可用的財務資源以及優化資料收集策略和提取-轉換-載入 (ETL) 流程的專業知識直接相關。谷歌財力雄厚，可以投資大量的運算能力。此外，他們技術精湛的工程師擁有數學和演算法優化工作流程的專業知識，以有效處理大量數據。

然而，即使對於Google來說，計算資源也不是無限的，特別是考慮到他們需丹麥電話號碼應對的數據的快速增長（如“全球生成的全球數據以及為什麼我們會深深陷入其中”部分中討論的）。他們大規模處理關鍵數據的唯一可持續方法是在可行的情況下建立和實施統一的數據標準化和數據發布。聽起來有點熟？嗯，這正是透過模式標記將結構化資料帶入表中的內容。人工智慧產生的內容，如果不透過重寫或事實檢查等流程進行改進，有可能顯著降低Google和必應等搜尋引擎的品質。品質保證流程的重要性從未像現在這樣重要。因此，在生成式人工智慧時代，運算資源管理變得尤其具有挑戰性。降低數據複雜性的關鍵在於利用結構化數據，例如模式標記。

因此，我將 Zdenko Vrandecic 的原話「「在內容無限的世界中，知識變得有價值」修改為以下內容：「在一個充滿無限[人工智慧生成]內容的世界中， [可靠]知識變得有價值” 甚至令人印象深刻的 Amsive 團隊（由出色的 Lily Ray 領導）也對此進行了描述，將非結構化資料的處理描述為AI 就緒性的一個重要方面：「結構的缺乏給大型語言模型(LLM ) 開發人員帶來了負擔，他們無法提供缺少結構，並幫助他們的工具和系統繼續發展。由於法學碩士和人工智慧工具尋求即時訊息，他們很可能會依賴搜尋引擎等訊號來確定來源的可信度、準確性和可靠性」。這讓我想到了幾個我將深入研究的新指標，但現在讓我們專注於法律方面。

SWOK Talk

文字到視訊模型如何污染線上資料空間

on Apr 1, 2024 21:37:26 GMT -6

Quick Reply