3類生成式AI工具在實際應用中的問題-雨果網

3類生成式AI工具在實際應用中的問題圖片來源：圖蟲創意

自今年3月份以來，各種生成式AI工具層出不窮，有文字生成工具，圖片生成工具，視頻生成工具，語音生成工具，各種工具極大提高了我們的工作效率。但是AI工具畢竟是基于數據和模型來生成內容，在實際使用中仍然會出現很多的問題，喵喵這幾月頻繁使用這些AI工具，梳理了一些生成式AI工具在實際使用中會出現的問題以及常用的解決辦法的局限，和大家探討，希望可以找到更加高效率的解決方法。

一、ChatGPT文字生成工具

ChatGPT是基于OpenAI的GPT架構，是生成式預訓練模型，有大量的知識和能力進行自然語言處理，是目前最熱門的AI內容生成和對話工具，但大多數人在實際使用過程中仍然會有以下一些問題。

1.數據更新的限制

ChatGPT最新的訓練數據截止到2021年9月，所以在這之后發生的事件或最新的知識ChatGPT是不知道的。當我們詢問它2021年9月之后的事情的時候，它會提示自己沒有2021年9月之后的數據，并給到一些其他的回答。然而，在實際應用中，我們肯定會時常需要詢問當前發生的資訊和最新的知識，如果ChatGPT無法回答，那么對于使用者來說是極大的不便。

3類生成式AI工具在實際應用中的問題

圖片來源：chatGPT

之前ChatGPT-4是有聯網功能插件的，但是現在這個功能無法使用了，所以ChatGPT又無法回答關于2021年9月之后的內容了。雖然Webchatgpt谷歌插件可以實現聯網，但是喵喵在使用過程中覺得還是比較雞肋的，體驗并不是很好，且無法在移動端應用。

3類生成式AI工具在實際應用中的問題

圖片來源：chatGPT

2.AI幻覺

AI幻覺，通俗易懂解釋就是AI在一本正經地胡說八道，輸出一些不正確的、胡編的內容。造成AI幻覺的原因可能是數據訓練集的原因，例如數據集缺失或者被壓縮，因為ChatGPT是基于數據訓練集來訓練的，如果之前的訓練數據集來自不準確的源材料，或訓練數據集缺失特定的推斷，那么它就有可能輸出缺乏常識或者不合邏輯的推斷。

3.缺乏真實經驗

ChatGPT可以提供基于數據的答案，但沒有人的情感、直覺或真實經驗。在處理某些情境、道德問題或感情問題不夠完美，并且它的回答是基于對提示詞的理解來生成的，所以有時可能會誤解含有雙關、諷刺或其他非字面意思的問題。

4.冗長或過度解釋

ChatGPT有時為了確保信息的準確性，它可能會給出冗長或重復的答案，總-分-總是它的回答結構。要解決這個問題我們可以在寫提示詞的時候就做好限制，明確要求它以簡潔明了的內容回答我們的問題。

3類生成式AI工具在實際應用中的問題

圖片來源：chatGPT

3類生成式AI工具在實際應用中的問題

圖片來源：chatGPT

5.依賴用戶輸入的提示詞

ChatGPT的回答依賴于使用者的提示詞。如果問題表述不清晰，ChatGPT可能無法提供準確的答案。因此，想要用好ChatGPT，提示詞的編寫變得尤為重要，如果使用者的語言組織能力差，或者沒有學習過一定提示詞編寫結構，那么可能較難得到自己想要的回答，或者使用效率非常低。示例：小紅書文案編寫提示詞模板

3類生成式AI工具在實際應用中的問題

圖片來源：chatGPT

二、Stable diffusion圖片生成工具

Stable Diffusion是一種文字生成圖像的生成式AI工具，它是完全開源，我們可以根據自己的數據集訓練自己的模型，以生成自己想要的圖片，Stable Diffusion是目前最熱門的圖片生成工具。但是在實際應用中喵喵覺得還是有一些問題，雖然這些問題都有一定的解決辦法，但未達到喵喵想要的便捷和高效。

我們利用Stable diffusion生成圖片，圖片的風格可以通過大模型或者Lycoris來控制，圖片的人物形象可以通過lora來控制，人物的動作可以通過controlnet的openpose，canny來控，圖片的質量的可以通過放大算法來控制，但這些插件在應用中依然有一些不足。

1.生成符合場景的圖片是最困難

在生成符合提示詞場景圖片方面，目前的一些插件和解決方法都有一些弊端，無法最大化提高生圖效率。

（1）以圖生圖方式：如果我們找的網圖質量差，或者找的網圖和想要的場景不完全一樣，那么以圖生圖也很難得到自己想要的場景，重繪幅度越大，隨機性越大，即使通過局部重繪，也很難把圖片繪制得和想要的場景完全一致。

（2）利用controlnet插件的canny預處理器：canny預處理器可以識別所上傳圖片的輪廓和元素，可以較大程度地還原原圖的人物動作和場景。但是使用這個預處理器也有和圖生圖一樣的問題，如果我們上傳的原圖質量不好，canny預處理器識別的噪點過多，那么生出來的圖片和想要的場景相差也很大。如果上傳是比較干凈的線稿，canny預處理器可以識別較為清晰的輪廓，但生出來的圖能不能和我們想象的一樣還得看模型的選擇、提示詞的編寫以及參數的調整?？傊?，想要生成自己想要的場景效率是比較慢的。

3類生成式AI工具在實際應用中的問題

圖片來源：stable diffusion

2.多人物的圖片生成是困難的

目前我們看到的很多大模型，lora模型基本都是單人物的模型，說明其在多人物生成方面是有困難的。雖然有一些插件和方法可以控制多人物的圖片生成，但是喵喵在實踐中還是覺得有隨機性，并且效率也不是很高。

（1）在控制多人物動作方面，可以使用controlnet插件的dw-openpose預處理器，處理方式也是找圖上傳，然后識別人物的動作，再結合我們的提示詞進行生圖，甚至可以使用幾個controlnet疊加生成，提高了生成圖片和原圖的相似度，包括人物數量，動作，場景元素等。但是和圖生圖一樣，如果找到的網圖質量不好，元素混亂，那么使用controlnet也很難得到一張適合的圖，要完全達到想要的圖片要求，還需要不斷調整模型、提示詞和參數。

3類生成式AI工具在實際應用中的問題

圖片來源：stable diffusion

（3）在固定多人物形象方面，使用latend couple和Composable LoRA疊加使用兩個lora，分別渲染兩個人物，生成多人物的圖片，但是兩個lora有時候是會相互污染，即使調整參數，也不能百分百達到自己想要的效果，多人物生成的隨機性比較高。有時候調用lora還會影響整體的圖片風格，這可能是大模型和lora模型的兼容問題，也可能是lora的權重設置問題，雖然調整lora的權重可以緩解，但是有時候調整lora權重之后人物形象特征就不那么明顯了。因此，整體來說，多人物生圖的效率是很慢的，需要不斷地調整。

三、runway gen2和pika等視頻生成工具

文字生成視頻、圖片變成動態視頻也是近期的熱門工具，喵喵使用了runway gen2和pika，還有一個工具是animatediff，安裝了SD的插件，但是顯卡帶不動，爆顯存了，沒體驗成功。整體的體驗是pika的視頻更流暢，變形沒那么嚴重。

1.Animatediff

animatediff需要使用特定的大模型效果才更好，它是使用Stable diffusion一次性生成多張圖片，并把圖片組合在一起，使用一定的幀率組合成視頻。Animatediff只能生成幾秒的視頻。

3類生成式AI工具在實際應用中的問題

圖片來源：animatediff

2.runway gen2

runway gen2可以使用圖片生成視頻，也可以使用文字直接生成視頻，但是生成的視頻比較隨機，有時候非常奇怪，要得到自己想要的視頻比較憑緣分。我們可以在discord上看到很多用戶的分享，有很多視頻丟失扭曲變形的。Konstantin的視頻

3類生成式AI工具在實際應用中的問題

圖片來源：runway

3.Pika

使用高質量的圖片在pika上生成視頻效果相對比較好，pika目前在內測，只能在他們的discord中進行視頻生成。我們可以使用文字生成視頻，也可以使用圖片生成視頻，視頻時長3秒，且會損失畫質，如果我們提交的圖片畫質本來就差，那么生出來的視頻的質量會更差。因此，如果想要在pika上生成較好的視頻，注意上傳高清圖片。如果是使用文字生成，那么提示詞要寫清晰，這樣才能得到自己想要的場景視頻。

3類生成式AI工具在實際應用中的問題

圖片來源：pika

（來源：Google SEO 喵喵）

以上內容屬作者個人觀點，不代表雨果跨境立場！本文經原作者授權轉載，轉載需經原作者授權同意。?