• <li id="yeaqi"><button id="yeaqi"></button></li>
  • <fieldset id="yeaqi"></fieldset>
    <fieldset id="yeaqi"><table id="yeaqi"></table></fieldset>

    •  

      當前速訊:AI 可以取代你的工作嗎?從原理分析「AI 生成」圖像的秘密
      發布時間:2023-04-03 14:59:16 文章來源:少數派
      編注:本文是少數派會員內容的試讀文章。如果對本文感興趣,歡迎考慮訂閱少數派會員,獲得專屬內容、獨家周邊、會員社區和定期優惠等多項福利


      (資料圖)

      編注:本文是少數派會員內容的試讀文章。如果對本文感興趣,歡迎考慮訂閱少數派會員,獲得專屬內容、獨家周邊、會員社區和定期優惠等多項福利。

      作為一個非職業的攝影愛好者,我通常會在 Instagram 上面搜羅各種各樣的優質圖片并將其放進我的收藏夾。其中,有一位我關注了很久的德國攝影師,他的作品有很多值得我學習的地方。

      在經歷了一段時間因 ChatGPT 帶來的職業發展焦慮后,我開始有意無意地在生活中關注 AI 相關的消息。當我回看我的收藏夾,我驚訝地發現發現自今年一月份以來,這位德國攝影師發布的大部分照片都是由 AI 生成的。而我在收藏和欣賞這些圖片的時候,居然一點也沒有察覺出這些圖片是 AI 制作的。
      圖片來源:Instagram freaksplace,由 AI 生成
      所以我想在這篇文章里和大家一起聊一聊 AI 圖像生成的原理、過程,以及我是怎么看待 AI 圖像生成這股浪潮的。 ▍AI 生成圖片的原理

      生成與轉換:AI 繪畫的兩大核心算法

      AI 繪畫的原理并不是簡單地將多個圖片數據拼接在一起所生成的圖像。與 ChatGPT 的本質邏輯相似,AI 繪畫生成圖片的過程是通過對訓練數據的學習,讓 AI 模型能夠理解和提取圖像的基本特征、結構和樣式。 然后,根據給定的描述或關鍵詞,嘗試在新的圖像中融合和組合這些特征,以生成與輸入相關的圖像。完成這一任務的兩種核心算法分別是生成模型和轉換模型。

      生成模型:生成對抗網絡(GAN)

      生成模型是一種能夠根據給定條件生成新數據的算法。在 AI 繪畫中,生成模型通常采用生成對抗網絡(generative adversarial networks, GAN),其中包括兩個神經網絡:一個生成器和一個判別器,生成器負責生成新圖像,判別器則評估生成器的性能。通過反復訓練生成器和判別器,生成模型可以逐步提高生成圖像的質量。 簡單來說,生成器負責學習并嘗試生成新的圖像,而判別器則會對生成的圖像進行判定。這種生成器和判別器之間的競爭與對抗關系促使生成器不斷改進其生成能力,從而創造出更加逼真和高質量的圖像。 除了 GAN 對抗模型以外,還有一種擴散模型(Diffusion)同樣可以生成圖像。 擴散模型的核心思想是通過向原始圖像添加噪聲,將其擴散到一個噪聲圖像,然后逐步從噪聲圖像中還原原始圖像。在接受訓練后,模型學會接受用戶提供的文本提示,創建低分辨率圖像,然后逐漸添加新細節以變成完整圖像。 轉換模型:卷積神經網絡(CNN)轉換模型用于將輸入圖像轉換成另一種風格的圖像。在 AI 繪畫中,轉換模型通常采用卷積神經網絡(convolutional neural network, CNN)實現。 這些模型通過學習如何將輸入圖像轉換為特定的風格,例如梵高的星空或畢加索的風格。模型的訓練通常依賴于擁有大規模圖片數據的訓練數據集,例如 ImageNet 和 COCO 數據集。 以 ImageNet 數據集為例,目前最新的版本是 ImageNet-21K,該數據集包含 21841 個物體類別,共有超過 2100 萬張圖片。其中,訓練集包含超過 1400 萬張圖片,驗證集包含超過 5 萬張圖片,測試集包含超過 10 萬張圖片。 ImageNet 的物體類別包括各種動物、物體和場景等,如動物類別包括「狗」「貓」「鳥」等,物體類別包括「汽車」「椅子」「電視」等,場景類別包括「海灘」「山脈」「公園」等。每個物體和場景類別都有大量的圖片來支持模型的訓練和評估,這些圖片都是高分辨率的彩色圖片,具有不同的角度、光照、背景等多種變化。

      圖像字幕技術:讓 AI「看懂」圖片

      圖像字幕技術(Image Captioning)指的是通過深度學習算法生成圖像文本描述的過程。 圖像字幕的過程通常涉及將圖像輸入神經網絡,該網絡提取相關的視覺特征,然后生成描述這些特征的單詞序列。神經網絡是在大量圖像及其相應字幕的數據集上訓練的,使用卷積神經網絡進行圖像分析,并使用遞歸神經網絡(recurrent neural network, RNN)生成文本。 簡單來說,就是讓計算機「看懂」一張圖片,然后自動為這張圖片生成一句話的描述。神經網絡會通過對圖像中的物體、場景、動作等元素進行識別和分析,并利用語言模型將圖像的內容轉化為文本。例如,對于以下這張圖片,AI 會生成類似于「一只 狗 在 草地 上 奔跑」的描述。 當然,這只是舉了一個簡單的例子,而計算機提取的特征比我們想象的要多得多。比如,對于圖二中奔跑的邊牧,計算機在使用圖像字幕技術時,不僅會對圖像進行特征提取,還會識別出狗的形狀、大小、肢體運動等特征,并將其轉換為文字描述。 在訓練過程中,圖像字幕技術會接收大量的圖像,如模糊的邊牧、有殘影的邊牧、歪頭撅屁股的邊牧。經過大量訓練后,技術可以生成相關的文字標簽,形成準確的判斷和生成,從而實現真正的「看懂」效果。 ▍AI 如何將圖像中提取出的文字特征組合在一起?事實上,文字、詞語或是詩句等文字描述對于 AI 來說還是太過于抽象,它們目前來說并不能像人一樣理解。這時就需要將文字、文本、詞匯等非連續性數據轉化為計算機可以處理的連續型數據。 簡而言之,這意味著將不可計算和非結構化的文字描述、詞匯等轉換為可計算和結構化的嵌入向量。 嵌入向量(Embedding Vectors)是一種技術,可以將離散符號(例如單詞、標簽等)轉換為連續的實數向量。通過學習得到的嵌入向量,計算機能夠更好地理解符號之間的關系,從而實現各種任務,例如語言翻譯、情感分析、推薦等,并保留符號之間的語義相似性。 常見的詞嵌入向量模型用于表示單詞的語義信息。例如,Google 的 Word2Vec 模型可以給每個單詞分配一個固定長度的向量表示,這個長度可以自行設定。兩個單詞向量之間的夾角值可以作為它們之間關系的衡量。下面是一些單詞和它們對應的嵌入向量的 2D 可視化示例,可以將它們想象為空間中的三維或多維坐標來更容易理解。 兩個單詞向量之間的夾角值可以作為詞語之間關系的衡量 比如「狗」「貓」這兩個詞在 Word2Vec 中的嵌入向量非常接近,這兩個單詞的詞向量(單詞所在的點與原點連接的直線所在的向量)就離得比較近。這樣做的好處就是同義詞或者同語境的詞之間的向量就會很接近,可以保留文章的語義。 AI 繪畫對于處理嵌入向量的邏輯流程與 ChatGPT 等大型語言模型有相似之處,根據圖像特征來尋找匹配相似詞的原理是相同的。 ▍AI 如何生成圖像?AI 生成圖像的原理其實并不復雜。在生成圖片的過程中,生成器會首先生成一個較低分辨率的圖像,然后逐漸增加細節和復雜性。每一層神經網絡都會處理不同級別的特征,從低級特征(如邊緣和紋理)到高級特征(如物體和場景的組成)。 生成器的神經網絡層之間存在連接關系,這些連接使得生成器可以在不同層次上對特征進行組合。例如,生成器可能會先確定一個場景的大致布局,然后在這個布局的基礎上添加物體和其他細節。在整個生成過程中,生成器會根據輸入的描述或關鍵詞調整特征的組合,以創造出與輸入相關的圖像。 下面通過一個簡化的例子來說明生成器是如何將輸入的文本等語言轉換為一張包含多個特征的圖像。 假設我們使用一個 AI 繪畫模型,輸入的文本描述是「一座雪山下的小木屋」,希望生成器能夠根據這個描述創建一張真實的圖像。當我們輸入「A cabin under a snow mountain」這句話后,AI 會將文本描述轉換為嵌入向量。類似于拆分詞語,這句話會首先被轉換為「一座」「雪山」「下」「小木屋」,并捕捉了描述中的語義信息,并將其轉換為計算機可以處理的數值形式。 首先是低級特征生成。生成器接收到嵌入向量后,開始生成圖像。在神經網絡的較低層,生成器會處理低級特征,例如邊緣、顏色和紋理。在這個階段,生成器會確定雪山和小木屋的大致輪廓、顏色和紋理。 接下來是高級特征生成。隨著神經網絡層數的增加,生成器開始處理更高級的特征,例如:物體形狀和場景組成。在這個階段,生成器會根據輸入的描述,在畫面中放置雪山和小木屋,并確定它們之間的相對位置和大小。 緊接著就是細節添加。在神經網絡的較高層,生成器會進一步細化圖像,添加更多細節。例如,生成器可能會在小木屋上添加窗戶、門和煙囪,在雪山上添加雪的紋理等。 這張圖的煙囪和樓梯的位置生成錯誤,判別器工作——修改煙囪的位置 最后完成圖像。經過生成器的多層神經網絡處理,最后得到一張包含雪山和小木屋的圖像。這張圖像將包含從低級到高級的各種特征,使其看起來既真實又具有視覺吸引力。 ▍另辟蹊徑的生成方式OpenAI 的 DALL-E2 則提供了 AI 生成圖片另一種方式,即通過設定蒙版與區域來合成圖片。簡單一點來講,就是通過「傻瓜式」的操作讓普通人也能完成圖片合成的效果。 以這張圖為例,我覺得這個小房子太古典了,我想要現代一點的景觀,于是我就用畫筆工具將這個小房子的區域摳掉,AI 會在這片被扣掉的區域幫我重新生成圖片,例如畫一個現代一點的建筑。 又比如,我覺得 AI 生成的方形圖像不符合我的要求,想要 AI 幫我補充一下畫幅,加一點極光和星空進去,我只需要再拖一個蒙板進去,并輸入一些關鍵詞就可以了。 ▍那么 AI 是攝影的未來嗎?AI 生成圖片的進步從未停止,從最初的「一眼假」到現在的以假亂真。除非主題比較新穎和魔幻,AI 生成的圖片已經足以商業用途并且能夠達到以假亂真的效果。 我的本職工作并不是一名職業攝影師,與大多數人一樣,我的日常工作是從事數據處理,工作繁忙而且勞累。對于一個剛入行的新人來說,分配給我的任務難度不是很大,其中大多數都是簡單且具有機械重復性的勞作。 在我的工作中,擁有 ChatGPT 的提升是巨大的,極大地改變了我的工作流程。對于一個只了解編程皮毛的外行人來說,在重復而又繁瑣的工作中,我可以毫不費力地使用它來幫助我編寫程序以實現半自動化的工作流程。 對于攝影行業也是一樣,通過熟練地使用 AI 技術,足不出戶的我一天之內就可以生成幾十張還算不錯的創意圖片。對于沒有繪畫和藝術技巧的我,現在也可以發揮自己的想象力,創作出曾經只存在于我的大腦中的構想。這些想法有些超越了現實攝影的界限,有些超越了時間的跨度。曾經看似無法實現的照片和圖像作品,現在只需一瞬間就可以創造出來。 AI 創造的圖片影調很好,色彩幾乎完美。如果將這些圖片發布在 AI 繪圖出現之前的社交媒體軟件上,肯定會獲得大量點贊和好評。 但隨著 AI 圖片創意產業的加速發展,我相信很多人對于圖片質量的評判標準也將改變。這自然也帶來了新的問題,AI 生成的攝影作品是否能夠真正地稱之為攝影作品?對于未來高質量圖片的爆炸式增長,我們又該以何種標準和審美來評判一張照片是否為好照片?相機實拍的「真實」與 AI 生成的「虛擬」的界限又在哪里? 在 AI 繪畫出現之前,我們依靠 PS 等軟件也可以完成這樣簡單的合成圖片,卷積神經網絡這種算法早已被用于 PS 的多種工具中。 舉例來說,如果我想修補一個圖像中并不存在的區域,填充工具和修補圖章會分析圖像中的紋理、顏色和其他特征,找到與需要修補的區域相似的其他區域進行特征提取和匹配,然后將這些相似區域的像素值與需要修補的區域像素值進行融合,以實現自然且無縫的修補效果。另外,手機上早已應用了 AI 算法,幫助我們實現影像質量的大幅提升。在我們已經擁抱算法帶來便利的時代,我們又有什么理由拒絕 AI 生成的攝影作品呢? 想要區分所謂「真實」和「虛擬」的攝影藝術,恐怕這個界限早已模糊了。對于「人」的攝影來說,商業或非商業的照片更多的是記錄生活和捕捉那些令人感動、震撼或悲傷的瞬間。每個影像都是一個故事的載體,傳達著拍攝者的情感和觀點。以風光攝影師為例,拍攝這樣的圖片可能需要提前在谷歌地球上規劃好拍攝角度和機位,然后在野外蹲守一兩天等待合適的天氣和時間。得到滿意的 RAW 文件之后,后期制作也需要費點心思才能修出驚艷的效果。 AI 逐漸打破了創作攝影作品的繁瑣過程和普通人難以逾越的技術鴻溝,隨著攝影技術的下沉,在可預見的未來,更多的普通人可以輕松地拍攝或制作高質量的照片,無需實際經歷那些艱難的時刻或注入情感,也能獲得同樣令人愉悅或震撼的結果。 在未來,不受技術和器材限制的時代,也許最珍貴的攝影產物不是圖片,而是創意和思想。

      /更多熱門文章/

      關鍵詞:

      樂活HOT

      • 四川正式啟動三級保供電調控措施保障民生用電 優化各類電源發電計劃
        四川正式啟動三級保供電調控措施

        繼8月11日、14日連續兩次召開電力保供工作緊急視頻會議后,8月15日,四川再次召開電力保供調度會。記者從會上獲悉,預計全省最大用電負荷將

      • 前7月四川能源項目累計完成投資493億元 油氣類項目完成投資159億元
        前7月四川能源項目累計完成投資4

        今年以來,四川積極擴大能源領域有效投資,前7月能源項目累計完成投資493億元、同比增長4%。8月15日,省能源局相關負責人介紹,前7月煤炭類

      • 四川加力加勁堅決遏制事故多發頻發態勢 有效提升預報預警水平
        四川加力加勁堅決遏制事故多發頻

        8月15日,全省防汛減災、森林草原防滅火工作電視電話會議召開,深刻汲取彭州8·13山洪災害教訓,分析研判當前形勢,安排部署下一步重點工作

      • 四川攀枝花推動打造職業能力建設工作品牌 提供人才廣闊展示舞臺
        四川攀枝花推動打造職業能力建設

        8月9日,攀枝花技師學院實習工廠里,焊花四濺,機器聲此起彼伏。身穿工作服的教師周樹春,在一間間操作室里進進出出,指導學生們焊接。過去

      • 上半年湖南物流需求平穩增長行業運行平穩 快遞業務量完成10.3億件
        上半年湖南物流需求平穩增長行業

        記者從省發改委獲悉,上半年全省物流需求平穩增長,行業運行總體平穩。全省社會物流總額64096 2億元,同比增長4 4%;全省物流業總收入為2270

      • 湖南各地工業企業忙生產全力以赴穩增長 生產線全力運轉
        湖南各地工業企業忙生產全力以赴

        在全球最大地下工程裝備制造基地,掘進機生產計劃已排到年底;千億級工程機械產業園區邊建設邊生產,打造智能制造標桿……時已立秋,三湘大

      • 江西贛州醫療衛生服務體系進一步完善 完善“三醫”聯動機制
        江西贛州醫療衛生服務體系進一步

        上猶縣水巖鄉衛生院醫生蔡昌才驅車前往金盆村為村民駱運招治病。以往,每月去醫院就診不僅路途遠,還要排隊。這幾年有了家庭醫生后,直接送

      • 江西堅持問題導向推進藥品安全專項整治走深走實 持續完善投訴舉報渠道
        江西堅持問題導向推進藥品安全專

        今年2月以來,省藥監局深入開展藥品安全專項整治行動,堅持問題導向,以嚴厲打擊違法犯罪行為、全面排查風險隱患為手段,推進專項整治行動

      • 江西九江多舉措為創業者營造良好創業貸款環境 就業創業事項一次性辦
        江西九江多舉措為創業者營造良好

        沒想到,現在直接在窗口就能辦理,真是太方便了。蔣瓊在九江市經營一家造型工作室,近期有意擴大生意規模,需要資金周轉。她帶齊資料來到九

      • 上半年江西新余全市外貿進出口總值同比增長84.3% 外貿主體活力持續激發
        上半年江西新余全市外貿進出口總

        記者從新余海關獲悉,今年上半年,新余市外貿取得了較好成績,全市外貿進出口總值184 3億元,同比增長84 3%,高出全國平均水平74 9個百分點

      • 南昌高新區多舉措推動重點項目建設加速跑 完善重大重點項目推進機制
        南昌高新區多舉措推動重點項目建

        作為南昌市第二季度集中開工的重大項目之一,南昌數谷產業園項目總投資100億元,計劃2024年5月完工交付使用,擬引進字節跳動、華為(南昌)工

      • 安徽淮南頒發優才卡落實高層次人才服務保障制度
        安徽淮南頒發優才卡落實高層次人

        淮南市向中國工程院院士、安徽理工大學校長袁亮頒發了第一張淮南市高層次人才優才卡。為深化我為人才辦實事實踐活動,落實高層次人才服務保

      • 宿州市埇橋區細化工作舉措筑牢防汛“安全堤”
        宿州市埇橋區細化工作舉措筑牢防

        連日來,宿州市埇橋區不斷細化各項工作舉措,壓實防汛各項責任,提升應急救援保障能力,筑牢防汛安全堤。目前,該區防汛物資已儲備到位,全

      • 安徽無為市“交地即交證”優化營商環境政策正式落地
        安徽無為市“交地即交證”優化營

        近日,無為市自然資源和規劃局、無為市福渡鎮人民政府在無為潤峰中海置業有限公司項目部現場舉行交地即交證頒證儀式,標志該市交地即交證優

      • 安徽全椒縣推動農村寄宿制學校試點工作
        安徽全椒縣推動農村寄宿制學校試

        設施齊全的衛生食堂、水沖式的獨立衛生間、樓道墻體粉刷一新的宿舍……走進安徽省全椒縣武崗學校,已經運行滿一年的農村特色寄宿制學校成果

      娛樂LOVE