亚洲爆乳中文字幕无码专区网站-黄页网站视频-暖暖 免费 高清 日本 在线-97亚洲熟妇自偷自拍另类图片-国产av久久久久精东av

EN

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

2023-06-01

這一新型的AI被稱為“生成式人工智能”(Generative AI),也就是說,機器并非如之前那樣僅分析已有的數(shù)據(jù),而是生成了全新的東西。

——《生成式AI:充滿創(chuàng)造力的新世界》

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

我們正在進行的工作和生活,都在因為生成式AI的發(fā)展而變化,尤其是在創(chuàng)意這個領(lǐng)域。營銷行業(yè),是創(chuàng)意的聚集地,也正是生成式AI“大顯身手”的地方。無論是文本內(nèi)容、圖像視覺,還是視頻創(chuàng)意,生成式AI正在營銷工作的方方面面幫助我們尋找“新玩兒法”。

這其中,最吸引眼球的領(lǐng)域莫過于圖像與視覺創(chuàng)意的領(lǐng)域。紅杉資本預計,2025年,生成式AI已經(jīng)可以給我們提供最終版本的產(chǎn)品和建筑設計圖了。這一切似乎發(fā)生的如此迅速,讓我們有些“猝不及防”。但其實早在2012年,一切就已經(jīng)開始了。我們認為,這背后的驅(qū)動里就是技術(shù)模型的不斷迭代。
今天,我們就來梳理一下生成式AI在視覺領(lǐng)域一路走來的發(fā)展和應用吧。

背后的驅(qū)動力:算法模型發(fā)展


縱觀整個生成式AI的發(fā)展,可以說,深度學習技術(shù)的升級迭代、算法模型的發(fā)展,為計算機視覺發(fā)展奠定基礎。每一次算法模型的迭代,都會帶來一波計算機視覺領(lǐng)域的大發(fā)展,按照時間線,我們來了解下那些耳熟能詳?shù)哪P腿绾斡绊懸曈X領(lǐng)域發(fā)展。

01 旗開得勝:卷積神經(jīng)網(wǎng)絡CNN

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

算法介紹
卷積神經(jīng)網(wǎng)絡CNN的出現(xiàn),是計算機視覺的一個分水嶺。在2012年之前,計算機視覺還是基于“手工算子”的傳統(tǒng)視覺時期。而卷積神經(jīng)網(wǎng)絡,也就是CNN的出現(xiàn),在圖像分類任務上遠超傳統(tǒng)算法,可謂一戰(zhàn)成名,開啟了深度學習的一個時代。
作為一種深度學習模型,CNN廣泛應用于如圖像分類、目標檢測、語義分割等視覺任務。它一般由多個卷積層、池化層或全局平均層等組成。卷積層可以自動提取輸入圖像中的特征,而池化層則可以將卷積層中的特征進行簡化和壓縮,以便更好地進行后續(xù)處理。最后,全局平均層將前面所有層的結(jié)果進行加權(quán)并進行投票,以確定輸出。在深度學習的發(fā)展中,研究者們還提出更多適用于不同任務的網(wǎng)絡層,從而組成復雜且龐大的網(wǎng)絡結(jié)構(gòu),助力神經(jīng)網(wǎng)絡的蓬勃發(fā)展。

算法應用
CNN算法迅速引起了當時業(yè)內(nèi)的關(guān)注。在2012年,基于這個算法,誕生了圖像識別的諸多應用,如人臉識別、物體識別、圖像分類等。像我們熟悉的AI四小龍也是在這個時間段誕生。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

在行業(yè)的共同推進下,圖像識別技術(shù)迅速在包括支付、營銷、安防、自動駕駛、工業(yè)質(zhì)檢、智慧城市等領(lǐng)域迅速發(fā)展,很多領(lǐng)域開始深入應用圖像識別技術(shù),如今這個技術(shù)已經(jīng)深入到了我們的工作和生活中。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

在營銷領(lǐng)域,分析用戶喜好可以更加直觀,除了文字識別,還可以加入對于評測的圖像識別,讓品牌對于社媒評測的理解更加立體。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

02 乘風破浪:生成式對抗網(wǎng)絡GAN

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

算法介紹

時間來到2014年10月,“GAN之父”Ian Goodfellow提出了生成式對抗網(wǎng)絡,廣泛使用于圖像生成、數(shù)據(jù)增強和文本生成等任務。顧名思義,這個深度學習模型由兩個神經(jīng)網(wǎng)絡組成,分別是生成器和判別器,并讓他們相互“對抗”。生成器用于生成新的樣本,而判別器則用于判斷生成器生成的樣本是否真實。兩個模型互相博弈,在虛擬與求真的對抗中,逐步訓練并生成一個更佳的內(nèi)容。
GAN的算法模型可謂“家族龐大”,在2014年之后,沿著這種“對抗”的思路,生成對抗模型也一直在發(fā)展,包括Pix2Pix、SRGAN、Cycle-GAN、BigGAN、StyleGAN……等。


算法應用
伴隨著GAN模型體系的發(fā)展,圖片的生成也從圖片到圖片的風格遷移,發(fā)展到了文本指導的圖片生成,可以實現(xiàn)圖片風格、人臉特征、物體細節(jié)的轉(zhuǎn)變。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

這個階段,我們能夠看到的營銷玩法就更加多樣化了,在圖片美化、視頻拍攝和剪輯、視頻特效、視頻會議等等方面,都有了很多使用場景。

?03 繼往開來:Vision Transfomer模型

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

算法介紹
2020年,Vision Transformers模型(ViT模型)把NLP領(lǐng)域霸榜的模型引入了視覺領(lǐng)域。相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(CNN)模型,Vision Transformers將圖像劃分為多個小塊(patches),并引入自注意力機制,通過學習更大規(guī)模的數(shù)據(jù)集,實現(xiàn)了規(guī)模和計算精度的一個跨越式的提升。


算法應用
一方面,ViT模型可以在很多領(lǐng)域?qū)崿F(xiàn)顯著的精度提升,包括圖像分類、目標檢測、對象檢索、語義分割、圖像生成和視頻摘要等多個領(lǐng)域。
另一方面,ViT模型將視覺能力引入到自然語言理解模型范式中,顯著降低了不同模態(tài)(如視覺和文本)信息的交互成本,充分激發(fā)了多模態(tài)領(lǐng)域的蓬勃發(fā)展,這也為后續(xù)的大模型做了充分的準備。

04 精益求精:擴散模型Diffusion

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

算法介紹
之所以我們看到Midjourney等生成式AI系統(tǒng)在畫圖領(lǐng)域這么火,主要是因為2022年,Diffusion模型的“進化“。
作為一種機器學習技術(shù),Generative Diffusion Models(生成式擴散模型)具有強大的生成能力。它們能夠根據(jù)給定的初始值和一些參數(shù),在訓練過程中逐步演化生成新的數(shù)據(jù)樣本。其核心思想是通過迭代的擴散過程來生成數(shù)據(jù):從一個初始值開始,并通過多個迭代步驟逐漸“擴散”數(shù)據(jù)。每個迭代步驟都會降低這些隨機噪聲,并根據(jù)模型的參數(shù)和其他約束條件(如文本、圖片等)進行數(shù)據(jù)更新。隨著迭代的進行,數(shù)據(jù)逐漸演化,生成出與訓練數(shù)據(jù)類似的新樣本。通過使用Generative Diffusion Models,我們可以生成逼真的圖像、音頻、文本等多種類型的數(shù)據(jù)。
在2022年7月,創(chuàng)業(yè)公司提出Stable Diffusion并開源使用,進一步推進了AIGC在視覺任務的發(fā)展。該算法使用了感知壓縮(Perceptual Compression)的技巧,將圖像從像素空間映射到潛在空間,然后在潛在空間上進行擴散操作,最后再解碼回像素空間。它還引入了條件機制(Conditioning Mechanisms),通過交叉注意力(Cross-Attention)的方式來實現(xiàn)多模態(tài)訓練,使得條件圖片生成任務也可以實現(xiàn)。這一模型大幅降低了訓練成本,提升了收斂速度與訓練穩(wěn)定性,一經(jīng)發(fā)布迅速地成為了AIGC中的基線模型,研究者和創(chuàng)業(yè)者們基于這一算法思想,孕育了更多的算法與應用創(chuàng)新。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

算法應用
通過Diffusion Models, 我們看到了更多視覺生成的可能性,除了文圖生成,還有類似風景圖語義合成、布局圖片生成、圖片修復、圖片擴展等等。在語義和圖像的結(jié)合上,機器能做到更深入的理解和輸出了。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

這一部分在營銷應用上有巨大潛力。例如,利用LORA技術(shù),我們可以使用17張不同角度的車輛圖片訓練模型,并根據(jù)需求將訓練的車型與任意背景進行融合。這樣,我們可以在3-5分鐘內(nèi)生成出右側(cè)展示的圖片,該車型能夠完美融入歐式街道背景,實現(xiàn)出色效果。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

其實,我們可以看到很多人開始探索這項技術(shù)在多種任務上的應用,比如漫畫插圖、AI技術(shù)模特、室內(nèi)設計出渲染方案。可以說,我們已經(jīng)在方方面面感受到了生成式AI在視覺與營銷的結(jié)合上可以有非常多的想象空間。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

05 未來已來:多模態(tài)模型正在發(fā)展


大型模型的迭代速度非常快,最近我們觀察到熱門的研究方向還集中在多模態(tài)訓練上。在ChatGPT大火的今天,大語言模型已經(jīng)被人們所熟知,但既包括自然語言輸入、又包括圖像輸入的網(wǎng)絡結(jié)構(gòu),也引起了研究者們的關(guān)注。在下圖中,圖片編碼器處理輸入圖像,提取其高維特征,并通過Q-Former這樣一個Transformer結(jié)構(gòu),架設了視覺與大型語言模型的橋梁。
舉個例子,我們輸入一張圖片,并要求網(wǎng)絡根據(jù)該圖像描述一段浪漫的文字,輸出結(jié)果可能是”愛就像落日,雖然它很難被察覺,但一旦出現(xiàn),它是如此美麗”。這樣的句子即清晰地描述了圖片的內(nèi)容,又延伸出了一種浪漫的感覺。這種融合了圖像和語言信息的模型似乎真的能讓我們感受到機器的浪漫。在營銷智能里,我們期盼這樣的多模態(tài)大模型能給業(yè)務帶來更多有想象力的應用。

從算法模型發(fā)展,看生成式AI在視覺領(lǐng)域的發(fā)展與應用

營銷新時代


未來我們面臨的是新范式下的新時代,相信,也是創(chuàng)意與營銷生產(chǎn)力爆發(fā)的時代。隨著機器告訴我們浪漫的落日與愛,我們似乎可以真的可以和“機器模型”一起,去探索消費者的心智,分析真正的消費趨勢和需求熱點。而通過生成式AI的賦能,我們也可以更好的提供個性化的用戶體驗,讓營銷人從重復勞動中解放出來,和AI共同探討創(chuàng)意本身。期待AI和我們并肩,實現(xiàn)真正的人機同行。

信息填寫

*手機號碼:

請選協(xié)議

主站蜘蛛池模板: 一边吃奶一边做动态图| 国产精品久久毛片| 精品无码国产av一区二区三区| 无码av无码一区二区桃花岛| 国产亚洲曝欧美曝妖精品| 免费看欧美成人a片无码| 亚洲天堂2017无码中文| 欧洲精品欧美精品| 尹人香蕉久久99天天拍欧美p7| 中文字幕无码一区二区免费| 一区二区三区精品视频免费播放| 久久久综合九色综合88| 国产又黄又大又粗的视频| 影音先锋人妻av在线电影| 在线看片免费人成视频在线影院| 草草久久久无码国产专区| 蜜桃av无码免费看永久| 在线观看一区二区三区国产免费| 国模大胆一区二区三区| 99久久国产综合精品1| 小13箩利洗澡无码视频免费网站| 国产剧情福利av一区二区| 欧美日本免费一区二区三区 | 久久国产精品99久久久久久口爆| 性欧美牲交xxxxx视频| 国产精品亚洲一区二区无码| 国产 中文 亚洲 日韩 欧美| av人摸人人人澡人人超碰手机版 | 久久婷婷成人综合色| 国产精品嫩草影院av| 国产精品无码一区二区在线观一| av无码人妻无码男人的天堂| 在线观看国产一区二区三区| 国产免费一区二区三区免费视频| 99视频国产精品免费观看| 伊人依成久久人综合网| 人妻无码中文字幕免费视频蜜桃| 欧美人与zoxxxx另类| 天天爽夜夜爽夜夜爽| 久久人人爽人人爽人人片av麻烦 | 国产精品无码久久四虎|