IA sáng tạo sẽ phá vỡ mọi thứ như thế nào trong thập kỷ hiện tại

Nhiều người sẽ ngạc nhiên

Hình ảnh của tác giả với Khuếch tán ổn định

In Những tháng gần đây, các hệ thống AI như Midjourney, DALL-E, Stable Diffusion, LaMDA và PaLM đã đạt được những bước tiến lớn trong các lĩnh vực có vẻ đa dạng như tạo hình ảnh và văn bản. Khả năng của các hệ thống này rất ấn tượng: chúng tạo ra những hình ảnh có tính gợi ý cao, tạo nội dung bán hàng hiệu quả cho quảng cáo và hơn thế nữa – tất cả chỉ từ những “lời nhắc” mô tả những gì người dùng muốn nhận.

Tất cả điều này được thực hiện với AI sáng tạo.

“Generative AI” đề cập đến các hệ thống được hỗ trợ bởi mạng lưới thần kinh sâu thực hiện Mô hình ngôn ngữ lớn (LLM) để tạo một số loại nội dung. Ở đây tôi nói “sáng tạo”, nghĩa là nó không phải là bản sao của một cái gì đó đã tồn tại, không phải theo nghĩa triết học (dù sao thì “sáng tạo” là gì?).

Các công ty lớn mới đang nổi lên trong thế giới mới dũng cảm này, như Jatpe, cung cấp thế hệ cả bản sao bán hàng lẫn hình ảnh để quảng cáo: Jasper hiện được định giá hơn một tỷ đô la, trở thành kỳ lân chỉ sau một đêm.

Nền tảng Generative AI đầu tiên thực sự tạo được tiếng vang là GPT-3 – được phát hành chỉ vài năm trước! Sau đó, liên tiếp các bản phát hành của một số công ty trong lĩnh vực này (OpenAI, Google, StableDiffusion, Google, DeepMind và những công ty khác) đã xuất hiện với tốc độ chóng mặt, nhiều đến mức khó có thể cập nhật kịp thời.

Nhưng ngoài việc dành chút thời gian thú vị và tuyệt vời với Midjourney để tạo hình ảnh từ lời nhắc của chúng tôi, nhiều người đam mê công nghệ còn gặp khó khăn trong việc hiểu làn sóng Generative IA này.

Generative IA có phải là một xu hướng vững chắc hay chỉ là mốt nhất thời?

Tôi sẽ đi tìm “xu hướng vững chắc” bởi vì nó sẽ biến đổi hàng nghìn hoạt động nghề nghiệp và giải trí trong phạm vi thập kỷ này. Hãy để tôi bắt đầu với một ví dụ.

Tôi là một người hâm mộ quần vợt cuồng nhiệt (ít nhất là theo nghĩa truyền hình). Nhưng các trận đấu quần vợt trực tiếp phải mất hàng giờ để kết thúc và tôi có các hoạt động và sở thích khác, vì vậy tôi thường xem các video phát lại hoặc chỉ nêu bật các video có khoảng 4 phút thú vị nhất từ ​​một trận đấu.

Nhưng nếu thay vì một video dài 4 phút, tôi muốn một video dài 10 hoặc 15 phút thì sao? Hoặc nếu tôi muốn tính mọi điểm vào loạt tie-break? Hiện tại tôi đang không gặp may.

Bây giờ hãy sử dụng chiếc mũ Generative-IA của bạn: trình tạo video thể thao Generative IA sẽ tạo video chỉ dành cho bạn theo các thông số kỹ thuật mà bạn đưa vào lời nhắc văn bản một cách không chính thức như sau:

"Video dài khoảng 15 phút với những điểm thú vị nhất của trận đấu Rafa Nadal vs. Tommy Paul tại Paris Bercy 2022, bao gồm cả tiebreak đầy đủ nếu có, cũng như mọi breakpoint được quy đổi"

Đó là nó. Bạn nhận được một liên kết đến video được cá nhân hóa của mình, khác với video được bất kỳ ai khác trên thế giới xem. Và dịch vụ video này sẽ khả thi về mặt kinh tế như DALL-E và Midjourney.

Nghiên cứu khác với đổi mới. Cái trước quan tâm đến những kết quả ban đầu được công bố, còn cái sau liên quan nhiều hơn đến việc tìm cách xây dựng doanh nghiệp từ những kết quả đó: sự đổi mới không quan tâm đến tính nguyên bản mà quan tâm đến sự tăng trưởng, khả năng phòng thủ, lợi tức đầu tư, v.v.

Mọi thứ thường trở nên khó hiểu vì nghiên cứu được thực hiện bởi các công ty như Google, về nguyên tắc là để kiếm lợi nhuận –nhưng họ hiểu rằng hoạt động kinh doanh của họ là công nghệ cao và công nghệ không cao nếu không có nghiên cứu. Vì vậy, họ tham gia tài trợ cho nghiên cứu cũng như tiếp cận giới học thuật – nhiều nhà nghiên cứu hàng đầu của họ đã được thuê từ học viện. Bản thân với tư cách là một nhà nghiên cứu, tôi đã được mời tham dự Hội nghị thượng đỉnh Khoa tại trụ sở chính của họ ở Mountain View cách đây vài năm và họ đã cho tôi ở trong một căn phòng ở khách sạn Four Seasons – bất cứ điều gì cần thiết để tạo ấn tượng tốt với cộng đồng học thuật!

Nhưng ngay cả khi việc phân biệt rõ ràng giữa nghiên cứu và đổi mới có thể khó khăn – và thậm chí là giả tạo – thì sự khác biệt vẫn rất quan trọng ở đây bởi vì, trong trường hợp của Generative AI, cả hai sẽ được phát triển bởi các tác nhân khác nhau và chúng sẽ được liên kết với nhau. với hai lớp khác nhau trong ngăn xếp phần mềm –as được chỉ ra bởi J. Currier:

  1. Lớp phần mềm dưới cùng là Mô hình học sâu, được xây dựng dựa trên việc triển khai Mô hình ngôn ngữ lớn (LLM) hoặc biểu diễn nội bộ tương đương. Các mô hình cung cấp khối xây dựng cơ bản để từ đó các ứng dụng có thể được phát triển.
  2. Lớp phần mềm trên cùng là ứng dụng một, được xây dựng dựa trên mô hình Deep Learning để hoàn thành một nhiệm vụ cụ thể, chẳng hạn như xuất hình ảnh từ lời nhắc văn bản.

Kiến trúc hai lớp này sẽ thúc đẩy một kỷ nguyên mới của sự đổi mới nhanh chóng vì một khi lớp dưới cùng được phát triển bởi các công ty rất lớn như Google, OpenAI và các công ty khác, thì các công ty nhỏ hơn sẽ cung cấp lớp ứng dụng – tất nhiên là một phần lợi nhuận của họ sẽ bị cắt giảm tới nhà cung cấp lớp dưới cùng.

Hiện tại, lớp bên dưới đã được cải tiến nhanh chóng – và thông thường, nó được phân phối cùng với một ứng dụng ở trên cùng. Ví dụ: LaMDA và PaLM cung cấp khả năng hội thoại ngay lập tức, trong khi DALL-E và Midjourney cung cấp dịch vụ nhắc nhở đến hình ảnh. Nhưng chẳng bao lâu nữa, sự gia tăng nhanh chóng của các lựa chọn thay thế nguồn mở cho lớp dưới cùng sẽ giúp chỉ có thể phát triển lớp ứng dụng trên cùng và cắm nó vào lớp dưới cùng đã có sẵn. Tất nhiên, nói thì dễ hơn làm, nhưng thực tế là lớp dưới cùng phức tạp hơn nhiều so với lớp trên.

Tôi cho rằng Generative IA sẽ thấm vào hầu hết mọi công việc tri thức và hoạt động giải trí bởi vì nó sẽ cung cấp các công cụ để loại bỏ sự phức tạp khỏi các hoạt động khó khăn trước đây và bởi vì nó có thể cung cấp một cấp độ cá nhân hóa hoàn toàn mới mà tôi gọi là “cá nhân hóa sáng tạo”.

Bạn có thể xem "cá nhân hóa sáng tạo" là gì từ ví dụ về video thể thao ở trên: mỗi người dùng được cung cấp một video nổi bật hoàn toàn mới và độc đáo thay vì chỉ lựa chọn giữa hai hoặc ba tùy chọn.

Tác động tích lũy từ tất cả các ứng dụng Generative IA thật khó để phóng đại:

  1. Việc tạo đồ họa dễ dàng đã nằm trong tầm tay của những người không chuyên với các công cụ như DALL-E, Midjourney và Stable Diffusion, ít nhất là cho các mục đích thực dụng đơn giản như lấy hình ảnh tiêu đề cho bài đăng này. Trước năm nay, tôi hoàn toàn không thể vẽ được hình ảnh của riêng mình và các chuyên gia blog khuyên không nên lãng phí thời gian vào việc thiết kế đồ họa cho câu chuyện của chính mình.
  2. Người dùng chỉnh sửa ảnh sẽ không cần phải trải qua quá trình học tập khó khăn để thành thạo bộ công cụ phức tạp của Photoshop hoặc Affinity Photo (tôi sử dụng công cụ sau và nó phức tạp đến mức tôi phải tham khảo các hướng dẫn trên YouTube để tìm hiểu cách thực hiện hầu hết các điều chỉnh). Với Generative AI, người dùng sẽ chỉ yêu cầu phần mềm thực hiện một chuyển đổi nhất định và thì đấy! Hình ảnh sẽ được sửa chữa. Nếu Adobe không cung cấp Generative AI bằng các công cụ của họ, họ sẽ bị gián đoạn bởi các công ty khởi nghiệp mới cung cấp chúng và sẽ đi theo con đường của Blockbuster.
  3. Các công cụ thuyết trình như PowerPoint, thay vì chỉ cung cấp các mẫu như hiện nay, sẽ tạo và tinh chỉnh toàn bộ bài thuyết trình ở cấp độ chuyên nghiệp từ các ý tưởng phác thảo. Hiện tại, sự khác biệt giữa thuyết trình chuyên nghiệp và nghiệp dư là rất lớn – điều này sẽ không còn xảy ra nữa.
  4. Viết văn bản sẽ là một quá trình được nâng cao nhờ các công cụ Generative AI. Nhiều hình thức viết đã nhận được sự trợ giúp từ các công cụ phức tạp như Grammarly, nhưng Generative AI sẽ mang đến cho người viết một cấp độ trợ giúp mới về chất lượng, chẳng hạn như bằng cách tạo phiên bản hoàn chỉnh đầu tiên của blog. Viết sẽ là một quá trình hợp tác giữa con người và công cụ AI.
  5. Bất kỳ phần mềm nào dành cho người dùng cuối sẽ phải dễ sử dụng với lời nhắc bằng văn bản hoặc giọng nói. Hướng dẫn sử dụng và video hướng dẫn sẽ trở thành quá khứ và ngay khi người dùng quen với cách sử dụng phần mềm đơn giản mới, mọi thứ sẽ phải cung cấp phần mềm đó để duy trì tính phù hợp.
  6. Việc học ngôn ngữ sẽ được thực hiện chủ yếu với sự trợ giúp của trợ lý giọng nói, được hỗ trợ bởi –bạn đoán đúng rồi– Generative AI. Trợ lý giọng nói, sẽ hoạt động giống như huấn luyện viên ngôn ngữ cá nhân, sẽ sử dụng khả năng hội thoại ngôn ngữ tự nhiên tuyệt vời, lần đầu tiên được thấy trong các hệ thống như LaMDA của Google, để hướng dẫn người học ngôn ngữ con người tiếp thu từ vựng và cách diễn đạt, cải thiện khả năng phát âm, v.v. trợ lý giọng nói không phải là một điều tưởng tượng trong tương lai – nó chỉ có ý nghĩa kinh tế ở thời điểm hiện tại.
  7. Ngay cả các sản phẩm phần cứng (như ô tô) cũng sẽ có hệ thống trợ giúp dựa trên hộp thoại Generative AI. Bạn đã thử thực hiện một thao tác phức tạp như điều chỉnh màn hình trên ô tô hiện đại chưa? Không dễ dàng gì, tôi có thể nói với bạn. Thay vì đi sâu vào các hướng dẫn sử dụng phức tạp, bạn chỉ cần yêu cầu trợ lý giọng nói nhận hướng dẫn hoặc trực tiếp thực hiện các điều chỉnh.

Nhiều ngành nghề sẽ bị biến đổi đến mức không thể nhận ra. Các nhà thiết kế đồ họa đã cảm nhận được tác động của sự gián đoạn này. Toàn bộ ngành nghề sẽ biến mất và những ngành nghề khác sẽ được tạo ra. Các công ty hùng mạnh sẽ phá sản và những công ty mới sẽ trở nên thống trị, tùy thuộc vào mức độ họ xử lý sự gián đoạn công nghệ do Generative AI mang lại.

Và tất cả những điều này sẽ xảy ra trong thập kỷ này.

Tôi có thể sai, nhưng đối với tôi, có vẻ như rất khó, ngay cả đối với các chuyên gia công nghệ dày dạn kinh nghiệm, để dự đoán khả năng to lớn của các trình tạo văn bản và hình ảnh hiện tại: vài năm trước đây không có bằng chứng rõ ràng rằng các mô hình và bộ đào tạo khổng lồ sẽ dẫn đến những khả năng khác nhau về chất lượng.

Tôi có thể đi xa hơn khi nói rằng đó là một phát hiện may mắn, gần như ngẫu nhiên. Nhưng giờ đây chúng ta đã có các công cụ sáng tạo, cánh cửa đã mở ra cho các công ty đổi mới sẽ phát triển hết ứng dụng này đến ứng dụng khác với tốc độ nhanh: vấn đề chủ yếu là tìm ra những gì có thể được cải thiện triệt để và tìm ra mô hình kinh doanh phù hợp để kinh doanh từ đó. một ý tưởng IA sáng tạo.

Một vài năm trước, có vẻ như các xu hướng công nghệ khác, như ô tô tự lái, VR hoặc blockchain, sẽ sớm chiếm ưu thế, nhưng công nghệ tự lái đã bị hạn chế bởi các rào cản pháp lý, blockchain bị ảnh hưởng bởi suy thoái kinh tế và VR việc áp dụng bị hạn chế bởi chi phí phần cứng cao. Thay vào đó, AI sáng tạo vẫn chưa bị giới hạn bởi luật pháp (này, việc đánh bóng một bản trình bày PowerPoint hoặc tạo một video thể thao không phải là vấn đề sống còn) và người dùng không cần phải mua phần cứng đắt tiền.

Và chúng tôi không nghĩ rằng các hoạt động sáng tạo lại bị gián đoạn sớm như vậy. Nhưng mà họ đã.

Chúng ta đang bước vào những thời kỳ mới và đôi khi kỳ lạ, khi sự sáng tạo của con người hòa quyện với những khả năng mới của máy móc đến mức khó có thể phân biệt giữa chúng. BẰNG J. Cà ri chỉ ra:

“Hôm nay và trong vài năm tới, điều này sẽ gây ngạc nhiên và đáng sợ theo nhiều cách. Bởi vì những khoảnh khắc sáng tạo mà bạn đi từ những ý tưởng từ con số 0 đến những ý tưởng ban đầu luôn mang lại cảm giác rất độc đáo về con người, bởi vì nó quá bí ẩn.”

IA sáng tạo sẽ phá vỡ mọi thứ trong thập kỷ hiện tại được xuất bản lại từ nguồn như thế nào https://towardsdatascience.com/how-generative-ia-will-disrupt-everything-in-the-current-decade-b4e8ce7dd4f1?source=rss—-7f60cf5620c9— 4 qua https://towardsdatascience.com/feed

<!–

->

Dấu thời gian:

Thêm từ Tư vấn chuỗi khối