Tìm kiếm đã chết, tìm kiếm muôn năm!
Tìm kiếm không còn như trước nữa.
Các công cụ tìm kiếm không còn chỉ đơn giản là khớp các từ khóa hoặc cụm từ trong truy vấn của người dùng với các trang web. Chúng ta đang tiến xa hơn thế giới tìm kiếm theo từ vựng, vốn chỉ dựa trên văn bản mà không hiểu được các kết nối ngữ nghĩa giữa không chỉ các sự vật mà còn là các biểu diễn đa phương tiện của các sự vật/khái niệm.
Ngày nay, AI có thể hiểu, ngữ cảnh hóa và tạo thông tin để đáp ứng ý định của người dùng, chủ yếu sử dụng dự đoán xác suất và khớp mẫu.
Sự chuyển đổi này được thúc đẩy bởi truy xuất thông tin tạo sinh.
Truy xuất thông tin tạo sinh là sự thay đổi cơ bản về cách các hệ thống hiển thị và trình bày thông tin.
Marc Najork, một nhà khoa học lỗi lạc tại Google DeepMind, đã trình bày cách các mô hình ngôn ngữ lớn (LLM) đang thay đổi tìm kiếm và truy xuất thông tin trong bài phát biểu quan trọng tại SIGIR 2023 đáng để xem lại. Bài thuyết trình của ông cũng khám phá cách chúng ta đạt được vị trí này thông qua sự thay đổi lặp đi lặp lại từ các phương pháp tiếp cận từ vựng sang ngữ nghĩa, lai ghép và tạo ra theo thời gian.
Nhưng mô hình đó đang phát triển. Hiện tại, chúng ta đang ở giai đoạn đầu của quá trình truy xuất thông tin tạo ra.
Hệ thống không chỉ tìm nội dung; nó tạo ra các câu trả lời dựa trên những gì nó truy xuất theo cách ngày càng đa phương thức, tập hợp mọi thứ mà một truy vấn không được chỉ định rõ có thể biểu diễn, tổng hợp trong một chế độ xem.
Najork mô tả sự thay đổi này là chuyển từ các hệ thống dựa trên truy xuất truyền thống, trả về danh sách các tài liệu được xếp hạng, sang các hệ thống tạo tăng cường truy xuất (RAG).
Trong thiết lập RAG, một mô hình truy xuất các tài liệu có liên quan từ một ngữ liệu và sau đó sử dụng chúng làm kiến thức cơ bản và ngữ cảnh để tạo ra phản hồi trực tiếp bằng ngôn ngữ tự nhiên.
Nói một cách đơn giản, người tìm kiếm không được cung cấp danh sách các liên kết đến các trang web. Họ đang nhận được những câu trả lời trực tiếp, tổng hợp, thường theo giọng điệu và phong cách của một trợ lý hữu ích.
Phương pháp tiếp cận mới này được hỗ trợ bởi các LLM được đào tạo về lượng dữ liệu khổng lồ và có thể lý luận trên toàn bộ nội dung đã thu thập được.
Những hệ thống này không hoàn hảo. Chúng ta biết rằng chúng gây ảo giác và hiểu sai sự thật.
Chúng ta có thể tự mình thấy nhiều cách mà các công cụ tìm kiếm và các công ty công nghệ khác sử dụng AI và các mô hình ngôn ngữ lớn, ví dụ, để tóm tắt các tiêu đề và bản tóm tắt tin tức, đang phải vật lộn để kiểm soát bản chất gây ảo giác của các LLM và AI tạo ra.
Vấn đề là gì?
AI tạo ra được xây dựng dựa trên các mô hình xác suất chứ không phải sự thật.
Google đang nghiên cứu những lý do cơ bản khiến các tiêu đề và bản tóm tắt tin tức được tạo ra không chính xác và đã phát triển một khuôn khổ đánh giá có tên là ExHalder. Một ví dụ khác là Bloomberg (yêu cầu đăng ký), tờ báo này đã phải đưa ra nhiều bản sửa lỗi cho các bản tóm tắt do AI và LLM tạo ra chỉ trong tuần qua hoặc lâu hơn.
Bất chấp những điểm yếu của việc sử dụng LLM trong tìm kiếm (và chúng không phải là không gây tranh cãi trong thế giới truy xuất thông tin, như Najork ám chỉ trong bài thuyết trình SIGIR năm 2023 của ông), AI tạo sinh / truy xuất thông tin tạo sinh đã ra đời và hiện đại diện cho sự thay đổi cơ bản về cách truy cập và cung cấp thông tin.
Điều này cũng có ý nghĩa quan trọng đối với SEO. Tối ưu hóa nội dung để xếp hạng trong "10 liên kết màu xanh" khác với tối ưu hóa để đưa vào bản tóm tắt do AI tạo ra.
Chúng tôi đã thấy câu hỏi này diễn ra dưới dạng các vụ kiện, chẳng hạn như Chegg kiện Google về Tổng quan AI. Chúng tôi cũng đã nghe nói về nhiều trang web ở mọi quy mô thấy lưu lượng truy cập tìm kiếm tự nhiên giảm kể từ khi Tổng quan AI ra mắt, đặc biệt là đối với các truy vấn thông tin.
Trong mô hình tìm kiếm "cổ điển", người dùng nhấp vào các liên kết để lấy thông tin, điều hướng lưu lượng truy cập đến các trang web của các thương hiệu, người sáng tạo và doanh nghiệp. Tuy nhiên, với các hệ thống tạo, người dùng có thể nhận được những gì họ cần trực tiếp từ câu trả lời của AI mà không cần phải truy cập trang web.
Đây là một nguồn gây tranh cãi lớn. Nếu AI được đào tạo về nội dung "công khai" và sử dụng nội dung đó để tạo phản hồi, thì làm thế nào để các nguồn gốc được ghi nhận hoặc quan trọng hơn là có được lưu lượng truy cập mà họ có thể kiếm tiền?
Vấn đề chưa được giải quyết này có ý nghĩa quan trọng đối với bất kỳ ai dựa vào khả năng hiển thị tìm kiếm tự nhiên để thúc đẩy kết quả kinh doanh. Và như chúng tôi đã phát hiện ra gần đây, Google dường như coi việc cung cấp lưu lượng truy cập cho các nhà xuất bản là "điều ác cần thiết".
Bài thuyết trình của Najork không đưa ra giải pháp, nhưng điều này dường như ám chỉ đến một tương lai ảm đạm cho một số nhà sáng tạo nội dung không thể thích ứng với sự thay đổi này. Như Najork đã nói:
Najork cũng đề cập đến thuật ngữ quan trọng chỉ được Andre Broder, một kỹ sư lỗi lạc tại Google, người cũng đã tạo ra Phân loại tìm kiếm trên web. Lập luận xung quanh chi phí delphic là chi phí cho người tìm kiếm được giảm đáng kể bằng cách tạo câu trả lời trực tiếp trong kết quả tìm kiếm thay vì gửi người tìm kiếm đến các nguồn khác và đây phải là mục tiêu chính của các công cụ tìm kiếm.
Điều này sẽ đạt được và diễn ra như thế nào? Điều đó vẫn còn phải chờ xem.
Tuy nhiên, gần đây chúng ta có thể thấy sự kiện Google Search Central tại New York tiết kiệm chi phí delphic cho người tìm kiếm trong các bài thuyết trình tập trung vào tương lai.
Mong đợi chi phí delphic (hoặc các cuộc nói chuyện tương tự xung quanh việc giảm ma sát cho người tìm kiếm) và các yếu tố tiết kiệm chi phí của tìm kiếm cho người dùng sẽ ngày càng ảnh hưởng đến giao tiếp giữa Google và SEO.
Tôi đã thấy rất nhiều điều này gần đây sau bài viết của Christina Adame, Cách tích hợp GEO với SEO, được xuất bản tại đây trên Search Engine Land.
Được rồi. Không ai đổi tên SEO cả.
SEO không phải là GEO.
GEO không phải là SEO. Trên thực tế, có một bài nghiên cứu về GEO.
Các công cụ tạo (trả lời) không phải là công cụ tìm kiếm. Như Fred Laurent đã nói một cách ngắn gọn trên LinkedIn:
Ngoài ra, ô tô không phải là xe tải, nhưng cả hai loại ô tô đều có động cơ có thể giúp bạn đến nơi bạn muốn đến.
Năm 2023 có thể được coi là bình minh của việc truy xuất thông tin tạo ra, nhưng điều đó không có nghĩa là việc truy xuất thông tin đã biến mất. Nó chỉ có một khía cạnh khác. Đây cũng là cách thức của SEO.
Chúng ta đang trong giai đoạn thay đổi chưa từng có.
Truy xuất thông tin tạo ra là nền tảng cho thực tế mới của tìm kiếm, nhưng vẫn là tìm kiếm và truy xuất thông tin, nhưng với sắc thái bổ sung.
Tương tự như trong truy xuất thông tin, có những người chuyên về hệ thống đề xuất, lập chỉ mục, xếp hạng, học cách xếp hạng và xử lý ngôn ngữ tự nhiên (NLP) hoặc các khu vực cửa trước xung quanh cách người dùng công cụ tìm kiếm tương tác với giao diện tìm kiếm, sự thay đổi này trong SEO cũng tạo ra một khu vực sắc thái khác, nơi một số người sẽ tập trung và một số người sẽ khái quát hóa.
Các nguyên tắc cơ bản cốt lõi của việc giúp người dùng tìm đúng thông tin vào đúng thời điểm vẫn giữ nguyên, bất kể quy ước đặt tên.
Điểm mấu chốt: SEO đang phát triển (một lần nữa).
Nếu bạn đang bám vào các sách hướng dẫn SEO cũ, bạn có thể đi theo con đường của khủng long trong tương lai rất gần, vì Google tiếp tục chuyển dịch xa hơn từ tìm kiếm cổ điển sang câu trả lời AI.
Lưu ý: Bạn có thể xem bộ bài của Najork trên Google Slides. Xin cảm ơn Dawn Anderson đã chia sẻ và đánh giá bài viết này để đảm bảo tính chính xác.
Tìm kiếm không còn như trước nữa.
Các công cụ tìm kiếm không còn chỉ đơn giản là khớp các từ khóa hoặc cụm từ trong truy vấn của người dùng với các trang web. Chúng ta đang tiến xa hơn thế giới tìm kiếm theo từ vựng, vốn chỉ dựa trên văn bản mà không hiểu được các kết nối ngữ nghĩa giữa không chỉ các sự vật mà còn là các biểu diễn đa phương tiện của các sự vật/khái niệm.
Ngày nay, AI có thể hiểu, ngữ cảnh hóa và tạo thông tin để đáp ứng ý định của người dùng, chủ yếu sử dụng dự đoán xác suất và khớp mẫu.
Sự chuyển đổi này được thúc đẩy bởi truy xuất thông tin tạo sinh.
Truy xuất thông tin tạo sinh là sự thay đổi cơ bản về cách các hệ thống hiển thị và trình bày thông tin.
Marc Najork, một nhà khoa học lỗi lạc tại Google DeepMind, đã trình bày cách các mô hình ngôn ngữ lớn (LLM) đang thay đổi tìm kiếm và truy xuất thông tin trong bài phát biểu quan trọng tại SIGIR 2023 đáng để xem lại. Bài thuyết trình của ông cũng khám phá cách chúng ta đạt được vị trí này thông qua sự thay đổi lặp đi lặp lại từ các phương pháp tiếp cận từ vựng sang ngữ nghĩa, lai ghép và tạo ra theo thời gian.
Từ truy xuất đến tạo ra
Trong nhiều thập kỷ, các công cụ tìm kiếm đã phản hồi các truy vấn của người dùng bằng cách trỏ đến các tài liệu có thể chứa câu trả lời.
Nhưng mô hình đó đang phát triển. Hiện tại, chúng ta đang ở giai đoạn đầu của quá trình truy xuất thông tin tạo ra.
Hệ thống không chỉ tìm nội dung; nó tạo ra các câu trả lời dựa trên những gì nó truy xuất theo cách ngày càng đa phương thức, tập hợp mọi thứ mà một truy vấn không được chỉ định rõ có thể biểu diễn, tổng hợp trong một chế độ xem.
Najork mô tả sự thay đổi này là chuyển từ các hệ thống dựa trên truy xuất truyền thống, trả về danh sách các tài liệu được xếp hạng, sang các hệ thống tạo tăng cường truy xuất (RAG).
Trong thiết lập RAG, một mô hình truy xuất các tài liệu có liên quan từ một ngữ liệu và sau đó sử dụng chúng làm kiến thức cơ bản và ngữ cảnh để tạo ra phản hồi trực tiếp bằng ngôn ngữ tự nhiên.

Nói một cách đơn giản, người tìm kiếm không được cung cấp danh sách các liên kết đến các trang web. Họ đang nhận được những câu trả lời trực tiếp, tổng hợp, thường theo giọng điệu và phong cách của một trợ lý hữu ích.
Phương pháp tiếp cận mới này được hỗ trợ bởi các LLM được đào tạo về lượng dữ liệu khổng lồ và có thể lý luận trên toàn bộ nội dung đã thu thập được.
Những hệ thống này không hoàn hảo. Chúng ta biết rằng chúng gây ảo giác và hiểu sai sự thật.
Chúng ta có thể tự mình thấy nhiều cách mà các công cụ tìm kiếm và các công ty công nghệ khác sử dụng AI và các mô hình ngôn ngữ lớn, ví dụ, để tóm tắt các tiêu đề và bản tóm tắt tin tức, đang phải vật lộn để kiểm soát bản chất gây ảo giác của các LLM và AI tạo ra.
Vấn đề là gì?
AI tạo ra được xây dựng dựa trên các mô hình xác suất chứ không phải sự thật.
Google đang nghiên cứu những lý do cơ bản khiến các tiêu đề và bản tóm tắt tin tức được tạo ra không chính xác và đã phát triển một khuôn khổ đánh giá có tên là ExHalder. Một ví dụ khác là Bloomberg (yêu cầu đăng ký), tờ báo này đã phải đưa ra nhiều bản sửa lỗi cho các bản tóm tắt do AI và LLM tạo ra chỉ trong tuần qua hoặc lâu hơn.
Bất chấp những điểm yếu của việc sử dụng LLM trong tìm kiếm (và chúng không phải là không gây tranh cãi trong thế giới truy xuất thông tin, như Najork ám chỉ trong bài thuyết trình SIGIR năm 2023 của ông), AI tạo sinh / truy xuất thông tin tạo sinh đã ra đời và hiện đại diện cho sự thay đổi cơ bản về cách truy cập và cung cấp thông tin.
Điều này cũng có ý nghĩa quan trọng đối với SEO. Tối ưu hóa nội dung để xếp hạng trong "10 liên kết màu xanh" khác với tối ưu hóa để đưa vào bản tóm tắt do AI tạo ra.
Thách thức giới thiệu lưu lượng truy cập
Một câu hỏi lớn được nêu ra trong bài thuyết trình là điều gì xảy ra với lưu lượng truy cập giới thiệu khi các mô hình ngôn ngữ tạo ra câu trả lời.Chúng tôi đã thấy câu hỏi này diễn ra dưới dạng các vụ kiện, chẳng hạn như Chegg kiện Google về Tổng quan AI. Chúng tôi cũng đã nghe nói về nhiều trang web ở mọi quy mô thấy lưu lượng truy cập tìm kiếm tự nhiên giảm kể từ khi Tổng quan AI ra mắt, đặc biệt là đối với các truy vấn thông tin.
Trong mô hình tìm kiếm "cổ điển", người dùng nhấp vào các liên kết để lấy thông tin, điều hướng lưu lượng truy cập đến các trang web của các thương hiệu, người sáng tạo và doanh nghiệp. Tuy nhiên, với các hệ thống tạo, người dùng có thể nhận được những gì họ cần trực tiếp từ câu trả lời của AI mà không cần phải truy cập trang web.
Đây là một nguồn gây tranh cãi lớn. Nếu AI được đào tạo về nội dung "công khai" và sử dụng nội dung đó để tạo phản hồi, thì làm thế nào để các nguồn gốc được ghi nhận hoặc quan trọng hơn là có được lưu lượng truy cập mà họ có thể kiếm tiền?
Vấn đề chưa được giải quyết này có ý nghĩa quan trọng đối với bất kỳ ai dựa vào khả năng hiển thị tìm kiếm tự nhiên để thúc đẩy kết quả kinh doanh. Và như chúng tôi đã phát hiện ra gần đây, Google dường như coi việc cung cấp lưu lượng truy cập cho các nhà xuất bản là "điều ác cần thiết".
Bài thuyết trình của Najork không đưa ra giải pháp, nhưng điều này dường như ám chỉ đến một tương lai ảm đạm cho một số nhà sáng tạo nội dung không thể thích ứng với sự thay đổi này. Như Najork đã nói:
- Quan điểm bi quan: Câu trả lời trực tiếp làm giảm lượt giới thiệu đến các nhà cung cấp nội dung, gây tổn hại đến khả năng kiếm tiền của họ.
- Quan điểm lạc quan: Việc ghi nhận trong câu trả lời trực tiếp sẽ dẫn đến lượt giới thiệu chất lượng cao hơn, tổng hợp lại có giá trị hơn.
- Quan điểm thực tế: Mong đợi các mô hình kinh doanh và luồng doanh thu đa dạng.
Najork cũng đề cập đến thuật ngữ quan trọng chỉ được Andre Broder, một kỹ sư lỗi lạc tại Google, người cũng đã tạo ra Phân loại tìm kiếm trên web. Lập luận xung quanh chi phí delphic là chi phí cho người tìm kiếm được giảm đáng kể bằng cách tạo câu trả lời trực tiếp trong kết quả tìm kiếm thay vì gửi người tìm kiếm đến các nguồn khác và đây phải là mục tiêu chính của các công cụ tìm kiếm.
Điều này sẽ đạt được và diễn ra như thế nào? Điều đó vẫn còn phải chờ xem.
Tuy nhiên, gần đây chúng ta có thể thấy sự kiện Google Search Central tại New York tiết kiệm chi phí delphic cho người tìm kiếm trong các bài thuyết trình tập trung vào tương lai.
Mong đợi chi phí delphic (hoặc các cuộc nói chuyện tương tự xung quanh việc giảm ma sát cho người tìm kiếm) và các yếu tố tiết kiệm chi phí của tìm kiếm cho người dùng sẽ ngày càng ảnh hưởng đến giao tiếp giữa Google và SEO.
SEO so với GEO
Đã có một số cuộc tranh luận đang diễn ra và gần đây về ngữ nghĩa giữa những người có ảnh hưởng và chuyên gia SEO trên LinkedIn và những nơi khác về việc liệu tối ưu hóa công cụ tạo sinh (GEO) có đơn giản là một từ thông dụng mới hay không (và chúng ta cũng dám đổi tên SEO!).Tôi đã thấy rất nhiều điều này gần đây sau bài viết của Christina Adame, Cách tích hợp GEO với SEO, được xuất bản tại đây trên Search Engine Land.
Được rồi. Không ai đổi tên SEO cả.
SEO không phải là GEO.
GEO không phải là SEO. Trên thực tế, có một bài nghiên cứu về GEO.
Các công cụ tạo (trả lời) không phải là công cụ tìm kiếm. Như Fred Laurent đã nói một cách ngắn gọn trên LinkedIn:
- “AI diễn giải, công cụ tìm kiếm xếp hạng”
Ngoài ra, ô tô không phải là xe tải, nhưng cả hai loại ô tô đều có động cơ có thể giúp bạn đến nơi bạn muốn đến.
Năm 2023 có thể được coi là bình minh của việc truy xuất thông tin tạo ra, nhưng điều đó không có nghĩa là việc truy xuất thông tin đã biến mất. Nó chỉ có một khía cạnh khác. Đây cũng là cách thức của SEO.
Chúng ta đang trong giai đoạn thay đổi chưa từng có.
Truy xuất thông tin tạo ra là nền tảng cho thực tế mới của tìm kiếm, nhưng vẫn là tìm kiếm và truy xuất thông tin, nhưng với sắc thái bổ sung.
Tương tự như trong truy xuất thông tin, có những người chuyên về hệ thống đề xuất, lập chỉ mục, xếp hạng, học cách xếp hạng và xử lý ngôn ngữ tự nhiên (NLP) hoặc các khu vực cửa trước xung quanh cách người dùng công cụ tìm kiếm tương tác với giao diện tìm kiếm, sự thay đổi này trong SEO cũng tạo ra một khu vực sắc thái khác, nơi một số người sẽ tập trung và một số người sẽ khái quát hóa.
Các nguyên tắc cơ bản cốt lõi của việc giúp người dùng tìm đúng thông tin vào đúng thời điểm vẫn giữ nguyên, bất kể quy ước đặt tên.
Điểm mấu chốt: SEO đang phát triển (một lần nữa).
Nếu bạn đang bám vào các sách hướng dẫn SEO cũ, bạn có thể đi theo con đường của khủng long trong tương lai rất gần, vì Google tiếp tục chuyển dịch xa hơn từ tìm kiếm cổ điển sang câu trả lời AI.
Lưu ý: Bạn có thể xem bộ bài của Najork trên Google Slides. Xin cảm ơn Dawn Anderson đã chia sẻ và đánh giá bài viết này để đảm bảo tính chính xác.