DeepSeek là gì? — mọi thứ cần biết

theanh

Administrator
Nhân viên
DeepSeek là một công ty khởi nghiệp AI của Trung Quốc có chatbot theo tên của công ty. Được thành lập vào năm 2023 bởi Liang Wenfeng, có trụ sở chính tại Hàng Châu, Chiết Giang, DeepSeek được hỗ trợ bởi quỹ đầu cơ High-Flyer.

Sứ mệnh của DeepSeek tập trung vào việc thúc đẩy trí tuệ nhân tạo tổng quát (AGI) thông qua nghiên cứu và phát triển nguồn mở, nhằm mục đích dân chủ hóa công nghệ AI cho cả ứng dụng thương mại và học thuật. Công ty tập trung vào việc phát triển các mô hình ngôn ngữ lớn (LLM) nguồn mở có thể cạnh tranh hoặc vượt qua các công ty hàng đầu hiện có trong ngành về cả hiệu suất và hiệu quả chi phí.

Sau đây là tất cả những điều bạn cần biết về công ty mới này trong trò chơi AI toàn cầu.
  • Microsoft đang đưa các mô hình DeepSeek R1 vào PC chạy Windows 11 Copilot+
  • Không quan trọng nếu DeepSeek sao chép OpenAI — thiệt hại đã xảy ra trong cuộc chạy đua vũ trang về AI
  • DeepSeek có an toàn để sử dụng không?
  • Tôi đã thử nghiệm ChatGPT so với DeepSeek với 7 lời nhắc — đây là người chiến thắng bất ngờ
DeepSeek-V3: Được phát hành vào cuối năm 2024, mô hình này tự hào có 671 tỷ tham số và được đào tạo trên tập dữ liệu gồm 14,8 nghìn tỷ mã thông báo trong khoảng 55 ngày, với chi phí khoảng 5,58 triệu đô la. Các bài kiểm tra chuẩn cho thấy DeepSeek-V3 vượt trội hơn các mô hình như Llama 3.1 và Qwen 2.5, đồng thời phù hợp với khả năng của GPT-4o và Claude 3.5 Sonnet. Kiến trúc của nó sử dụng hỗn hợp các chuyên gia với Multi-head Latent Attention Transformer, chứa 256 chuyên gia được định tuyến và một chuyên gia được chia sẻ, kích hoạt 37 tỷ tham số cho mỗi mã thông báo.

DeepSeek-R1: Được phát hành vào tháng 1 năm 2025, mô hình này tập trung vào suy luận logic, lý luận toán học và giải quyết vấn đề theo thời gian thực. Nó được đào tạo bằng cách sử dụng học tăng cường mà không có tinh chỉnh có giám sát, sử dụng tối ưu hóa chính sách tương đối nhóm (GRPO) để tăng cường khả năng lý luận. Mô hình này đạt được hiệu suất tương đương với o1 của OpenAI trên nhiều tác vụ khác nhau, bao gồm toán học và mã hóa.


vLV5r9FMct4AV2RAJgAV8e-1200-80.jpg



Các mô hình AI của DeepSeek có sẵn thông qua trang web chính thức của công ty, nơi người dùng có thể truy cập miễn phí mô hình DeepSeek-V3. Ngoài ra, ứng dụng DeepSeek có sẵn để tải xuống, cung cấp một công cụ AI tất cả trong một cho người dùng.

Sau đây là thông tin chi tiết hơn về cách tham gia DeepSeek.


J5mEiVjPZcTwaCU5viCugd-1200-80.jpg



Các mô hình AI của DeepSeek được phân biệt bởi tính hiệu quả về mặt chi phí và hiệu suất. Ví dụ, mô hình DeepSeek-V3 được đào tạo bằng khoảng 2.000 chip Nvidia H800 trong 55 ngày, với chi phí khoảng 5,58 triệu đô la — ít hơn đáng kể so với các mô hình tương đương từ các công ty khác. Hiệu quả này đã thúc đẩy việc đánh giá lại các khoản đầu tư lớn vào cơ sở hạ tầng AI của các công ty công nghệ hàng đầu.

Để tham khảo, chúng ta hãy xem ChatGPT của OpenAI so sánh với DeepSeek như thế nào. Ví dụ, OpenAI giữ bí mật hoạt động bên trong của ChatGPT với công chúng. Ngược lại, DeepSeek sử dụng mã nguồn mở, cho phép bất kỳ ai cũng có thể xem xét và đóng góp vào quá trình phát triển của nó.

Điều này thúc đẩy cách tiếp cận do cộng đồng thúc đẩy nhưng cũng làm dấy lên lo ngại về việc sử dụng sai mục đích.

Cả hai đều xuất sắc trong các nhiệm vụ như mã hóa và viết, với mô hình R1 của DeepSeek cạnh tranh với các phiên bản mới nhất của ChatGPT. Tuy nhiên, giá cả phải chăng của DeepSeek là một yếu tố thay đổi cuộc chơi.

Được phát triển với chi phí chỉ bằng một phần nhỏ, nó chứng minh rằng AI tiên tiến không nhất thiết phải tốn kém.

ChatGPT cung cấp một gói miễn phí, nhưng bạn sẽ cần phải trả phí đăng ký hàng tháng cho các tính năng cao cấp. Mặt khác, DeepSeek tin vào việc dân chủ hóa quyền truy cập vào AI. Điều này đã thúc đẩy sự gia tăng nhanh chóng của nó, thậm chí vượt qua ChatGPT về mức độ phổ biến trên các cửa hàng ứng dụng. Việc cung cấp cho mọi người quyền truy cập vào AI mạnh mẽ có khả năng dẫn đến các mối lo ngại về an toàn bao gồm các vấn đề an ninh quốc gia và an toàn chung của người dùng.

ChatGPT là một mô hình phức tạp, dày đặc, trong khi DeepSeek sử dụng kiến trúc "Hỗn hợp chuyên gia" hiệu quả hơn. Điều này cho phép nó vượt trội hơn sức mạnh của mình, mang lại hiệu suất ấn tượng với ít sức mạnh tính toán hơn.

DeepSeek hoạt động theo chính phủ Trung Quốc, dẫn đến các phản hồi bị kiểm duyệt về các chủ đề nhạy cảm. ChatGPT, mặc dù được kiểm duyệt, cho phép thảo luận rộng hơn. Điều này đặt ra các câu hỏi về đạo đức liên quan đến quyền tự do thông tin và khả năng thiên vị của AI.

Sự xuất hiện của DeepSeek đã gây chấn động khắp thế giới công nghệ, buộc các gã khổng lồ phương Tây phải xem xét lại các chiến lược AI của họ. Tuy nhiên, các hoạt động lưu trữ dữ liệu của công ty này tại Trung Quốc đã làm dấy lên mối lo ngại về quyền riêng tư và an ninh quốc gia, làm dấy lên các cuộc tranh luận xung quanh các công ty công nghệ Trung Quốc khác.

ChatGPT và DeepSeek đại diện cho hai con đường riêng biệt trong môi trường AI; một con đường ưu tiên tính cởi mở và khả năng truy cập, trong khi con đường còn lại tập trung vào hiệu suất và khả năng kiểm soát. Các cách tiếp cận tương phản của họ làm nổi bật những sự đánh đổi phức tạp liên quan đến việc phát triển và triển khai AI trên quy mô toàn cầu.


nDRKSerc85tm72N5pwRhLc-1200-80.jpg



Đúng vậy, DeepSeek đã hoàn toàn mã nguồn mở các mô hình của mình theo giấy phép MIT, cho phép sử dụng thương mại và học thuật không hạn chế. Cam kết về tính cởi mở này trái ngược với các cách tiếp cận độc quyền của một số đối thủ cạnh tranh và đóng vai trò quan trọng trong sự gia tăng nhanh chóng về mức độ phổ biến của nó.

DeepSeek cho thấy các phòng thí nghiệm nguồn mở đã trở nên hiệu quả hơn nhiều trong việc thực hiện kỹ thuật đảo ngược. Bất kỳ đầu mối nào mà các phòng thí nghiệm AI của Hoa Kỳ đạt được hiện có thể bị xóa sổ chỉ trong vài tháng. Đây là một thách thức nghiêm trọng đối với các công ty có hoạt động kinh doanh dựa vào việc bán mô hình: các nhà phát triển phải đối mặt với chi phí chuyển đổi thấp và các tối ưu hóa của DeepSeek mang lại khoản tiết kiệm đáng kể.


KMwyBGipc2fqRFCTTuTWxL-1200-80.jpg



Những tiến bộ của DeepSeek đã gây ra sự gián đoạn đáng kể trong ngành AI, dẫn đến những phản ứng đáng kể của thị trường. Công ty khởi nghiệp AI của Trung Quốc đã gây chấn động thế giới công nghệ và khiến giá trị thị trường của Nvidia giảm gần 600 tỷ đô la.

Việc công bố mô hình AI V3 của DeepSeek, được phát triển với chi phí chỉ bằng một phần nhỏ so với các đối tác tại Hoa Kỳ, đã làm dấy lên lo ngại rằng nhu cầu về GPU cao cấp của Nvidia có thể giảm sút.

Mối lo ngại này đã gây ra đợt bán tháo cổ phiếu Nvidia lớn vào thứ Hai, dẫn đến khoản lỗ trong một ngày lớn nhất trong lịch sử doanh nghiệp Hoa Kỳ. Hiệu ứng lan tỏa cũng tác động đến các gã khổng lồ công nghệ khác như Broadcom và Microsoft.

Tuy nhiên, cơn hoảng loạn đã không kéo dài. Cổ phiếu của Nvidia đã phục hồi gần 9% vào thứ Ba, báo hiệu sự tự tin mới vào tương lai của công ty. Các chuyên gia chỉ ra rằng mặc dù mô hình tiết kiệm chi phí của DeepSeek rất ấn tượng, nhưng nó không phủ nhận vai trò quan trọng của phần cứng Nvidia trong quá trình phát triển AI. Trên thực tế, sự xuất hiện của các mô hình hiệu quả như vậy thậm chí có thể mở rộng thị trường và cuối cùng là tăng nhu cầu đối với các bộ xử lý tiên tiến của Nvidia.

Sự đột phá của DeepSeek đã chứng kiến nhiều phản ứng trái chiều. Trong khi các CEO của Microsoft và OpenAI ca ngợi sự đổi mới này, những người khác như Elon Musk lại bày tỏ sự nghi ngờ về khả năng tồn tại lâu dài của nó. Bản thân Nvidia đã thừa nhận thành tựu của DeepSeek, nhấn mạnh rằng nó phù hợp với các biện pháp kiểm soát xuất khẩu của Hoa Kỳ và cho thấy những cách tiếp cận mới đối với việc phát triển mô hình AI.

Rõ ràng là giai đoạn "suy luận" quan trọng của việc triển khai AI vẫn phụ thuộc rất nhiều vào các con chip của hãng, củng cố tầm quan trọng liên tục của chúng trong hệ sinh thái AI. Vài ngày qua đã đóng vai trò như một lời nhắc nhở rõ ràng về bản chất bất ổn của ngành công nghiệp AI. Những cải tiến mang tính đột phá như DeepSeek có thể gây ra những biến động đáng kể trên thị trường, nhưng chúng cũng chứng minh tốc độ tiến triển nhanh chóng và sự cạnh tranh khốc liệt thúc đẩy ngành này phát triển.


ryYjzVBc7vAgmtW2JYdyke-1200-80.jpg



DeepSeek tập trung vào việc tuyển dụng các nhà nghiên cứu AI trẻ tuổi từ các trường đại học hàng đầu Trung Quốc và các cá nhân có nền tảng học thuật đa dạng ngoài khoa học máy tính. Chiến lược này nhằm mục đích đa dạng hóa kiến thức và khả năng trong các mô hình của nó.


zL3LZxWq4dQCQLTcZLsUdZ-1200-80.jpg



Đúng vậy, DeepSeek đã gặp phải những thách thức, bao gồm một cuộc tấn công mạng được báo cáo khiến công ty phải tạm thời hạn chế đăng ký người dùng mới. Bất chấp những vấn đề này, những người dùng hiện tại vẫn tiếp tục có quyền truy cập vào dịch vụ.

Ngoài ra, những gã khổng lồ công nghệ Microsoft và OpenAI đã mở một cuộc điều tra về một vụ vi phạm dữ liệu tiềm ẩn từ nhóm liên quan đến công ty khởi nghiệp AI của Trung Quốc DeepSeek. Cuộc điều tra xoay quanh việc xem xét dữ liệu thu thập không đúng cách từ công nghệ của OpenAI.

Cuộc điều tra này được tiến hành khi các nhà nghiên cứu bảo mật của Microsoft quan sát thấy những cá nhân mà họ tin là có liên quan đến DeepSeek đang trích xuất một lượng lớn dữ liệu thông qua giao diện lập trình ứng dụng (API) của OpenAI vào mùa thu năm 2024.

Quy mô rò rỉ dữ liệu đã gióng lên hồi chuông cảnh báo, làm dấy lên lo ngại về việc truy cập trái phép và khả năng sử dụng sai các mô hình AI độc quyền của OpenAI. Những hàm ý của vụ vi phạm dữ liệu bị cáo buộc này có ảnh hưởng sâu rộng.

OpenAI, được biết đến với các mô hình AI mang tính đột phá như GPT-4o, đã đi đầu trong đổi mới AI. Công nghệ của nó, có thể truy cập thông qua API, đã trở thành nền tảng cho nhiều ứng dụng trong nhiều ngành công nghiệp khác nhau. Các API này cho phép các nhà phát triển phần mềm tích hợp các mô hình AI tinh vi của OpenAI vào các ứng dụng của riêng họ, với điều kiện họ có giấy phép phù hợp dưới dạng đăng ký Pro với giá 200 đô la mỗi tháng.

Vụ vi phạm dữ liệu tiềm ẩn đặt ra những câu hỏi nghiêm trọng về tính bảo mật và tính toàn vẹn của các hoạt động chia sẻ dữ liệu AI. Khi công nghệ AI ngày càng trở nên mạnh mẽ và phổ biến, việc bảo vệ các thuật toán độc quyền và dữ liệu đào tạo trở nên tối quan trọng.


UBt66y35RiWJ2xCfM5A3wY-1200-80.jpg



Một số nguồn tin đã quan sát thấy phiên bản API chính thức của mô hình R1 của DeepSeek sử dụng cơ chế kiểm duyệt đối với các chủ đề được chính phủ Trung Quốc coi là nhạy cảm về mặt chính trị.

Ví dụ, mô hình từ chối trả lời các câu hỏi về cuộc biểu tình và vụ thảm sát Thiên An Môn năm 1989, cuộc đàn áp Người Duy Ngô Nhĩ, hay nhân quyền ở Trung Quốc. Ngoài ra, còn có lo ngại rằng hệ thống AI có thể được sử dụng cho các hoạt động gây ảnh hưởng từ nước ngoài, phát tán thông tin sai lệch, giám sát và phát triển vũ khí mạng cho chính phủ Trung Quốc.

Sự trỗi dậy nhanh chóng và những thành tựu công nghệ của DeepSeek đã thúc đẩy các cuộc thảo luận về cuộc đua AI toàn cầu, với một số người coi thành công của công ty là "khoảnh khắc Sputnik" cho ngành công nghiệp AI. Thuật ngữ này gợi ý về sự thay đổi đáng kể trong vị thế dẫn đầu về công nghệ, dẫn đến những suy ngẫm về sự cân bằng đổi mới giữa Trung Quốc và các nước phương Tây

Hiện tại, DeepSeek chỉ tập trung vào nghiên cứu và không có kế hoạch chi tiết nào cho việc thương mại hóa. Sự tập trung này cho phép công ty tập trung vào việc thúc đẩy các công nghệ AI cơ bản mà không phải chịu áp lực thương mại ngay lập tức.

Hiện tại, không ai thực sự biết ý định dài hạn của DeepSeek là gì. DeepSeek dường như thiếu một mô hình kinh doanh phù hợp với các mục tiêu đầy tham vọng của mình. Không giống như các phòng thí nghiệm AI lớn của Hoa Kỳ, nơi đặt mục tiêu phát triển các dịch vụ hàng đầu và kiếm tiền từ chúng, DeepSeek đã định vị mình là nhà cung cấp các công cụ miễn phí hoặc gần như miễn phí — gần như là một sự tặng miễn phí một cách vị tha. Mặc dù cách tiếp cận này có thể thay đổi bất cứ lúc nào, về cơ bản, DeepSeek đã đưa một mô hình AI mạnh mẽ vào tay bất kỳ ai — một mối đe dọa tiềm tàng đối với an ninh quốc gia và những nơi khác.

Sự trỗi dậy của DeepSeek chứng minh rằng việc giữ AI tiên tiến tránh xa khỏi tay những kẻ thù tiềm tàng không còn khả thi nữa. Như Jack Clark, đồng sáng lập Anthropic đã lưu ý, "DeepSeek có nghĩa là sự phổ biến của AI được đảm bảo."
  • DeepSeek có phải là mối đe dọa an ninh quốc gia không? Tôi đã hỏi ChatGPT, Gemini, Perplexity và chính DeepSeek
  • 7 lời nhắc chatbot thiên tài sẽ ngay lập tức thúc đẩy ý tưởng của bạn
  • Tôi đã thử nghiệm DeepSeek so với Claude trong 5 bài kiểm tra đạo đức — đây là người chiến thắng bất ngờ
 
Back
Bên trên