120 tỷ tham số trên Macbook Pro M2 Max 96GB RAM, như GPT-4o online

_ 8 August, 2025_ MQ_ 0 Comments

120 tỷ tham số trên Macbook Pro M2 Max 96GB RAM, như GPT-4o online

Việc duy trì tốc độ trung bình trên 20 t/s đối với một mô hình khổng lồ 120B là một kết quả có thể tính là xuất sắc. Tốc độ này đủ nhanh cho việc trò chuyện tương tác, viết lách và các tác vụ phức tạp khác mà không gây cảm giác chậm trễ. Ở tốc độ thấp nhất mà mình test được, khi tạo code là 18.61 t/s và con số này hoàn toàn hợp lý bởi task này đòi hỏi sự chính xác về cú pháp và logic phức tạp, làm cho quá trình tạo mỗi token trở nên nặng hơn nhiều so với các nhiệm vụ xử lý đơn giản khác.

Trong khi đó, tác vụ lý luận logic như so sánh số có tốc độ khá nhanh.

Tương tự như trong tình huống đánh số bảng chữ cái, tốc độ tạo token cũng rất nhanh.

Tương tự, bài toán đố nhẹ nhàng này cũng được xử lý rất nhanh. Qua đó cho thấy mô hình có thể nhanh chóng xử lý và đưa ra các câu trả lời có cấu trúc đơn giản, nghĩa là hầu hết các nhu cầu sử dụng hàng ngày bình thường của người dùng.

Ở khía cạnh thời gian đến token đầu tiên TTFT tính bằng giây, giúp chúng ta đo lường được thời gian suy nghĩ của mô hình, cho biết độ nhạy và khả năng phản hồi ban đầu. Trong các tình huống trên, TTFT sẽ rơi ổn định vào khoảng từ 1 đến 1.3 giây. Việc mô hình 120B chỉ mất khoảng 1 giây để xử lý yêu cầu và bắt đầu tạo ra từ đầu tiên là cực kỳ nhanh. Điều này mang lại trải nghiệm tương tác rất mượt mà, khiến người dùng cảm thấy như đang trò chuyện với một hệ thống phản ứng nhanh và nhạy. Tất nhiên là duy có tình huống 1/72s TTFT khi tạo code game Flappy Bird, cái này cũng dễ hiểu khi yêu cầu này phức tạp hơn, đòi hỏi mô hình phải “lập kế hoạch” và xử lý nhiều thông tin hơn trước khi bắt đầu viết dòng code đầu tiên.

Trong hầu hết toàn bộ quá trình test các task, để ý mức RAM chạy ở góc dưới bên phải cửa sổ LM Studio thì RAM sẽ dao động từ 60-70 GB, còn GPU Usage sẽ đạt đâu 80-100% khi model chạy suy luận và sinh ra nội dung phản hồi. Lúc này Macbook sẽ chạy quạt lên và thực sự, rất hiếm khi thấy chiếc máy này quay quạt đối với các tác vụ bình thường mỗi ngày. Con số này khẳng định 96GB Unified Memory ở chiếc MacBook M2 Max này là hoàn toàn dư dả để chạy một model nặng như GPT-OSS:120b. Và thực sự đến đây, cấu hình này cũng là lý tưởng nhất mà mình từng test, và cũng là rẻ nhất để chạy toàn bộ model khổng lồ 120B vào bộ nhớ và khai thác tối đa sức mạnh của GPU để tăng tốc xử lý.

Test khả năng của model GPT-OSS:120b

Với phần cứng trên, model chạy mượt, mình mạnh dạng thử nhiều tình huống hơn để test khả năng của model GPT-OSS:120b miễn phí mà OpenAI vừa cho chúng ta xài. Bên dưới đây là các tình huống test, hy vọng cung cấp cho bạn một góc nhìn cơ bản về những gì mà một model local như nó có thể làm được.

Thử kêu so sánh 2 con số thập phân và số âm

Tình huống cơ bản nhất, mình kêu GPT-OSS:120b đếm từ và xác định vị trí từ, chữ cái trong một câu tiếng Việt. Model trả lời chính xác và rất nhanh. Trên thực tế, tiếng Việt mình là ký tự Latin nên chúng ta được hưởng lợi lớn khi sử dụng các model được cung cấp, không chỉ GPT-OSS:120b của OpenAI mà cả những bên khác như Gemma của Google, Mistral, LLama của Meta,… đều hỗ trợ tiếng Việt rất tốt. Coi vậy chứ một model không được train sẵn bằng tiếng Việt / tiếng Anh thì để xài nó như thí dụ này thôi cũng không phải là chuyện đơn giản đâu.

Tình huống khó hơn chút, mình kêu GPT-OSS:120b đánh số bảng chữ cái nhưng với một prompt khác. Cái này đòi hỏi nó phải hiểu ngữ nghĩa, tự biết nghĩ tới cái chuyện phải đánh số bảng chữ cái để xác định đúng số thứ tự. Kết quả hài lòng.

Trong bài toán đố dành riêng cho AI này, GPT-OSS:120b vô tình lại trả lời chính xác. Trong khi đó mình mới test ChatGPT 4o thì nó trả lời trật lất với prompt giống hệt. Quái lạ.

Trong tình huống này, mình kêu GPT-OSS:120b nó viết trò chơi Flappy Bird bằng mỗi pygame. Tổng thời gian ra được hết mọi thứ cỡ gần 2 phút, mình có toàn bộ câu trả lời, bao gồm file python của tựa game 256 dòng code.

Chạy thử file game, mọi thứ hoạt động bình thường, đúng logic của game Flappy Bird. Kết quả này hoàn toàn chấp nhận được. Chỉ cần prompt thêm chút nữa là ra kết quả ngon hơn được liền, chủ yếu chỉnh về mặt giao diện người dùng cho đẹp hơn chút thôi. Tương tự, mình mới thử ChatGPT 4o với prompt giống hệt thì nó sinh ra một file py khong hề chơi được luôn.

Thử thách chút nữa, mình kêu nó tạo một file SVG vẽ con cái voi đang bơi trên mây. Kếu nó không xài quá 3k token. Và đây là kết quả nó trả về.

Hình con cá voi đây nha các bạn.

Thử hỏi GPT-OSS:120b coi kiến thức của nó được train mới nhất tới thời điểm nào. Kết quả là tháng 6/2024 năm ngoái. Nghĩa là tương đồng với GPT 4 cũng là hợp lý. Và nhân đây, mình cũng muốn nhắc lại xíu là chatbot AI nói chung hay GPT-OSS:120b chạy local này nói riêng sẽ cực kỳ giới hạn trong việc tìm kiếm thông tin realtime (cho dù có cấu hình thế nào đi nữa), nên là mọi người cần giữ quan điểm này để chọn task kêu nó làm phù hợp nha.

Thử hỏi GPT-OSS:120b một bài toán đố 2 xe gặp nhau. 2 đắp án trả về đều chính xác hết.
Trong tình huống này, mình thử hỏi nó một vấn đề khá kinh điển trong môn đạo đức hay pháp luật là song đề đường ray. Và đây là trả lời của nó. Có thể thấy phản hồi của model cho thấy khá tốt về năng lực lý luận. Kết quả trả về cấu trúc rõ ràng, sử dụng bảng biểu để so sánh các trường phái triết học và trình bày thông tin phức tạp một cách trực quan và dễ hiểu.

Model đã định nghĩa và áp dụng chính xác các khái niệm như Chủ nghĩa vị lợi và Đạo đức học, cho thấy sự hiểu biết sâu sắc thay vì trả lời máy móc. Điểm đáng giá nhất là nó không chọn một phe, mà cung cấp một khung sườn tư duy đa chiều, để người dùng tự đưa ra quyết định. Cuối cùng, nó cũng đưa ra gợi ý để tương tác và khai thác tiếp vấn đề. Khá hay.

Source link

Author

Gallery

Contacts

Single Blog

120 tỷ tham số trên Macbook Pro M2 Max 96GB RAM, như GPT-4o online

Test khả năng của model GPT-OSS:120b

MQ

Leave a comment Cancel reply

Gallery

Contacts

Single Blog

Test khả năng của model GPT-OSS:120b

MQ

Thái Lan bắt buộc xe máy dưới 125cc phải được trang bị hệ thống phanh CBS/ABS

Nga chế tạo động cơ plasma có thể đến sao Hỏa trong 30 ngày

Leave a comment Cancel reply