សាកល្បង "ឆ្លាតបំផុតនៅក្នុងពិភពលោក" Grook3

ក្រុម AIPU Waton (1)

ការនេនាមអាេយស្គាល់

តើអ្នកគិតថា Grok3 នឹងក្លាយជា "ចំណុចបញ្ចប់" នៃម៉ូដែលដែលបានទទួលការបណ្តុះបណ្តាលជាមុនទេ?

Elon Musk និងក្រុម Xai បានដាក់ចេញនូវកំណែចុងក្រោយនៃ Grook, Grook3, ក្នុងអំឡុងពេលនៃការផ្សាយបន្តផ្ទាល់។ មុនព្រឹត្តិការណ៍នេះមានចំនួនយ៉ាងសំខាន់នៃព័ត៌មានដែលទាក់ទងនឹងការផ្សព្វផ្សាយ 24/7 របស់ Musk បានបង្កើនការរំពឹងទុកជាសកលសម្រាប់ Grook3 ដល់កំរិតដែលមិនធ្លាប់មានពីមុនមក។ កាលពីមួយសប្តាហ៍មុនបានបញ្ជាក់ដោយទំនុកចិត្តក្នុងកំឡុងពេលនៃការផ្សាយផ្ទាល់ខណៈពេលដែលការអត្ថាធិប្បាយលើ Rideyseek R1 "Xai គ្រោងនឹងបើកដំណើរការម៉ូដែល AI ល្អជាងនេះ" ។ ពីទិន្នន័យដែលបានបង្ហាញផ្ទាល់លោក Grook3 បានរាយការណ៍ថាបានលើសទាំងអស់ម៉ូដែលដែលបានធ្វើឱ្យប្រសើរឡើងទាំងអស់នៅក្នុងចំណាត់ថ្នាក់គណិតវិទ្យានិងការសរសេរកម្មវិធីដែលទាក់ទងនឹងបេសកកម្មភពព្រះអង្គាររបស់ SpactX, ព្យាករណ៍ "ការឈានដល់រង្វាន់ណូបែលនៅក្នុងរយៈពេលបីឆ្នាំ" ។ ទោះយ៉ាងណាបច្ចុប្បន្ននេះគ្រាន់តែជាការអះអាងរបស់ Musk ប៉ុណ្ណោះ។ បន្ទាប់ពីការដាក់ឱ្យដំណើរការខ្ញុំបានសាកល្បងកម្មវិធី BETA ជំនាន់ចុងក្រោយរបស់ Grok3 និងបង្កឱ្យមានសំណួរល្បិចបុរាណសម្រាប់ម៉ូដែលធំ ៗ : "ដែលធំជាង 9.11 ឬ 9,9?" គួរឱ្យសោកស្ដាយដោយគ្មានអ្នកមានជម្រុះឬសញ្ញាសំគាល់ណាមួយដែលអ្វីដែលគេហៅថាការវៃឆ្លាត Grok3 នៅតែមិនអាចឆ្លើយសំនួរនេះបានត្រឹមត្រូវបានទេ។ Grok3 បានបរាជ័យក្នុងការកំណត់អត្ថន័យនៃសំណួរនេះឱ្យបានត្រឹមត្រូវ។

 

ការធ្វើតេស្តនេះបានទាក់ទាញចំណាប់អារម្មណ៍យ៉ាងរហ័សពីមិត្តភក្តិជាច្រើននិងចៃដន្យនោះការធ្វើតេស្តិ៍ផ្សេងៗគ្នាជាច្រើននៅឯបរទេសបានតស៊ូជាមួយនឹងរូបវិទ្យាមូលដ្ឋានដែលមាន "បាល់ដំបូងធ្លាក់ពីប៉មផ្អៀងរបស់ភីសា?" ដូច្នេះវាត្រូវបានគេហៅថាកំប្លែងថា "Genius មិនមានឆន្ទៈក្នុងការឆ្លើយសំណួរសាមញ្ញ" ។

640

Grook3 គឺល្អប៉ុន្តែវាមិនប្រសើរជាង R1 ឬ O1-Pro ។

លោក Grook3 បានទទួលបទពិសោធន៍នៃការបរាជ័យលើការធ្វើតេស្តិ៍ចំណេះដឹងទូទៅជាច្រើនក្នុងការអនុវត្ត។ ក្នុងពិធីបើកការសម្ពោធ Xai លោក Musk បានបង្ហាញដោយប្រើ Grook3 ដើម្បីវិភាគថ្នាក់តួអក្សរនិងផលប៉ះពាល់ពីផ្លូវនៃការនិរទេស 2 ដែលគាត់បានអះអាងថាដើរតួជាញឹកញាប់ប៉ុន្តែចម្លើយភាគច្រើនដែលផ្តល់ដោយហ្គូក 3 មិនត្រឹមត្រូវ។ Musk ក្នុងអំឡុងពេលនៃការប្រោឡូមិនបានកត់សម្គាល់បញ្ហាជាក់ស្តែងនេះទេ។

 

កំហុសនេះមិនត្រឹមតែបានផ្តល់ភស្តុតាងបន្ថែមទៀតសម្រាប់អ្នកលេងអ៊ីនធឺណែតនៅបរទេសដើម្បី "ស្វែងរកការជំនួស" ក្នុងការលេងល្បែងប៉ុន្តែក៏បានបង្កឱ្យមានការព្រួយបារម្ភយ៉ាងខ្លាំងទាក់ទងនឹងភាពជឿជាក់របស់ Grok3 នៅក្នុងការអនុវត្តជាក់ស្តែង។ ចំពោះ "ទេពកោសល្យ" បែបនេះដោយមិនគិតពីសមត្ថភាពជាក់ស្តែងភាពអាចភាពជឿជាក់របស់វានៅក្នុងសេណារីយ៉ូអាយនេះមានភាពស្មុគស្មាញខ្លាំងដូចជាភារកិច្ចរុករកភពខ្លួននៅតែស្ថិតក្នុងការសង្ស័យ។

 

បច្ចុប្បន្ននេះអ្នកធ្វើតេស្តិ៍ជាច្រើនដែលបានទទួលការចូលទៅកាន់ Grok3 ប៉ុន្មានសប្តាហ៍ហើយអ្នកដែលទើបតែបានសាកល្បងសមត្ថភាពគំរូសម្រាប់ពីរបីម៉ោងកាលពីម្សិលមិញដែលជាការសន្និដ្ឋានទូទៅមួយគឺ "Grook3 គឺមិនល្អជាង R1 ឬ O1-Pro ។

640 (1)

ទស្សនវិស័យសំខាន់ស្តីពី "រំខានដល់ NVIDIA"

នៅក្នុង PPT ដែលបានបង្ហាញជាផ្លូវការលោក Gpt3 ត្រូវបានបង្ហាញថានៅខាងមុខនៅសង្វៀន Chatbot Arena ប៉ុន្តែ axis ដែលបានប្រើយ៉ាងខ្លាំងនេះ: លទ្ធផលដែលបានចុះបញ្ជីក្នុងតម្លៃ 1400-1300 ក្នុងការធ្វើតេស្តលទ្ធផលដើមបានលេចឡើងគួរឱ្យកត់សម្គាល់នៅក្នុងបទបង្ហាញនេះ។

640

នៅក្នុងលទ្ធផលនៃការស៊ុតបាល់បញ្ចូលទីជាក់ស្តែង GROK3 គឺមាន 1-2% មុន Radeek R1 និង GPT-4,0 ដែលត្រូវនឹងបទពិសោធន៍របស់អ្នកប្រើប្រាស់ជាច្រើននៅក្នុងការធ្វើតេស្តជាក់ស្តែងដែលរកឃើញ "មិនមានភាពខុសគ្នាគួរឱ្យកត់សម្គាល់" ។ Grok3 លើសពីអ្នកស្នងតំណែងរបស់ខ្លួនត្រឹមតែ 1% -2% ប៉ុណ្ណោះ។

640

ទោះបីជា Grook3 រកបានពិន្ទុខ្ពស់ជាងម៉ូដែលដែលបានសាកល្បងជាសាធារណៈសុទ្ធតែមនុស្សជាច្រើនមិនយកចិត្តទុកដាក់យ៉ាងខ្លាំងនេះទេ Xai ធ្លាប់បានរិះគន់ចំពោះ "ឧបាយកលពិន្ទុ" នៅក្នុងយុគសម័យ Gok2 ។ ក្នុងនាមជាអ្នកទទួលបានពិន្ទុខ្ពស់បំផុតតារាងពិន្ទុពិន្ទុបានថយចុះយ៉ាងខ្លាំងដែលឧស្សាហកម្មឈានមុខគេក្នុងការផលិតអ្នកចូលចិត្ដរិះគន់ជារឿយៗការរិះគន់បាតុភូតនៃ "ពិន្ទុទាបប៉ុន្តែមានសមត្ថភាពទាប" ។

 

Whether through leaderboard "manipulation" or design tricks in illustrations, they reveal xAI and Musk's obsession with the notion of "leading the pack" in model capabilities. Musk បានបង់ថ្លៃយ៉ាងខ្លាំងសម្រាប់រឹមទាំងនេះ: ក្នុងអំឡុងពេលនៃការចាប់ផ្តើមនេះលោកបានអួតពីការប្រើ GPUs ចំនួន 200,000 HPUs (ទាមទារ "ជាង 100,000" ក្នុងអំឡុងពេលការផ្សាយបន្តផ្ទាល់) និងទទួលបានពេលវេលាបណ្តុះបណ្តាលសរុប 200 លានម៉ោង។ នេះបាននាំឱ្យអ្នកខ្លះជឿថាវាតំណាងឱ្យគុណប្រយោជន៍ដ៏សំខាន់មួយទៀតសម្រាប់ឧស្សាហកម្ម GPU និងពិចារណាលើឥទ្ធិពលរបស់ស៊ីជម្រៅលើវិស័យនេះថា "ល្ងង់ខ្លៅ" ។ គួរកត់សម្គាល់ថាអ្នកខ្លះជឿថាអំណាចនៃការបណ្តុះបណ្តាលនេះនឹងក្លាយជាអនាគតនៃការបណ្តុះបណ្តាលគំរូ។

 

ទោះយ៉ាងណាអ្នកលេងអ៊ីនធឺណេតមួយចំនួនបានប្រៀបធៀបការទទួលទាន 2000 H800 GPUs ក្នុងរយៈពេលជាង 2 ខែដើម្បីផលិត RiceSeek V3 ដោយគណនាថាការប្រើប្រាស់ថាមពលបណ្តុះបណ្តាលជាក់ស្តែងរបស់ហ្គូកុនគឺ 263 ដងនៃ V3 ។ គម្លាតរវាង DoceSeek V3 ដែលរកបាន 1402 ពិន្ទុហើយ Grook3 មានអាយុក្រោម 100 ពិន្ទុ។ បន្ទាប់ពីការចេញផ្សាយទិន្នន័យនេះមនុស្សជាច្រើនបានដឹងយ៉ាងឆាប់រហ័សថានៅពីក្រោយចំណងជើងរបស់ Grok3 ជា "ខ្លាំងបំផុតរបស់ពិភពលោក" ដែលមានប្រសិទ្ធិភាពប្រើប្រាស់យ៉ាងច្បាស់ - តក្កវិជ្ជារបស់ម៉ូដែលធំ ៗ ដែលបង្កើតបានបង្ហាញនូវការថយចុះការថយចុះ។

640 (2)

ទោះបីជាមាន "ពិន្ទុខ្ពស់ប៉ុន្តែមានសមត្ថភាពទាប" GROK2 មានទិន្នន័យភាគីដំបូងដែលមានគុណភាពខ្ពស់ពីវេទិកា X (Twitter) ដើម្បីគាំទ្រការប្រើប្រាស់។ ទោះយ៉ាងណាក្នុងការបណ្តុះបណ្តាលហ្គូកឃី 3 លោក Xai បានជួបប្រទះ "ពិដាន" ដែល Openai បច្ចុប្បន្នកង្វះទិន្នន័យបណ្តុះបណ្តាលពិសេសបង្ហាញពីការប្រើប្រាស់ដែលមានទំហំតូចនៃសមត្ថភាពរបស់ម៉ូដែលរបស់ម៉ូដែលរបស់ម៉ូដែល។

 

អ្នកអភិវឌ្ឍន៍ Grook3 និង Musk ទំនងជាយល់និងស្គាល់ការពិតទាំងនេះយ៉ាងខ្លាំងនៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គមដែលអ្នកប្រើកំពុងជួបប្រទះឥឡូវនេះគឺ "កំណែពេញលេញ" ហើយ "កំណែពេញលេញនឹងត្រូវចេញផ្សាយនៅប៉ុន្មានខែខាងមុខនេះ" ។ Musk បានយកតួនាទីរបស់អ្នកគ្រប់គ្រងផលិតផលរបស់ Grok3 ដែលស្នើឱ្យអ្នកប្រើប្រាស់ផ្តល់នូវមតិយោបល់លើបញ្ហាផ្សេងៗដែលបានជួបប្រទះនៅក្នុងផ្នែកយោបល់។ គាត់ប្រហែលជានឹងក្លាយជាអ្នកគ្រប់គ្រងផលិតផលច្រើនបំផុតនៅលើផែនដី។

 

ទោះយ៉ាងណាការជូនដំណឹងរបស់លោក Grok3 សម្រាប់អ្នកដែលសង្ឃឹមថានឹងពឹងផ្អែកលើ "សាច់ដុំកុំព្យូទ័រដ៏ច្រើន" ដែលមានមូលដ្ឋានលើព័ត៌មានរបស់ GPT-4 របស់ប៉ារ៉ាម៉ែត្ររបស់ GPT-3 ជាងដប់ដងនៃ GPT-3 ។ ពាក្យចចាមអារាមបានបង្ហាញថាទំហំប៉ារ៉ាម៉ែត្ររបស់ GPT-4.5 ប្រហែលជាធំជាងនេះ។

 

នៅពេលដែលទំហំប៉ារ៉ាម៉ែត្រគំរូកើនឡើងខ្លាំងពេកការចំណាយលើការបណ្តុះបណ្តាលក៏មានចំនួនយ៉ាងខ្លាំងផងដែរ។ ជាមួយនឹងវត្តមានរបស់ Grok3 ដូចជា GPT-4.5 និងអ្នកផ្សេងទៀតដែលចង់បន្តការលូតលាស់របស់ប្រាក់ដើម្បីសម្រេចបាននូវការសម្តែងគំរូល្អជាងតាមរយៈទំហំប៉ារ៉ាម៉ែត្រត្រូវតែពិចារណាយ៉ាងច្បាស់ហើយពិចារណាអំពីរបៀបយកឈ្នះវា។ នៅពេលនេះលោកគីលី Sutskever អតីតអ្នកវិទ្យាសាស្ត្ររបស់លោក Apailai បានចុះបញ្ជីកាលពីខែធ្នូថា "ការបណ្តុះបណ្តាលដែលយើងធ្លាប់ស្គាល់ហើយ" ដែលបានធ្វើឱ្យកិច្ចពិភាក្សាជំរុញឱ្យមានការខិតខំប្រឹងប្រែងក្នុងការបណ្តុះបណ្តាលម៉ូដែលដ៏ពិតសម្រាប់ការបណ្តុះបណ្តាលម៉ូដែលដ៏ពិតប្រាកដ។

640 (3)

ទស្សនៈរបស់អាយលីបានធ្វើឱ្យមានការជូនដំណឹងនៅក្នុងឧស្សាហកម្មនេះ។ គាត់បានទប់ស្កាត់ការហត់នឿយនៃការហត់នឿយនៃទិន្នន័យថ្មីដែលអាចឈានដល់ស្ថានភាពដែលការសម្តែងមិនអាចបន្តធ្វើឱ្យប្រសើរឡើងតាមរយៈការទទួលបានទិន្នន័យដែលប្រៀបធៀបវាទៅនឹងការហត់នឿយនៃឥន្ធនៈហ្វូស៊ីល។ លោកបានបង្ហាញថា "ដូចជាប្រេងមាតិកាដែលបង្កើតដោយមនុស្សនៅលើអ៊ីនធឺណិតគឺជាធនធានមានកំណត់" ។ នៅក្នុងការព្យាករណ៍របស់ Sutskever ដែលជាម៉ូដែលជំនាន់ក្រោយការបណ្តុះបណ្តាលក្រោយការបណ្តុះបណ្តាលនឹងមាន "ស្វ័យភាពពិត" និងសមត្ថភាពវែកញែក "ដែលស្រដៀងនឹងខួរក្បាលរបស់មនុស្ស" ។

 

មិនដូចម៉ូដែលដែលបានទទួលការបណ្តុះបណ្តាលនៅថ្ងៃនេះដែលពឹងផ្អែកជាចម្បងលើមាតិកាដែលត្រូវបានរៀនពីមុន) ប្រព័ន្ធអេអាយអាយនឹងអាចរៀននិងបង្កើតនូវវិធីសាស្រ្តដើម្បីដោះស្រាយបញ្ហាតាមរបៀប "គិត" នៃខួរក្បាលរបស់មនុស្ស។ មនុស្សម្នាក់អាចទទួលបាននូវជំនាញមូលដ្ឋានក្នុងប្រធានបទជាមួយនឹងអក្សរសិល្ប៍អាជីពមូលដ្ឋានខណៈដែលម៉ូដែលធំអាយអាយទាមទារឱ្យមានទិន្នន័យរាប់លានដើម្បីសម្រេចបាននូវលទ្ធផលនៃកម្រិតធាតុចូលមូលដ្ឋានបំផុត។ សូម្បីតែនៅពេលដែលពាក្យនេះត្រូវបានផ្លាស់ប្តូរបន្តិចបន្តួចសំណួរជាមូលដ្ឋានទាំងនេះប្រហែលជាមិនយល់ត្រឹមត្រូវទេដែលបង្ហាញថាម៉ូដែលមិនបានធ្វើឱ្យប្រសើរឡើងយ៉ាងពិតប្រាកដនៅក្នុងភាពវៃឆ្លាត: សំណួរដែលមិនអាចដោះស្រាយបានដែលបានលើកឡើងនៅដើមអត្ថបទតំណាងឱ្យឧទាហរណ៍ដ៏ច្បាស់លាស់នៃបាតុភូតនេះ។

微信图片 _20240614024031.jpg1

ការបហ្ចប់

ទោះជាយ៉ាងណាក៏ដោយលើសពីនេះទៀតប្រសិនបើ Grook3 ពិតជាជោគជ័យក្នុងការបង្ហាញដល់ឧស្សាហកម្មនេះដែល "ម៉ូឌែលដែលបានទទួលការបណ្តុះបណ្តាលបានខិតជិតដល់ទីបញ្ចប់" វានឹងមានផលប៉ះពាល់យ៉ាងខ្លាំងសម្រាប់វាលនេះ។

ប្រហែលជាបន្ទាប់ពីការវង្វេងស្មារតីជុំវិញហ្គូល 3 បានធ្លាក់ចុះបន្តិចម្តង ៗ ផងដែរយើងនឹងធ្វើសក្ខីកម្មនូវគំរូរបស់ Fei-IEing របស់ម៉ូដែល "ក្នុងការស្វែងរកទិន្នន័យជាក់លាក់មួយក្នុងរយៈពេលតែ 50 ដុល្លារ" ។

ស្វែងរកដំណោះស្រាយខ្សែកាប elv

ខ្សែបញ្ជា

សម្រាប់ BMS រថយន្តក្រុងឧស្សាហកម្មខ្សែឧបករណ៍ឧបករណ៍។

ប្រព័ន្ធគម្របដែលមានរចនាសម្ព័ន្ធ

បណ្តាញនិងទិន្នន័យ, ខ្សែកាបអុបទិក, ខ្សែបំណះ, ម៉ូឌុល, ទឹករថាត

2024 ការពិនិត្យនិងការពិនិត្យឡើងវិញ

មេសា 16-18, 2024 ថាមពលមេនុក - ថាមពលនៅឌូបៃ

មេសា 16-18, 2024 Securika នៅទីក្រុងមូស្គូ

ឧសភាថ្ងៃទី 9, 2024 ផលិតផលថ្មីនៃការបើកដំណើរការរបស់បច្ចេកវិទ្យានៅសៀងហៃ

តុលា 222- ទី 25-25, 2024 សន្តិសុខចិននៅទីក្រុងប៉េកាំង

ខែវិច្ឆិកាឆ្នាំ 19-20, 2024 ការតភ្ជាប់ពិភពលោករបស់ KSA


ពេលវេលាក្រោយ: ថ្ងៃទី 19-2025