ការធ្វើតេស្ត "ឆ្លាតបំផុតនៅលើពិភពលោក" Grok3

ក្រុម AIPU WATON (1)

សេចក្តីផ្តើម

តើអ្នកគិតថា Grok3 នឹងក្លាយជា "ចំណុចបញ្ចប់" នៃម៉ូដែលមុនការបណ្តុះបណ្តាលទេ?

Elon Musk និងក្រុម xAI បានដាក់ឱ្យដំណើរការជាផ្លូវការនូវកំណែចុងក្រោយបំផុតរបស់ Grok, Grok3 ក្នុងអំឡុងពេលផ្សាយផ្ទាល់។ មុនពេលព្រឹត្តិការណ៍នេះ ព័ត៌មានពាក់ព័ន្ធមួយចំនួន រួមជាមួយនឹងការឃោសនាបំផ្លើស 24/7 របស់ Musk បានបង្កើនការរំពឹងទុកជាសកលសម្រាប់ Grok3 ដល់កម្រិតដែលមិនធ្លាប់មានពីមុនមក។ កាលពីមួយសប្តាហ៍មុន លោក Musk បាននិយាយដោយទំនុកចិត្តក្នុងអំឡុងពេលផ្សាយផ្ទាល់ខណៈពេលកំពុងធ្វើអត្ថាធិប្បាយលើ DeepSeek R1 ថា "xAI ហៀបនឹងបញ្ចេញគំរូ AI កាន់តែប្រសើរ" ។ ពីទិន្នន័យដែលបានបង្ហាញផ្ទាល់ Grok3 ត្រូវបានគេរាយការណ៍ថាបានលើសម៉ូដែលបច្ចុប្បន្នទាំងអស់នៅក្នុងគោលសម្រាប់គណិតវិទ្យា វិទ្យាសាស្រ្ត និងការសរសេរកម្មវិធី ដោយ Musk ថែមទាំងអះអាងថា Grok3 នឹងត្រូវបានប្រើសម្រាប់កិច្ចការគណនាទាក់ទងនឹងបេសកកម្មរបស់ SpaceX ដោយព្យាករណ៍ថា "ការទម្លាយនៅកម្រិតរង្វាន់ណូបែលក្នុងរយៈពេលបីឆ្នាំ"។ ទោះជាយ៉ាងណាក៏ដោយ ទាំងនេះគ្រាន់តែជាការអះអាងរបស់លោក Musk ប៉ុណ្ណោះ។ បន្ទាប់ពីការបើកដំណើរការ ខ្ញុំបានសាកល្បងកំណែបែតាចុងក្រោយបង្អស់របស់ Grok3 ហើយដាក់សំណួរល្បិចបុរាណសម្រាប់ម៉ូដែលធំ៖ "មួយណាធំជាង 9.11 ឬ 9.9?" គួរឱ្យសោកស្ដាយ ដោយគ្មានវគ្គជម្រុះ ឬការសម្គាល់ណាមួយ អ្វីដែលគេហៅថា Grok3 ឆ្លាតបំផុតនៅតែមិនអាចឆ្លើយសំណួរនេះបានត្រឹមត្រូវ។ Grok3 បរាជ័យក្នុងការកំណត់អត្ថន័យនៃសំណួរឲ្យបានត្រឹមត្រូវ។

 

ការធ្វើតេស្តនេះបានទាក់ទាញចំណាប់អារម្មណ៍យ៉ាងខ្លាំងពីមិត្តភ័ក្តិជាច្រើន ហើយចៃដន្យ ការធ្វើតេស្តស្រដៀងគ្នាជាច្រើននៅក្រៅប្រទេសបានបង្ហាញថា Grok3 តស៊ូជាមួយនឹងសំណួររូបវិទ្យា/គណិតវិទ្យាជាមូលដ្ឋានដូចជា "បាល់មួយណាធ្លាក់មុនគេពីប៉មលីងភីសា?" ដូច្នេះហើយ វា​ត្រូវ​បាន​គេ​ដាក់​ឈ្មោះ​បែប​កំប្លែង​ថា​ជា «​មនុស្ស​ឆ្លាត​ដែល​មិន​ចង់​ឆ្លើយ​សំណួរ​សាមញ្ញៗ​»។

៦៤០

Grok3 គឺល្អ ប៉ុន្តែវាមិនប្រសើរជាង R1 ឬ o1-Pro ទេ។

Grok3 បានជួបប្រទះ "ការបរាជ័យ" លើការធ្វើតេស្តចំណេះដឹងទូទៅជាច្រើននៅក្នុងការអនុវត្ត។ ក្នុងអំឡុងពេលព្រឹត្តិការណ៍ xAI ចាប់ផ្តើម លោក Musk បានបង្ហាញការប្រើប្រាស់ Grok3 ដើម្បីវិភាគថ្នាក់តួអក្សរ និងផលប៉ះពាល់ពីហ្គេម Path of Exile 2 ដែលគាត់អះអាងថានឹងលេងជាញឹកញាប់ ប៉ុន្តែចម្លើយភាគច្រើនដែលផ្តល់ដោយ Grok3 គឺមិនត្រឹមត្រូវទេ។ Musk ក្នុងអំឡុងពេលផ្សាយផ្ទាល់មិនបានកត់សម្គាល់ពីបញ្ហាជាក់ស្តែងនេះទេ។

 

កំហុសនេះមិនត្រឹមតែផ្តល់ភ័ស្តុតាងបន្ថែមទៀតសម្រាប់អ្នកនិយមលេងអ៊ីនធឺណិតនៅក្រៅប្រទេសដើម្បីចំអកឱ្យ Musk សម្រាប់ "ការស្វែងរកអ្នកជំនួស" នៅក្នុងហ្គេមប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងបានលើកឡើងនូវការព្រួយបារម្ភយ៉ាងខ្លាំងទាក់ទងនឹងភាពជឿជាក់របស់ Grok3 នៅក្នុងការអនុវត្តជាក់ស្តែង។ សម្រាប់ "ភាពប៉ិនប្រសប់" បែបនេះ ដោយមិនគិតពីសមត្ថភាពជាក់ស្តែងរបស់វា ភាពជឿជាក់របស់វានៅក្នុងសេណារីយ៉ូនៃកម្មវិធីដ៏ស្មុគស្មាញបំផុត ដូចជាកិច្ចការរុករកភពអង្គារ នៅតែស្ថិតក្នុងការសង្ស័យ។

 

បច្ចុប្បន្ននេះ អ្នកសាកល្បងជាច្រើនដែលបានទទួលការចូលប្រើប្រាស់ Grok3 សប្តាហ៍មុន និងអ្នកដែលទើបតែសាកល្បងសមត្ថភាពម៉ូដែលពីរបីម៉ោងកាលពីម្សិលមិញ សុទ្ធតែចង្អុលទៅការសន្និដ្ឋានទូទៅថា "Grok3 គឺល្អ ប៉ុន្តែវាមិនប្រសើរជាង R1 ឬ o1-Pro" ។

៦៤០ (១)

ទស្សនវិស័យសំខាន់លើ "ការរំខាន Nvidia"

នៅក្នុង PPT ដែលបានបង្ហាញជាផ្លូវការក្នុងអំឡុងពេលចេញផ្សាយ Grok3 ត្រូវបានបង្ហាញថា "ឆ្ងាយ" នៅក្នុង Chatbot Arena ប៉ុន្តែបច្ចេកទេសក្រាហ្វិកនេះបានប្រើយ៉ាងប៉ិនប្រសប់៖ អ័ក្សបញ្ឈរនៅលើតារាងពិន្ទុដែលបានរាយបញ្ជីលទ្ធផលតែនៅក្នុងជួរពិន្ទុ 1400-1300 ដែលធ្វើឱ្យភាពខុសគ្នា 1% ដើមនៅក្នុងលទ្ធផលតេស្តមើលទៅគួរឱ្យកត់សម្គាល់ជាពិសេសនៅក្នុងបទបង្ហាញនេះ។

៦៤០

នៅក្នុងលទ្ធផលពិន្ទុគំរូជាក់ស្តែង Grok3 គឺត្រឹមតែ 1-2% នាំមុខ DeepSeek R1 និង GPT-4.0 ដែលត្រូវនឹងបទពិសោធន៍របស់អ្នកប្រើប្រាស់ជាច្រើនក្នុងការធ្វើតេស្តជាក់ស្តែងដែលបានរកឃើញថា "មិនមានភាពខុសគ្នាគួរឱ្យកត់សម្គាល់ទេ" ។ Grok3 លើសពីអ្នកស្នងតំណែងរបស់ខ្លួនត្រឹម 1%-2% ប៉ុណ្ណោះ។

៦៤០

ទោះបីជា Grok3 ទទួលបានពិន្ទុខ្ពស់ជាងម៉ូដែលដែលបានសាកល្បងជាសាធារណៈទាំងអស់នាពេលបច្ចុប្បន្នក៏ដោយ មនុស្សជាច្រើនមិនយកចិត្តទុកដាក់ចំពោះរឿងនេះទេ៖ បន្ទាប់ពីទាំងអស់ xAI ពីមុនត្រូវបានរិះគន់ចំពោះ "ការរៀបចំពិន្ទុ" នៅក្នុងយុគសម័យ Grok2 ។ នៅពេលដែលតារាងពិន្ទុដាក់ពិន័យលើរចនាប័ទ្មចម្លើយ ពិន្ទុបានថយចុះយ៉ាងខ្លាំង ដែលនាំឱ្យអ្នកខាងក្នុងឧស្សាហកម្មរិះគន់ជាញឹកញាប់អំពីបាតុភូតនៃ "ពិន្ទុខ្ពស់ ប៉ុន្តែសមត្ថភាពទាប" ។

 

មិនថាតាមរយៈតារាងពិន្ទុ "ឧបាយកល" ឬល្បិចក្នុងការរចនាក្នុងរូបភាព ពួកគេបង្ហាញពីការគិតមមៃរបស់ xAI និង Musk ជាមួយនឹងគំនិតនៃ "ការដឹកនាំកញ្ចប់" នៅក្នុងសមត្ថភាពគំរូ។ Musk បានចំណាយប្រាក់ដ៏ច្រើនសន្ធឹកសន្ធាប់សម្រាប់រឹមទាំងនេះ៖ ក្នុងអំឡុងពេលចាប់ផ្តើម លោកបានអួតពីការប្រើប្រាស់ 200,000 H100 GPUs (ទាមទារ "ជាង 100,000" ក្នុងអំឡុងពេលផ្សាយផ្ទាល់) និងសម្រេចបាននូវពេលវេលាហ្វឹកហាត់សរុប 200 លានម៉ោង។ នេះនាំឱ្យអ្នកខ្លះជឿថាវាតំណាងឱ្យអត្ថប្រយោជន៍ដ៏សំខាន់មួយផ្សេងទៀតសម្រាប់ឧស្សាហកម្ម GPU និងដើម្បីពិចារណាពីផលប៉ះពាល់របស់ DeepSeek លើវិស័យនេះថាជា "ល្ងង់" ។ គួរកត់សម្គាល់ថា អ្នកខ្លះជឿថា ថាមពលកុំព្យូទ័រដ៏ខ្លាំងនឹងក្លាយជាអនាគតនៃការបណ្តុះបណ្តាលគំរូ។

 

ទោះជាយ៉ាងណាក៏ដោយ អ្នកនិយមលេងអ៊ីនធឺណិតមួយចំនួនបានប្រៀបធៀបការប្រើប្រាស់ 2000 H800 GPUs ក្នុងរយៈពេលពីរខែដើម្បីផលិត DeepSeek V3 ដោយគណនាថាការប្រើប្រាស់ថាមពលហ្វឹកហាត់ពិតប្រាកដរបស់ Grok3 គឺ 263 ដងនៃ V3 ។ គម្លាតរវាង DeepSeek V3 ដែលទទួលបានពិន្ទុ 1402 និង Grok3 គឺស្ថិតនៅក្រោម 100 ពិន្ទុប៉ុណ្ណោះ។ បន្ទាប់ពីការចេញផ្សាយទិន្នន័យនេះ មនុស្សជាច្រើនបានដឹងយ៉ាងឆាប់រហ័សថានៅពីក្រោយចំណងជើងរបស់ Grok3 ជា "ខ្លាំងបំផុតរបស់ពិភពលោក" គឺមានផលប៉ះពាល់យ៉ាងច្បាស់លាស់ - តក្កវិជ្ជានៃម៉ូដែលធំ ៗ ដែលបង្កើតដំណើរការខ្លាំងជាងមុនបានចាប់ផ្តើមបង្ហាញការត្រឡប់មកវិញថយចុះ។

៦៤០ (២)

ទោះបីជាមាន "ពិន្ទុខ្ពស់ ប៉ុន្តែសមត្ថភាពទាប" Grok2 មានទិន្នន័យភាគីទីមួយដែលមានគុណភាពខ្ពស់ជាច្រើនពីវេទិកា X (Twitter) ដើម្បីគាំទ្រការប្រើប្រាស់។ ទោះបីជាយ៉ាងណាក៏ដោយ នៅក្នុងការបណ្តុះបណ្តាលរបស់ Grok3, xAI បានជួបប្រទះដោយធម្មជាតិ "ពិដាន" ដែល OpenAI ប្រឈមមុខនាពេលបច្ចុប្បន្ន - កង្វះទិន្នន័យបណ្តុះបណ្តាលបុព្វលាភ បង្ហាញយ៉ាងរហ័សនូវឧបករណ៍ប្រើប្រាស់តិចតួចនៃសមត្ថភាពរបស់ម៉ូដែល។

 

អ្នកអភិវឌ្ឍន៍ Grok3 និង Musk ទំនងជាអ្នកដំបូងដែលយល់ និងកំណត់ការពិតទាំងនេះយ៉ាងស៊ីជម្រៅ ដែលជាមូលហេតុដែល Musk បានលើកឡើងជាបន្តបន្ទាប់នៅលើប្រព័ន្ធផ្សព្វផ្សាយសង្គមថា កំណែដែលអ្នកប្រើប្រាស់កំពុងជួបប្រទះឥឡូវនេះគឺ "នៅតែជាបេតា" ហើយថា "កំណែពេញលេញនឹងចេញនៅប៉ុន្មានខែខាងមុខនេះ"។ Musk បានយកតួនាទីជាអ្នកគ្រប់គ្រងផលិតផលរបស់ Grok3 ដោយស្នើឱ្យអ្នកប្រើប្រាស់ផ្តល់មតិកែលម្អលើបញ្ហាផ្សេងៗដែលបានជួបប្រទះនៅក្នុងផ្នែកមតិយោបល់។ គាត់អាចជាអ្នកគ្រប់គ្រងផលិតផលដែលមានការតាមដានច្រើនជាងគេនៅលើផែនដី។

 

ទោះជាយ៉ាងណាក៏ដោយ ក្នុងរយៈពេលមួយថ្ងៃ ការសម្តែងរបស់ Grok3 ពិតជាបានបង្កើនការជូនដំណឹងសម្រាប់អ្នកដែលសង្ឃឹមថានឹងពឹងផ្អែកលើ "សាច់ដុំគណនាដ៏ធំ" ដើម្បីបណ្តុះបណ្តាលម៉ូដែលធំ ៗ ឱ្យកាន់តែរឹងមាំ៖ ដោយផ្អែកលើព័ត៌មានរបស់ Microsoft ដែលមានជាសាធារណៈ GPT-4 របស់ OpenAI មានទំហំប៉ារ៉ាម៉ែត្រ 1.8 ពាន់ពាន់លាន លើសពីដប់ដងនៃ GPT-3 ។ ពាក្យចចាមអារ៉ាមបង្ហាញថាទំហំប៉ារ៉ាម៉ែត្រនៃ GPT-4.5 អាចនឹងធំជាងនេះ។

 

ដោយសារទំហំប៉ារ៉ាម៉ែត្រគំរូកើនឡើង ការចំណាយលើការបណ្តុះបណ្តាលក៏កើនឡើងខ្ពស់ផងដែរ។ ជាមួយនឹងវត្តមានរបស់ Grok3 អ្នកប្រកួតប្រជែងដូចជា GPT-4.5 និងអ្នកផ្សេងទៀតដែលចង់បន្ត "ដុតលុយ" ដើម្បីសម្រេចបាននូវការអនុវត្តគំរូកាន់តែប្រសើរតាមរយៈទំហំប៉ារ៉ាម៉ែត្រ ត្រូវតែពិចារណាលើពិដានដែលឥឡូវនេះមើលឃើញយ៉ាងច្បាស់ ហើយសញ្ជឹងគិតពីរបៀបយកឈ្នះវា។ នៅពេលនេះ Ilya Sutskever អតីតប្រធានអ្នកវិទ្យាសាស្ត្រនៅ OpenAI ធ្លាប់បាននិយាយកាលពីខែធ្នូឆ្នាំមុនថា "ការបណ្តុះបណ្តាលមុនដែលយើងធ្លាប់ស្គាល់នឹងមកដល់ទីបញ្ចប់" ដែលបានលេចចេញជាថ្មីនៅក្នុងការពិភាក្សាដែលជំរុញឱ្យមានការខិតខំប្រឹងប្រែងស្វែងរកផ្លូវពិតសម្រាប់ការបណ្តុះបណ្តាលគំរូធំ។

៦៤០ (៣)

ទស្សនៈរបស់ Ilya បានបន្លឺសំឡេងរោទិ៍នៅក្នុងឧស្សាហកម្មនេះ។ គាត់​បាន​ព្យាករណ៍​យ៉ាង​ត្រឹមត្រូវ​អំពី​ការ​ហត់នឿយ​ដែល​នឹង​កើតឡើង​នៃ​ទិន្នន័យ​ថ្មី​ដែល​អាច​ចូល​ប្រើប្រាស់​បាន ដែល​នាំ​ឱ្យ​មាន​ស្ថានភាព​ដែល​ការ​អនុវត្ត​មិន​អាច​បន្ត​ត្រូវ​បាន​ពង្រឹង​តាមរយៈ​ការ​ទទួល​បាន​ទិន្នន័យ ដោយ​ប្រដូច​វា​ទៅ​នឹង​ការ​ហត់នឿយ​នៃ​ឥន្ធនៈ​ហ្វូស៊ីល​។ គាត់បានបង្ហាញថា "ដូចជាប្រេង មាតិកាដែលបង្កើតដោយមនុស្សនៅលើអ៊ីនធឺណិត គឺជាធនធានមានកំណត់"។ នៅក្នុងការព្យាករណ៍របស់ Sutskever ម៉ូដែលជំនាន់ក្រោយក្រោយការបណ្តុះបណ្តាលមុននឹងមាន "ស្វ័យភាពពិត" និងសមត្ថភាពវែកញែក "ស្រដៀងទៅនឹងខួរក្បាលមនុស្ស" ។

 

មិនដូចគំរូដែលបានបណ្តុះបណ្តាលមុនថ្ងៃនេះ ដែលពឹងផ្អែកជាចម្បងលើការផ្គូផ្គងមាតិកា (ផ្អែកលើខ្លឹមសារគំរូដែលបានសិក្សាពីមុន) ប្រព័ន្ធ AI នាពេលអនាគតនឹងអាចរៀន និងបង្កើតវិធីសាស្រ្តដើម្បីដោះស្រាយបញ្ហាក្នុងលក្ខណៈស្រដៀងទៅនឹង "ការគិត" នៃខួរក្បាលមនុស្ស។ មនុស្សអាចសម្រេចបាននូវជំនាញជាមូលដ្ឋាននៅក្នុងមុខវិជ្ជាមួយដោយគ្រាន់តែអក្សរសិល្ប៍វិជ្ជាជីវៈជាមូលដ្ឋាន ខណៈពេលដែលគំរូដ៏ធំរបស់ AI ត្រូវការចំណុចទិន្នន័យរាប់លានដើម្បីសម្រេចបាននូវប្រសិទ្ធភាពកម្រិតមូលដ្ឋានបំផុត។ សូម្បីតែនៅពេលដែលពាក្យត្រូវបានផ្លាស់ប្តូរបន្តិចក៏ដោយ សំណួរជាមូលដ្ឋានទាំងនេះប្រហែលជាមិនត្រូវបានយល់ត្រឹមត្រូវទេ ដោយបង្ហាញថាគំរូនេះមិនបានកែលម្អយ៉ាងពិតប្រាកដនៅក្នុងភាពឆ្លាតវៃនោះទេ៖ សំណួរជាមូលដ្ឋានដែលមិនទាន់អាចដោះស្រាយបានដែលបានលើកឡើងនៅដើមអត្ថបទតំណាងឱ្យឧទាហរណ៍ច្បាស់លាស់នៃបាតុភូតនេះ។

微信图片_20240614024031.jpg1

សេចក្តីសន្និដ្ឋាន

ទោះជាយ៉ាងណាក៏ដោយ លើសពីកម្លាំងដ៏អាក្រក់ ប្រសិនបើ Grok3 ពិតជាជោគជ័យក្នុងការបង្ហាញដល់ឧស្សាហកម្មនេះថា "គំរូដែលបានបណ្តុះបណ្តាលមុននឹងឈានដល់ការបញ្ចប់របស់ពួកគេ" វានឹងនាំមកនូវផលប៉ះពាល់យ៉ាងសំខាន់សម្រាប់វិស័យនេះ។

ប្រហែលជាបន្ទាប់ពីភាពច្របូកច្របល់ជុំវិញ Grok3 ថយចុះជាបណ្តើរៗ យើងនឹងឃើញករណីជាច្រើនទៀតដូចជាឧទាហរណ៍របស់ Fei-Fei Li នៃ "ការកែសម្រួលម៉ូដែលដែលមានប្រសិទ្ធភាពខ្ពស់លើសំណុំទិន្នន័យជាក់លាក់ត្រឹមតែ 50 ដុល្លារប៉ុណ្ណោះ" ដែលទីបំផុតរកឃើញផ្លូវពិតទៅកាន់ AGI ។

ស្វែងរកដំណោះស្រាយខ្សែ ELV

ត្រួតពិនិត្យខ្សែ

សម្រាប់ BMS, BUS, ឧស្សាហកម្ម, ឧបករណ៍ខ្សែ។

ប្រព័ន្ធខ្សែកាបដែលមានរចនាសម្ព័ន្ធ

បណ្តាញ និងទិន្នន័យ, ខ្សែ Fiber-Optic, ខ្សែបំណះ, ម៉ូឌុល, បន្ទះមុខ

ការពិនិត្យមើលការតាំងពិព័រណ៍ និងព្រឹត្តិការណ៍ឆ្នាំ 2024

ថ្ងៃទី 16-18 ខែមេសា ឆ្នាំ 2024 ថាមពលមជ្ឈិមបូព៌ានៅឌូបៃ

ថ្ងៃទី 16-18 ខែមេសា ឆ្នាំ 2024 Securika នៅទីក្រុងមូស្គូ

ថ្ងៃទី 9 ខែឧសភា ឆ្នាំ 2024 ព្រឹត្តិការណ៍សម្ពោធផលិតផល និងបច្ចេកវិទ្យាថ្មីនៅទីក្រុងសៀងហៃ

ថ្ងៃទី 22-25 ខែតុលា ឆ្នាំ 2024 សន្តិសុខចិននៅទីក្រុងប៉េកាំង

ថ្ងៃទី 19-20 ខែវិច្ឆិកា ឆ្នាំ 2024 បានភ្ជាប់ KSA ពិភពលោក


ពេលវេលាផ្សាយ៖ កុម្ភៈ-១៩-២០២៥