Perkembangan industri AI baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain perangkat lunak di masa lalu adalah kode yang tepat, sekarang menjadi kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang dapat memberikan kinerja lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam membawa kemakmuran keempat ke industri AI, dan gelombang ini juga memengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Kemudian, akan dilakukan analisis mendalam terhadap keadaan dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Terakhir, laporan ini akan membahas secara esensial hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai sejak tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan dalam berbagai latar belakang disiplin yang berbeda di era yang berbeda.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", yang merupakan konsep di mana mesin bergantung pada data untuk iterasi berulang dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ). Alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( parameter ) cukup banyak, akan ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah melewati banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut sebagai "usaha besar menghasilkan keajaiban", yang juga menjadi asal kata "dalam" - cukup banyak lapisan dan neuron.
Sebagai contoh, bisa dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana jika kita memasukkan X=2, maka Y=3; jika X=3, maka Y=5. Jika kita ingin fungsi ini dapat menangani semua nilai X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, saya dapat membangun fungsi yang memenuhi kondisi ini yaitu Y = 2X -1. Namun jika ada data dengan X=2, Y=11, maka perlu membangun kembali fungsi yang cocok untuk ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan Y = X2 -3X +5, yang cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan dan memberikan output yang kira-kira serupa. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sementara 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan berdasarkan teknologi pembelajaran mendalam yang berbasis jaringan saraf, juga terdapat beberapa iterasi dan evolusi teknologi, seperti jaringan saraf awal, jaringan saraf feedforward, RNN, CNN, GAN yang akhirnya berevolusi menjadi model besar modern seperti GPT menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan satu konverter ( Transformer ), yang digunakan untuk mengkodekan data dari semua modalt ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, yaitu satu dekade setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum dan interaksi manusia-mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan NASA oleh Universitas Stanford di Amerika Serikat. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan dapat memberikan jawaban yang sama seperti pakar kimia melalui inferensi berdasarkan pertanyaan. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem ahli, pada tahun 1990-an, ilmuwan dan filosof asal Israel yang berkewarganegaraan Amerika, Judea Pearl (, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengusulkan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Selanjutnya, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan menjadi juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang dapat menghasilkan foto yang sangat realistis dengan cara membiarkan dua jaringan saraf saling bersaing dalam proses pembelajaran. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam dalam majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel ) mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia catur Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, perusahaan teknologi robotik Hanson Robotics ( di Hong Kong, China, mengembangkan robot humanoid Sophia, yang dianggap sebagai robot pertama dalam sejarah yang mendapatkan status warga negara tingkat satu, dilengkapi dengan ekspresi wajah yang kaya serta kemampuan memahami bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, dan model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT) Generative Pre-trained Transformer( yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, yang mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja yang sangat baik dalam berbagai tugas NLP), termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel(.
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, 10 kali lipat dari GPT-3.
Aplikasi ChatGPT yang berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
![Pemula Populer丨AI x Crypto: Dari Nol ke Puncak])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pelopor, model besar ini menciptakan gelombang antusiasme terhadap kecerdasan buatan, banyak pemain masuk ke arena ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir di industri AI yang didominasi oleh algoritma pembelajaran mendalam terbentuk, serta bagaimana keadaan dan hubungan penawaran dan permintaan, serta perkembangan masa depan.
Pertama-tama, kita perlu memperjelas bahwa dalam melatih model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer), terdapat tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan lapisan input cukup banyak pasangan data, seperti contoh yang diberikan di bagian pertama laporan (X,Y), untuk mencari parameter terbaik dari masing-masing neuron di bawah model ini, pada saat ini membutuhkan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus berulang kali mengiterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang sangat berkualitas untuk dilatih, perubahan seperti ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun sebuah model baru yang kami sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga pembuatan model ini akan relatif sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter dari model besar. ( Namun terkadang juga perlu keterlibatan manusia untuk menilai kualitas keluaran model ).
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling banyak, sedangkan penyetelan memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, pembelajaran penguatan dapat menggunakan model hadiah untuk iterasi parameter secara berulang untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan sebuah garis lurus. Jika semakin banyak neuron, maka dapat mengiterasi lebih banyak parameter, sehingga dapat mengusulkan lebih banyak data. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga merupakan alasan mengapa disebut model besar, pada dasarnya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, yang juga memerlukan sejumlah besar daya komputasi.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, dan daya komputasi. Ketiga hal ini bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n( dihitung berdasarkan jumlah Token), maka kita dapat menghitung jumlah komputasi yang diperlukan dengan menggunakan aturan praktis umum, sehingga kita dapat memperkirakan situasi daya komputasi yang perlu kita beli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops sebagai unit dasar, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5+3.557. Floating point berarti dapat memiliki titik desimal, sedangkan FP16 menunjukkan dukungan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
5
Bagikan
Komentar
0/400
GasFeeDodger
· 07-24 23:12
naik tidak naik tidak penting, yang penting adalah menerima gas paling menyenangkan
Lihat AsliBalas0
DefiPlaybook
· 07-21 23:34
Peningkatan efisiensi kerja 20%? Penambangan Likuiditas sudah bisa berlipat ganda!
AI dan Aset Kripto: Dari Dasar hingga Perkembangan Masa Depan
AI x Crypto: Dari Nol ke Puncak
Perkembangan industri AI baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan meningkatkan efisiensi kerja di AS sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain perangkat lunak di masa lalu adalah kode yang tepat, sekarang menjadi kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang dapat memberikan kinerja lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam membawa kemakmuran keempat ke industri AI, dan gelombang ini juga memengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak teknologi pembelajaran mendalam terhadap industri. Kemudian, akan dilakukan analisis mendalam terhadap keadaan dan tren perkembangan hulu dan hilir rantai industri seperti GPU, komputasi awan, sumber data, dan perangkat tepi dalam pembelajaran mendalam. Terakhir, laporan ini akan membahas secara esensial hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai sejak tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan dalam berbagai latar belakang disiplin yang berbeda di era yang berbeda.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", yang merupakan konsep di mana mesin bergantung pada data untuk iterasi berulang dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ). Alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( parameter ) cukup banyak, akan ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah melewati banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut sebagai "usaha besar menghasilkan keajaiban", yang juga menjadi asal kata "dalam" - cukup banyak lapisan dan neuron.
Sebagai contoh, bisa dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana jika kita memasukkan X=2, maka Y=3; jika X=3, maka Y=5. Jika kita ingin fungsi ini dapat menangani semua nilai X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, saya dapat membangun fungsi yang memenuhi kondisi ini yaitu Y = 2X -1. Namun jika ada data dengan X=2, Y=11, maka perlu membangun kembali fungsi yang cocok untuk ketiga titik data ini. Menggunakan GPU untuk brute force, ditemukan Y = X2 -3X +5, yang cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan dan memberikan output yang kira-kira serupa. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sementara 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan berdasarkan teknologi pembelajaran mendalam yang berbasis jaringan saraf, juga terdapat beberapa iterasi dan evolusi teknologi, seperti jaringan saraf awal, jaringan saraf feedforward, RNN, CNN, GAN yang akhirnya berevolusi menjadi model besar modern seperti GPT menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan satu konverter ( Transformer ), yang digunakan untuk mengkodekan data dari semua modalt ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, yaitu satu dekade setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum dan interaksi manusia-mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan NASA oleh Universitas Stanford di Amerika Serikat. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan dapat memberikan jawaban yang sama seperti pakar kimia melalui inferensi berdasarkan pertanyaan. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem ahli, pada tahun 1990-an, ilmuwan dan filosof asal Israel yang berkewarganegaraan Amerika, Judea Pearl (, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengusulkan konsep deep learning, yaitu algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Selanjutnya, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan menjadi juara dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang dapat menghasilkan foto yang sangat realistis dengan cara membiarkan dua jaringan saraf saling bersaing dalam proses pembelajaran. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam dalam majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel ) mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia catur Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, perusahaan teknologi robotik Hanson Robotics ( di Hong Kong, China, mengembangkan robot humanoid Sophia, yang dianggap sebagai robot pertama dalam sejarah yang mendapatkan status warga negara tingkat satu, dilengkapi dengan ekspresi wajah yang kaya serta kemampuan memahami bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, dan model bahasa skala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT) Generative Pre-trained Transformer( yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, yang mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja yang sangat baik dalam berbagai tugas NLP), termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel(.
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, 10 kali lipat dari GPT-3.
Aplikasi ChatGPT yang berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat mencapai seratus juta pengguna dalam sejarah.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
![Pemula Populer丨AI x Crypto: Dari Nol ke Puncak])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pelopor, model besar ini menciptakan gelombang antusiasme terhadap kecerdasan buatan, banyak pemain masuk ke arena ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir di industri AI yang didominasi oleh algoritma pembelajaran mendalam terbentuk, serta bagaimana keadaan dan hubungan penawaran dan permintaan, serta perkembangan masa depan.
Pertama-tama, kita perlu memperjelas bahwa dalam melatih model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer), terdapat tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan lapisan input cukup banyak pasangan data, seperti contoh yang diberikan di bagian pertama laporan (X,Y), untuk mencari parameter terbaik dari masing-masing neuron di bawah model ini, pada saat ini membutuhkan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus berulang kali mengiterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang sangat berkualitas untuk dilatih, perubahan seperti ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun sebuah model baru yang kami sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga pembuatan model ini akan relatif sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter dari model besar. ( Namun terkadang juga perlu keterlibatan manusia untuk menilai kualitas keluaran model ).
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling banyak, sedangkan penyetelan memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, pembelajaran penguatan dapat menggunakan model hadiah untuk iterasi parameter secara berulang untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan sebuah garis lurus. Jika semakin banyak neuron, maka dapat mengiterasi lebih banyak parameter, sehingga dapat mengusulkan lebih banyak data. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga merupakan alasan mengapa disebut model besar, pada dasarnya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, yang juga memerlukan sejumlah besar daya komputasi.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, dan daya komputasi. Ketiga hal ini bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n( dihitung berdasarkan jumlah Token), maka kita dapat menghitung jumlah komputasi yang diperlukan dengan menggunakan aturan praktis umum, sehingga kita dapat memperkirakan situasi daya komputasi yang perlu kita beli dan waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops sebagai unit dasar, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5+3.557. Floating point berarti dapat memiliki titik desimal, sedangkan FP16 menunjukkan dukungan.