Iepriekšējā rakstā mēs parādījām, kā izveidot AI tērzēšanas robotu, izmantojot ChatGPT API, un piešķirt lomu tā personalizēšanai. Bet ko darīt, ja vēlaties apmācīt AI, izmantojot savus datus? Piemēram, jums var būt grāmata, finanšu dati vai liels datu bāzu kopums, un jūs vēlaties tos viegli meklēt. Šajā rakstā mēs piedāvājam jums viegli izpildāmu pamācību par to, kā apmācīt AI tērzēšanas robotu ar savu pielāgoto zināšanu bāzi, izmantojot LangChain un ChatGPT API. Mēs izvietojam LangChain, GPT Index un citas spēcīgas bibliotēkas, lai apmācītu AI tērzēšanas robotu, izmantojot OpenAI lielo valodu modeli (LLM). Tāpēc apskatīsim, kā apmācīt un izveidot AI tērzēšanas robotu, izmantojot savu datu kopu.
Apmācīt AI tērzēšanas robotu ar pielāgotu zināšanu bāzi, izmantojot ChatGPT API, LangChain un GPT indeksu (2023)
Šajā rakstā mēs esam izskaidrojuši darbības, lai AI tērzēšanas robotam mācītu sīkāk izmantot savus datus. No rīku un programmatūras iestatīšanas līdz AI modeļa apmācībai esam iekļāvuši visus norādījumus viegli saprotamā valodā. Ir ļoti ieteicams sekot norādījumiem no augšas uz leju, neizlaižot nevienu daļu.
Ievērojami punkti pirms AI apmācīšanas ar saviem datiem
1. Jūs varat apmācīt AI tērzēšanas robotu jebkurā platformā — Windows, macOS, Linux vai ChromeOS. Šajā rakstā es izmantoju sistēmu Windows 11, taču darbības ir gandrīz identiskas citām platformām.
2. Rokasgrāmata ir paredzēta vispārējiem lietotājiem, un instrukcijas ir izskaidrotas vienkāršā valodā. Tātad, pat ja jums ir paviršas zināšanas par datoriem un nezināt, kā kodēt, jūs varat viegli apmācīt un dažu minūšu laikā izveidot Q&A AI tērzēšanas robotu. Ja sekojat mūsu iepriekšējam rakstam par ChatGPT robotprogrammatūru, būtu vēl vieglāk saprast procesu.
3. Tā kā mēs apmācīsim AI Chatbot, pamatojoties uz mūsu pašu datiem, ieteicams izmantot spējīgu datoru ar labu CPU un GPU. Tomēr testēšanas nolūkos varat izmantot jebkuru zemas klases datoru, un tas darbosies bez problēmām. Es izmantoju Chromebook datoru, lai apmācītu AI modeli, izmantojot grāmatu ar 100 lappusēm (~100 MB). Tomēr, ja vēlaties apmācīt lielu datu kopu, kas aptver tūkstošiem lappušu, ļoti ieteicams izmantot jaudīgu datoru.
4. Visbeidzot, lai iegūtu vislabākos rezultātus, datu kopai ir jābūt angļu valodā, taču saskaņā ar OpenAI tā darbosies arī ar populārām starptautiskām valodām, piemēram, franču, spāņu, vācu u.c. Tāpēc turpiniet un izmēģiniet to pats. valodu.
Iestatiet programmatūras vidi, lai apmācītu AI tērzēšanas robotu
Tāpat kā mūsu iepriekšējais raksts, jums jāzina, ka Python un Pip ir jāinstalē kopā ar vairākām bibliotēkām. Šajā rakstā mēs visu iestatīsim no nulles, lai arī jaunie lietotāji varētu izprast iestatīšanas procesu. Lai sniegtu jums īsu priekšstatu, mēs instalēsim Python un Pip. Pēc tam mēs instalēsim Python bibliotēkas, kas ietver OpenAI, GPT Index, Gradio un PyPDF2. Procesa laikā jūs uzzināsit, ko dara katra bibliotēka. Atkal neuztraucieties par instalēšanas procesu, tas ir diezgan vienkārši. Pie šīs piezīmes iesim uzreiz.
Instalējiet Python
1. Vispirms datorā jāinstalē Python (Pip). Atvērt šo saiti un lejupielādējiet iestatīšanas failu savai platformai.
2. Pēc tam palaidiet iestatīšanas failu un noteikti iespējojiet izvēles rūtiņu “Pievienot Python.exe to PATH”. Tas ir ārkārtīgi svarīgs solis. Pēc tam noklikšķiniet uz “Instalēt tūlīt” un veiciet parastās darbības, lai instalētu Python.
3. Lai pārbaudītu, vai Python ir pareizi instalēts, datorā atveriet termināli. Es izmantoju Windows termināli operētājsistēmā Windows, taču varat izmantot arī komandu uzvedni. Kad esat šeit, palaidiet tālāk esošo komandu, un tā izvadīs Python versiju. Operētājsistēmās Linux un macOS, iespējams, būs jāizmanto python3 versija, nevis python versija.
python --version
Jauniniet Pip
Instalējot Python, Pip tiek instalēts vienlaikus jūsu sistēmā. Tāpēc jaunināsim to uz jaunāko versiju. Tiem, kas to nezina, Pip ir Python pakotņu pārvaldnieks. Būtībā tas ļauj no termināļa instalēt tūkstošiem Python bibliotēku. Izmantojot Pip, mēs varam instalēt OpenAI, gpt_index, gradio un PyPDF2 bibliotēkas. Tālāk ir norādītas darbības, kas jāievēro.
1. Datorā atveriet izvēlēto termināli. Es izmantoju Windows termināli, bet jūs varat arī izmantot komandu uzvedni. Tagad palaidiet tālāk norādīto komandu, lai atjauninātu Pip. Atkal, jums, iespējams, būs jāizmanto python3 un pip3 operētājsistēmās Linux un macOS.
python -m pip install -U pip
2. Lai pārbaudītu, vai Pip ir pareizi instalēts, palaidiet tālāk norādīto komandu. Tas izvadīs versijas numuru. Ja rodas kļūdas, izpildiet mūsu īpašo rokasgrāmatu par Pip instalēšanu operētājsistēmā Windows, lai novērstu ar PATH saistītas problēmas.
pip --version
Instalējiet OpenAI, GPT Index, PyPDF2 un Gradio bibliotēkas
Kad esam iestatījuši Python un Pip, ir pienācis laiks instalēt svarīgākās bibliotēkas, kas mums palīdzēs apmācīt AI tērzēšanas robotu ar pielāgotu zināšanu bāzi. Tālāk ir norādītas darbības, kas jāievēro.
1. Atveriet termināli un palaidiet tālāk norādīto komandu, lai instalētu OpenAI bibliotēku. Mēs to izmantosim kā LLM (lielo valodu modeli), lai apmācītu un izveidotu AI tērzēšanas robotu. Mēs arī importēsim LangChain sistēmu no OpenAI. Ņemiet vērā, ka Linux un MacOS lietotājiem, iespējams, būs jāizmanto pip3, nevis pip.
pip install openai
2. Tālāk instalēsim GPT indeksu, ko sauc arī par LlamaIndex. Tas ļauj LLM izveidot savienojumu ar ārējiem datiem, kas ir mūsu zināšanu bāze.
pip install gpt_index
3. Pēc tam instalējiet PyPDF2, lai parsētu PDF failus. Ja vēlaties ievadīt savus datus PDF formātā, šī bibliotēka palīdzēs programmai nolasīt datus bez piepūles.
pip install PyPDF2
4. Visbeidzot instalējiet Gradio bibliotēku. Tas ir paredzēts, lai izveidotu vienkāršu lietotāja interfeisu, lai mijiedarbotos ar apmācītu AI tērzēšanas robotu. Tagad mēs esam pabeiguši visu nepieciešamo bibliotēku instalēšanu, lai apmācītu AI tērzēšanas robotu.
pip install gradio
Lejupielādējiet koda redaktoru
Visbeidzot, mums ir nepieciešams koda redaktors, lai rediģētu daļu koda. Operētājsistēmā Windows es ieteiktu Notepad++ (Lejupielādēt). Vienkārši lejupielādējiet un instalējiet programmu, izmantojot pievienoto saiti. Varat arī izmantot VS kodu jebkurā platformā, ja jums patīk jaudīgi IDE. Izņemot VS kodu, varat instalēt Sublime tekstu (Lejupielādēt) operētājsistēmās macOS un Linux.
Operētājsistēmā ChromeOS varat izmantot lielisko lietotni Caret (Lejupielādēt), lai rediģētu kodu. Mēs gandrīz esam pabeiguši programmatūras vides iestatīšanu, un ir pienācis laiks iegūt OpenAI API atslēgu.
Iegūstiet OpenAI API atslēgu bez maksas
Tagad, lai apmācītu un izveidotu AI tērzēšanas robotu, pamatojoties uz pielāgotu zināšanu bāzi, mums ir jāiegūst API atslēga no OpenAI. API atslēga ļaus jums izmantot OpenAI modeli kā LLM, lai pētītu savus pielāgotos datus un izdarītu secinājumus. Pašlaik OpenAI jauniem lietotājiem piedāvā bezmaksas API atslēgas ar bezmaksas kredītu USD 5 vērtībā pirmajiem trim mēnešiem. Ja savu OpenAI kontu izveidojāt agrāk, jūsu kontā var būt bezmaksas kredīts USD 18 apmērā. Kad bezmaksas kredīts būs iztērēts, jums būs jāmaksā par API piekļuvi. Bet pagaidām tas ir pieejams visiem lietotājiem bez maksas.
1. Dodieties uz platform.openai.com/signup un izveidojiet bezmaksas kontu. Ja jums jau ir OpenAI konts, vienkārši piesakieties.
2. Pēc tam noklikšķiniet uz sava profila augšējā labajā stūrī un nolaižamajā izvēlnē atlasiet “Skatīt API atslēgas”.
3. Šeit noklikšķiniet uz “Izveidot jaunu slepeno atslēgu” un nokopējiet API atslēgu. Ņemiet vērā, ka vēlāk nevar kopēt vai skatīt visu API atslēgu. Tāpēc ir ļoti ieteicams nekavējoties kopēt un ielīmēt API atslēgu Notepad failā.
4. Tāpat nekopīgojiet un nerādiet API atslēgu publiski. Tā ir privāta atslēga, kas paredzēta tikai piekļuvei jūsu kontam. Varat arī izdzēst API atslēgas un izveidot vairākas privātās atslēgas (līdz piecām).
Apmāciet un izveidojiet AI tērzēšanas robotu, izmantojot pielāgotu zināšanu bāzi
Tagad, kad esam iestatījuši programmatūras vidi un saņēmuši API atslēgu no OpenAI, apmācīsim AI tērzēšanas robotu. Šeit mēs izmantosim “text-davinci-003” modeli, nevis jaunāko “gpt-3.5-turbo” modeli, jo Davinci daudz labāk darbojas teksta pabeigšanai. Ja vēlaties, varat ļoti labi nomainīt modeli uz Turbo, lai samazinātu izmaksas. Tā kā tas nav noticis, pāriesim pie instrukcijām.
Pievienojiet savus dokumentus, lai apmācītu AI tērzēšanas robotu
1. Vispirms izveidojiet jaunu mapi ar nosaukumu docs pieejamā vietā, piemēram, darbvirsmā. Varat izvēlēties arī citu vietu atbilstoši savām vēlmēm. Tomēr saglabājiet mapes nosaukuma dokumentus.
2. Pēc tam pārvietojiet dokumentus, kurus vēlaties izmantot AI apmācībai, mapē “docs”. Varat pievienot vairākus teksta vai PDF failus (pat skenētus). Ja programmā Excel ir liela tabula, varat to importēt kā CSV vai PDF failu un pēc tam pievienot mapei “docs”. Jūs pat varat pievienot SQL datu bāzes failus, kā paskaidrots šajā Langchain AI tvīts. Es neesmu izmēģinājis daudzus failu formātus, izņemot minētos, bet jūs varat pievienot un pārbaudīt pats. Šim rakstam es pievienoju vienu no saviem rakstiem par NFT PDF formātā.
Piezīme. Ja jums ir liels dokuments, datu apstrādei būs nepieciešams ilgāks laiks atkarībā no jūsu CPU un GPU. Turklāt tas ātri izmantos jūsu bezmaksas OpenAI marķierus. Tāpēc sākumā sāciet ar nelielu dokumentu (30-50 lappuses vai < 100 MB faili), lai izprastu procesu.
Sagatavojiet kodu
1. Tagad palaidiet Notepad++ (vai izvēlēto koda redaktoru) un ielīmējiet tālāk norādīto kodu jaunā failā. Atkal esmu saņēmis lielu palīdzību no armrrs pakalpojumā Google Colab un pielāgoja kodu, lai tas būtu saderīgs ar PDF failiem un augšpusē izveidotu Gradio interfeisu.
from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper from langchain import OpenAI import gradio as gr import sys import os os.environ["OPENAI_API_KEY"] = 'Your API Key' def construct_index(directory_path): max_input_size = 4096 num_outputs = 512 max_chunk_overlap = 20 chunk_size_limit = 600 prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit) llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs)) documents = SimpleDirectoryReader(directory_path).load_data() index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper) index.save_to_disk('index.json') return index def chatbot(input_text): index = GPTSimpleVectorIndex.load_from_disk('index.json') response = index.query(input_text, response_mode="compact") return response.response iface = gr.Interface(fn=chatbot, inputs=gr.inputs.Textbox(lines=7, label="Enter your text"), outputs="text", title="Custom-trained AI Chatbot") index = construct_index("docs") iface.launch(share=True)
2. Šādi kods izskatās koda redaktorā.
3. Pēc tam augšējā izvēlnē noklikšķiniet uz “Fails” un nolaižamajā izvēlnē atlasiet “Saglabāt kā…”.
4. Pēc tam iestatiet faila nosaukumu app.py un nolaižamajā izvēlnē mainiet “Saglabāt kā veidu” uz “Visi veidi”. Pēc tam saglabājiet failu vietā, kur izveidojāt mapi “dokumenti” (manā gadījumā tā ir darbvirsma). Varat mainīt nosaukumu pēc saviem ieskatiem, taču pārliecinieties, vai ir pievienots .py.
5. Pārliecinieties, vai mape “docs” un “app.py” atrodas tajā pašā vietā, kā parādīts tālāk esošajā ekrānuzņēmumā. Fails “app.py” atradīsies ārpus mapes “docs”, nevis iekšpusē.
6. Atkal atgriezieties pie koda programmā Notepad++. Šeit aizstājiet savu API atslēgu ar to, kas ģenerēta iepriekš OpenAI vietnē.
7. Visbeidzot nospiediet “Ctrl+S”, lai saglabātu kodu. Tagad esat gatavs palaist kodu.
Izveidojiet ChatGPT AI robotu ar pielāgotu zināšanu bāzi
1. Vispirms atveriet termināli un palaidiet tālāk norādīto komandu, lai pārietu uz darbvirsmu. Tur es saglabāju mapi “docs” un “app.py” failu. Ja abus vienumus saglabājāt citā vietā, pārejiet uz šo vietu, izmantojot termināli.
cd Desktop
2. Tagad palaidiet tālāk norādīto komandu. Linux un macOS lietotājiem, iespējams, būs jāizmanto python3.
python app.py
3. Tagad tas sāks analizēt dokumentu, izmantojot OpenAI LLM modeli, un sāks indeksēt informāciju. Atkarībā no faila lieluma un datora iespējām dokumenta apstrāde prasīs kādu laiku. Kad tas būs izdarīts, darbvirsmā tiks izveidots fails “index.json”. Ja terminālis nerāda nekādu izvadi, neuztraucieties, iespējams, tas joprojām apstrādā datus. Jūsu informācijai 30 MB dokumenta apstrāde aizņem apmēram 10 sekundes.
4. Kad LLM būs apstrādājis datus, jūs saņemsiet dažus brīdinājumus, kurus var droši ignorēt. Visbeidzot, apakšā jūs atradīsit vietējo URL. Kopējiet to.
5. Tagad ielīmējiet nokopēto URL tīmekļa pārlūkprogrammā, un tur tas ir. Jūsu pielāgotais ChatGPT darbinātais AI tērzēšanas robots ir gatavs. Lai sāktu, varat jautāt AI tērzēšanas robotam, par ko ir šis dokuments.
6. Varat uzdot papildu jautājumus, un ChatGPT robots atbildēs, izmantojot datus, ko norādījāt AI. Tādējādi jūs varat izveidot pielāgotu mākslīgā intelekta tērzēšanas robotu ar savu datu kopu. Tagad varat apmācīt un izveidot AI tērzēšanas robotu, pamatojoties uz jebkāda veida informāciju, kuru vēlaties. Iespējas ir bezgalīgas.
7. Varat arī kopēt publisko URL un kopīgot to ar draugiem un ģimeni. Saite būs pieejama 72 stundas, taču jums arī jābūt ieslēgtam datoram, jo jūsu datorā darbojas servera instance.
8. Lai apturētu pielāgotu mākslīgā intelekta tērzēšanas robotu, termināļa logā nospiediet taustiņu kombināciju Ctrl + C. Ja tas nedarbojas, vēlreiz nospiediet taustiņu kombināciju Ctrl + C.
9. Lai restartētu AI tērzēšanas robota serveri, vienkārši vēlreiz pārvietojieties uz darbvirsmas atrašanās vietu un palaidiet tālāk norādīto komandu. Ņemiet vērā, ka vietējais URL būs tas pats, taču publiskais URL mainīsies pēc katras servera restartēšanas.
python app.py
10. Ja vēlaties apmācīt AI tērzēšanas robotu ar jauniem datiem, izdzēsiet failus mapē “docs” un pievienojiet jaunus. Varat arī pievienot vairākus failus, bet ievadiet informāciju par vienu un to pašu tēmu, pretējā gadījumā jūs varat saņemt nesakarīgu atbildi.
11. Tagad vēlreiz palaidiet kodu terminālī, un tas izveidos jaunu “index.json” failu. Šeit vecais “index.json” fails tiks automātiski aizstāts.
python app.py
12. Lai izsekotu saviem žetoniem, dodieties uz OpenAI tiešsaistē mērinstrumentu panelis un pārbaudiet, cik daudz bezmaksas kredīta ir atlicis.
13. Visbeidzot, jums nav jāpieskaras kodam, ja vien nevēlaties mainīt API atslēgu vai OpenAI modeli turpmākai pielāgošanai.
Izveidojiet pielāgotu AI tērzēšanas robotu, izmantojot savus datus
Tādējādi jūs varat apmācīt AI tērzēšanas robotu ar pielāgotu zināšanu bāzi. Esmu izmantojis šo kodu, lai apmācītu mākslīgo intelektu par medicīnas grāmatām, rakstiem, datu tabulām un ziņojumiem no veciem arhīviem, un tas ir strādājis nevainojami. Tāpēc turpiniet un izveidojiet savu AI tērzēšanas robotu, izmantojot OpenAI lielo valodu modeli un ChatGPY. Jebkurā gadījumā tas viss ir no mums. Ja meklējat labākās ChatGPT alternatīvas, dodieties uz mūsu saistīto rakstu. Un, lai lietotu ChatGPT savā Apple Watch, izpildiet mūsu padziļināto pamācību. Visbeidzot, ja jūs saskaraties ar jebkāda veida problēmām, informējiet mūs tālāk sniegtajā komentāru sadaļā. Mēs noteikti centīsimies jums palīdzēt.