日韩在线资源网_欧美电影在线观看_亚洲欧美精品一区二区_亚洲精品永久免费_亚洲福利视频久久_黄网动漫久久久_在线日韩av观看_欧美精品videos_国产精品一区免费视频_成人国内精品久久久久一区

社區供稿 | RLHF 實踐中的框架使用與一些坑 (TRL, LMFlow) 天天最新

來源:個人圖書館-520jefferson時間:2023-06-16 14:30:40
1 前言

之前看見文章總結了常見的一些 RLHF 框架的經驗, 但是似乎沒看見 Hugging Face 自己維護的 TRL 庫的相關文章, 正好最近調 TRL 比較多, 就想寫一個文章分享一下使用過程中踩到的坑,另外也介紹一下我們的全流程框架 LMFlow 。

LMFlow 框架示意圖。

我們主要用一個具體的例子展示如何在兩個框架下做RLHF,并且記錄下訓練過程中我們踩到的主要的坑。這個例子包括完整的SFT,獎勵建模和 RLHF, 其中RLHF包括通過 RAFT 算法(Reward rAnked FineTuning)或者TRL-PPO 對齊模型兩個部分。為了方便用戶,我們已經在 Hugging Face repo 中提供了一個基于 GPT-Neo-2.7B 的獎勵模型,因此也可以先跳過獎勵建模。


【資料圖】

這個例子是基于僅適用于非商業用途的許可的 LLaMA 構建的, 為了使用LLaMA-7B 模型, 大家需要填寫前面的 request form。測試的環境是 8 X A100 (40G)。

1.1 環境準備

LMFlow 的安裝包中也包含了 TRL, 所以我們只需要按照官方的示例安裝 LMFlow 即可。

git clone https://github.com/OptimalScale/LMFlow.gitcd LMFlowconda create -n lmflow python=3.9 -yconda activate lmflowconda install mpi4pypip install -e .

以上安裝自動會把依賴的 PyTorch 等包也一起安裝, 除此之外, 我們額外手動安裝一下 matplotlib 這個包

1.2 數據集描述

我們使用Dahoas/full-hh-rlhf數據集作為例子,其中每個數據集樣本包括一個提示和來自助手的兩個回應。特別地,標記為 "chosen" 的回應相對于標記為 "rejected" 的回應更被人類所喜歡。數據集包括 112K 個訓練樣本和 12.5K 個測試樣本。以下是數據集的一個示例樣本:

" Human: What kind of noises did dinosaurs make? Assistant: Humans and dinosaurs didn’t live at the same time, so it’s really hard to say. The best place to find out what noises dinosaurs made would be Human: yes they did Assistant: to guess, and that would probably require lots of reading and a certain amount of imagination, so we’re not really prepared to do that. Human: you cant read Assistant: Chosen response: "You can read?"Rejected response: "there’s a lot of stuff humans don’t know"

為了便于訓練,我們在字符開頭添加 ``###"" 來重新構建提示,以便模型知道要回復。新樣本的格式將是:

"###Human: What kind of noises did dinosaurs make? ###Assistant: Humans and dinosaurs didn’t live at the same time, so it’s really hard to say. The best place to find out what noises dinosaurs made would be ###Human: yes they did ###Assistant: to guess, and that would probably require lots of reading and a certain amount of imagination, so we’re not really prepared to do that. ###Human: you cant read ###Assistant: Chosen response: "You can read?"Rejected response: "there’s a lot of stuff humans don’t know"

我們在目錄 ./data/hh_rlhf 中準備了所有需要使用的所有數據集,需要通過在 LMFlow目錄下中運行以下命令獲得:

cd data && ./download.sh hh_rlhf && cd -
2 RLHF 之前的準備

在這一節, 我們需要先完成SFT模型以及 reward model 的訓練, 這部分我們使用LMFlow 完成。

2.1 SFT

這是數據集/home/usrname/LMFlow/data/hh_rlhf/sft/hh_rlhf_sft.json的一個示例。我們只使用首選回應,因此我們得到 112K 個訓練樣本。

{"type": "text_only", "instances": [{"text": "###Human: Should you buy a case to protect your cell phone?###Assistant: It depends on your circumstances.  If you carry your phone in a pocket or a purse then you probably want a case.  But if you only need a phone for quick interactions, a case may actually cause more harm than good.  What do you need the phone for?  Are you a parent, or do you work from home?###Human: What harm could it do?###Assistant: A phone case can damage the screen, for one thing.  It can also get you in trouble if you have your phone turned off for some reason.  Then you will turn it back on and it won’t do anything.  If you can afford to replace it, then you need a case to protect it.  The problem is that most people aren’t able to afford to replace their phones all the time.###Human: Thanks for letting me know.###Assistant: You’re welcome."}, {"text": "###Human: I"m trying to learn about the salam witch trials###Assistant: If you’re looking for books about witchcraft trials, I can recommend some books for you. But you probably mean you’re looking for more historical information about the Salem witch trials in 1692, and specifically about the salam witch trials in 1692?###Human: What are some good books to learn about the salam witch trials###Assistant: What would you like to learn?  If you’re interested in history, one of the best books is The Witch Persecutions in Colonial America: A History.  If you’re interested in witchcraft as a cultural phenomenon, you might enjoy two excellent books: Religion and the Decline of Magic: Studies in Popular Beliefs in Sixteenth- and Seventeenth-Century England by Keith Thomas and Magic, Witchcraft, and the Otherworld: An Anthropology of Superstition by Jack Goody.  If you’re interested in history specifically as it relates to religion, you might enjoy The Popish Plot, or Prelates" Plot: A History of the Popish Plot in England, by K. J. Everett."}]}

你可以編輯/scripts/run_finetune.sh并修改參數。我們在這里用 GPT-Neo-2.7B 作為一個例子, 你應當把它換成你獲得的 llama-7b 模型的地址。

--model_name_or_path: EleutherAI/gpt-neo-2.7B

--dataset_path: ${project_dir}/data/hh_rlhf/sft

--output_dir: the path you want to store the sft model

--num_train_epochs: 1

--learning_rate: 2e-5

--per_device_train_batch_size: 根據你的GPU資源調整。

exp_id: hh_rlhf_llama_sft

你可以編輯/scripts/run_finetune.sh并修改參數。我們在這里用 GPT-Neo-2.7B 作為一個例子。

然后,我們可以運行以下命令來執行 SFT。

./scripts/run_finetune.sh

你還可以通過以下命令使用 lora 訓練,但還需要通過編輯run_finetune_with_lora.sh設置 model_name_or_path 和 dataset。

./scripts/run_finetune_with_lora.sh

下面這個損失圖像示例中我們設了 epoch 為4, 但是提前停止并使用一個epoch結束的模型作為SFT模型, 此外我們的logging step 設置為了20, 所以整體看起來會比較平滑

SFT 模型訓練曲線, 這個例子截取了1.6個epoch 的訓練曲線。

在我的例子中, 得到的SFT模型存儲在/home/usrname/LMFlow/output_models/hh_rlhf_llama_sft/checkpoint-1271

2.2 Reward Modeling

我們首先按照 InstructGPT 論文的過程:https://zhuanlan.zhihu.com/p/629920420)。同時,請查看我們的 LMFlow 框架,以獲取更多 LLMs 的樂趣:

OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Model for All. (github.com)

標簽:

責任編輯:FD31
上一篇:天天快播:開考,順!順!順!
下一篇:最后一頁

精彩圖集(熱圖)

熱點圖集

最近更新

信用中國

  • 信用信息
  • 行政許可和行政處罰
  • 網站文章

日韩在线资源网_欧美电影在线观看_亚洲欧美精品一区二区_亚洲精品永久免费_亚洲福利视频久久_黄网动漫久久久_在线日韩av观看_欧美精品videos_国产精品一区免费视频_成人国内精品久久久久一区
国产三级精品三级在线专区| 亚洲国产毛片aaaaa无费看 | 91精品一区二区三区久久久久久| 国产日韩影视精品| 狠狠色综合日日| 日韩视频免费直播| 老色鬼精品视频在线观看播放| 欧美日韩www| 亚洲成av人片在线| 欧美精品 国产精品| 午夜不卡av免费| 日韩免费观看2025年上映的电影| 青青草精品视频| 日韩欧美国产成人一区二区| 六月丁香婷婷色狠狠久久| 久久色.com| 99热这里都是精品| **性色生活片久久毛片| 色视频一区二区| 天天色综合天天| 欧美一二三在线| 国产成人综合网站| 1024成人网色www| 7777精品伊人久久久大香线蕉| 91精品国产综合久久精品 | 日韩视频一区二区三区| 5566中文字幕一区二区电影| 最新热久久免费视频| 波多野洁衣一区| 欧美一区二区成人| 青青草成人在线观看| 久久亚洲二区三区| 韩国毛片一区二区三区| 91免费观看在线| 亚洲制服丝袜av| 久久精品欧美日韩| 亚洲超碰97人人做人人爱| 精品成人一区二区三区四区| 成人综合在线网站| 亚洲精品视频免费看| 久久99久久精品| 欧美少妇bbb| 日本韩国欧美国产| 亚洲国产另类av| 欧美高清视频www夜色资源网| 麻豆精品在线观看| 一区二区三区波多野结衣在线观看| 日韩欧美一区在线| 555夜色666亚洲国产免| 欧美色综合影院| 在线观看国产精品网站| 日本韩国欧美一区| 色天使久久综合网天天| 91丨国产丨九色丨pron| av综合在线播放| 成人黄色电影在线 | 欧美激情在线免费观看| 日韩精品中午字幕| 欧美一级片免费看| 日韩欧美中文一区| 精品国产乱子伦一区| 日韩一二三四区| 日韩精品中文字幕在线一区| 日韩三级高清在线| 精品国产亚洲在线| 国产视频一区二区三区在线观看| 久久综合九色综合97婷婷| 精品国产一区二区三区忘忧草 | 黑人精品欧美一区二区蜜桃| 久久综合综合久久综合| 久久国产尿小便嘘嘘| 精品一区二区三区免费毛片爱| 狠狠色综合日日| 97久久精品人人澡人人爽| 在线一区二区三区四区| 777a∨成人精品桃花网| 久久―日本道色综合久久 | 在线亚洲一区二区| 欧美肥妇bbw| 国产色91在线| 婷婷久久综合九色综合绿巨人 | 国产成人午夜精品5599| 日本丶国产丶欧美色综合| 欧美在线不卡一区| 日韩久久免费av| 亚洲色图视频免费播放| 一区二区三区精品视频| 精品一区二区国语对白| 91色porny| 欧美xxx久久| 亚洲欧洲色图综合| 精品一区二区三区久久| 欧美三区在线观看| 日本一区二区成人在线| 免费人成精品欧美精品| 在线观看日韩高清av| 国产精品久久国产精麻豆99网站| 日本在线不卡视频| 97久久人人超碰| 久久精品人人做人人综合| 日本一区中文字幕| 欧美日韩亚洲高清一区二区| 亚洲精品视频在线| 不卡视频一二三| 国产精品五月天| 国产高清在线精品| 精品对白一区国产伦| 久久福利视频一区二区| 欧美精品一级二级三级| 亚洲日穴在线视频| av亚洲精华国产精华| 日本一区二区三区四区| 国产成人午夜精品5599| 欧美激情一区二区三区全黄| 激情综合网激情| 日韩精品一区二区三区视频播放 | 成人毛片在线观看| 久久久久久久久蜜桃| 国产在线播放一区| 久久久91精品国产一区二区三区| 九色综合狠狠综合久久| 精品国产一区二区三区四区四| 日韩一区欧美二区| 日韩视频国产视频| 国产精品亚洲第一区在线暖暖韩国| 久久亚洲二区三区| 99久久综合99久久综合网站| 亚洲欧美日韩国产手机在线| 欧美日韩一区精品| 久久成人麻豆午夜电影| 国产欧美视频一区二区三区| av在线不卡电影| 亚洲一卡二卡三卡四卡无卡久久| 精品视频免费看| 捆绑调教一区二区三区| 国产精品久久久久影院色老大| av在线不卡电影| 天堂va蜜桃一区二区三区漫画版| 精品国产乱码久久久久久夜甘婷婷| 国产一区二区视频在线播放| 亚洲免费观看高清完整版在线观看 | 7777精品伊人久久久大香线蕉| 国产在线一区观看| 伊人色综合久久天天| 日韩你懂的电影在线观看| 成人性生交大片免费看在线播放| 一区二区三区日韩| 久久精品无码一区二区三区| 欧美在线看片a免费观看| 精品一二线国产| 亚洲国产精品一区二区久久恐怖片| 久久亚洲精品小早川怜子| 91行情网站电视在线观看高清版| 奇米在线7777在线精品| 亚洲欧美偷拍三级| 精品日韩在线一区| 欧美精品一二三四| 欧美中文字幕一区二区三区| 99热精品一区二区| 国产91精品在线观看| 极品少妇一区二区| 日韩国产一区二| 一区二区三区中文字幕电影| 国产亚洲综合性久久久影院| 日韩欧美中文字幕制服| 91精品在线一区二区| 欧美日韩视频专区在线播放| 97精品电影院| 9i看片成人免费高清| 成人网页在线观看| 国产乱码精品一区二区三区忘忧草 | 在线免费av一区| 99久久免费精品高清特色大片| 国产在线视频不卡二| 国内精品写真在线观看| 国产一区二区三区视频在线播放| 久久se这里有精品| 国产自产视频一区二区三区| 久久9热精品视频| 韩国毛片一区二区三区| 国产suv一区二区三区88区| 韩日av一区二区| 国产一区二区三区免费看| 国产一区二区三区四区五区入口 | 日韩av中文字幕一区二区三区| 亚洲一区影音先锋| 三级在线观看一区二区| 免费观看成人鲁鲁鲁鲁鲁视频| 男女男精品视频网| 国产综合色视频| www.亚洲人| 在线观看av一区| 91精品婷婷国产综合久久性色 | 国产精品国产精品国产专区不片| 国产精品进线69影院| 亚洲精品国产精华液| 日韩国产成人精品| 成人黄色网址在线观看| 欧美裸体bbwbbwbbw| 中文字幕不卡的av|