揭秘AI偏好,南加州大学任翔及相助团队开拓搞定标注者
发布日期:2024-11-01 06:53 点击次数:162
大谈话模子(LLM)日益普及并为数以千万计用户提供工作,确保这些系统好像适合多元化的用户需求变得至关遑急。
在 AI 边界,尤其是当然谈话处理中,控制东谈主类偏好来指示模子学习已成为了一种程序轮番,联系词,以往的扣问频繁假定标注者的不同想法是噪声,而忽略了这些不合背后可能存在的深端倪原因。
近日,由纽约大学、艾伦东谈主工智能扣问所、华盛顿大学、南加州大学等的团队构成的息争小组开展了一项扣问,揭示了导致标注者之间产生不合的各样成分,并理会这些成分对模子磨真金不怕火及评估的影响。现在,这项扣问牺牲仍是以“Diverging Preferences: When do Annotators Disagree and do Models Know?”(东谈主类标注的偏好数据:当标注者想法不合时,模子是否知道?)为题发表在预印本网站 arXiv 上。
图丨联系论文(源头:arXiv)
在这篇论文中,扣问团队通过对东谈主类标注偏好数据集的分析提议了新的分类法来讲明不合原因,发现大部分的不合是由于个体偏好的各别所导致的。此外,他们针对现存的奖励模子进行了优化,使其好像更好地捕捉不同用户不雅点之间的各别,不错更好地识别出不合,并在施行中获取了较好的效果。临了,他们还探索了面前流行的“LLM-as-Judge”评估轮番中存在的问题并提议搞定决策。这些扣问牺牲关于进一步鼓动当然谈话处理的扣问和发展具有遑急意旨。
(源头:arXiv)
在这项扣问中,团队最初建立了一个包含 10 个类别的分类体系,其中涵盖任务不解确、回答作风各别、拒绝作答以及标注空幻四个高端倪类别。通过这种轮番,他们识别出了酿成标注者不合的主要源头。
他们发现,在东谈主类标注的数据王人集,大大宗的想法不归拢非浅易的就地噪声,而是响应了不同个体间真确存在的偏好各别。举例,关于某些灵通性较强的问题,由于遮挡具体蛊卦或存在多种合聚拢释,标注者不竭会给出天壤之隔的谜底。
然后,他们探索了这些发现关于大谈话模子发展的两个边界——奖励建模和评估体系的影响。
(源头:arXiv)
传统的奖励建模轮番(比如 Bradley-Terry 模子),无法灵验分裂给定的偏好判断是标注者之间一致愉快的牺牲,如故不同用户偏好之间的大宗想法的牺牲。这意味着,要是平直使用这类轮番进行磨真金不怕火,可能会忽略掉那些虽非主流但雷同合理的不雅点,进而影响到最终模子的进展。
与之肖似地,面前流行的“LLM-as-Judge”评估轮番也倾向于选出一个“赢家”回复,即使是在偏好不合的情况下亦然如斯。这标明,现存的评估体系可能并不合适处理复杂的主不雅任务,尤其是在面对高度争议的话题时。
这些发现凸显了大谈话模子评估中存在的挑战,其在很猛进度上受到回答作风等不合特征的影响,也凸显了在开拓多元化对王人的大谈话模子方面仍然面对挑战。
(源头:arXiv)
团队围绕若何识别和处理具有争议性的对话数据和若何评估基于谈话模子的对话生成系统的智商开展了一系列施行。
最初,他们比拟了不同类型的奖励模子(比如 MSE 总结和 Bradley-Terry 模子)以及单值和溜达式的奖励模子(比如均值-方差模子),并使用这些模子来量度用户对对话的偏好进度。牺牲泄露溜达式的奖励模子(十分是基于 KL 散度的均值-方差模子)在 Diverging ID AUROC 方针上进展最佳,不错灵验地识别具有争议性的对话数据。
然后,他们将磨真金不怕火好的溜达式奖励模子应用于新的对话数据集,并考据其性能。牺牲标明该模子好像准确地识别具有争议性的对话数据,并将其与其他类型的数据分裂开来。
临了,他们将磨真金不怕火好的溜达式奖励模子应用于骨子的对话生成任务中,并与传统的就地采样轮番进行比拟。他们发现该模子好像在保证生成高质料对话的同期,权贵擢升对话的各样性。
在评估基于谈话模子的对话生成系统智商方面,他们开展了一个对比施行,比拟了不同的评估方针(包括 Preference Accuracy 和 Diverging ID AUROC)以及不同类型的谈话模子(比如 Llama-3-8B Instruct 和 Multipref)。牺牲泄露,溜达式的奖励模子(十分是基于 KL 散度的均值-方差模子)在 Diverging ID AUROC 方针上进展最佳,不错更准确地评估系统的生成智商。
(源头:arXiv)
跟着大谈话模子的应用越来越鄙俚,确保系统具有多元化的不雅点变得尤为遑急。这篇论文提议的分类法和考订的奖励模子不错为将来的多元化磨真金不怕火提供参考,同期关于面前流行的“LLM-as-Judge”评估轮番还需要进一步的扣问和探索,以擢升系统的评价准确性。