Recsys Hub

← Back to Library

Live Session

Teatro Petruzzelli

Paper

15 Oct

10:15

CEST

Session 1: Large Language Models 1

Add Session to Calendar 2024-10-15 10:15 am 2024-10-15 11:00 am Europe/Rome Session 1: Large Language Models 1 Session 1: Large Language Models 1 is taking place on the RecSys Hub. Https://recsyshub.org

Reproducibility

Large Language Models as Evaluators for Recommendation Explanations

View on ACM Digital Library

Xiaoyu Zhang (Tsinghua University), Yishan Li (Tsinghua University), Jiayin Wang (Tsinghua Univeristy), Bowen Sun (Tsinghua Univeristy), Weizhi Ma (Tsinghua University), Peijie Sun (Hefei University of Technology, School of Computer and Information) and Min Zhang (Tsinghua University)

View Paper PDF View Poster

Abstract

The explainability of recommender systems has attracted significant attention in academia and industry. Many efforts have been made for explainable recommendations, yet evaluating the quality of the explanations remains a challenging and unresolved issue. In recent years, leveraging LLMs as evaluators presents a promising avenue in Natural Language Processing tasks (e.g., sentiment classification, information extraction), as they perform strong capabilities in instruction following and common-sense reasoning. However, evaluating recommendation explanatory texts is different from these NLG tasks, as its criteria are related to human perceptions and are usually subjective. In this paper, we investigate whether LLMs can serve as evaluators of recommendation explanations. To answer the question, we utilize real user feedback on explanations given from previous work and additionally collect third-party annotations and LLM evaluations. We design and apply a 3-level meta-evaluation strategy to measure the correlation between evaluator labels and the ground truth provided by users. Our experiments reveal that LLMs, such as GPT4, can provide comparable evaluations with appropriate prompts and settings. We also provide further insights into combining human labels with the LLM evaluation process and utilizing ensembles of multiple heterogeneous LLM evaluators to enhance the accuracy and stability of evaluations. Our study verifies that utilizing LLMs as evaluators can be an accurate, reproducible and cost-effective solution for evaluating recommendation explanation texts. Our code is available at https://anonymous.4open.science/r/LLMasAnnotator-0043.

Join the Conversation

Head to Slido and select the paper's assigned session to join the live discussion.

Conference Agenda

View Full Agenda →

8:00

CEST

Monday Registration and Badge Pick-Up

9:00

CEST

CARS: Workshop on Context-Aware Recommender Systems

9:00

CEST

CONSEQUENCES: The 3rd Workshop on Causality, Counterfactuals and Sequential Decision-Making for Recommender Systems

9:00

CEST

Doctoral Symposium

9:00

CEST

FAccTRec 2024: The 7th Workshop on Responsible Recommendation

9:00

CEST

MuRS2024: 2nd Music Recommender Systems Workshop

9:00

CEST

RecSys Challenge

9:00

CEST

SURE 2024: Workshop on Strategic and Utility-aware Recommendation

9:00

CEST

Tutorial: Computational Methods for Designing Human-Centered Recommender Systems: A Case Study Approach Intersecting Visual Arts and Healthcare

9:00

CEST

Tutorial: Deep Recommendation using Graphs

9:00

CEST

VideoRecSys + LargeRecSys 2024

10:30

CEST

Monday AM Coffee Break

12:45

CEST

Monday Lunch

14:30

CEST

RecSys in HR 2024: Fourth Workshop on Recommender Systems for Human Resources

14:30

CEST

RecTemp: Temporal Reasoning in Recommendation Systems

14:30

CEST

Tutorial: A Tutorial on Feature Interpretation in Recommender Systems

14:30

CEST

Tutorial: Economics of Recommender Systems

16:00

CEST

Monday PM Coffee Break

19:00

CEST

Welcome Reception

8:00

CEST

Tuesday Posters

8:00

CEST

Tuesday Registration and Badge Pick-Up

9:00

CEST

RecSys Welcome and Opening

9:30

CEST

Keynote: Mark Riedl

10:15

CEST

Session 1: Large Language Models 1

11:00

CEST

Google Sponsor Meet Up

11:00

CEST

Huawei Sponsor Meet Up

11:00

CEST

Tuesday AM Break

12:00

CEST

Session 2: Bias and Fairness 1

13:15

CEST

Tuesday Lunch Break (on own)

14:30

CEST

Session 3: Bias and Fairness 2

15:15

CEST

Session 4: Collaborative Filtering

16:25

CEST

Huawei Sponsor Meet Up

16:25

CEST

IBM Sponsor Meet Up

16:25

CEST

Tuesday PM Break

17:20

CEST

Session 5: Cross-domain and Cross-modal Learning

8:00

CEST

Wednesday Posters

8:00

CEST

Wednesday Registration and Badge Pick-Up

8:30

CEST

Session 6: Multi-task Learning

9:30

CEST

Session 7: Cold Start

10:25

CEST

Session 8: Sequential Recommendation 1

11:05

CEST

Amazon Science Sponsor Meet Up

11:05

CEST

Netflix Sponsor Meet Up

11:05

CEST

Wednesday AM Break

12:00

CEST

Session 9: Sequential Recommendation 2

13:10

CEST

Wednesday Lunch Break (On Own)

14:30

CEST

Keynote: Michael I. Jordan

15:15

CEST

Session 10: Graph Learning

16:20

CEST

Google Sponsor Meet Up

16:20

CEST

Wednesday PM Break

17:20

CEST

Session 11: Optimisation and Evaluation 1

20:00

CEST

Social Event

8:00

CEST

Thursday Posters

8:00

CEST

Thursday Registration and Badge Pick-Up

8:00

CEST

Women in RecSys Breakfast

9:00

CEST

Keynote: Mounia Lalmas

9:45

CEST

Session 12: Optimisation and Evaluation 2

10:35

CEST

Session 13: Robust RecSys 1

10:55

CEST

PopRox Meeting (PRIVATE)

10:55

CEST

Thursday AM Break

11:00

CEST

Booking.com Sponsor Meet Up

11:00

CEST

OVS Sponsor Meet Up

12:00

CEST

Session 14: Robust RecSys 2

12:30

CEST

Session 15: Off-policy Learning

13:15

CEST

Thursday Lunch Break (On Own)

14:30

CEST

Session 16: Large Language Models 2

16:20

CEST

Thursday PM Break

17:10

CEST

Session 17: Women in RecSys

18:10

CEST

Closing

21:00

CEST

Erasmus Orchestra Concert

8:00

CEST

Friday Registration and Badge Pick-Up

9:00

CEST

HealthRecSys: 6th ACM RecSys Workshop on Health Recommender Systems

9:00

CEST

INRA: 12th International Workshop on News Recommendation and Analytics

9:00

CEST

INTROSPECTIVES: Reflections on Recommender Systems Past, Present, and Future

9:00

CEST

IntRS 2024: 11th Joint Workshop on Interfaces and Human Decision Making for Recommender Systems

9:00

CEST

KaRS: Sixth Knowledge-aware and Conversational Recommender Systems Workshop

9:00

CEST

NORMalize: The Second Workshop on Normative Design and Evaluation of Recommender Systems

9:00

CEST

ROEGEN: The 1st International Workshop on Risks, Opportunities, and Evaluation of Generative Models in Recommendation

9:00

CEST

RecSoGood 2024: First International Workshop on Recommender Systems for Sustainability and Social Good

9:00

CEST

RecTour: Workshop on Recommenders in Tourism

9:00

CEST

Tutorial: Conducting User Experiments in Recommender Systems

10:30

CEST

Friday AM Coffee Break

11:00

CEST

Tutorial: Conducting Recommender Systems User Studies Using POPROX

12:30

CEST

Friday Lunch

14:15

CEST

AltRecSys: A Workshop on Alternative, Unexpected, and Critical Work on Recommendation

14:15

CEST

EARL: Workshop on Evaluating and Applying Recommendation Systems with Large Language Models

14:15

CEST

RobustRecSys @ RecSys2024: Design, Evaluation and Deployment of Robust Recommender Systems

15:45

CEST

Friday PM Coffee Break

No items found.