Саморефлексия помогла улучшить результаты работы GPT-4 на 30%

Нейросети не становятся умнее, но они крайне быстро учатся исправлять собственные ошибки. Примером тому стал успех программы «Reflexion» для нейросети GPT-4. Название идеально отражает суть – разработчики системы заставили нейросеть критически оценивать собственную работу и создавать рекомендации

Данная система создает тесты для самопроверки работы нейросети, но делает это в тысячи раз быстрее и эффективнее человека. Она не универсальна, для каждой задачи требуется провести свой цикл работ и проверок. Но результат того стоит: например, в тесте «HumanEval» по решению проблем программирования на языке Python GPT-4 показал результат в 67 % задач. А после применения «Рефлексии» уже 88 %.

Если нейросеть может выполнить некую задачу, то она же может оценить качество ее выполнения и дать конструктивную критику. В тесте на решение многоэтапных задач «Alfworld» применение новинки позволило увеличить эффективность работы GPT-4 с 73 % до 97 %. В тесте «HotPotQA» по анализу данных из Википедии показатели выросли с 34 % до 53 %. Усредненная оценка показывает увеличение эффективность работы нейросети с системой самоконтроля на 30 %.

К сожалению, GPT-4 все еще совершает фундаментальные ошибки, потому что данная система в принципе неспособна на осознание своей ошибки. Дополнение «Рефлексия» снижает количество ложных выводов, но поскольку и исполнитель, и проверяющий являются одной и той же системой, данная архитектура не может распознать собственные промахи, если ей не указали на них извне. Это делает данный инструмент удобным и полезным лишь при условии, что его работу будут контролировать те, кто обладает нужными знаниями.