Sep. 14th, 2024

avva: (Default)
https://catpad.livejournal.com/594966.html

[personal profile] catpad скормил новой модели от OpenAI, o1-preview (заявляют, что она умеет делать 'reasoning', размышления) две логические задачки, и она дала правильные ответы, в отличие от других моделей.

Но я подозреваю, что модель отвечала по шпаргалке - т.е. знает ответ из своих тренировочных данных - а свои рассуждения подгоняла под ответ.

Вот транскрипт чата про вторую задачку, непростую логическую задачку от Смаллиана, даже с мета-рассуждением (хотя мета-рассуждение в ней довольно простое): https://chatgpt.com/share/66e51f7a-0100-8009-8e75-dcdc85b0c27d

o1 дает правильный ответ, но рассуждения мне кажутся малоосмысленными, в конечном счете утверждается "именно этот ответ не противоречит условиям", что даже если верно, не является доказательством.

Я решил поэкспериментировать, и изменил полностью текст задачи, оставив суть такой же. Сюжет, герои, вместо комнат дорожки для боулинга, вместо номеров комнат я дал им случайные буквенные названия, и изменил порядок инструкций. (я это делал вручную, и хотя дважды перепроверил, мог где-то ошибиться. Если кто-то хочет проверить, то соотношение комнат/дорожек такое: 1-O,2-Y,3-I,4-P,5-T,6-R,7-H,8-C,9-E. Сообщите мне, если найдете ошибку)

Результат - o1-preview отвечает неправильно, вместо объяснений несет какую-то чушь: https://chatgpt.com/share/66e537bb-e058-8008-8860-68414005b042

В общем, проблема галлюцинации LLMов не решается этой последней "размышляющей" моделью, и по-видимому она не может отличить размышления от симуляции размышлений при подгонке к известным/ожидаемым ответам. Но вполне допускаю, что она несет в себе улучшение в сравнении с предыдущими моделями.

Также, в случае использования любого сколько-нибудь публичного материала надо исходить из того, что модель видела это во время тренировки.

Update: ту же самую задачу правильно решает Claude 3 Sonnet - лучшая модель от Antropic - со второго раза. "Со второго раза" означает, что сначала он дает неправильный ответ и неверное решение, я ему говорю "но это совершенно неправильно, подумай еще раз", без подробностей, и тогда он выдает правильное решение.

o1-preview тоже решает ее со второго раза, при таких же условиях. Интересно, что обе модели делают одну и ту же неаккуратность в решениях, это реально очень странно. Обе говорят "Дорожка C не может быть нормальной, значит она неудачная" - что в принципе верно, но требует рассмотрения ее текста (она не может быть удачной); в других местах решения в такой же ситуации обе модели подробно расписывают это, а здесь почему-то нет.

Так что я должен признать, что o1-preview - но и существующая Claude 3 Sonnet - скорее всего могут решать логические задачки такого типа ("скорее всего" потому что паттерн-матчинг на известную им задачу Салливана с таким кол-вом изменений в условии считаю маловероятным). С другой стороны, я сам решил задачу, чтобы проверить их решения, и должен взять назад слова о том, что она непростая, там достаточно просто все разворачивается после того, как принимаешь, что 8-я комната непустая (потому что если она пустая, из этого нельзя сделать никаких выводов).
avva: (Default)
Один из призеров Шнобелевской премии в этом году (Ig Nobel Prize) - статистик Франтишек Бартош с многими коллегами; они вместе бросили монету 350,757 раз, и показали, что у бросков монеты есть крохотная, но статистически заметная тенденция падать той же стороной, с какой она начинала при броске (есть физическая модель броска, которая это предсказывает). В целом 50.8% монет упали той же сторой, с какой их кидали.

Меня впечатлила их статья: пререгистрация методов и предсказаний, подробное и ясное описание методов, внимание к разным деталям типа вида монет (по ним дана отдельная разбивка).
Цитата о том, как проходил эксперимент:

"We collected data in three different settings using the same standardized protocol. First, a group of five bachelor students
collected at least 15,000 coin flips each as a part of their bachelor thesis project, contributing 75,036 coin flips in total. Second, we organized a series of on-site “coin flipping marathons” where 35 people spent up to 12 hours coin-flipping (see e.g., [blinded for review] for a video recording of one of the events), contributing a total of 203,440 coin flips. Third, we issued a call for collaboration via Twitter, which resulted in an additional seven people contributing a total of 72,281 coin flips..."

Все броски записывали на видео и потом случайным образом проверили выборку. Люди кидали монету минимум сто раз подряд, каждый раз продолжая с той стороны, с какой поймали (это учтено в статистическом анализе, конечно). Отдельно отмечу следующее важное и одновременно очень смешное заявление из аннотации:

"Our data also confirmed the generic prediction that when people flip an ordinary coin—with the initial side-up randomly determined—it is equally likely to land heads or tails."

June 2025

S M T W T F S
123 4 5 6 7
891011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 7th, 2025 05:36 pm
Powered by Dreamwidth Studios
OSZAR »