1. Старайтесь соблюдать Правила Конференции! Они писаны для всех, в том числе и для этой темы. 2. Прежде чем написать свой вопрос, обязательно ознакомьтесь с разделами Часто задаваемые вопросы, Справочный центр Radeon Software и База знаний (особенно это касается новичков). Ведь может быть ответ на ваш вопрос уже там! 3. Аналогично предыдущему пункту: не ленитесь читать посты других пользователей! В них вы тоже можете найти решение вашей проблемы. И очень убедительная просьба: не нужно всем по сто раз писать об одной и той же найденной проблеме! Это только захламляет тему. Будет лучше, если к комментарию о найденной ошибке вы прикрепите доказательство о том, что вы уже отослали баг-репорт на эту ошибку! Такие комментарии будут смотреться гораздо приятнее, да и в целом ваши действия могут оказаться ценными для всего сообщества! 4. Не нужно обсуждать действия куратора и торопить его! Все претензии и предложения по изменению шапки можно написать куратору в "Личные сообщения". И всегда старайтесь быть вежливым. Помните: как вы относитесь к людям, так и они будут относиться к вам. 5. Фанбойство между лагерями-конкурентами будет жёстко пресекаться! В теме не запрещено упоминать конкурентов, их успехи или неудачи, но ни в коем случае не делать это агрессивно и не провоцировать остальных на выяснения отношений! 6. В теме не допускается флуд. Не нужно захламлять тему, поэтому всегда старайтесь писать по теме, иначе весь флуд и оффтоп будет стираться без предупреждения! 7. Запрещено разводить холивары на такие темы, как "сравнение операционных систем", "майнинг", "телеметрия", "удаление драйверов с помощью сторонних утилит"! Для этих тем в Конференции существуют специальные разделы! Такие холивары будут безжалостно удаляться, а зачинщики и участники получат предупреждения! 8. Не используйте красный цвет в сообщениях — оставьте его для модераторов и куратора! Не злоупотребляйте и остальными цветами! 9. Не рекомендуется использовать односложные сообщения (к примеру, "аналогично", "+1"), дублировать сообщения с просьбой через одно сообщение от Вашего предыдущего (тем более, на одной страничке и посланных в один день) и задавать вопросы, типа "когда выйдут новые драйвера?". Старайтесь не засорять тему! 10. Запрещено обсуждать и выкладывать информацию/слухи без ссылок на источник, а также выкладывать результаты "тестов производительности"! Непроверенный материал будет удаляться во избежание флуда и дезинформации участников форума. 11. Когда задаёте вопрос, старайтесь описать проблему как можно яснее. И обязательно прикрепляйте информацию о вашем компьютере, если её нет в "Профиле" или в "Подписи".
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 Я тебя разочарую. Ни одну мало-мальски вменяемую LLM ты в 16 Гб VRAM не воткнёшь, с вменяемой длиной контекста. Всё твои движения и суеты — ни о чем. Ты получишь "тупого ребенка". Можешь побаловаться, конечно, но увы.
Commited – это резервированная системой или приложением видеопамять. Не полностью используемая, но вдруг надо будет.
Member
Статус: Не в сети Регистрация: 19.06.2017 Откуда: Чусовой
Phenomenum да я уже побаловался. тут многое зависит от того какая производительность приемлема. Джемма 4 31b c iq3xxs квантованием полностью войдет в видео память и будет выдавать около 25 токенов примерно до 16-24к контекста. да тут уже не идеальное качество, но и не тупой ребенок. iq4xs уже не поместиться в видео память и нужно будет сбросить часть слоев на цп что бы получить около 8 токенов, а при достижении контекста в 16-24 оно упадет до 4 токенов. Собственно 4 токена для меня это минимум. Если взять Джемму 3 27b то там уже можно со скрипом использовать q5 квантование. Плюс есть вариант с MoE моделями. с 12-14b моделями квантование ниже q6-8 конечно не стоит использовать - они и так тупенькие, а с квантованием лучше точно не станет. 70b модели это тоже не совсем вариант т.к. тут уже нужно совсем жесткое квантование. к слову, контекст тоже можно квантовать до q8 например(это сразу вдвое снижает потребление памяти), а q4 использовать уже не стоит т.к. ошибка будет расти с увеличением контекста.
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 Прикол в том, что у меня может быть производительность меньше, но 24 Гб позволяют загрузить хоть какую-то нормальную модель в быструю VRAM. И она там будет трудится. Как только утекает в RAM, оперативку, то писец. И тут уже не важна производительность Tops.
dftm1 писал(а):
выдавать около 25 токенов
Ахах.
dftm1 писал(а):
до 16-24к контекста
Хахахахах
Ман, забей. Я у себя делал 100k контекста. Думало долго. Это просто баловство.
Member
Статус: Не в сети Регистрация: 19.06.2017 Откуда: Чусовой
Phenomenum писал(а):
Ман, забей. Я у себя делал 100k контекста. Думало долго. Это просто баловство.
ну так понятно, что баловство) и я даже не пытался что-то со 100к контекста делать))
Phenomenum писал(а):
Думало долго.
что значит думало долго? ты модели сходу скормил 100к? ну там да, обработка перед первым ответом будет очень долгой тогда, но потом начнет отвечать быстро если включены все оптимизации и до лимита контекста не дошло(и память не закончилась).
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1Ещё моя локальная нейронка советует поставить K Cache Quantization Type = Q4_0, и V Cache Quantization Type = Q4_0
Цитата:
Идеальный вариант: Q4_0 (или аналогичный 4-битный)
Почему: Для модели 31B на карте 24 ГБ каждый мегабайт на счету. Сжатие V-кэша до 4 бит в сочетании с K-кэшем Q4_0 позволит вам максимально долго удерживать контекст внутри видеокарты, не вытесняя его в медленную оперативную память (RAM). Результат: Максимальная скорость генерации при достаточном качестве. Компромиссный вариант: Q8_0
Почему: Считается, что V-кэш (значения) чуть более чувствителен к потере точности, чем K-кэш. Если вы заметили, что модель начала «бредить» или путать факты в длинных текстах при Q4_0, попробуйте поднять V-кэш до Q8_0. Результат: Чуть выше точность, но контекст заполнит VRAM в два раза быстрее.
Итоговая «шпаргалка» по настройкам кэша для вас: Если вы хотите универсальный, быстрый сетап, ставьте так:
K Cache Quantization → Q4_0 V Cache Quantization → Q4_0 Что это вам даст в цифрах? Вместо того чтобы использовать, например, 8 ГБ видеопамяти под контекст (в FP16), вы будете использовать всего 2 ГБ. Это освобождает место для самой модели и позволяет увеличить окно контекста (те самые 32k или больше), сохраняя при этом высокую скорость работы GPU. Простой совет: Всегда держите K и V кэш на одном уровне квантования (Q4 и Q4 или Q8 и Q8). Нет большого смысла делать один из них очень точным, а другой сильно сжатым — «бутылочное горлышко» всё равно останется.
Цитата:
С вашими настройками (32k контекст + Q4_0 Q4_0 кэш) вы можете спокойно вести очень длинный диалог. Для обычного чата этого более чем достаточно. Вы вряд ли успеете написать 15 тысяч слов в одной сессии, прежде чем решите начать новый чат или сменить тему.
Ваш запас: Примерно 25–30 страниц текста, после чего я начну забывать самое начало беседы.
Member
Статус: Не в сети Регистрация: 19.06.2017 Откуда: Чусовой
Phenomenum лучше ограничиться q8 квантованием(вдвое снизит потребление памяти), q4 только если реально надо много контекста т.к. это дело влияет на качество ответов сильнее чем квантование самой модели. кстати режим мышления у джеммы необязательно использовать она и так ответит адекватно(если нужны быстрые ответы + экономия контекста). 3я Джемма не то что бы как то трагически хуже 4й, к слову. они обе выгледят лучше на фоне других во многом из-за качественного умения болтать и понимать русский язык))
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 писал(а):
q4 только если реально надо много контекста т.к. это дело влияет на качество ответов сильнее чем квантование самой модели
Ага, я в итоге оставил Q8, ибо с Q4 оно начало чудить.
Вообще, если модель немного залезает в ОЗУ, это не сильно сказывается на скорости, и я бы об этом не переживал (30 сек подождать лично меня не сильно парит). Вот если совсем большой контекст, и она наполовину сидит в ОЗУ, тогда да — ждешь по 3-5 минут, и нафиг оно надо.
Прибив пару процессов на 200-300 Мб VRAM, ты особо ничего не изменишь.
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
А по делу? Адреналин до сих пор падает, рандомно. Хотя и реже. Хочешь записать видео с рабочего стола — упс. И кто бы чего не говорил, но если я установлю релиз от сентября 25, то он не будет падать.
Добавлено спустя 6 минут 8 секунд: Аххах, рабочий стол av1 ОН ВООБЩЕ НЕ ЗАПИСЫВАЕТ.
Member
Статус: Не в сети Регистрация: 29.04.2008 Откуда: Москва Фото: 4
Phenomenum писал(а):
Адреналин до сих пор падает, рандомно. Хотя и реже.
хоть адреналин у меня и не падал ни разу почти за 3 года. но вот вчера при записи релайвом полностью обнулилась страница записи. просто серый экран был в этой менюшке и ничего больше, остальные вкладки вроде разгона работали. помогла перезагрузка ПК.
Сейчас этот форум просматривают: technikuswd и гости: 10
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения