1. Старайтесь соблюдать Правила Конференции! Они писаны для всех, в том числе и для этой темы. 2. Прежде чем написать свой вопрос, обязательно ознакомьтесь с разделами Часто задаваемые вопросы, Справочный центр Radeon Software и База знаний (особенно это касается новичков). Ведь может быть ответ на ваш вопрос уже там! 3. Аналогично предыдущему пункту: не ленитесь читать посты других пользователей! В них вы тоже можете найти решение вашей проблемы. И очень убедительная просьба: не нужно всем по сто раз писать об одной и той же найденной проблеме! Это только захламляет тему. Будет лучше, если к комментарию о найденной ошибке вы прикрепите доказательство о том, что вы уже отослали баг-репорт на эту ошибку! Такие комментарии будут смотреться гораздо приятнее, да и в целом ваши действия могут оказаться ценными для всего сообщества! 4. Не нужно обсуждать действия куратора и торопить его! Все претензии и предложения по изменению шапки можно написать куратору в "Личные сообщения". И всегда старайтесь быть вежливым. Помните: как вы относитесь к людям, так и они будут относиться к вам. 5. Фанбойство между лагерями-конкурентами будет жёстко пресекаться! В теме не запрещено упоминать конкурентов, их успехи или неудачи, но ни в коем случае не делать это агрессивно и не провоцировать остальных на выяснения отношений! 6. В теме не допускается флуд. Не нужно захламлять тему, поэтому всегда старайтесь писать по теме, иначе весь флуд и оффтоп будет стираться без предупреждения! 7. Запрещено разводить холивары на такие темы, как "сравнение операционных систем", "майнинг", "телеметрия", "удаление драйверов с помощью сторонних утилит"! Для этих тем в Конференции существуют специальные разделы! Такие холивары будут безжалостно удаляться, а зачинщики и участники получат предупреждения! 8. Не используйте красный цвет в сообщениях — оставьте его для модераторов и куратора! Не злоупотребляйте и остальными цветами! 9. Не рекомендуется использовать односложные сообщения (к примеру, "аналогично", "+1"), дублировать сообщения с просьбой через одно сообщение от Вашего предыдущего (тем более, на одной страничке и посланных в один день) и задавать вопросы, типа "когда выйдут новые драйвера?". Старайтесь не засорять тему! 10. Запрещено обсуждать и выкладывать информацию/слухи без ссылок на источник, а также выкладывать результаты "тестов производительности"! Непроверенный материал будет удаляться во избежание флуда и дезинформации участников форума. 11. Когда задаёте вопрос, старайтесь описать проблему как можно яснее. И обязательно прикрепляйте информацию о вашем компьютере, если её нет в "Профиле" или в "Подписи".
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 Я тебя разочарую. Ни одну мало-мальски вменяемую LLM ты в 16 Гб VRAM не воткнёшь, с вменяемой длиной контекста. Всё твои движения и суеты — ни о чем. Ты получишь "тупого ребенка". Можешь побаловаться, конечно, но увы.
Commited – это резервированная системой или приложением видеопамять. Не полностью используемая, но вдруг надо будет.
Member
Статус: Не в сети Регистрация: 19.06.2017 Откуда: Чусовой
Phenomenum да я уже побаловался. тут многое зависит от того какая производительность приемлема. Джемма 4 31b c iq3xxs квантованием полностью войдет в видео память и будет выдавать около 25 токенов примерно до 16-24к контекста. да тут уже не идеальное качество, но и не тупой ребенок. iq4xs уже не поместиться в видео память и нужно будет сбросить часть слоев на цп что бы получить около 8 токенов, а при достижении контекста в 16-24 оно упадет до 4 токенов. Собственно 4 токена для меня это минимум. Если взять Джемму 3 27b то там уже можно со скрипом использовать q5 квантование. Плюс есть вариант с MoE моделями. с 12-14b моделями квантование ниже q6-8 конечно не стоит использовать - они и так тупенькие, а с квантованием лучше точно не станет. 70b модели это тоже не совсем вариант т.к. тут уже нужно совсем жесткое квантование. к слову, контекст тоже можно квантовать до q8 например(это сразу вдвое снижает потребление памяти), а q4 использовать уже не стоит т.к. ошибка будет расти с увеличением контекста.
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 Прикол в том, что у меня может быть производительность меньше, но 24 Гб позволяют загрузить хоть какую-то нормальную модель в быструю VRAM. И она там будет трудится. Как только утекает в RAM, оперативку, то писец. И тут уже не важна производительность Tops.
dftm1 писал(а):
выдавать около 25 токенов
Ахах.
dftm1 писал(а):
до 16-24к контекста
Хахахахах
Ман, забей. Я у себя делал 100k контекста. Думало долго. Это просто баловство.
Member
Статус: Не в сети Регистрация: 19.06.2017 Откуда: Чусовой
Phenomenum писал(а):
Ман, забей. Я у себя делал 100k контекста. Думало долго. Это просто баловство.
ну так понятно, что баловство) и я даже не пытался что-то со 100к контекста делать))
Phenomenum писал(а):
Думало долго.
что значит думало долго? ты модели сходу скормил 100к? ну там да, обработка перед первым ответом будет очень долгой тогда, но потом начнет отвечать быстро если включены все оптимизации и до лимита контекста не дошло(и память не закончилась).
Member
Статус: Не в сети Регистрация: 23.06.2019 Фото: 0
dftm1 писал(а):
что значит думало долго? ты модели сходу скормил 100к?
Ну 98k, если быть точным. Дальше вылетало. Qwen.
Забей пока. Ещё год надо подождать, прежде чем локалки что-то осмысленное и полезное смогут предложить. Пока это баловство.
dftm1 писал(а):
ну там да, обработка перед первым ответом будет очень долгой тогда,
Перед первым ответом нет, но по мере роста контекста, время ответа растёт, а тупняк тот же. Реально, проще бесплатный DeepSeek использовать, когда нужно. Не парься. Тем более у тебя влезет Q4 макс. Может сейчас что новое появилось, я с осени там не лазил. Щас посмотрю.
Сволочи, только через КВН.
Добавлено спустя 11 минут 17 секунд: dftm1 Вообще, ман, лучше думать своим мозгом. Проблема по всему миру: школьники и студенты тупеют.
Сейчас этот форум просматривают: Orbit811 и гости: 12
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения