Member
Статус: Не в сети Регистрация: 09.06.2012 Откуда: Москва Фото: 2
Leonator писал(а):
Лимит заданий кончился?
По всей видимости, да. Нагуглил ответ. Придёт 4 задания, расчитаются и потом ещё 4. Правда странно что они перестали номально отрпавлятся.. пока не нажму обновить так и висят рассчитанные.
Куратор темы Статус: Не в сети Регистрация: 19.01.2010 Откуда: Санкт-Петербург
OneginForte Совершенно не такая же. Ошибки другие и все разные, чаще всего просто вылеты в процессе счета. Некоторые при этом все-таки успешно завершаются и проходят валидацию. Передположение - нестабильная машина (по железу). Может перегрелась? Последние 2 дня как раз жарко, так что и внутри системников температура поднялась. У меня например видяшка до этого полгода стабильно работавшая подглючивать начала. А дело оказалось все-го лишь в нескольких лишних градусах, которые прибавились из-за того, что в квартире на те же неск. градусов жарче стало (~28гр против 25гр раньше). Прибавил обороты на кулере (у меня авторегулировка выключа была, выставлены фикс. обороты на пороге слышимости были) - проблема исчезла.
NGC7293 А вот тут что-то интересное. Большинство заданий (кроме нескольких последних, где сами жабы глючные) посчитаны нормально. Но валидатор считает их всех без исключения ошибочными почему-то. Из-за этого лимит заданий для машины автоматически снизили до 1 на ядро и новые задания не приходят (точнее приходят но по 1шт в день для кадого ядра). Или какой-то новый глюк в самом валидаторе, или програмный глюк клиента. В конфигах BOINC вручную не копались? Из подозрительного в логах пока вижу только отсутствие версии минирозетты на которой шел счет.
Добавлено спустя 18 минут 5 секунд: NGC7293 Пробежался по оф. форуму. Похоже на несовместимость 7го BOINC и розетты. На некоторых машинах (пока не ясно от чего это зависит), BOINC 7.x + розетта начинает сыпать ошибками. Причем сами расчеты идут нормально, ошибке в подготовке файлов и/или в отправке результатов и оформлении лога (из-за чего валидатор считает их сбойными, т.к. не может правильно разобрать). Хотя на других машинах эта версия работает стабильно. Например я использую ту же версию что у вас (BOINC 7.0.25 + rosetta 3.31) и все работает отлично (уже больше 100 заданий подряд без единой ошибки несмотря на разгон процессора). Версию BOINC в последнее время не меняли? Если меняли и там работало нормально, то совет будет - откатится на ту, что стояла до этого. Или попробовать поставить 6.х версию ("хорошие" версии 6.12.34 6.10.60 6.10.18). Или шаманить в сторону антивирусов/проактивной защиты, если там что-то менялось. (т.к. сбои на уровне взаимодейсвия между приложениями, а анивирусы многие очень нервно реагируют, когда одна программа вмешивается/управляет работой другой)
Добавлено спустя 11 минут 52 секунды: P.S. Как вариант можно сначала наоборот попробовать обновиться до 7.0.28 версии. Там в ней заявлено исправление части багов относящихся как раз к стыковке BOINC с научными приложениями.
Member
Статус: Не в сети Регистрация: 01.12.2007 Откуда: В.Новгород53рус
Mad'Max похоже, что эти битые задания вновь раздаются на другие машины. у меня 8 ошибок выскочило, прошелся по ним, а там на этом задании, кроме моего еще комп висит, и результат тот же - ошибка. клиент у чела 7.0.25, у меня 7.0.28.
Member
Статус: Не в сети Регистрация: 09.06.2012 Откуда: Москва Фото: 2
Mad'Max писал(а):
NGC7293 В конфигах BOINC вручную не копались? Из подозрительного в логах пока вижу только отсутствие версии минирозетты на которой шел счет. Версию BOINC в последнее время не меняли? P.S. Как вариант можно сначала наоборот попробовать обновиться до 7.0.28 версии. Там в ней заявлено исправление части багов относящихся как раз к стыковке BOINC с научными приложениями.
Вечер добрый, Mad'Max. В конфиге не копался, настраивал строго по факу. Когда вышла 7.0.25, почти сразу обновился на неё, проблем не было. Работало так же - BOINC 7.0.25 + rosetta 3.31. Всё было ровно. Обновление на 7.0.28 делал вчера, не помогло.
Сбои ориентировочно начались после обновления видеокарты(пересел на Кеплер, но она так же под F@H) или даже скорее после обновления жесткого диска(возможно как-то связано с перезаливанием образа системы, хотя был подобный опыт на другом расчётном компе и там всё ок.) В остальном система работает стабильно. Сбои только в Розетке. Антивирус стандартный MS Essential. ОС - лицуха, все обнволения. В ОС изменений не делал, новое ПО не ставил.
Куратор темы Статус: Не в сети Регистрация: 19.01.2010 Откуда: Санкт-Петербург
bi6a Да выдаются повторно - 1 раз, если и 2й комп завершает работу ошибкой, то больше это задание уже не выдается. Посмотрел и твой компьютер, это 3й отдельный случай - тебе дейсвительно упала пачка глючных заданий. NGC7293 Ну тогда остается только 6.х версии пробовать. Или полный сброс проекта сделать, если еще не пробовал... Или на оф. форуме писать. А вообще розетта официально 7.х версию не поддерживает - они свою (серверную сторону) не обновляли и обновлять пока не планируют.
В общем все 3 случая несмотря на первый поверхностный взгляд (вдруг посыпали ошибки пачками, хотя до этого было ОК) ничего общего не имеют. OneginForte - какая-то общая нестабильность, разные виды ошибок (чаще всего расчет просто до конца не доходит, лог обрывается), но иногда считает до конца и сдает успешно. "Напарники" (кому выдается задание повторно, после ошибки) считают эти жабы обычно без проблем. Выводы? = скорее всего нестабильное железо или баги на уровне ОС. Лечение - искать причину общей нестабильности, к R@H и BOINC она скорее отношения не имеет. NGC7293 - сами расчеты розетты идут без ошибок(что видно по подробным логам), но все задания после сдачи/отправки на сервер признаны им ошибочными. Вывод - софтовый глюк BOINC клиента при взаимодействии с расчетными модулями. Лечение - пробовать другие версии BOINC клиента, можно попробовать сделать "сброс" проекта если раньше на этом компе и этой версии счет шел без ошибок. bi6a - большинсво жаб идут без сбоев, но последнее время свалилась пачка вылетевших. "Напарники" которым были направлены эти же задания, вылетают с такими же ошибками (+если на форуме глянуть, на такие же ошибки и другие люди жалуются в этой серии заданий). Вывод - сами задания глючные, доктора при их оформлении/подготовке чего-то накосячили. Лечение - со стороны клиента не требуется, в R@H такое переодически случается, можно написать на форуме(чтобы доктора быстрее шевелились и сбойную серию из очереди заданий убрали), а лучше просто забить, благо вылетают они в самом начале, так что ресурсы на них не теряются, так что эти жабы сами быстро "вымрут".
TSC! Russia member
Статус: Не в сети Регистрация: 24.06.2012 Откуда: Нижний Тагил
Спасибо большое. Буду смотреть что с железом. Перегрева нет. Зависаний, перезагрузок не замечено. Но сегодня как-то странно ведет себя клиент. Добавлено: Посмотрел статистику по заданиям подробрно. Ошибки вычислений наблюдаются у параллельных компьютеров.
Куратор темы Статус: Не в сети Регистрация: 19.01.2010 Откуда: Санкт-Петербург
OneginForte Это смотря какие задания - если те, что по 5-20 секунд считались и вылетели в самом начале - да, у других компьютеров на этих задания тоже такие же ошибки. Это кроме прочих глюков еще и серия сбойных заданий еще досталась (такая же как у bi6a). А вот если смотреть задания которые нормальное время работали (от 1000 секунд и больше) - это конкретно твой компьютер их завалил, "напарники" их почти все успешно считают. Впрочем 7.0.28 или 6.х версию BOINC тоже можно попробовать, но сначала проверив стабильность машины.
Куратор темы Статус: Не в сети Регистрация: 19.01.2010 Откуда: Санкт-Петербург
NGC7293 Симптомы те же самые: application version --- Что мешает "общению" между BOINC клиентом и непосредственно расчетным модулем (сейчас это minirosetta_3.31_windows_intelx86.exe должен быть). А вот что именно - по логам это не выяснить.
Добавлено спустя 11 минут 2 секунды: Но по крайней мере теперь можно на оф. форум написать, т.к. ясно, что проблема не в 7.х BOINC клиенте. Сейчас оформлю, заодно про серию глючных жаб упомяну.
Добавлено спустя 1 минуту 6 секунд: OneginForte Я так смотрю по логу, версия 7.0.25 осталась, а ошибки пока пректились. Получается вообще ничего не менялось, сами прекратились? Может все-таки просто похоладало?
Добавлено спустя 14 минут 40 секунд: NGC7293 Написал на оф. форум. Да совсем забыл, хорошо бы еще выложить(под спойлером из-за объема) лог самого клиента от запуска до сдачи нескольких заданий. (event log - ctrl+shift+E или через меню) Может там чего интересного видно...
TSC! Russia member
Статус: Не в сети Регистрация: 24.06.2012 Откуда: Нижний Тагил
Mad'Max писал(а):
Получается вообще ничего не менялось, сами прекратились?
Версию менять пока не стал. Просто перезапустил вычисления. Температура дома/на улице не менялась. У нас умеренно, 20-25 последние 3 дня. Задания в самом деле идут хорошо. Но это другие задания, не такие как были.
Member
Статус: Не в сети Регистрация: 09.06.2012 Откуда: Москва Фото: 2
Mad'Max писал(а):
Написал на оф. форум. Да совсем забыл, хорошо бы еще выложить(под спойлером из-за объема) лог самого клиента от запуска до сдачи нескольких заданий. (event log - ctrl+shift+E или через меню) Может там чего интересного видно...
Благодарю! Приду домой, выложу лог. Правда вчера, вечером, после очередного client error в 6.12.34, повторно всё тщательно снёс и поставил клиент 7.0.28, но задания пока не приходили.
Member
Статус: Не в сети Регистрация: 09.06.2012 Откуда: Москва Фото: 2
Mad'Max писал(а):
хорошо бы еще выложить(под спойлером из-за объема) лог самого клиента
Выкладываю лог, правда получается не с самого начала, т.к. после того как пришло задание и было рассчитано около 3% я перезагружал комп:
11.07.2012 22:43:09 | | No config file found - using defaults 11.07.2012 22:43:09 | | Starting BOINC client version 7.0.28 for windows_x86_64 11.07.2012 22:43:09 | | log flags: file_xfer, sched_ops, task 11.07.2012 22:43:09 | | Libraries: libcurl/7.25.0 OpenSSL/1.0.1 zlib/1.2.6 11.07.2012 22:43:09 | | Data directory: C:\ProgramData\BOINC 11.07.2012 22:43:09 | | Running under account ... 11.07.2012 22:43:09 | | Processor: 4 GenuineIntel Intel(R) Core(TM) i5-2500K CPU @ 3.30GHz [Family 6 Model 42 Stepping 7] 11.07.2012 22:43:09 | | Processor: 256.00 KB cache 11.07.2012 22:43:09 | | Processor features: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss htt tm pni ssse3 cx16 sse4_1 sse4_2 syscall nx lm vmx tm2 popcnt aes pbe 11.07.2012 22:43:09 | | OS: Microsoft Windows 7: Home Premium x64 Edition, Service Pack 1, (06.01.7601.00) 11.07.2012 22:43:09 | | Memory: 7.98 GB physical, 8.98 GB virtual 11.07.2012 22:43:09 | | Disk: 50.00 GB total, 23.62 GB free 11.07.2012 22:43:09 | | Local time is UTC +4 hours 11.07.2012 22:43:09 | | NVIDIA GPU 0: GeForce GTX 670 (driver version 301.42, CUDA version 4.20, compute capability 3.0, 2048MB, 1945MB available, 1896 GFLOPS peak) 11.07.2012 22:43:09 | | OpenCL: NVIDIA GPU 0: GeForce GTX 670 (driver version 301.42, device version OpenCL 1.1 CUDA, 2048MB, 1945MB available) 11.07.2012 22:43:09 | rosetta@home | URL http://boinc.bakerlab.org/rosetta/; Computer ID 1515881; resource share 100 11.07.2012 22:43:09 | | No general preferences found - using defaults 11.07.2012 22:43:09 | | Preferences: 11.07.2012 22:43:09 | | max memory usage when active: 4087.62MB 11.07.2012 22:43:09 | | max memory usage when idle: 7357.71MB 11.07.2012 22:43:09 | | max disk usage: 10.00GB 11.07.2012 22:43:09 | | don't use GPU while active 11.07.2012 22:43:09 | | suspend work if non-BOINC CPU load exceeds 25 % 11.07.2012 22:43:09 | | (to change preferences, visit the web site of an attached project, or select Preferences in the Manager) 11.07.2012 22:43:09 | | Not using a proxy 11.07.2012 22:43:14 | rosetta@home | Restarting task rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2384_1 using minirosetta version 331 in slot 0 11.07.2012 22:43:14 | rosetta@home | Restarting task rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2385_1 using minirosetta version 331 in slot 1 11.07.2012 22:43:14 | rosetta@home | Restarting task IF3_like_SAVE_ALL_OUT_i078_002_51735_521_1 using minirosetta version 331 in slot 2 11.07.2012 22:43:14 | rosetta@home | Restarting task rb_06_30_32177_62908__round2_t000__0_C1_SAVE_ALL_OUT_IGNORE_THE_REST_51904_234_1 using minirosetta version 331 in slot 3 11.07.2012 23:31:20 | | Suspending computation - CPU is busy 11.07.2012 23:31:30 | | Resuming computation 12.07.2012 1:16:47 | rosetta@home | Computation for task rb_06_30_32177_62908__round2_t000__0_C1_SAVE_ALL_OUT_IGNORE_THE_REST_51904_234_1 finished 12.07.2012 1:16:49 | rosetta@home | Started upload of rb_06_30_32177_62908__round2_t000__0_C1_SAVE_ALL_OUT_IGNORE_THE_REST_51904_234_1_0 12.07.2012 1:17:01 | rosetta@home | Finished upload of rb_06_30_32177_62908__round2_t000__0_C1_SAVE_ALL_OUT_IGNORE_THE_REST_51904_234_1_0 12.07.2012 1:22:52 | rosetta@home | Computation for task IF3_like_SAVE_ALL_OUT_i078_002_51735_521_1 finished 12.07.2012 1:22:54 | rosetta@home | Started upload of IF3_like_SAVE_ALL_OUT_i078_002_51735_521_1_0 12.07.2012 1:23:01 | rosetta@home | Finished upload of IF3_like_SAVE_ALL_OUT_i078_002_51735_521_1_0 12.07.2012 1:42:46 | rosetta@home | Computation for task rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2384_1 finished 12.07.2012 1:42:49 | rosetta@home | Started upload of rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2384_1_0 12.07.2012 1:42:57 | rosetta@home | Finished upload of rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2384_1_0 12.07.2012 1:46:26 | rosetta@home | Computation for task rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2385_1 finished 12.07.2012 1:46:28 | rosetta@home | Started upload of rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2385_1_0 12.07.2012 1:46:37 | rosetta@home | Finished upload of rb_06_30_32186_62909__round2_t000__0_D2_SAVE_ALL_OUT_IGNORE_THE_REST_51907_2385_1_0 12.07.2012 7:54:37 | rosetta@home | update requested by user 12.07.2012 7:54:40 | rosetta@home | Sending scheduler request: Requested by user. 12.07.2012 7:54:40 | rosetta@home | Reporting 4 completed tasks, requesting new tasks for CPU and NVIDIA 12.07.2012 7:54:44 | rosetta@home | Scheduler request completed: got 0 new tasks 12.07.2012 7:54:44 | rosetta@home | No work sent 12.07.2012 7:54:44 | rosetta@home | (reached daily quota of 4 results)
И вот последующий лог перезапуска Boinc менеджера:
12.07.2012 8:02:31 | | No config file found - using defaults 12.07.2012 8:02:31 | | Starting BOINC client version 7.0.28 for windows_x86_64 12.07.2012 8:02:31 | | log flags: file_xfer, sched_ops, task 12.07.2012 8:02:31 | | Libraries: libcurl/7.25.0 OpenSSL/1.0.1 zlib/1.2.6 12.07.2012 8:02:31 | | Data directory: C:\ProgramData\BOINC 12.07.2012 8:02:31 | | Running under account ... 12.07.2012 8:02:31 | | Processor: 4 GenuineIntel Intel(R) Core(TM) i5-2500K CPU @ 3.30GHz [Family 6 Model 42 Stepping 7] 12.07.2012 8:02:31 | | Processor: 256.00 KB cache 12.07.2012 8:02:31 | | Processor features: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss htt tm pni ssse3 cx16 sse4_1 sse4_2 syscall nx lm vmx tm2 popcnt aes pbe 12.07.2012 8:02:31 | | OS: Microsoft Windows 7: Home Premium x64 Edition, Service Pack 1, (06.01.7601.00) 12.07.2012 8:02:31 | | Memory: 7.98 GB physical, 8.98 GB virtual 12.07.2012 8:02:31 | | Disk: 50.00 GB total, 24.30 GB free 12.07.2012 8:02:31 | | Local time is UTC +4 hours 12.07.2012 8:02:31 | | NVIDIA GPU 0: GeForce GTX 670 (driver version 301.42, CUDA version 4.20, compute capability 3.0, 2048MB, 1536MB available, 1896 GFLOPS peak) 12.07.2012 8:02:31 | | OpenCL: NVIDIA GPU 0: GeForce GTX 670 (driver version 301.42, device version OpenCL 1.1 CUDA, 2048MB, 1536MB available) 12.07.2012 8:02:31 | rosetta@home | URL http://boinc.bakerlab.org/rosetta/; Computer ID 1515881; resource share 100 12.07.2012 8:02:31 | | No general preferences found - using defaults 12.07.2012 8:02:31 | | Preferences: 12.07.2012 8:02:31 | | max memory usage when active: 4087.62MB 12.07.2012 8:02:31 | | max memory usage when idle: 7357.71MB 12.07.2012 8:02:31 | | max disk usage: 10.00GB 12.07.2012 8:02:31 | | don't use GPU while active 12.07.2012 8:02:31 | | suspend work if non-BOINC CPU load exceeds 25 % 12.07.2012 8:02:31 | | (to change preferences, visit the web site of an attached project, or select Preferences in the Manager) 12.07.2012 8:02:31 | | Not using a proxy
Добавлено спустя 6 часов 35 минут 24 секунды: Mad'Max Кстати, если есть возможность, где могу посмотреть статистику по расчётным машинам за всё время? Хочу выяснить, когда посыпались ошибки на этом компе.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения