Member
Статус: Не в сети Регистрация: 12.05.2005 Откуда: Питер
Опять какие-то глюки! Считает нормально, но стоит только перезапустить машину (последнее время приходится делать часто, ибо нужен виндовый софт), как получаю вот это
[22:10:01] - Ask before connecting: No [22:10:01] - User name: Pavelbel (Team 47191) [22:10:01] - User ID: 53396FC656C9E4A [22:10:01] - Machine ID: 2 [22:10:01] [22:10:02] Loaded queue successfully. [22:10:02] [22:10:02] - Autosending finished units... [22:10:02] [22:10:02] + Processing work unit [22:10:02] Trying to send all finished work units [22:10:02] At least 4 processors must be requested.[22:10:02] + No unsent completed units remaining. Core required: FahCore_a2.exe [22:10:02] - Autosend completed
После чего процесс фаха отваливается напрочь. Через 2 минуты крон опять запускает его - та же картина. И так по кругу. Помогает только, если стереть Work и queue.dat
Где собака порылась?
_________________ Более мощный компьютер глючит быстрее и точнее.
Доброго времени суток. Сегодня после отправки готового юнита, загрузки нового и начала его обсчёта произошло следующее:
Код:
[16:45:15] Folding@Home Gromacs SMP Core [16:45:15] Version 1.74 (November 27, 2006) [16:45:15] [16:45:15] Preparing to commence simulation [16:45:15] - Ensuring status. Please wait. [16:45:15] Created dyn [16:45:15] - Files stloops on this execution. [16:45:15] - Previous termination of core was improper. [16:45:15] - Files status OK [16:45:16] - Expanded 4745554 -> 24426905 (decompressed 514.7 percent) [16:45:17] Assembly optimizations on if available. [16:45:17] Entering M.D. [16:45:17] n 0, Clone 216, Gen 151) [16:45:17] [16:45:17] Entering M.D. [16:45:34] cket [16:45:34] [16:45:34] Project: 2665 (Run 0, Clone 216, Gen 151) [16:45:34] [16:45:34] Entering M.D. NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_2]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [16:45:47] CoreStatus = 66 (102) [16:45:47] + Shutdown requested by user. Exiting.***** Got a SIGTERM signal (15) [16:45:47] Killing all core threads
Folding@Home Client Shutdown.
Следующая попытка запуска клиента дала следущий результат:
Код:
... [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [16:46:31] Finalizing output [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [16:46:36] CoreStatus = 1 (1) [16:46:36] Client-core communications error: ERROR 0x1 [16:46:36] Deleting current work unit & continuing... ^C[16:46:47] ***** Got an Activate signal (2) [16:46:47] Killing all core threads
Folding@Home Client Shutdown.
Собственно вопрос: почему так происходит и что делать, чтобы этого не было? 2665 юниты до этого считались без проблем. Такая же ситуация возникала с юнитом 5101. ОС: Debian GNU/Linux squeeze/sid, ядро 2.6.31.6, сбой 5101 был на 2.6.31.5, насколько я помню.
Inkogn Было похожее. Помогало полная переустановка клиента! Т.е. с удалением папки с клиентом и затем созданием новой, настройкой клиента и т.д. ... Кстати, а версия клиента какая?
[06:18:45] [06:18:45] *------------------------------* [06:18:45] Folding@Home Gromacs SMP Core [06:18:45] Version 1.74 (November 27, 2006) [06:18:45] [06:18:45] Preparing to commence simulation [06:18:45] - Ensuring status. Please wait. [06:18:46] - Starting from initial work packet [06:18:47] [06:18:47] Project: 2665 (Run 1, Clone 447, Gen 154) [06:18:47] [06:18:47] Assembly optimizations on if available. [06:18:47] Entering M.D. [06:19:04] on if available. [06:19:04] Entering M.D. NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [06:19:17] CoreStatus = 1 (1) [06:19:17] Sending work to server [06:19:17] Project: 2665 (Run 1, Clone 447, Gen 154) [06:19:17] - Error: Could not get length of results file work/wuresults_01.dat [06:19:17] - Error: Could not read unit 01 file. Removing from queue. [06:19:17] Trying to send all finished work units [06:19:17] + No unsent completed units remaining. [06:19:17] - Preparing to get new work unit... [06:19:17] + Attempting to get work packet [06:19:17] - Will indicate memory of 800 MB [06:19:17] - Connecting to assignment server [06:19:17] Connecting to http://assign.stanford.edu:8080/ [06:19:19] Posted data. [06:19:19] Initial: 40AB; - Successful: assigned to (171.64.65.64). [06:19:19] + News From Folding@Home: Welcome to Folding@Home [06:19:19] Loaded queue successfully. [06:19:19] Connecting to http://171.64.65.64:8080/ [06:19:25] Posted data. [06:19:25] Initial: 0000; - Receiving payload (expected size: 4664764)
[07:24:32] - Ask before connecting: No [07:24:32] - User name: Kurogasa (Team 47191) [07:24:32] - User ID: 6B83007A2837D947 [07:24:32] - Machine ID: 2 [07:24:32] [07:24:32] Loaded queue successfully. [07:24:32] [07:24:32] - Autosending finished units... [December 1 07:24:32 UTC] [07:24:32] + Processing work unit [07:24:32] Trying to send all finished work units [07:24:32] Work type a1 not eligible for variable processors [07:24:32] + No unsent completed units remaining. [07:24:32] Core required: FahCore_a1.exe [07:24:32] - Autosend completed [07:24:32] Core not found. [07:24:32] - Core is not present or corrupted. [07:24:32] - Attempting to download new core... [07:24:32] + Downloading new core: FahCore_a1.exe [07:24:32] Downloading core (/~pande/Linux/AMD64/Core_a1.fah from www.stanford.edu) [07:24:33] Initial: AFDE; + 10240 bytes downloaded ... [07:24:43] Verifying core Core_a1.fah... [07:24:43] Signature is VALID [07:24:43] [07:24:43] Trying to unzip core FahCore_a1.exe [07:24:44] Decompressed FahCore_a1.exe (3625104 bytes) successfully [07:24:44] + Core successfully engaged [07:24:49] [07:24:49] + Processing work unit [07:24:49] Work type a1 not eligible for variable processors [07:24:49] Core required: FahCore_a1.exe [07:24:49] Core found. [07:24:49] Working on queue slot 01 [December 1 07:24:49 UTC] [07:24:49] + Working ... [07:24:49] - Calling './mpiexec -np 4 -host 127.0.0.1 ./FahCore_a1.exe -dir work/ -suffix 01 -checkpoint 10 -forceasm -verbose -lifeline 6543 -version 624'
[07:24:49] [07:24:49] *------------------------------* [07:24:49] Folding@Home Gromacs SMP Core [07:24:49] Version 1.74 (November 27, 2006) [07:24:49] [07:24:49] Preparing to commence simulation [07:24:49] - Ensuring status. Please wait. [07:24:50] - Starting from initial work packet [07:24:51] [07:24:51] Project: 2665 (Run 1, Clone 104, Gen 155) [07:24:51] [07:24:51] Assembly optimizations on if available. [07:24:51] Entering M.D. [07:25:08] on if available. [07:25:08] Entering M.D. NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [07:25:18] Finalizing output [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [07:25:22] CoreStatus = 1 (1) [07:25:22] Sending work to server [07:25:22] Project: 2665 (Run 1, Clone 104, Gen 155) [07:25:22] - Error: Could not get length of results file work/wuresults_01.dat [07:25:22] - Error: Could not read unit 01 file. Removing from queue. [07:25:22] Trying to send all finished work units [07:25:22] + No unsent completed units remaining. [07:25:22] - Preparing to get new work unit... [07:25:22] + Attempting to get work packet
К слову, раньше было 4 процесса FahCore, а сейчас он пытается инициализировать 8, после инициализации 8-го и вываливается с ошибкой.
Member
Статус: Не в сети Регистрация: 25.12.2007 Откуда: Красноярск
Inkogn писал(а):
Не закачалось, взял руками, результат:
его надо ещё и руками распаковать. Открой редактором (с поддержкой непечатаемых символов) и удали "лишние" байты от начала файла до "BZ" (не включая символы BZ). Переименуй файл в Core_a1.bz. Распакуй (tar'ом например). Переименуй результат в FahCore_a1.exe
На всякий случай проверь права пользователя на папку work/ В ней ядра пишут логи... возможно у них нет прав доступа.
Добавлено спустя 9 минут 22 секунды: По официальной информации ошибка 0x1 является "неизвестной ошибкой". Среди возможных причин: 1. Хардверные проблемы. Наиболее вероятны косяки с памятью. 2. Задание просрочено. Необходимо удалить папку work/, файлы FAHlog.txt, queue.dat, unitinfo.dat.
Добавлено спустя 2 минуты 25 секунд:
Inkogn писал(а):
К слову, раньше было 4 процесса FahCore, а сейчас он пытается инициализировать 8, после инициализации 8-го и вываливается с ошибкой.
Добавлено спустя 1 минуту 36 секунд: Fergity Пробовал удалять, имелось в виду считать не под virtualbox, а не конфликтует ли fah с какими-либо модулями virtualbox, так как в последнее время только её поставил.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения