Member
Статус: Не в сети Регистрация: 12.05.2005 Откуда: Питер
Опять какие-то глюки! Считает нормально, но стоит только перезапустить машину (последнее время приходится делать часто, ибо нужен виндовый софт), как получаю вот это
[22:10:01] - Ask before connecting: No [22:10:01] - User name: Pavelbel (Team 47191) [22:10:01] - User ID: 53396FC656C9E4A [22:10:01] - Machine ID: 2 [22:10:01] [22:10:02] Loaded queue successfully. [22:10:02] [22:10:02] - Autosending finished units... [22:10:02] [22:10:02] + Processing work unit [22:10:02] Trying to send all finished work units [22:10:02] At least 4 processors must be requested.[22:10:02] + No unsent completed units remaining. Core required: FahCore_a2.exe [22:10:02] - Autosend completed
После чего процесс фаха отваливается напрочь. Через 2 минуты крон опять запускает его - та же картина. И так по кругу. Помогает только, если стереть Work и queue.dat
Где собака порылась?
_________________ Более мощный компьютер глючит быстрее и точнее.
Доброго времени суток. Сегодня после отправки готового юнита, загрузки нового и начала его обсчёта произошло следующее:
Код:
[16:45:15] Folding@Home Gromacs SMP Core [16:45:15] Version 1.74 (November 27, 2006) [16:45:15] [16:45:15] Preparing to commence simulation [16:45:15] - Ensuring status. Please wait. [16:45:15] Created dyn [16:45:15] - Files stloops on this execution. [16:45:15] - Previous termination of core was improper. [16:45:15] - Files status OK [16:45:16] - Expanded 4745554 -> 24426905 (decompressed 514.7 percent) [16:45:17] Assembly optimizations on if available. [16:45:17] Entering M.D. [16:45:17] n 0, Clone 216, Gen 151) [16:45:17] [16:45:17] Entering M.D. [16:45:34] cket [16:45:34] [16:45:34] Project: 2665 (Run 0, Clone 216, Gen 151) [16:45:34] [16:45:34] Entering M.D. NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_2]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [16:45:47] CoreStatus = 66 (102) [16:45:47] + Shutdown requested by user. Exiting.***** Got a SIGTERM signal (15) [16:45:47] Killing all core threads
Folding@Home Client Shutdown.
Следующая попытка запуска клиента дала следущий результат:
Код:
... [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [16:46:31] Finalizing output [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [16:46:36] CoreStatus = 1 (1) [16:46:36] Client-core communications error: ERROR 0x1 [16:46:36] Deleting current work unit & continuing... ^C[16:46:47] ***** Got an Activate signal (2) [16:46:47] Killing all core threads
Folding@Home Client Shutdown.
Собственно вопрос: почему так происходит и что делать, чтобы этого не было? 2665 юниты до этого считались без проблем. Такая же ситуация возникала с юнитом 5101. ОС: Debian GNU/Linux squeeze/sid, ядро 2.6.31.6, сбой 5101 был на 2.6.31.5, насколько я помню.
Inkogn Было похожее. Помогало полная переустановка клиента! Т.е. с удалением папки с клиентом и затем созданием новой, настройкой клиента и т.д. ... Кстати, а версия клиента какая?
[06:18:45] [06:18:45] *------------------------------* [06:18:45] Folding@Home Gromacs SMP Core [06:18:45] Version 1.74 (November 27, 2006) [06:18:45] [06:18:45] Preparing to commence simulation [06:18:45] - Ensuring status. Please wait. [06:18:46] - Starting from initial work packet [06:18:47] [06:18:47] Project: 2665 (Run 1, Clone 447, Gen 154) [06:18:47] [06:18:47] Assembly optimizations on if available. [06:18:47] Entering M.D. [06:19:04] on if available. [06:19:04] Entering M.D. NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [06:19:17] CoreStatus = 1 (1) [06:19:17] Sending work to server [06:19:17] Project: 2665 (Run 1, Clone 447, Gen 154) [06:19:17] - Error: Could not get length of results file work/wuresults_01.dat [06:19:17] - Error: Could not read unit 01 file. Removing from queue. [06:19:17] Trying to send all finished work units [06:19:17] + No unsent completed units remaining. [06:19:17] - Preparing to get new work unit... [06:19:17] + Attempting to get work packet [06:19:17] - Will indicate memory of 800 MB [06:19:17] - Connecting to assignment server [06:19:17] Connecting to http://assign.stanford.edu:8080/ [06:19:19] Posted data. [06:19:19] Initial: 40AB; - Successful: assigned to (171.64.65.64). [06:19:19] + News From Folding@Home: Welcome to Folding@Home [06:19:19] Loaded queue successfully. [06:19:19] Connecting to http://171.64.65.64:8080/ [06:19:25] Posted data. [06:19:25] Initial: 0000; - Receiving payload (expected size: 4664764)
[07:24:32] - Ask before connecting: No [07:24:32] - User name: Kurogasa (Team 47191) [07:24:32] - User ID: 6B83007A2837D947 [07:24:32] - Machine ID: 2 [07:24:32] [07:24:32] Loaded queue successfully. [07:24:32] [07:24:32] - Autosending finished units... [December 1 07:24:32 UTC] [07:24:32] + Processing work unit [07:24:32] Trying to send all finished work units [07:24:32] Work type a1 not eligible for variable processors [07:24:32] + No unsent completed units remaining. [07:24:32] Core required: FahCore_a1.exe [07:24:32] - Autosend completed [07:24:32] Core not found. [07:24:32] - Core is not present or corrupted. [07:24:32] - Attempting to download new core... [07:24:32] + Downloading new core: FahCore_a1.exe [07:24:32] Downloading core (/~pande/Linux/AMD64/Core_a1.fah from www.stanford.edu) [07:24:33] Initial: AFDE; + 10240 bytes downloaded ... [07:24:43] Verifying core Core_a1.fah... [07:24:43] Signature is VALID [07:24:43] [07:24:43] Trying to unzip core FahCore_a1.exe [07:24:44] Decompressed FahCore_a1.exe (3625104 bytes) successfully [07:24:44] + Core successfully engaged [07:24:49] [07:24:49] + Processing work unit [07:24:49] Work type a1 not eligible for variable processors [07:24:49] Core required: FahCore_a1.exe [07:24:49] Core found. [07:24:49] Working on queue slot 01 [December 1 07:24:49 UTC] [07:24:49] + Working ... [07:24:49] - Calling './mpiexec -np 4 -host 127.0.0.1 ./FahCore_a1.exe -dir work/ -suffix 01 -checkpoint 10 -forceasm -verbose -lifeline 6543 -version 624'
[07:24:49] [07:24:49] *------------------------------* [07:24:49] Folding@Home Gromacs SMP Core [07:24:49] Version 1.74 (November 27, 2006) [07:24:49] [07:24:49] Preparing to commence simulation [07:24:49] - Ensuring status. Please wait. [07:24:50] - Starting from initial work packet [07:24:51] [07:24:51] Project: 2665 (Run 1, Clone 104, Gen 155) [07:24:51] [07:24:51] Assembly optimizations on if available. [07:24:51] Entering M.D. [07:25:08] on if available. [07:25:08] Entering M.D. NNODES=4, MYRANK=1, HOSTNAME=laptop NNODES=4, MYRANK=3, HOSTNAME=laptop NNODES=4, MYRANK=0, HOSTNAME=laptop NNODES=4, MYRANK=2, HOSTNAME=laptop [cli_1]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_0]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [cli_3]: aborting job: Fatal error in MPI_Wait: Error message texts are not available [07:25:18] Finalizing output [0]0:Return code = 1 [0]1:Return code = 1 [0]2:Return code = 0, signaled with Quit [0]3:Return code = 1 [07:25:22] CoreStatus = 1 (1) [07:25:22] Sending work to server [07:25:22] Project: 2665 (Run 1, Clone 104, Gen 155) [07:25:22] - Error: Could not get length of results file work/wuresults_01.dat [07:25:22] - Error: Could not read unit 01 file. Removing from queue. [07:25:22] Trying to send all finished work units [07:25:22] + No unsent completed units remaining. [07:25:22] - Preparing to get new work unit... [07:25:22] + Attempting to get work packet
К слову, раньше было 4 процесса FahCore, а сейчас он пытается инициализировать 8, после инициализации 8-го и вываливается с ошибкой.
Member
Статус: Не в сети Регистрация: 25.12.2007 Откуда: Красноярск
Inkogn писал(а):
Не закачалось, взял руками, результат:
его надо ещё и руками распаковать. Открой редактором (с поддержкой непечатаемых символов) и удали "лишние" байты от начала файла до "BZ" (не включая символы BZ). Переименуй файл в Core_a1.bz. Распакуй (tar'ом например). Переименуй результат в FahCore_a1.exe
На всякий случай проверь права пользователя на папку work/ В ней ядра пишут логи... возможно у них нет прав доступа.
Добавлено спустя 9 минут 22 секунды: По официальной информации ошибка 0x1 является "неизвестной ошибкой". Среди возможных причин: 1. Хардверные проблемы. Наиболее вероятны косяки с памятью. 2. Задание просрочено. Необходимо удалить папку work/, файлы FAHlog.txt, queue.dat, unitinfo.dat.
Добавлено спустя 2 минуты 25 секунд:
Inkogn писал(а):
К слову, раньше было 4 процесса FahCore, а сейчас он пытается инициализировать 8, после инициализации 8-го и вываливается с ошибкой.
Добавлено спустя 1 минуту 36 секунд: Fergity Пробовал удалять, имелось в виду считать не под virtualbox, а не конфликтует ли fah с какими-либо модулями virtualbox, так как в последнее время только её поставил.
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения