/ac/ - Feliz Navidad 🎄

Y próspero Año Nuevo

Página principal Catálogo Archivar Bajar Actualizar
Opciones
Título
Mensaje

Máximo de caracteres: 12000

archivos

Tamaño máximo de archivo: 32.00 MB

Tamaño máximo de archivo en total: 50.00 MB

Numero máximo de archivos: 5

Supported file types: GIF, JPG, PNG, WebM, OGG, and more

Correo
Clave

(usado para eliminar archivos y mensajes)

Misc

Recuerda leer las reglas

The backup domains are located at 8chan.se and 8chan.cc. TOR access can be found here, or you can access the TOR portal from the clearnet at Redchannit 3.0.

El evento intertablones ya comenzó
ven a celebrar Navidad con nosotros aqui


8chan.moe is a hobby project with no affiliation whatsoever to the administration of any other "8chan" site, past or present.

Reglas - Meta Nunca olvidar Contacto: acolitosadmin@protonmail.com Afiliados: 【 co / edit 】 Boards hispanos: 【 hispa / pol 】【 ve / ar / mex / pe】 【 rol / arte / av

(55.22 KB 1362x764 ClipboardImage.png)

EEH archivamos contenido de /ac/ Anónimo 11/06/2022 (Sab) 19:17:25 1049
Lo del título. >Viejo booru https://acumuladores.booru.org/ >/recuerdos/ archivo de todos los hilos de /ac/ al día del cierre de hispa >>>/recuerdos/ >Archivos de hispafiles: Archivador no confiable, que durará un poco más, así que saquen capturas o réplicas locales lo más pronto posible https://hispafiles.ru/ac >Archivo final de hispachan: No es solo un archivo .rar, tiene algunas cosas raras extra que van a tener que hacer para accederlo >>>>/hispachan/2913 >Archivos en archive today https://archive.fo/https://hispafiles.ru/ac/* https://archive.ph/www.hispachan.org (Por alguna razón no puedo buscar los hilos específicamente de /ac/, me devuelve cero resultados a pesar de que hace algunos días si podía. Si alguien puede revisar eso sería de bastante ayuda)
Estoy usando HTTtrack para replicar localmente todo el archivo de hispafiles. Intenté solo usar el directorio padre https://hispafiles.ru/ac y dejarlo correr pero por alguna razón tira errores de conexión que luego tengo que corregir manualmente, cosa que es tediosa; así que en su lugar estoy replicando localmente todos los hilos con HTTtrack. La lista de hilos guardados en hispafiles la obtuve con wget (que descargó solo el texto, no las imágenes) y luego usé un código de Python para rescatar todos los archivos y montarlos en una lista que luego la usé de entrada para el HTTtrack Imagen adjunta son todos los enlaces archivados en hispafiles
(325.31 KB 648x932 ClipboardImage.png)

(89.41 KB 1319x548 ClipboardImage.png)

Actualización del archivo. Va corriendo siete horas y ha bajado 2.5Gb de contenido así como 1/4 de los hilos en total. Vamos bastante bien, espero dejarlo toda la noche y que en la mañana esté hecho al menos el 70% Les dejo una captura de como va quedando el archivo así como una bonita imagen que encontré ahí. No se está guardando el CSS por alguna razón, si no lo descarga entonces veré como hago para añadirlo de manera manual. De nuevo, sería de bastante ayuda si me dieran una mano, porque no tengo idea de lo que estoy haciendo, kek.
(33.44 KB 170x273 158931063575.png)

>>1074 Muy bien anon, agradesco tu esfuerzo ¿2GB? ¿O sea que en total son como 10GB en total?
>>1079 Ya va un poco más de la mitad y tiene 4.15Gb así que probablemente el resultado final esté alrededor de 8Gb
Actualización del archivo, lelva 19 horas y va casi 7Gb de contenido. Cuestión: Está descargando las imágenes pero no está descargando vidéos ni pdfs. La única solución que se me ocurre es hacer un webscrapping con python y recuperar todos los archivos que sean .webm, .mp4 o .pdf además de los .cbr y .cbz; cosa que será un tedio en lo que recuerdo como funciona la estructura de datos de Hispafiles. Si alguien sabe una mejor manera de recuperar los archivos de Hispafiles que no sean imágenes sin pasar por ese tedio,s ería de gran ayuda si pudiera darnos una mano con eso.
>>1644 Gran trabajo negrito, aunque ni idea como hacer eso.
Actualización del archivo. Hispafiles se cayó y se interrumpió de manera inesperada: https://hispafiles.ru/ac/res/156453.html Espero que vuelva a estar en linea pronto. Ya se tenía hecho el 60% del archivo de imágenes, el resto se guardaron las respuestas pero se perdieron las imágenes. Y bueno, también están faltando los vidéos. Si alguien puede ponerse en contacto con el negro de hispafiles para que nos de una mano con el backup sería genial porque como dije estoy perdidísimo con lo que estoy haciendo.
>>1049 Se que no tiene nada que ver con el tema, pero el discuck de hispa desapareció de mi cuenta ¿Ya lo nukearon tambien?
>>1729 Pregunta aquí >>1
>>1729 Hay negro, el salseo sobre ese tema es exquisito, ve a preguntarlo en el tablón meta, estaré dispuesto a resumírtelo.
>>1644 >>1694 Dejen subo un respaldo de hispafiles que tengo a la mano de 14.7gb que hice a principios del año pasado. También tengo unos que hacia mensualmente de httrack directamente en chispa y no recuerdo si tengo otro hecho sobre hispafiles. >>1074 A mis respaldos les pasa lo mismo, pero hace ya tiempo vi que se solucionaba solo cambiando de lugar de lo que hay en la carpeta stylesheets. No recuerdo como exactamente.
>>1738 >Dejen subo un respaldo de hispafiles que tengo a la mano de 14.7gb que hice a principios del año pasado Sería de gran ayuda, anon. Gracias. >También tengo unos que hacia mensualmente de httrack directamente en chispa y no recuerdo si tengo otro hecho sobre hispafiles. Sería genial si pudieras revisar si tienes el archivo de hispafiles. También ¿le puedes comentar ese archivo de hispa al OP de este hilo >>>/hispachan/2913 ? sería genial si pudiéramos tener los archivos de hispa disponibles porque los programanones de este sitio desarrollaron una herramienta para migrar tablones de hispa hacia acá, desafortunadamente hispa fue nukeado antes de que pudieran hacerse las migraciones propiamente.
(45.36 KB 724x796 hispafiles.ru carpeta.png)

Bien después de ver que no sube por partes en la archive org, los he subido en partes a zippyshare para que lo puedan descargar rapido y por el limite por archivo en zippy: Hispafiles ac 11-01-21 https://www.zippyshare.com/adrewfiest/cfksnw7d/dir.html Después los subo en la archive org en un solo archivo, ya es más lenta la descarga y se me interrumpe aleatoriamente la subida de archivos
>>1739 Olvide mencionarlo, tengo por partes a hispafiles ya que habían tablones menos pesados que otros de respaldar. El que he posteado aquí >>1785 sólo tiene a /ac/
(9.98 KB 688x324 ia test.png)

Este es el item en el que estaré subiendo todo lo de /ac/ de la forma que ya mencione https://archive.org/details/hispachanac Añadí también esos respaldos en zippyshare para comparar la velocidad de subida de la internet archive https://www.zippyshare.com/adrewfiest/pwrvftrh/dir.html Por lo visto en zippyshare aprovecha toda mi velocidad de subida 2 mb/s y la internet archive no con 300 kb/s de subida
>>1785 Muchas gracias, anon, ya lo descargué, mañana lo descomprimo tengo que organizar algunas cosas. De nuevo, muchas gracias por el apoyo a los esfuerzos de conservar nuestros hilos de los tiempos de hispa.
>>1049 >(Por alguna razón no puedo buscar los hilos específicamente de /ac/, me devuelve cero resultados a pesar de que hace algunos días si podía. Si alguien puede revisar eso sería de bastante ayuda) Intenta con https://archive.fo/https://www.hispachan.org/ac/* >>1074 >si no lo descarga entonces veré como hago para añadirlo de manera manual Puedes fijarte en https://github.com/endnch/HispachanFiles/tree/master/public/stylesheets y para compilar los archivos .scss tienes lo de https://www.ondho.com/que-es-sass-y-por-que-los-css-pueden-volver-a-divertirnos/ >>1644 >La única solución que se me ocurre es hacer un webscrapping con python y recuperar todos los archivos que sean .webm, .mp4 o .pdf además de los .cbr y .cbz ¿No habías dicho que te bajaste el HTML de los hilos? Por que de ser así, puedes probar con este comando: grep -o -r -i -P '(src|href)="(/[^"]+)"' * | sort -u Y luego quitar lo que sobra. Eso si, lo tienes que ejecutar dentro de la carpeta en donde guardaste los hilos. >>1694 >Si alguien puede ponerse en contacto con el negro de hispafiles para que nos de una mano con el backup sería genial Por si te interesa, el miércoles dejo una respuesta en >>>/hispachan/12471. Por cierto, me acabo de fijar y parece que el sitio volvió a estar en linea (por ahora) pero lo noto un poco lento para cargar, ¿a alguien mas le pasa o solo soy yo?
En >>>/hispachan/2913 están compartiendo los respaldos de hispafiles, por si quieren verlos mientras están frescos.
(4.54 KB 572x31 ClipboardImage.png)

(120.40 KB 1072x449 ClipboardImage.png)

>>1799 >>1785 Ya descargué el backup. Funciona bien hasta donde lo he visto. El problema es que por alguna razón no está cargando bien el CSS. Según el mensaje de error de Chrome, está intentando jalar el CSS de la carpeta C:/stylesheets, así que moví esa carpeta y dejó de encontrar el mensaje de error, aún así no carga la hoja de estilos como debería ¿hice algo mal? ¿cómo? puedo arreglar ese error? >>1817 >¿No habías dicho que te bajaste el HTML de los hilos? Por que de ser así, puedes probar con este comando y luego quitar lo que sobra Voy a probar eso, gracias, anon.
>>1883 Acabo de ver y los estilos estaban rotos, deja te los paso negrín. https://archive.org/download/hispachanac/hispafiles.ru%20estilos.7z Descomprimelo dentro del folder hispafiles.ru. Ya estan aplicados en el archivo app.min.js que esta en dist. En este solo le removi una / de donde referenciaba a la carpeta stylesheet. Por suerte tenían más respaldos de hispafiles que no tenían ese detalle, lo malo es que no queda del todo bien el index por asi decirlo de donde recorres todos los hilos.
Actualización del proyecto de Backup, el negro de hispafiles hizo una actualización >>>/hispachan/16796 vayan a revisarlo mientras esté caliente. <Also Me di cuenta que un hilo de gays logró guardarse en hispafiles, pensé que no lo aguantaría por ser un board nuevo: https://hispafiles.ru/gays/res/2.html
>>2479 Gracias negrito, ya estoy tratando de descargarlo. Espero no tardar tanto en descargarlo.
Por fin tengo tiempo para ponerme a trabajar en el archivo de hispafiles. Te juro que me estoy volviendo loco ¿Cómo carajo hago para filtrar todos estos subdominios raros de hispafiles? parece que esa mierda tiene un minero de bitcoins metido, sino no me explico de donde salen todos estos javascripts de dudosa procedencia. Ya intenté meterlo en las opciones "excluir archivos de estos dominios", pero sencillamente no funciona; el HTTrack es tan autista con su configuración que puede descargarte medio internet pero omitir precisamente lo que estás buscando. La peor parte es que he notado que para bajar un hilo solo demora unos cinco minutos; pero el programa se tira como media hora precisamente por todas esas páginas de mierda.
Listo. Ya estoy cansado de esta mierda. Voy a crear mi propio clonador de sitios web, con juegos de azar y mujersuelas.
Bueno al final pude descargar localmente todo el contenido de hispafiles con éxito. Estoy haciendo una página principal que sirva de índice; ahí voy a tirar aparte del archivo de hispafiles las capturas del archivo del año 2018, las del bunker de 8chan del año 2018 y lo que pueda encontrar en archive today y si alguien tiene algo más que quiera compartir; también lo añadiré. Quiero añadirle un texto de presentación con algún mensaje cursi como el que solía tener Hispachan ¿alguien tiene alguna idea?
Ahí va quedando ¿Qué les parece?
>>6985 Se ve bien.
Listo. Terminé. Descargué todo el contenido de /ac/ alojado en hispafiles así como el único hilo archivado en /gays/ y le agregué una página de presentación. Lo que faltaría es añadir un método de búsqueda, pero para quien sepa un poco de webscrapping no creo que sea difícil de implementar. Son 35 gigas ¿Cómo hago para subirlo a internet archive? el negro de https://archive.org/details/Hispachan2022 adjuntó un correo para pasarle más archivos; le enviaré un mensaje esta tarde, si ese anon lurkea /ac/, sería piola si pudiera hacer presencia en el hilo para que nos apoyara a subir el archivo a archive org. También si algún anon tiene más archivos, capturas, OC, etc. de /ac/ sería de bastante ayuda que lo compartiera. Más tarde voy a trabajar en una página web que sirva de catálogo para todos los archivos de /ac/ (incluídas las capturas de hispafiles, archive org y archive today) y creo que lo voy a colgar en algun webhosting gratuito como neocities.
Bueno, ahora hay que esperar.
Bueno, gloriosos, después de varias semanas de sufrimiento y contratiempos por fin pude subir mi backup de hispafiles a internet archive; son 32Gb en total. Disfrútenlo: https://archive.org/details/hispafiles-ac Ahora me encargaré de hacer un índice con el resto de archivos y capturas de /ac/ disponibles en páginas fuera de hispafiles.
Recientemente cerró 9chan. Allá había un tablón de animación que duró unos... ¿tres meses? si bien no tenía mucho contenido y habían namefags de 4chan sentí que alguien encontraría interesante archivarlo, además que se valoran los ánimos de fundar una comunidad chanera de dibujitos animados (a pesar de que 9chan simplemente no sea el lugar apropiado para ello), así que me tomé la molestia de sacar algunas capturas en archive today: >Opiniones impopulares https://archive.ph/0uO1H >Bee and puppycat https://archive.ph/WVC7D >Caricaturas horribles https://archive.ph/S3H9d >Criticismo sobre animación https://archive.ph/ZU8l5 >Looney Tunes cartoons https://archive.ph/UgCqD >Recursos https://archive.ph/OjnqP >Catálogo https://archive.ph/rYhkh >Índice https://archive.ph/wnXjv
(20.64 KB 320x320 1541538113890.jpg)

Acabo de darme cuenta de algo >Capturas de hispachan en archive today: 2747 >Capturas solo de /ac/: 1379 <MCC más de la mitad de las capturas de hispa en archive today son de acólitos Que alegría me da que a mis muchachos les preocupe preservar su legado informático. Me llenan de orgullo.
Negro Archivador, ¿Hay alguna forma de evitar el bloqueo de imagenes al archivar los hilos? Entiendo que los admins lo cambiaron por seguridad, pero es una mierda perder las imágenes al archivar siendo estás parte importante de los hilos.
>>9779 La idea del disclamer es bloquear toda las páginas de archivadores externos tipo wayback machine o internet archive debido a que existe un grupo de usuarios parásito que se mete a la página; cuelgan caldo y luego toman capturas para sabotearla: Decir que es un IB de pedófilos y hacer que la bloqueen en la búsquedas de google. Actualmente se puede acceder al contenido de la página desde un bot, solo tienes que añadirle que envíe la cookie splash = 1 como se puede ver aquí -> >>9630 de ahí no debería ser complicado hacer un bot que scrapee hilos de 8moe y los clone localmente; de hecho en /site/ un negro programó una aplicación que hace precisamente eso en regex y batch y yo hice algo parecido en Python, así que no debería ser complicado de modificar para que funcione con el cookie splash. El contenido luego puede ser subido a un archivo de internet archive como se hizo con los hilos de hispafiles. Voy a modificar mi webscrapper de Python y me voy a poner a clonar algunos hilos para hacer la prueba. Avísame si deseas que te lo comparta.
Okay, todavía falta bastante trabajo pero les voy tirando un avance: import requests import os cookies = {'splash':'1'} def get_directory(): cwd = os.getcwd() cwd = cwd.replace(os.sep, '/') return cwd def download_file(filename): downloadlink = filename print("descargando ",downloadlink) location = get_directory() response = requests.get(filename,cookies=cookies) open("pic2.png","wb").write(response.content) print("Se descargó un archivo con éxito") download_file("https://8chan.moe/.media/848628c328806c1bc143ed2034de5a21fabcfb3127c342a342bf56f861441ee50.png") La librería requests es más que suficiente para descargar los archivos, solo necesita que le brinden la cookie splash como comenté antes. Lo que sería necesario: >Cambiar el nombre del href/src dentro del html para que funcione localmente >Armar el arreglo de carpetas >Encontrar el filemime del archivo que se pretende descargar Ten en cuenta que la mayoría basta con revisar la extensión, pero con algunos archivos es necesario pasar un proceso para que adivine el mime. Nada de eso es complicado, de hecho, ya había hecho todo eso para el archivador de hispafiles, ahora solo hay que adaptarlo al 8. >Descargar el archivo
>>9780 Gracias por la información negrito, si estoy al tanto que lo cambiaron por los recientes floods de CP que han hecho en el chan, una lastima pero se entiende la situación. El único problema es que mis conocimientos informáticos son basicos y no entiendo mucho de como usar esos bots. Soy uno de los OP de los hilos de Genshin Impact en /av/ y queremos buscar alguna alternativa para archivar los hilos al completo.
>>9783 Si solo te interesan los mensajes mas no las imágenes entonces tienes el subdominio archive.8chan.moe que puedes meter dentro de archive.today y problema resuelto. Si te interesan las imágenes aparte del contenido entonces puedes usar httrack, pero es tediosísimo configurarlo para obtener justo lo que buscas, así que no te lo recomiendo; luego tienes el web scrapper que desarrollaron para el 8 >>>/t/1257 pero actualmente no funciona por la misma razón explicada en el mensaje anterior. Es la clase de tema que para saber que está saliendo mal vas a tener que saber de lenguajes de programación si o si para instslar y saber qué está saliendo mal. Yo tampoco sabía nada de "web scrapping" y clonación web, todo lo aprendí desarrollando herramientas y proyectos que se me iban ocurriendo. Igual, trabajaré en el clonador de hilos y cuando esté listo lo comparto EEH y me avisas si tienes alguba duda para correrlo.
>>9784 Gracias negro, se aprecia mucho la ayuda.
Anon, te he fallado, la tarea resultó ser mucho menos trivial de lo que creía. Lo que sucede es que enviar la galleta splash no es suficiente para acceder a la media; actualmente el código que escribí arriba rebota un mensaje de 404 a la hora de intentar descargar media de 8moe. ¿El negro que escribió el Bash para clonar hilos está aquí? https://pastebin.com/rZPJGN7B En >>>/site/7077 mencionó que bastaría con entregarle la galleta splash a wget para descargar el archivo con normalidad, acabo de intentar algo así, modifiqué está linea: wget --referer 8chan.moe -N --convert-links --page-requisites --load-cookies=cookies.txt $hilo Pero aún así, bota 404 a la hora de intentar jalar las imágenes. ¿Qué estoy haciendo mal? acabo de probarlo en otros chanes y funciona con normalidad, las imágenes y vidéos se bajan sin problema; así que definitivamente es una cuestión del 8 ¿alguna idea de como resolver este galimatías? también caeré al IRC del 8 a ver si me pueden dar una ayuda.
>>9792 Hace poco deje una versión actualizada y mejorada del script en >>>/site/7262, ahora debería funcionar bien (o al menos en mis pruebas no he tenido problemas significativos).
>>10208 Anon; acabo de revisar, solo se descargan las miniaturas. En la carpeta de los archivos solo están las miniaturas y están rotos; no tienen extensión de archivo y cuando abres las imágenes la fuente cambia hacia 8moe en lugar del archivo local. Estoy seguro que tiene que ver con los cambios de seguridad recientes que le hicieron a la página; escribí un programa que accede a un archivo de imagen pero siempre devuelve error 404 cuando intenta conseguir la pic. Ya probé con otros chanes así que definitivamente es problema de 8moe; la semana pasada conversé sobre esto con Acid y me comentó que durante las próximas semanas ya deberían arreglarlo para poder acceder sin inconvenientes a los archivos, solo es cuestión de esperar.
>>10213 Probé a bajarme >>1 con el script y los únicos errores que tuve fueron estos: --2022-10-27 03:09:34-- https://8chan.moe/.media/8t_2a32aa5b0de2443acc686a8a20ba41f75179e34840d5837afe5c78808f5a237e Reutilizando la conexión con 8chan.moe:443. Petición HTTP enviada, esperando respuesta... 500 Internal Server Error 2022-10-27 03:09:35 ERROR 500: Internal Server Error. --2022-10-27 03:12:03-- https://8chan.moe/.media/88e0acf4bae7978e0d62778a13f4e195277c4d25cf3484a7aa0c38936bcbd25429%22%3Ehttps://8chan.moe/.media/88e0acf4bae7978e0d62778a13f4e195277c4d25cf3484a7aa0c38936bcbd25429%3C/a%3E%3C/span%3E); Reutilizando la conexión con 8chan.moe:443. Petición HTTP enviada, esperando respuesta... 404 Not Found 2022-10-27 03:12:03 ERROR 404: Not Found. Pero el primero ya es cosa del servidor y el otro es un falso positivo que no afecta en nada. Fuera de eso el hilo se puede ver sin problemas junto con las imágenes. Ahora bien, seria bueno que me aclares lo siguiente: ¿En que sistema estas ejecutando el script y como? Por si acaso, en >>7443 había explicado como hacerlo funcionar. ¿Que errores te muestra? O sube un txt con la salida del script.
>>10217 Volví a intentar, ahora funciona bien. Gracias anon. Lo que faltó fue especificar el hilo en formato https. Una pregunta ¿puedes modificarlo para que haga un scrap entero del tablón? imagino que no sería complicado; pero de Bash no conozco absolutamente nada, tendría que ponerme a investigar. Bueno, llegó la hora de ponerme a hacer backup de los hilos de /ac/ólitos en caso de que una desgracia llegara a suceder.
>>10229 >¿puedes modificarlo para que haga un scrap entero del tablón? Creo que esto es mas fácil que meterle mano al script original (tienes que instalar jq y curl para que funcione): tablon=ac; for hilo in $(curl "https://8chan.moe/$tablon/catalog.json" -H 'Cookie: splash=1' -H 'Referer: https://8chan.moe/' | jq ".[].threadId"); do enlace="https://8chan.moe/$tablon/res/$hilo.html"; echo Descargando $enlace; ./descargador.sh "$enlace"; done Lo que hace es bajar el JSON del catalogo, obtener los ids de los hilos y luego descargarlos con descargador.sh (que seria el script en donde guardaste el código para bajar los hilos). La variable $tablon es por si quieres hacer lo mismo con otros tablones.
>>10235 Hice algo parecido, escribí una función en Python que me regresa todos los hilos del catálogo: def get_threads(url): threads = requests.get(url,cookies=cookies).json() array = [] for thread in threads: array.append('https://8chan.moe/ac/res/'+str(thread['threadId'])+'.html') return array Y luego lo copié a un archivo de texto que usé como entrada para un bash que lo iteraba y llamaba al script de acá >>9792 por cada uno. while read line; do echo descargando $line ./moescrapper.sh $line; done < threads2.txt Como estoy en windows, tuve el problema que a la hora de meter los hilos al scrapper lo hacía introduciendo los caracteres %0D que corresponde a un salto de linea en windows; esto es conocido como el "carriage return behavior" que sucede entre windows y linux; afortunadamente hay bastante bibliografía sobre como resolver ese problema de incompatibilidad; así que no fue difícil para mi resolverlo. Ahora mismo estoy haciendo backup de todo /ac/, cuando acabe lo comenzaré a subir a internet archive.
Actualización: El script en bash funciona de maravilla, el problema es que cuando lo corro por segunda vez con el objetivo de corregir alguna descarga errada tengo el problema que cuando intenta jalar los archivos con extensión js y ttf demora demasiado y al final tira error (asumo que es porque ya los tiene) ¿Hay alguna forma de evitar que descargue de manera consecutiva estos archivos que provocan lentitud en la cola de descarga? Algo, también escribí un programa que compara los hilos descargados con los hilos actualmente en el catálogo con el objetivo de revisar si se descargaron sin problemas y capturar los hilos no descargados para volver a ser introducidos: import requests import os cookies = {'splash':'1'} def get_threads(url): threads = requests.get(url,cookies=cookies).json() array = [] for thread in threads: array.append(str(thread['threadId'])+'.html') #array.append('https://8chan.moe/ac/'+str(thread['threadId'])+'.json') return array def exist(thread,files): for file in files: if(thread==file): return True return False def download_file(filename): downloadlink = filename print("descargando ",downloadlink) location = get_directory() response = requests.get(filename,cookies=cookies,headers={'referer': '8chan.moe'}) board = "https://8chan.moe/ac/catalog.json" directory = 'C:\\proyectos_python\\web clonner\\8chan.moe\\ac\\res' remains = [] threads = get_threads(board) files = os.listdir(directory) ''' for thread in threads: print("descargando ",thread) ''' for thread in threads: if(exist(thread,files)): print('el hilo ',thread,' fue descargando con exito') else: print('el hilo ',thread,' NO se pudo descargar') remains.append('https://8chan.moe/ac/res/'+thread) print('================================') print('Lista de hilos que no se bajaron') print('================================') for remain in remains: print(remain) Solo tienes que cambiar 'C:\\proyectos_python\\web clonner\\8chan.moe\\ac\\res' por la carpeta donde se descargaron los hilos.
En otras noticias ¿Alguien tiene sugerencias para hacer un catálogo de los hilos? quiero hacer un catálogo similar al de hispafiles y una cola que vaya añadiendo páginas nuevas a medida que se actualiza el catálogo. También quiero hacer un motor de búsqueda en JavaScript, aunque esto último será más secundario. Toda la información de los hilos se encuentra en los json descargables, así que una vez obtenida esa info solo sería cuestión de jalarla, manipularla para que entre dentro de etiquetas html y finalmente subirla a una página. Por lo pronto creo que lo más sencillo sería crear un json y un excel con solo la información pertinente del contenido del catálogo.
>>10658 >cuando intenta jalar los archivos con extensión js y ttf demora demasiado y al final tira error (asumo que es porque ya los tiene) ¿Hay alguna forma de evitar que descargue de manera consecutiva estos archivos que provocan lentitud en la cola de descarga? Según https://stackoverflow.com/questions/4944295/skip-download-if-files-already-exist-in-wget se podría resolver agregando el parámetro -nc en la primer linea que llama a wget para bajar el HTML junto con los CSS, scripts y miniaturas de la pagina. >>10659 >¿Alguien tiene sugerencias para hacer un catálogo de los hilos? Quizás podrías usar alguna plantilla para generarlo, como estas: https://github.com/endnch/HispachanFiles/blob/master/views/board.pug (listado de hilos en Hispafiles) https://gitgud.io/8chan/Aleph/-/blob/master/templates/pages/catalog.html (catalogo de este chan) >quiero hacer un motor de búsqueda en JavaScript Tal vez seria mas fácil de implementar si metes el contenido de los hilos en una base de datos como SQLite (que de paso no es tan berreta que estar usando Excel, mas aun si tenemos en cuenta lo de https://www.fabio.com.ar/8372 ).
Bueno, gloriosos, ya subí el primer backup de 8moe/ac a internet archive usando las herramientas que compartieron EEH. Es una barrida completa, lo que quiero hacer ahora es tener los hilos individuales en .rar que funcionen por si solos (así se puedan consultar sin bajar todo el archivo) y un catálogo para revisar de manera rápida: https://archive.org/details/8chanmoe-ac-30-10-2022 >>10692 >se podría resolver agregando el parámetro -nc en la primer linea que llama a wget para bajar el HTML junto con los CSS, scripts y miniaturas de la pagina. Voy a probar con eso. >Tal vez seria mas fácil de implementar si metes el contenido de los hilos en una base de datos como SQLite Ya lo sé. Sé que Excel no es una base de datos, lo que quiero es tener información pertinente de los hilos como contenido del OP, título y número de respuestas y que se pueda acceder de manera sencilla sin tener que conocer herramientas adicionales, con el objetivo de que se pueda consultar rápido, por simple conveniencia. >Quizás podrías usar alguna plantilla para generarlo, como estas: Si, quiero crear una plantilla para generarlo ¿Qué opciones tengo a mi disposición? la idea es esta, anon: Por lo pronto voy a ocupar internet archive para cargar los hilos de acólitos, pero eventualmente quiero moverlos a otro servidor; he visto una página que ofrece 50GB de almacenamiento a solo 5$ al mes que me parece un buen trato y algo que estaría en posibilidad de pagar ahora mismo con mis ahorros; la cuestión es que solo permite páginas estáticas (no conexión a base de datos), por eso mismo quiero escribir una búsqueda en javascript y generar los catálogos sin php como en el caso de 8chan. En cualquier caso, estoy averiguando precios de webhosting para poder montar un fork de Lynxchan que pueda servir como base de datos y como IB funcional en caso de que alguna desgracia le suceda a 8moe ¿Alguien tienen alguna recomendación de webhosting? algo que sea suficientemente funcional para acólitos y que no nos boten a la primera en caso de que alguien haga algo estúpido. He estado sacando las cuentas, en estos cinco meses se hicieron 6 Gigas de contenido, lo cuál significa 1.20 Gigas de contenido al mes; quizá un servidor pequeño de 30Gigas sería suficiente para mantener el influjo de contenido durante algunos años.
Acaba de suceder una tragedia >>>/v/724311 <mucho texto Acaban de derribar el booru de 4/v/ los denunciaron por hacer cosas en contra de términos de usuario o algo gay por el estilo: https://vidyart.booru.org/ Uno de los boorus más grandes de booru project, desaparecido de un momento a otro; esto definitivamente pone en jaque el booru del 8 así como otros boorus de 4chan como the /co/llection y, si bien pequeño e irrelevante, también el nuestro. No estaría mal ponerse a hacer backup del contenido de the collection, el booru de Hilda y acumuladores y tenerlo localmente. Maldito mundo gay en el que vivimos. Este año no deja de sorprenderme, siempre se pone peor.
>>10704 >¿Qué opciones tengo a mi disposición? Las de https://en.wikipedia.org/wiki/Comparison_of_web_template_engines >generar los catálogos sin php como en el caso de 8chan. En ese caso también podrías considerar algún CMS de contenido estático como los que encuentras en https://www.emezeta.com/articulos/alternativas-a-wordpress-generadores-estaticos
(84.17 KB 1024x392 como luce.JPG)

(94.94 KB 1022x382 como deberia lucir.JPG)

¿El negro del script de bash está aquí? estoy tratando de usar el script de Bash para archivar hilos de este tablón: https://anon.cafe/christmas El problema es que, si bien los archivos son visibles, las miniatura no ¿Qué está saliendo mal? con el 8 funciona perfectamente. La primera imagen es como están luciendo los hilos descargados y la segunda imagen es como deberían lucir. No entiendo qué está saliendo mal, tanto el archivo como su miniatura están descargados dentro de la carpeta .media
AAAAAHHHH!!!!1!! LO ENCONTRÉ POR LA REMIL PUTA PERRA ZORRA MADRE, ANON La maldición se rompió, repito, la maldición se rompió.
>>13408 ¿Es el hilo original? Pensé que nadie lo había archivado.
>>13413 Es el original. Lo encontré urgando en este archivo: https://archive.org/details/hispachanac Gracias al anon que se tomó la molestia de hacer archivos y subirlos al internet archive. Tiene 130 replys, puede que algunas imágenes se hayan perdido pero peor es nada. Cuando me desocupe voy a buscar con detalle a ver si el archivo tiene alguna captura con más posts, voy a ordenar el hilo y resubirlo al internet archive. Por lo pronto dejo una captura.
>>13414 Gran trabajo negrito, yo ya lo daba por perdido.
>>13408 >>13414 Top 1 de lost media recuperados, faltan los hilos de toh https://www.youtube.com/watch?v=eTwnWnHERP4
>>13432 >Los hilos de TOH ¿Hay hilos de TOH perdidos?
>>13433 algunos en hispa files no los guardo bien y la pagina se quedaba vacía también de amphibia pero no recuerdo el hilo donde pase los links era uno donde querian el comic de marcy lamedora de pies
>>13435 Hablando de hilos rotos en hispafiles, las replys si están guardadas en files, solo que la página no puede mostrarlos de manera apropiadas. Por ejemplo, este hilo: https://hispafiles.ru/ac/res/148436.html Aparece roto, pero si buscas por ejemplo: ">¿Cartoon/comic favorito?" vas a poder encontrar algunas de las replys de ese hilo a pesar de que al hacerle click aparezca vacío, o sea, las replys si están almacenadas en su base de datos, inclusive jugando con la URL logré encontrar la imagen en calidad completa: https://hispafiles.ru/data/ac/148436/src/161802371757.jpg La cosa sería buscar dentro de la lista de todos los mensajes almacenados en hispafiles: https://hispafiles.ru/search?q=&boards=ac y filtrar los que están dentro del hilo roto. Guardar la información localmente y luego reconstruir el hilo. La cosa sería ponerse a programar. Para empezar ¿Qué hilos rotos de ac están almacenados en hispafiles? ¿Qué hilos les gustaría rescatar?
>>13433 Si, varios mi culpa por no guardarlos kek
>>13458 ¿Cuáles? Para ver si están almacenados en el archivo de arriba.
>>13460 A ver dejame contar TOH: Hilo Hiatus Sexta Edición TOH: Hilo Hiatus Novena Edición TOH: Hilo Hiatus Decimoctava Edición Recordaba más, aunque son 3 hilos que llegaron al límite de bumps que tal vez nunca se recuperen, o tal vez si quien sabe.
>>13463 ¿Recuerdas cuál era el id de esos hilos? o alrededor de qué fechas fueron hechos? porque hay un montón de hilos archivados en archive today algunos que no están en otros archivadores, por ejemplo este hilo: https://www.hispachan.org/ac/res/200491.html No está en hispafiles pero si en archive today https://archive.ph/tbLWv Voy a meterme a lurkear el archivo a ver los hilos de TOH que encuentro.
>>13464 El sexto 121928 mediados de octubre 2020 El noveno 126761 principios de noviembre 2020 El decimoctavo 142319 finales de febrero 2021
>>13466 Estuve revisando. Los primeros dos desafortunadamente no están en el archivo, el segundo parece que está pero se grabó mal porque al revisar el archivo rebota un 404 parece que justo salió del catálogo cuando se estaba archivando. Ninguno de los hilos está en archive today desafortunadamente.
(162.39 KB 1095x1341 161763163110.png)

(136.66 KB 422x350 161697170975.png)

Bueno, ya está. Internet archive me estuvo hinchado los huevos detectando mi archivo como spam por alguna puta razón así que decidí subirlo a catbox moe. Si alguien sabe de alguna otra página para mantenerlo a largo plazo, sería de gran ayuda. Acá está el hilo, disfruten: https://files.catbox.moe/172uem.rar También encontré la segunda iteración de los hilos de Hilda, cuando se suba lo comparto.
Bueno, ahí está. Como les dije los mensajes si están almacenados en hispafiles, así que como ejercicio reconstruí el hilo del late de /ac/ que antes aparecía mal almacenado. Lo que hice fue: >Correr un programa que buscaba todas las páginas de posts de /ac/ de hispafiles >Por cada post guardé su ID, la ID del hilo y la página en la que se encuentra >Luego escribí un programa para buscar todos posts por ID del hilo (en este caso el 148436) y devolviera en qué página se encuentra Luego de eso solo necesitaba buscar las páginas del archivo para encontrar los mensajes. Con esa información en teoría debería poder reconstruirse el hilo, solo bastaría con scrappear los markdowns y archivos y meterlos en un html con alguna herramienta, pero soy demasiado perezoso para hacer eso.
Últimos mensajes. Ese hilo fue muchísimo más corto (y aburrido de lo que recordaba). También les dejo el json con todos los posts de hispafiles/ac ordenados para buscar, en caso que alguien quiera buscar posts de hilos rotos.
>>7630 <<MCC más de la mitad de las capturas de hispa en archive today son de acólitos Mas o menos, hay que revisar cada tablón individualmente para obtener todas las capturas. >>13399 Modifique las expresiones regulares para así hacerlas mas robustas y mejorar la detección de los enlaces con archivos. Estuve haciendo una prueba rápida con un hilo de anon.cafe y parece funcionar bien. El script actualizado lo encuentras en https://pastebin.com/QaVLpQJx >>13436 Sobre los hilos rotos, ¿no seria mejor mandarle un mensaje al dueño de Hispafiles explicándole la situación? Quizás lo pueda resolver de su lado y de esa forma solo seria necesario volver a descargar algunos hilos. Sino otra opción podría ser parsear la base de datos que habían subido a https://mega.nz/folder/bsMXyBqS#aBPJPY4k-U2Da9-QTcPJzQ Aunque parece que ya mas o menos lo resolviste con lo de >>13558. >>13464 >hay un montón de hilos archivados en archive today algunos que no están en otros archivadores Seguramente sean hilos con menos de 20 respuestas (en Hispafiles es el mínimo necesario para poder archivar un hilo). Y hablando de Archive Today, por si acaso no estaría de mas incluir eventualmente los hilos guardados ahí en ese respaldo de archive.org. >>13472 >Internet archive me estuvo hinchado los huevos detectando mi archivo como spam por alguna puta razón ¿Que pasa si intentas subirlo como un rar/7z con contraseña?
>>13568 >Modifique las expresiones regulares para así hacerlas mas robustas Gracias, anon, lo voy a probar; será de mucha ayuda. >¿no seria mejor mandarle un mensaje al dueño de Hispafiles explicándole la situación? Lo hice hace un tiempo pero me respondió que no había solución; le expliqué que los hilos si se encontraban en la abse de datos pero solo me comentó que no se podía arreglar, así que ahí lo dejé. >por si acaso no estaría de mas incluir eventualmente los hilos guardados ahí en ese respaldo de archive.org. ¿Cómo se puede hacer eso? >¿Que pasa si intentas subirlo como un rar/7z con contraseña? Le envié el correo a los de internet archive, ya lo arreglaron; lo acabo de subir y ya está funcionando bien: https://archive.org/details/ac-things-ellie-likes También subí el segundo hilo de imágenes de Hilda: https://archive.org/details/eeh-segundo-hilo-pics-de-hilda
Bueno, programé un script de Python para encontrar los hilos rotos en hispafiles y estos fueron los resultados: https://hispafiles.ru/ac/res/213498.html https://hispafiles.ru/ac/res/196130.html https://hispafiles.ru/ac/res/184390.html https://hispafiles.ru/ac/res/177145.html https://hispafiles.ru/ac/res/175595.html https://hispafiles.ru/ac/res/170358.html https://hispafiles.ru/ac/res/170342.html https://hispafiles.ru/ac/res/170242.html https://hispafiles.ru/ac/res/168874.html https://hispafiles.ru/ac/res/168133.html https://hispafiles.ru/ac/res/167667.html https://hispafiles.ru/ac/res/165158.html https://hispafiles.ru/ac/res/164302.html https://hispafiles.ru/ac/res/163634.html https://hispafiles.ru/ac/res/163630.html https://hispafiles.ru/ac/res/163017.html https://hispafiles.ru/ac/res/162743.html https://hispafiles.ru/ac/res/161800.html https://hispafiles.ru/ac/res/161601.html https://hispafiles.ru/ac/res/161018.html https://hispafiles.ru/ac/res/160126.html https://hispafiles.ru/ac/res/160058.html https://hispafiles.ru/ac/res/159985.html https://hispafiles.ru/ac/res/159956.html https://hispafiles.ru/ac/res/159837.html https://hispafiles.ru/ac/res/159336.html https://hispafiles.ru/ac/res/158437.html La mayoría están entre la página 60 y la página 42 que corresponden a los hilos de las fechas entre el 9 de Abril del 2021 y el 15 de Agosto de ese mismo año. Arriba mencioné la herramienta para localizar los mensajes de esos hilos dentro del catálogo. También descubrí que algunos de estos hilos están en otras páginas por ejemplo: >https://hispafiles.ru/ac/res/196130.html está en https://archive.ph/aCqi8 >https://hispafiles.ru/ac/res/213498.html está en https://archive.ph/mVqwR >https://hispafiles.ru/ac/res/184390.html está en el archivo del 26-10-21 del archivo de internet archive
>>1049 Negros soy de /av/, al final si se pudo hacer el programa para poder archivar hilos? Si es así, ¿cómo funciona? Puedo subir esos hilos a algún lado o solo los podre tener yo?
>>13893 >si se pudo hacer el programa para poder archivar hilos? Así es. Acá está -> >>13568 https://pastebin.com/QaVLpQJx Si estás en windows descargas https://git-scm.com/downloads >Guarda el pastebin en un archivo de texto >Cambia la extensión a .sh thread_saver.sh por ejemplo >Click derecho + git bash here en la carpeta donde tienes el archivo Se te abrirá una terminal de comandos >Escribes chmod +x thread_saver.sh >Luego escribes./thread_saver.sh thread_url Y listo, si todo salió bien entonces debería crearse una carpeta llamada 8chan.moe con el .html del hilo junto con la media y todo lo necesario para que funcione.
>>13901 ¿Y dónde puedo subir o compartir el archivo?
>>13905 Una vez hayas guardado localmente el hilo puedes resubirlo a catbox, anonfiles, mediafire, etc. Yo estoy subiendo mis hilos guardados a internet archive.
(5.42 KB 412x81 uh.PNG)

>>13901 no funciono el ultimo paso
>>13936 En lugar de "thread_url" tienes que poner la url del hilo que quieres descargar, por ejemplo: ./thread_saver.sh https://8chan.moe/ac/res/1049.html
(7.19 KB 513x81 tampoco.PNG)

No resulto :c
>>13938 Ah ya, se me olvidó. Tienes que instalar wget primero, acá hay una guía para añadir programas a la terminal de comandos: https://gist.github.com/evanwill/0207876c3243bbb6863e65ec5dc3f058 En la primera parte dice como instalarlo. Bajas el ejecutable de: https://eternallybored.org/misc/wget/ Y luego lo mueves a la carpeta donde tienes instalado el wget, en mi caso es C:\Program Files\Git\mingw64\bin Después de eso vuelve a probar con lo que mencioné arriba.
>>13940 Ahora si funciono! gracias negrito Also, donde se genera la carpeta 8chan?
>>13941 >donde se genera la carpeta 8chan? En la misma carpeta donde tienes el script .sh
>>13942 ahh si Cuando resuba el hilo, debo subir el archivo HTML?
>>13943 El archivo contiene el arreglo de carpetas y todos los archivos para que el hilo funcione localmente. Necesitas compartirlo todo, no solo el html para que funcione. Te recomiendo que lo comprimas en un archivo .rar y luego lo subas a un servidor externo como los mencionados arriba. Por ejemplo: https://archive.org/details/eeh-segundo-hilo-pics-de-hilda https://archive.org/details/ac-things-ellie-likes
(791.02 KB 2416x2480 1642653383825.jpg)

>>13945 Muchas gracias negro!
Un anon acá comentó que tiene archivados todos los episodios del Late >>14320 yo también me tomé la molestia de ponerme a archivar el podcast cuando a Loan le dió un quiebre mental y decidió eliminarlo todo (a pesar de que realmente no lo escuchaba) y lo subí a internet archive: https://archive.org/details/late-night_202211 Si el anon está ahí, sería de gran utilidad si me pudiera pasar el índice de los episodios que tiene guardado para compararlos con los que tengo a ver si faltan algunos. Por cierto, los episodios relacionados con /ac/ son el 36 y el 56 por si quieren volver a escucharlos, los archivos de los hilos están en hispafiles.
>>14340 No soy el anon que te lo pidió pero gracias negro. Lo escucharé hoy en la noche.
>>14341 Recientemente me maratoneé la serie entera porque necesitaba algo que poner de ruido de fondo mientras hacía mis cosas. Si quieres una recomendación, los episodios en los que Producción participa son de lejos los mejores; es bastante más carismático y entrañable que Loan. Mis episodios favoritos son: >El de los psicólogos (episodio 50) Porque Loan casi no participa Producción y los invitados hablan de manera bastante seria y conmovedora sobre su experiencia con buenos y malos psicólogos, quizá esté sesgado por haber estado en una situación similar, pero me parece el mejor episodio de toda la serie. >El episodio de las armas (episodio 66) También es muy bueno porque se nota que es un pasatiempo que si le gusta a Loan y de un nicho del que si sabe y puede hablar sin parar (Básicamente esa es la razón por la que me intereso en un podcast en primer lugar, por escuchar a un tipo hablar sobre algún tema por horas que no sabía que era así de extenso) >El episodio de las drogas y el sexo (Episodio 71) Básicamente Loan no participa la conversación irreverente de dos amigos con un par de cervezas, la otra razón por la que me intereso en un Podcast, la parte cuatro es la mejor porque se pusieron ebrios y empezaron a hablar sobre biología especulativa y ciencia ficción, fue bastante bacán. Es una pena que esos anons no hayan participado más, habría sido genial hacer un podcast de ciencia ficción y cervezas. El que se merece una mención honorable es el episodio de Halloween del 2020, sorprendentemente Loan tiene buena narración para historias de ficción. Es una pena que las cosas hayan tenido que acabar como acabaron, pero aún así creo que hay valor en volver a estos episodios y anon puede aprender una o dos cosas sobre como organizar esta clase de proyectos e inclusive evitar repetir los mismos errores.
>>14340 Toma negro, disculpa que no los tenga organizados y gracias por tomarte la molestia de subirlos a Archive. Link del pódcast latenight: https://mega.nz/folder/vDh2CJgR#KSPzuA3wzOeNGHJx23qLIw
>>14345 Gracias, anon. Ahora estoy ocupado pero cuando tenga tiempo veré con detalle la lista de episodios de tu archivo.
WEWLAD Acabo de revisar hispafiles y el tipo que se hace cargo de la página acaba de meter un captcha repleto de spam que tiene que ser resuelto cada que abres una imagen nueva. Ya le había metido spam antes, pero al menos era usable con adblocker, ahora es imposible de navegar, literalmente inutilizable. Afortunadamente todos los archivos de hispafiles de /ac/ ya están seguros en internet archive, así que cualquiera con 30GB de espacio libre puede bajarlo y tener el archivo sin problemas y no tener que soportar esta divina mariconada. Tener que pasare por esta clase de estupideces no se la deseo a nadie, así que si alguien quiere hacer backup del contenido de Hispafiles de otro tablón me avisa, no tengo espacio en el disco duro pero le puedo enseñar como hice funcionar el scrapper de Python.
>>14355 Pucha, el contenido de /a/ y /v/, creo que este es el inicio del fin de esa pagina ...
>>14356 >>14355 Ayyy que hilo de puta, no había entrado a comprobar, es realmente un puto captcha cada que intentas abrir una imagen y con anuncios. Y el boton de descargar directamente los archivos tampoco sirve, que caradura. Negro, agradecería si me dijeras como guardar los archivos para /a/ y /v/
>>14358 Te JURO que tenía un web scrapper completamente funcional de hispafiles, pero ahora no puedo encontrarlo por nada del mundo. En fin, esta es la situación: Todos los enlaces a los archivos completos están escondidos detrás de un insufrible Captcha, PERO, los archivos son accesibles por medio de enlace directo; por ejemplo: https://hispafiles.ru/data/ac/119502/src/160151127426.png Ahora, no podemos encontrar las URL de las imágenes completas buscando dentro del html de los hilos de hispafiles, pero si podemos acceder a las URL de las miniaturas, por ejemplo: https://hispafiles.ru/data/ac/119502/thumb/160151127426s.png Si te das cuenta la URL de la miniatura y la URL del archivo completo son idénticos, solo cambiar thumb por src y quitarle la s al final del filename, afortunadamente las miniaturas de Hispa llevan el formato del archivo original así que no hay problema con ello; en el caso de mp4 y webm, el paso adicional es que la URL tiene este formato: https://hispafiles.ru/data/ac/119502/thumb/160160489124mp4.jpg Adicional cambiar el .jpg por .mp4; entonces es necesario hacer una función que convierta las URL de las miniatura en URL y de archivos completos, el resto es exáctamente la misma lógica y no debería ser difícil de implementar en Python. Haré un esfuerzo para diseñar el scrapper lo más pronto posible, estoy seguro que el negro que programa en Bash y regedix podrá hacer una solución muchísimo más sofisticada y elegante que la mía, pero aún así quiero desarrollar mi solución. Por cierto, parece que el anon del hispafiles tiene correo nuevo: hispafiles@protonmail.com
>>14340 >https://archive.org/details/late-night_202211 Quizás algún día me ponga a experimentar con DeepSpeech para hacerle reconocimiento de voz a esos podcasts (solo por los kekes). >>14343 >habría sido genial hacer un podcast de ciencia ficción y cervezas. Implicando que no exista alguno por ahí con esa temática. >>14355 Antes de tirarle mierda al dueño de Hispafiles, ¿al menos dio alguna explicación de por que metió eso? Por que solo se me ocurren dos posibilidades: * El tipo se volvió judío y quiere exprimirle hasta el ultimo centavo al sitio (aunque creo que eso le funcionaria mejor con el otro que tiene para archivar mierdas de Hispasexy). * Podría ser una forma de compensar el ancho de banda que Hispafiles consume al mes. Algo que no debería ocurrir solo con las visitas de algunos negros random (dudo que el sitio tenga tanto trafico desde que cerro Hispachan) sino quizás debido a motores de búsqueda e indexadores tal como se explica en https://www.fabio.com.ar/5461 Por cierto, lo de cuty.io se puede bloquear bastante fácil con uBlock, aunque como me resulta algo difícil de explicar en palabras, preferí hacer un vídeo. Eso si, al hacer clic sobre las imágenes estas se abrirán en otra pestaña en lugar de cargarse en la pagina actual, pero para resolver eso ya tocaría meterle mano al javascript del sitio. >>14358 >como guardar los archivos para /a/ y /v/ ¿Y que hay de /h/ y /ha/?
>>14365 Estoy seguro que lo hace para sacarle un poco más de dinero, aunque dudo mucho que tenga el suficiente trafico para que tenga sentido.
>>14365 >Implicando que no exista alguno por ahí con esa temática. Lo digo porque habría sido bacán hacerlo NOSOTROS, participar, hacerle cortinillas, horarios y otras weas. En fin, una pena que las cosas hayan tenido que participar de esta manera. >¿al menos dio alguna explicación de por que metió eso? Acabo de buscar, no hay nada ni en la página principal de files ni en su twitter.
Por cierto, en cuanto al ublock lo resolví de esta manera: >Abrir hilo de hispafiles >Abrir ublock >Registro de peticiones >Actualizar página >Buscar "cuty" en filtros >Click >Filtro estático >Crear Con eso resolví el problema del captcha
test
¿Alguien tiene el hilo o al menos de la captura del hilo de la comisión para /ac/? ese en el que en ese entonces admin de Hispachan sugirió un montón de artistas de mierda que no los conoce ni su madre y tiró un berrinche y se puso a llorar cuando un anon le soltó un papiro diciéndole que los artistas coreanos y japoneses cobran menos y dibujan mejor. Tenía ganas de recordar eso, pero en hispafiles no lo encuentro (principalmente porque el motor de búsqueda de Hispafiles es una santísima mierda y estoy haciendo magia con bs4 y requests para encontrar los mensajes donde el tipo ocupó su trip)
>>16903 ¿Estás seguro que era en un hilo de /ac/?
>>16908 Si, estoy seguro que eso fue en /ac/, pero no fue en los hilos de las odiseas, acabo de revisar.
(58.82 KB threads_list.json)

Estoy trabajando en scrappear el contenido de hispafiles y crear archivos jsons de los hilos con respuestas, urls, etc. para que sirva de acceso rápido de estadísticas, reparar los hilos rotos además de autismo. Estoy aprovechando la oportunidad para aprender de multirprocesamiento así que ando avanzando super lento, pero la parte principal del programa ya debería estar lista, solo es cosa de aprender como distribuir la carga de trabajo y que me devuelva la respuesta correcta >ESC en lugar de tomarme 7 horas voy a demorar solo una hora + dos semanas aprendiendo a usar la tecnología Aprovecho para pasarles la lista de hilos de hispafiles que esta >>1053 es incorrecta, faltan algunos, así que de paso scrappearé los hilos que faltan y los subo al archivo de internet archive.
Actualización del proyecto. Ya tengo los jsons de hispafiles listos. Ahora mismo estoy preparando un proceso que permita convertir los jsons en código html y luego inyectarlo en los hilos rotos. Por otro lado, estoy volviendo a revisar el archivo de hispafiles de internet archive ¿Alguien sabe que mierda es esto? hay un papiro de JavaScript super ofuscado super enredado metido ahí. No les recomiendo en absoluto entrar a ese mierdero, no solo por la obsena cantidad de Spam y el captcha, sino que esto genuinamente podría ser un inyector de código con cookie grabber o algo por el estilo. Voy a ver si puedo limpiar este cáncer del archivo.
(27.09 KB 423x448 162820463240.png)

Noticias en el horizonte. Acabo de darme cuenta que Hispafiles SI tiene una API: https://hispafiles.ru/ac/res/76132.html?json Así que todo lo que dije de armar los jsons fue absolutamente para nada, pues estaba proveyendo una solución para algo que ya estaba resuelto. En pocas palabras, la cagué, pero no me quejo, fue una aventura de programación divertida y la información que tengo guardada localmente puedo usarla para reparar los hilos.
¿Saben si alguna vez usaron Zippyshare para compartir archivos en el tablón? como para realizar mirrors antes de que se den de baja el servicio
>>17879 Creo que nadie lo ha usado o al menos no lo recuerdo.
>>17918 Estuve revisando hispafiles y la mayoría son enlaces de descarga de la serie nueva de los moomins, algunos de The Owl House y Amphibia, pero todos están caídos. El único enlace vivo que encontré es este número 4 de los cómics de más allá del jardí: https://www117.zippyshare.com/v/RoEUcKRI/file.html
Acabo de hacerle backup a todo el catálogo. son 15.6 gigas en total. Lo subiré a la página de Internet Archive si es que no olvidé la clave de la cuenta, otra vez.
>>23842 Hace unas semanas estuve subiendo un respaldo completo del tablón en https://archive.org/details/proyecto_cofre pero olvide comentarlo ya que después me tuve que ocupar de otras cosas. Después pienso actualizar la descripción de esa pagina para explicar un poco mejor todo. Aunque si estuviste bajando los hilos de uno en uno, entonces podrías subir los que se hayan hecho el 7 de julio o después (y/o los que tengan posts de esa fecha en adelante).
>>23842 dime la clave
Tal como dije en >>23848, estuve trabajando un poco en la pagina del "Proyecto Cofre" para hacerla algo mas presentable, ¿opiniones? Aun me falta publicar los scripts que estuve usando para bajar los tablones junto con un tutorial paso a paso para usarlos. Por cierto, si bien subí archivos WARC junto con los 7z, y tal como dice en la pagina, el contenido de estos no queda indexado en Wayback Machine ya que no estoy dentro de Archive Team ni le he sacudido el pene a los dueños de Archive.org, pero ahí están por si les quieren dar algún uso. En cuanto a los tablones archivados, tanto este como >>>/av/ los descargue poco antes de que ambos llegaran al limite de hilos (y los otros dos fue para hacer pruebas ya que son tablones chicos).
>>23854 La verdad es que no recuerdo. Voy a tener que ponerme a averiguar entre gestores de claves y correos desechables que tengo amontonados para encontrarlo. >>23848 >Aunque si estuviste bajando los hilos de uno en uno, entonces podrías subir los que se hayan hecho el 7 de julio o después (y/o los que tengan posts de esa fecha en adelante). Creo que está mejor así. Igual, archive org no cobra por subir cosas ahí. >>23864 >¿opiniones? Te faltaron los backups de hispafiles y de anon4vampire: https://archive.org/details/hispafiles-ac https://archive.org/details/hispachanac Mi backup lo hice con el script de bash que colgaron EEH y escribí un programa de Python que jala los nombres de todos los hilos en el catálogo. >Also Maldita sea; acabo de darme cuenta que olvidé guardar el catalog.json y también olvidé el catálogo del backup del año pasado. ¿Tú lo guardaste?
>>23896 >Te faltaron los backups de hispafiles y de anon4vampire: Esos ya están incluidos en el listado de respaldos independientes. >¿Tú lo guardaste? Supongo que te refieres a lo de https://archive.org/details/8chanmoe-ac-30-10-2022 pero yo solo hice lo del Proyecto Cofre y no tengo nada mas antes de eso, aunque quizás puedas hacer algo con estas capturas: https://archive.is/https://8chan.moe/ac/catalog.html https://archive.is/https://archive.8chan.moe/ac/catalog.html http://web.archive.org/web/*/https://8chan.moe/ac/catalog.html http://web.archive.org/web/*/https://archive.8chan.moe/ac/catalog.html http://web.archive.org/web/20230715074527/https://archive.8chan.moe/ac/catalog.json Otra opción seria crear un catalogo en base a los hilos de ese respaldo con las plantillas de https://gitgud.io/8chan/Aleph/-/blob/master/templates/pages/catalog.html y https://gitgud.io/8chan/Aleph/-/blob/master/templates/cells/catalogCell.html y las especificaciones de https://gitgud.io/LynxChan/LynxChan/-/blob/master/doc/Json.txt para el JSON.
Si alguien lo usaba para compartir contenido con otros acólitos >Rip anonfiles https://archive.ph/6TDAW https://anonfiles.com/ >Después de intentar sin cesar durante dos años administrar un sitio de intercambio de archivos anónimo, hemos estado cansados de manejar los volúmenes extremos de personas que abusan de él y los dolores de cabeza que nos ha creado. >Tal vez sea difícil de entender, pero después de decenas de millones de cargas y muchos petabytes más tarde, todo el trabajo de manejo del abuso se automatizó a través de todos los canales disponibles para ser lo más rápido posible. Hemos prohibido automáticamente el contenido de cientos de miles de archivos. Nombres de archivo prohibidos y también patrones de uso específicos prohibidos conectados a material abusivo hasta el punto en que no nos importaba si eliminamos accidentalmente miles de falsos positivos en este proceso. >Incluso después de todo esto, el alto volumen de abuso no se detendrá. Este no es el tipo de trabajo que imaginamos al adquirirlo y recientemente nuestro proveedor de proxy nos cerró. >Esto no puede continuar. >Dominio a la venta: domain@anonfiles.com Parece que los tipos detrás del proyecto se fueron con un muy mal sabor de boca.
>>25481 Según supe, la culpa del cierre de Anonfiles se debe a que muchisima gente lo usaba para subir material ilegal (Ya saben a que me refiero) Una lástima, de todas las páginas de descargas directas Anonfile era la más anónima de todas ya que no necesitabas inscribirte para subir ni bajar cosas ilimitadamente.
>>25481 >>25484 >se coloca el sombrerito Si bien es cierto que los pedros hacen sus cosas por ese tipo de situos recuerden que ciertos grupos u organizaciones poseen los medios para bombardear dichos sitios de contenido picante. Una vez que te escogen te raidearan por meses. Meses en los que estas obligado a reportarles ellos el contenido que ellos mismos suben. Que se jodan
>>25510 Si bien te doy la razón de que existen agencias gubernamentales que buscan darse de baja esas páginas manufacturando motivos también le creo a los admins de anonfiles cuando dicen que sus propios usuarios eran los que abusaban de la página. O sea, durante una temporada en google buscabas anonfiles y lo primero que te salía en las sugerencias era "anonfiles CP".
https://archive.org/details/8chanmoe-ac-07-23-2023 Acabo de subir mi backup del tablón del año pasado. En lo que vienen los próximos estaré ordenando el espacio en mis discos y haré la imagen del 2024.
>>13901 >>13907 >>13937 >>13940 >>13942 >>13945 Hola, ¿hay alguna posibilidad de que puedas ayudarme? Probé su script y funciona aparte del hecho de que el hilo descargado se atasca en la página de exención de responsabilidad. ¿Cómo puedo evitar esto? (Yo uso el traductor de Google)
>>38918 Creo que el anon que escribió el script de Bash original ya no está, pero ocurre que trabajo con la API de 8chan a diario, así que pude encontrar el problema y parcharlo #!/bin/bash chan_thread=$1; # Get domain of the site (8chan.moe, 8chan.se, etc) chan_domain=$(echo $chan_thread | cut -d"/" -f1-3); # Download the thread's html and embedded elements wget --no-cookies --header 'Cookie: TOS=1' --referer "$chan_domain" -N --convert-links --page-requisites $chan_thread; # Make the thread locally accessible local_thread=$(echo $chan_thread | cut -d"/" -f3-); # Download the files uploaded to the thread wget --no-cookies --header 'Cookie: TOS=1' --referer "$chan_domain" -N --mirror $(grep -o -i -P 'href=".+/.media/8[a-f0-9]{64}(\.[^"]+)?' $local_thread | sed 's/href="//g' | sort -u); # Make the html point to the files saved with the previous command sed -i 's/\(href="\).\+\(\/.media\/[a-f0-9]\{64\}\(\.[^"]\+\)\?\)/\1..\/..\2/g' $local_thread; tl;dr la cookie para eludir la pantalla de disclaimer era splash=1, ahora es TOS, así que solo es cuestión de reemplazarla. Debería darle mantenimiento al código, así asegurarme de que funciona con la última modificación que Codexx le haya hecho a la página.
>>38923 Eso lo solucionó, ¡gracias! Como nota al margen, puedo cargar el sitio web localmente sin problemas, pero solo se guardan las miniaturas y no la imagen real en tamaño completo. ¿Hay alguna manera de salvar eso también?
>>38953 Eso es raro, a mi me funciona bien; descarga las imágenes completas junto con las miniaturas ¿Qué sistema operativo estás usando?
(336.66 KB 2097x2418 161799122212.jpg)

¿Me parece o ahora hay más imágenes rotas en el catálogo de hispafiles? estoy navegando los hilos de /ac/ y ahora veo más OPs con imágenes rotas comparado a ocasiones anteriores.
(441.71 KB 8moe threads.txt)

>>1049 Antes de que se me olvide (de nuevo), quería comentarles que hace unas semanas el dominio archive.8chan.moe tuvo las imágenes de los hilos visibles (y por ende accesibles para verlas completas) así que aproveche para pedirles a los de Archive Team para que archiven los hilos de este y otros tablones. Esto hace que a su vez los hilos en cuestión se puedan ver desde Wayback Machine (por ejemplo, lo de http://web.archive.org/web/20240720140443/https://archive.8chan.moe/ac/res/1049.html es de este mismo hilo). La lista que les pase se puede ver en https://files.catbox.moe/gcl59c.txt (aunque igualmente la dejo en este post por si acaso). Ahora bien, se que podría haberles dicho que archivaran el sitio entero, pero había dos inconvenientes: * El chan actualmente pesa mas de 1 TB, lo que habría tomado entre una y dos semanas para archivarlo completo (y los dominios de archivo no iban a permanecer así durante mucho tiempo). * No quería que se colaran hilos de los pedrobots que suelen joder en algunos tablones. >>40180 >¿Me parece o ahora hay más imágenes rotas en el catálogo de hispafiles? Quizás este relacionado con la caída que tuvo hace unas semanas y de la cual habían comentado en >>>/hisparefugio/198479
Todo /ac/ de hispafiles ya está archivado y en internet archive ¿Hay algún otro contenido de hispafiles que les gustaría que sea archivado?
>>1049 Hace unas semanas en el refugio dejaron esta versión actualizada del script para bajar hilos. El cambio mas notable es que ahora genera las cookies con el patrón TOSYYYYMMDD=1 de manera automática para no tener que estar cambiando la puta cookie de los huevos a cada rato (debería funcionar al menos hasta mayo o junio del año que viene).
>>43274 Cambia cada dos semanas, si no recuerdo mal, no debería ser difícil de parchar, especialmente porque lo que viene después es una fecha, solo es cosa de probar con todas las fechas entre la de la cookie y la fecha en la que se ejecutó el programa hasta encontrar una que funcione.
>>43275 >solo es cosa de probar con todas las fechas entre la de la cookie y la fecha en la que se ejecutó el programa hasta encontrar una que funcione. Eso es muy tardado, igual si revisas el código del script básicamente hace lo siguiente: 1. Obtiene el mes, día y año de $updated_cookie. 2. Convierte lo anterior al calendario juliano. 3. Se ejecuta un bucle que va sumándole 1 a la fecha del punto anterior, la convierte a gregoriano y la mete dentro de $cookie mientras la longitud de esta sea menor a 4096 caracteres. 4. Se envía esa cookie gigante al momento de hacer las peticiones al servidor. 5. Profit.
>>43286 No te entendí ¿Podrías explicarlo con máa detalle, por favor? quiero implementar esto en Python para incorporarlo en mis scripts, actualizar la cookie manualmente recientemente se ha vuelto un verdadero tedio.
>Pic del travesti de travestis correctamente hideado
>>45089 El NUEVAZO, señores.
@45089 ¿No es la mona de la serie de comics de "Autista X aprende sobre Y"? Nunca le pare bola pero me gustaban los edits con hilda y otras niñas
>>45144 >@ si, es esa
>>45144 Si, es Ellie, el chiste es que a todos les gustó el primer hilo que hicieron pero nadie se tomó la molestia de archivarlo. Y aprende a citar, retrasado.
>>45144 Protip: toca el munero en lugar de copiar a mano los numeros >>45156 ¿Ni en archive.li está?
>>45425 Lee el hilo completo >>13414 el primer hilo de Ellie fue encontrado en un archivo que un anon hizo y subió a archive.org
(96.07 KB 1600x900 internet-archive.webp)

Como si la demanda de las editoriales no fuera suficiente https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/ >Internet Archive fue hackeada y DDOSeada >31 millones de cuentas filtradas incluídos nombres de usuario y contraseñas hasheadas Lo bueno es que las claves están con hash, así que romperlas será difícil mientras tu clave tenga varias letras, de todas manera si tienen una cuenta ahí, les sugiero que actualicen sus claves. Lo bueno es que por lo pronto parece que es un ataque enfocado en denegar el servicio de IA, mas no algo deliberadamente para destruir sus bases de datos, así que por lo pronto la data debería estar en buen estado. De todas maneras, les imploro que tengan un backup local de todas las cosas que desean archivar, el precio por terabyte jamás había estado tan barato, con un disco externo de 5TB deberían tener espacio suficiente para archivar todas las cosas y si saben un poco de Linux pueden instalar https://archivebox.io/ en una laptop vieja que tengan y así preservar todo lo que necesiten.
>>45609 Desgraciadamente sigue caído.
https://mastodon.archive.org/@internetarchive/113290094683712789 La data oficialmente está a salvo, no está corrupta. En la última publicación de Mastodon de IA menciona que tardarán solamente días en restaurar los sistemas.
>>45633 Es muy raro el ataque DDOS que le hicieron, supuestamente por Palestina.
>>45648 Si algo me han enseñado los leaks de Disney de hace unos meses es que la gente metida en esos grupos de hacktivistas tiene el cerebro podrido por memes de internet, no le busques coherencia o un mínimo de razonamiento en lo que hacen, no son diferentes de Sylvia, Niggerpill y la parafernalia de buscapleitos que pululan los remantes de Hispachan y la webring: Simplemente les calienta destruir lo que alguien más ha construido.
>>45625 Al menos ahora habilitaron una versión de solo lectura.
>>45990 Yo todavía no puedo entrar, supongo que tardará un tiempo en llegar a todos.
>>45991 Parece que por ahora solo es la Waybackmachine la que esta funcionando: https://web.archive.org/
IA ha vuelto a estar en linea: https://archive.org/ Vayan a ver si pueden acceder a su contenido, al menos yo si puedo, pero anda corriendo como melasa.
>>46281 Si esta muy lento, pero al menos funciona.
(105.99 KB 229x238 1722722169928.png)

Estoy probando IA ¿Alguien más tiene problemas para descargar el contenido? estoy tratando de descargar https://archive.org/details/looney-tunes-merrie-melodies-archive por torrent y solamente bajó las primeras tres temporadas completas, luego de eso se desconectó del peer y se negó a bajar el resto. Algo parecido me sucedió con este archivo https://archive.org/details/8chanmoe-ac-30-10-2022 Bajó por torrent el .rar completo, luego trató de descargar la carpeta json, llegó a la mitad y se desconectó completamente del peer y se rehusó a bajar más cosas. Empiezo a creer que no estaban siendo completamente sinceros respecto a la integridad de la data y de hecho hay cosas que están rotas ahí.
Actualización Ya se bajó completo el archivo de 8chan del 2022, pero el de looney tunes sigue al aire. Creo que no es tan problemático, lo encontré en este otro que funciona bien 0d0a5a00
Quiero subir el archivo de varios boorus que frecuento ¿Saben si IA tiene problemas con el lolicon/shotacon? podría eliminarlo manualmente del dataset, pero sería muy tedioso.
(308.10 KB 559x617 1538338612279.png)

Estoy sacando mi captura anual de todos los hilos de /ac/ ¡Digan Whisky!


Forms
Eliminar
Informar
Respuesta rápida