Su licencia es open-source y está escrito completamente en JAVA.
Heritrix fue desarrollado conjuntamente por Internet Archive y "Nordic National Libraries" a principios de 2003.
La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de Internet Archive y terceras partes.
Heritrix por defecto almacena los recursos web que crawlea en un fichero Arc.
El siguiente comando lista todas las URLs y metadatos almacenados en el fichero Arc: El siguiente comando extrae hello.html del ejemplo de fichero Arc anterior, suponiendo que el registro empieza en la posición 140: Otras herramientas: