Последние записи
- Рандомное слайдшоу
- Событие для произвольной области внутри TImage
- Удаление папки с файлами
- Распечатка файла
- Преобразовать массив байт в вещественное число (single)
- TChromium (CEF3), сохранение изображений
- Как в Delphi XE обнулить таймер?
- Изменить цвет шрифта TextBox на форме
- Ресайз PNG без потери прозрачности
- Вывод на печать графического файла
Интенсив по Python: Работа с API и фреймворками 24-26 ИЮНЯ 2022. Знаете Python, но хотите расширить свои навыки?
Slurm подготовили для вас особенный продукт! Оставить заявку по ссылке - https://slurm.club/3MeqNEk
Online-курс Java с оплатой после трудоустройства. Каждый выпускник получает предложение о работе
И зарплату на 30% выше ожидаемой, подробнее на сайте академии, ссылка - ttps://clck.ru/fCrQw
29th
Июл
Чтение огромных xml-файлов
Posted by obzor under Python
У меня есть код по превращению xml-файла в DataFrame:
ColNames = [‘ObjectId’,’DateEnd’,’ZagolType’,’Z agolValue1′]
df_list = []
tstep = 0
for fl in ListFxml2:
if ‘_houses_params’ in fl.lower():
tree = ET.parse(Pxml + ‘/’ + fl)
root = tree.getroot()
for level in root:
row = [level.attrib[‘OBJECTID’],level.attrib[‘ENDDATE’],level.attrib[‘TYPEID’],level.attrib[‘VALUE’]]
df_list.append(row)
else: pass
DFhouseParam = pd.DataFrame(df_list, columns=ColNames)
Этот код хорошо отрабатывает на файле, весом 1,7гб. Но на файле 3,77гб подвисает на шаге tree = ET.parse(Pxml + ‘/’ + fl), и процедура в итоге вылетает (автоматически перезагружается kernel).
Подскажите, пожалуйста, как ещё можно прочитать в Python такой огромный xml-файл?
Или как его можно раздробить (без ET.parse)?
Есть несколько способов чтения больших XML-файлов в Python без использования ET.parse(), который может потреблять много памяти и приводить к ошибкам нехватки памяти для больших файлов.
Один из способов — использовать потоковый парсер, такой как xml.sax.parse(). Потоковые парсеры обрабатывают XML-файл построчно, что позволяет читать большие файлы без загрузки всего файла в память.
Вот пример кода, который использует xml.sax.parse() для чтения большого XML-файла:
import xml.sax
class MySAXHandler(xml.sax.ContentHandler):
def __init__(self):
self.data = []
def startElement(self, name, attrs):
# Обработка начала элемента
pass
def characters(self, content):
# Обработка содержимого элемента
self.data.append(content)
def endElement(self, name):
# Обработка конца элемента
pass
def parse_xml(filename):
# Создаем обработчик SAX
handler = MySAXHandler()
# Парсим XML-файл
parser = xml.sax.make_parser()
parser.setContentHandler(handler)
parser.parse(filename)
# Возвращаем обработанные данные
return handler.data
Вы можете использовать этот код следующим образом:
data = parse_xml("large_xml_file.xml")
Переменная data будет содержать список строк с данными XML-файла. Вы можете затем обработать эти данные и преобразовать их в DataFrame.
Еще один способ чтения больших XML-файлов — использовать библиотеку xmltodict. Эта библиотека преобразует XML-файл в словарь Python, который затем можно преобразовать в DataFrame.
Вот пример кода, который использует xmltodict для чтения большого XML-файла:
import xmltodict
with open("large_xml_file.xml", "r") as f:
xml_data = f.read()
data = xmltodict.parse(xml_data)
Переменная data будет содержать словарь Python с данными XML-файла. Вы можете затем обработать этот словарь и преобразовать его в DataFrame.
Наконец, вы также можете разбить большой XML-файл на более мелкие файлы. Это можно сделать с помощью таких инструментов, как split, csplit или xxd. После разделения файла вы можете обработать каждый меньший файл отдельно.
Похожие статьи
Купить рекламу на сайте за 1000 руб
пишите сюда - alarforum@yandex.ru
Да и по любым другим вопросам пишите на почту
пеллетные котлы
Пеллетный котел Emtas
Наши форумы по программированию:
- Форум Web программирование (веб)
- Delphi форумы
- Форумы C (Си)
- Форум .NET Frameworks (точка нет фреймворки)
- Форум Java (джава)
- Форум низкоуровневое программирование
- Форум VBA (вба)
- Форум OpenGL
- Форум DirectX
- Форум CAD проектирование
- Форум по операционным системам
- Форум Software (Софт)
- Форум Hardware (Компьютерное железо)