Parsowanie HTML

0
  <ul>
    <li>Защита новичков: 30 минут</li>
    <li>Максимальное соотношение атакующий-защищающийся: нет</li>
    <li>Паладин: да</li>
    <li>Лучники: да</li>
    <li>Церковь: нет</li>
    <li>Система исследований: простая, 1 уровень</li>
    <li>Начальный уровень построек: <a rel="nofollow" href='x'>7 уровень</a></li>
    <li>Количество деревень варваров на одного игрока: 0.50</li>
    <li>Количество бонусных деревень на одного игрока: 0.50</li>
    <li>Скорость роста серых деревень: 1</li>
    <li>Ограничение роста серых деревень: 3000 очков</li>
    <li>Ограничение на ложные атаки: 1%</li>
    <li>Ограничение усадьбы: <a rel="nofollow" href='x'>нет</a></li>
    <li>Дворянин: монеты</li>
    <li>Стоимость монет:
      <span align='center'>
        <img src="x" >28000
        <img src="x" >30000
        <img src="x" >25000
      </span></li>
    <li>Снижение лояльности: 20-35</li>
    <li>Максимальная дистанция дворянина: 1500 полей</li>
    <li>Лимит племени: 3</li>
    <li>Покинуть племя: нет</li>
    <li>Подкрепление: только внутри племени</li>
    <li>Атаки на соплеменников: нет</li>
    <li>Режим сна: нет</li>
    <li>Присмотр за аккаунтом: нет</li>
    <li>Выбор направления: да</li>
  </ul>

  <table>
    <tr><td>Количество бесплатных мест:</td><td>60</td></tr><tr><td>Условия победы:</td><td><center><span style="color:green;font-size:9pt;font-weight:bold;align:center;">Победит игрок с максимальным количеством очков в конце раунда. Приз: 1е место - 30.</span></center></td></tr>
    <tr><td>Скорость:</td><td>300</td></tr>
    <tr><td>Скорость войск:</td><td>0.8</td></tr>
    <tr><td>Режим сна:</td><td>Нет</td></tr>
    <tr><td>Присмотр за аккаунтом:</td><td>Нет</td></tr>
    <tr><td>Боевой дух:</td><td>Да</td></tr>
    <tr><td>Строительный план:</td><td>Да</td></tr>
  </table>

Jak to dobrze sparsować? Chce wyciągnać wszystko to co jest po X: Czyli np. ostatnia linia "Да"

0

Poszukaj jakiejś biblioteki do obsługi HTML w pythonie. Z żadnej nie korzystałem osobiście, ale pierwsze z góry to:
https://pypi.python.org/pypi/pyquery
http://docs.python.org/2/library/htmlparser.html

Po prostu obsługujesz każdy tag <li>, w tekście zawartym wyszukujesz : i bierzesz to co jest za nim.

0

W pythonie dość popularne jest: http://en.wikipedia.org/wiki/Beautiful_Soup

1 użytkowników online, w tym zalogowanych: 0, gości: 1