- El análisis se está volviendo más fácil.

Tire de los bloques especificados

Este es el título de la testle.

Párrafo 1.

Párrafo 2.

Párrafo 3.

Párrafo 4.

Párrafo 5.

Obtener enlaces de HREF

Enlaces de Bloka

Obtención de elementos por clase.

Codificación de documentos

A veces tienes que verter no los sitios modernos, sino a los ashas. En tales sitios, la codificación se instala con mayor frecuencia en Windows-1251. Por lo tanto, si intenta obtener pruebas de habla rusa de este sitio, verá interrogatorios en lugar de letras rusas, este es el primer signo de una codificación confusa.

En este caso, debe usar la función. iconvque recodifica el texto de las Windows-1251 obsoletas al moderno UTF-8:

¿Cómo entender el sitio del sitio en HTML que no tiene esa codificación? Mira la etiqueta meta charset. Él puede parecer más o menos . En el segundo caso, la codificación no es eso.

Por cierto, en la codificación HTML5 se instala, por lo que, y las opciones de codificación de HTTP-Equiv \u003d "Tipo de contenido" están desactualizadas. Sin embargo, en los sitios ahora puede encontrar ambos y la otra opción.

Por cierto, el sitio puede no ser la etiqueta de Meta Charset en absoluto, en este caso, la codificación de archivos de Windows-1251 (en la mayoría abrumadora).

Qué vas a hacer después:

Llegue a resolver problemas en el siguiente enlace: Tareas a la lección.

Cuando todos deciden, vaya al estudio de un nuevo tema.

Recientemente he estado trabajando en la empresa. Radio City Sakhalin LLC En el equipo de desarrolladores y periodistas del portal de información y entretenimiento "Citisah". Especialmente para los fanáticos del fútbol en el portal, la sección "Sport" es apoyada con noticias del mundo de las tablas de fútbol, \u200b\u200btorneo y una lista de jugadores del equipo FC Sakhalin.

Ahora, el portal está experimentando rediseño, por lo que la sección "Deporte" fue instruida para hacerme. La función principal en el equipo es el diseño de los nuevos diseños de diseño. A veces, hay algún tiempo para resolver las tareas secundarias para facilitar el trabajo ya difícil de nuestro programador básico. Hoy le diré sobre el "Micro-Server".

Anteriormente en el portal, las tablas de torneos de fútbol se llenaron con gerentes de contenido manual. Hay casos en que los resultados de los partidos aparecieron en el sitio web Championship.com más rápido que en nuestro portal. Ahora hemos decidido finalmente actualizar las tablas automáticas. Dado que el campeonato.com no proporciona API (al menos algo abierto) para obtener las tablas del torneo con ellos, la única salida es a PARS.

Cómo usar "Micro-Server"

El "Micro-Server" consiste solo en la misma función - parse_site (Array $ Sites, Array $ Predeterminado \u003d Array ()). El primer argumento se transmite mediante una matriz de sitios (o páginas en un sitio), que debe pintarse, y la segunda es la matriz predeterminada de la configuración.

La matriz de Sites $ tiene el siguiente formato:

Array ("Zona_Vostok" \u003d\u003e Array ("URL" \u003d\u003e "http://www.championat.com/football/_russia2d/589/table/all.html", "xpath" \u003d\u003e "algunos / x / ruta" , // opcional "xsl" \u003d\u003e "absoluto / ruta / to / xsl", // opcional), "StackOverFlow" \u003d\u003e Array ("URL" \u003d\u003e "http://stackoverflow.com", "xpath" \u003d \u003e "Algunos / x / ruta", "Transforme" \u003d\u003e Falso // opcional));

Todas las teclas excepto URL son opcionales. En caso de que falte la expresión XPath, la página especificada en el valor de la tecla URL se procesará completamente. La hoja de estilo XSL también se puede conectar solo si es necesario procesar el código "RAW".

Preste atención a la tecla "Transforme" \u003d\u003e Falso. Se usa en el caso de que la matriz de $ predeterminados contiene la hoja de estilo XSL predeterminada, pero no hay necesidad de esta página en la transformación.

Una matriz de $ valores predeterminados le permite evitar la configuración de copia en la matriz de sitios $. Puede contener solo dos llaves: Xpath y XSL. Las llaves restantes simplemente se ignoran.

Resumen

El analizador escrito por ME consiste en una función con dos parámetros (para configuraciones privadas y generales), le permite descargar la página completa o su fragmento separado, así como, si se desea, maneje el resultado de la hoja de estilo XSL.

Al principio, para evitar asentir, quería usar la biblioteca como Phpquery o Ganon, pero luego pensé bien y se dio cuenta de que no valía la pena arrastrar las dependientes adicionales, puedes usar la herramienta incorporada existente.

Ejemplo de trabajo

Consideremos la tabla del torneo del Campeonato de Fútbol Ruso en la Segunda División, la Zona "Este".

Dado que necesitamos "retirarse" de la página directamente por la tabla del torneo, la expresión xpath será la siguiente: // Div [@ id \u003d "Sección-estadística"] / TABLA

La tabla de origen contiene mucha basura: atributos, clases, estilos en línea. Por lo tanto, lo transformamos en una vista más placentera con la hoja de estilos XSL con el siguiente contenido:

	Equipo	Juegos	Victoria	Nicho	Pérdidas	Pelotas	Gafas

incluso. impar.

Ahora escriba el código para mostrar la tabla Torneo Terminado.

$ Resultados \u003d parse_stok (Array ("Zona_Vostok" \u003d\u003e Array ("URL" \u003d\u003e "http://www.championat.com/football/_russia2d/589/table/all.html", "xpath" \u003d\u003e "xpath "\u003d\u003e" // Div [@ id \u003d "Sección-estadística"] / Tabla "," XSL "\u003d\u003e __dir __." / Football.xsl ")); Imprimir $ resultados [" Zona_Vostok "];

Y en la salida, obtenemos este código HTML:

...

	Equipo	Juegos	Victoria	Nicho	Pérdidas	Pelotas	Gafas
1	Energía de rayos	20	12	6	2	30-17	42
2	Chita	20	12	5	3	28-14	41

Descargar "Microer"

Aquí hay algunas maneras de obtener un "micropar":

Abrazadera en GitHabe: git clone https://github.com/franzose/microparser.git
Descarga el archivo:

Los webmasters a menudo encuentran un problema de este tipo cuando necesita tomar cierta información de cualquier sitio y transferirlo a otro. Primero puede mantener la información sobre el transportista intermedio, y ya la descargue desde algún lugar, pero este enfoque no siempre es conveniente. En algunos casos, es mucho más rápido que vierta el analizador al sitio que admite PHP y ejecútelo de forma remota para que la repara automáticamente la información y carguela a la base de datos de recursos.
Entre las soluciones preparadas, se encuentran populares como el descargador de contenido y Zennoposter, ciertamente son muy cómodos y comprensibles para cualquier persona, incluso desconocida con la programación, sin embargo, tienen algunas desventajas. Por ejemplo, se les paga y no tienen suficiente flexibilidad, que se puede inhalar en el guión de PHP habitual. Además, el desarrollo de un parsero complejo en ellos no es en absoluto inferior al momento de la escritura analógica en PHP.
Todavía hay algo así como IMACROS, un lenguaje de scripting que puede emular acciones de usuario en el navegador, pero tampoco en todas partes este enfoque funciona de la mejor manera.

Muchas personas piensan que la programación, y aún más, lo que escribe analizadores, una ocupación muy difícil. De hecho, PHP es uno de los idiomas más simples, para estudiar que puede ser de un nivel suficiente en un par de semanas o un mes.
Los analizadores también son simples por escrito, por lo que los programadores de novatos le escriben para dominar el idioma.
Lo primero que viene a la mente de una persona que decidió escribir un script similar es usar funciones para trabajar con filas (STRPOS, SURST y similares) o expresiones regulares. Es bastante correcto, pero hay un matiz. Si los analizadores necesitan escribir mucho, deberá desarrollar su biblioteca para no reescribir cien veces los mismos diseños, pero tomará un montón de tiempo y considerará que ya hay bibliotecas similares, una ocupación de este tipo. Incluso no tiene sentido.
La opción ideal para un principiante estará aprendiendo la biblioteca Simple HTML DOM PARSER de PHP. Como puedes adivinar desde el nombre, es muy fácil de aprender. Considere el código básico:

$ Html \u003d file_get_html ("http://www.yandex.ru");
$ A_LINKS \u003d $ HTML-\u003e Buscar ("A");

La primera línea crea un objeto de página, cuya fuente en este caso es Yandex, y escribe a la variable $ HTML, que tiene varias funciones, como encontrar. Buscar: buscar un artículo de acuerdo con cualquier parámetro, por ejemplo, encontrar ('a'): devolverá la matriz de todos los enlaces de páginas. Encuentra ('# MYID'): devolverá una matriz de elementos, cuyos ID son "MyID".
El acceso al parámetro HREF del primer enlace se realiza de la siguiente manera:

Echo $ A_LINKS [0] -\u003e HREF;

Puedes ver más detalles en el sitio:
Simplehtmldom.sourceforge.net

La biblioteca, como se mencionó anteriormente, es muy simple y más adecuada para un programador principiante, además de que funciona con bastante rapidez y no es mucho exigente en los recursos del servidor.
Esta biblioteca tiene un minus, no todas las páginas resultan estar en los dientes. Si no se muestra algún artículo, pero se sabe que está ahí, es mejor usar la Biblioteca DOM (Modelo de objeto de documento). Es bueno en todo, excepto la velocidad de desarrollo y comprensible.

$ doc \u003d nuevo domdocumento ();
$ Doc-\u003e loadhtml ($ datos);
$ SearchNodes \u003d $ Doc-\u003e getelementsbytagname ("A");
Echo $ SearchNodes [0] -\u003e GetAtTribute ("HREF");

Este script crea primero un objeto del tipo DOM, mientras que en la variable de datos $ hay un código de página. Luego encuentra todas las etiquetas A (enlaces), llamando a $ Doc-\u003e GetLementsByTagName, luego los escribe en una matriz de $ SearchNodes. El acceso al parámetro HREF del primer enlace en la página se lleva a cabo llamando a $ SearchNodes [0] -\u003e GetAtTribute ("HREF").
Como resultado, el guión resulta más engorroso, y no es tan conveniente escribirlo, pero a veces tiene que usar esta biblioteca.

Etiquetas: PHP, analizador, programación

Parser Universal PHP Contenido. Escribimos el analizador de contenido en PHP. Leyendo un archivo en la línea PHP con fgets ()

Decidí dar un artículo a la forma real. Anteriormente, la página HTML universal PHP se presentó en esta página. Pero durante más de 4 años ha pasado, he trabajado más experiencia en el campo del desarrollo del analizador. Y decidí presentar un nuevo ejemplo de PHP Parser con un análisis detallado del algoritmo de trabajo.

La última versión de Parser llevaba un título orgulloso de Universal, pero era una designación muy subjetiva. El guión tuvo muchas restricciones, por su uso completo, se requirió conocimiento en expresiones regulares en PHP y JS.

Pensé, pensé y decidí que una decisión más versátil sería mostrar un ejemplo de un analizador en PHP y decir cómo funciona. Así que los programadores que anteriormente no escribieron los analizadores podrán resolver sus tareas. Y los clientes podrán comprender las posibilidades de PHP en el campo de la página de la página del sitio y lo que realmente puede requerir programadores.

Analizador - Este es un programa que analiza los datos de texto de entrada, recupera la información necesaria y según los datos obtenidos, proporciona el resultado en un formato dado.

El algoritmo de análisis General PHP supone que su script hace una consulta en una dirección determinada, recibe una respuesta del servidor como una página HTML, o en algún otro formato de texto, como CSV, JSON, XML. Además, la información obtenida se analiza, a partir de la misma se recupera (analizando) los datos necesarios sobre la base de los cuales se forma el resultado. Los datos obtenidos se pueden mostrar en la pantalla, o escribir en un archivo o una base de datos.

Ejemplo de un simple contenido de PHP Paraser HTML

Supongamos que necesitamos recurrir el precio de las mercancías en el sitio Gearbest.com. El script lee la página especificada, luego a través de expresiones regulares, analiza su contenido y resalta las rodajas de código HTML que necesita. A continuación, el resultado se muestra en la pantalla.

/ Nosotros "; $ buffer \u003d matriz (); preg_match ($ REGEXP, $ PAGO, $ BUFFER); $ res_arr [" precio_list "] [" moneda "] \u003d $ buffer; $ res_arr [" error "] \u003d" "; ) Otra cosa ($ res_arr ["precio"] \u003d 0; $ res_arr ["moneda"] \u003d "nodata"; $ res_arr ["error"] \u003d "Error de carga de página";) devuelva $ res_arr;) / * 1.4 - - Salida de datos en HTML * / / * --- 1.4.1 --- Traducción de los precios * / Función Price_List_html ($ precio_list) (Echo

Precio: "$ precio_list [" precio "]". "$ Precio_list [" moneda "]".

";) / * --- 1.4.2 --- Salida de error * / Función ERROR_LIST_HTML ($ ERROR) (si (! Error ($ ERROR)) (ECHO"

Durante el procesamiento de la consulta, se producen los siguientes errores:

\\ n "; echo"

". $ error_row".

\\ n "; echo"

Estado: Fallar

\\ n ";) otra cosa (echo"

Estado: está bien.

\\ n ";)) / * --- 1.4.3 --- Disposición de errores de carga de página * / Función ERROR_PAGE_LIST_HTML ($ ERROR_PAGE) (si (! Error ($ ERROR_PAGE)) (ECHO"

[". $ error_row."] "$ error_row" - ". $ error_row".

\\ n ";)) / * --- 1.4.4 --- Salida de la operación de la secuencia de comandos * / FUNCIÓN RUN_TIME_HTML ($ TIME_START) (si (! Vacío ($ TIME_START)) ECHO"\\ n ";) / * --- 2 --- Obteniendo contenido del directorio de la marcha * / if ($ acción) (// Si no hay errores y los datos del formulario de búsqueda recibidos si (! vacío ($ engranish_url)) ($ gearbest_url \u003d recortar ($ gearbest_url); $ din_url \u003d $ gearbest_url; $ res_arr \u003d get_gearbest_price ($ din_url); $ price_list \u003d $ res_arr ["precio_list"]; $ error_page \u003d $ res_arr ["error_page"]; $ error \u003d $ Res_arr ["Error"];) Else ($ error \u003d "No se hace la dirección de la página con los productos";)) / * --- 3 --- Retiro de los resultados del trabajo del analizador * /? \u003e

Artículos de precios de Parrer en Gearbest.com

Y copiar idea e implementación - PC // 04/16/2017

index.php. - El principal archivo PHP del script del analizador. El código del analizador es relevante en el momento de la publicación. Con el tiempo, el código de sitio HTML de la fuente puede cambiar y las expresiones regulares ya no se acercarán.

Hay diferentes maneras de instalar el script. Trabajé con él desde debajo de Xampp. Pero puedes ejecutar el analizador con derecho. Solo vierta el archivo index.php. A su sitio en cualquier carpeta y acceda a ella a través de la barra de direcciones del navegador. Supongamos que tomaste el script a la carpeta. -Parser. En el directorio raíz de su hosting. Luego, debe marcar la URL en la barra de direcciones: http: //vashdomen.ru/my-parser/.

Captura de pantalla de la página principal de los precios del analizador de GearBest.com:

1. En la página principal del analizador, debemos ingresar la dirección de la página del producto. Después de hacer clic en el botón "Inicio", la página se reinicia, los datos del formulario en el servidor y el script PHP hacen una consulta en una dirección dada utilizando la biblioteca de rizo.

Para esta acción responde la función. curl_get_contents ()que es la función de PHP estándar analógica file_get_contents ()Pero con una funcionalidad extendida basada en rizos.
rizo - Esta es una extensión para PHP, que proporciona soporte de funciones libcurl. Este conjunto de características le permite formar solicitudes de publicación y solicitar, descargar archivos. Se admiten diferentes protocolos HTTP, HTTPS, FTP. Puede usar servidores proxy, cookies y autenticación de usuario. En general, una excelente herramienta para imitar acciones de usuario en el navegador.

el rizo es algo muy útil para el desarrollo del analizador HTML, y en uno de los cuales le diré más detalles sobre las recepciones de trabajar con él con el propósito de analizar.

Tenga en cuenta que el script ve una página en formato de texto y analiza su código HTML.

3. El siguiente paso se forma y se muestra en la pantalla resultante según los datos después de analizar. En nuestro caso, esta es la moneda y el precio de los bienes.

Por lo tanto, para el desarrollo exitoso de los analizadores en el programador PHP, debe poder trabajar con la biblioteca de rizo y las expresiones regulares de PHP.

Cómo Poule Data cifrada

En algunos casos, el servidor proporciona páginas HTML en un formulario comprimido o protegido, como la codificación de aceptación: GZIP. En este caso, la conexión de los formatos de compresión compatibles en la consulta puede no afectar el formato de respuesta.

En tales casos, debe descifrar la respuesta, por ejemplo, la función estándar de PHP gzdecode (). Y luego puedes trabajar en el viejo esquema.

Los datos a través del algoritmo base64 se pueden descifrar por la función bASE64_ENCODE ().

PHP Parser HTML Site de forma gratuita

En realidad, la respuesta a la pregunta donde tomar los sitios de PHP Parser de forma gratuita, simple, escríbalo usted mismo. El algoritmo base del trabajo de los analizadores, descrito anteriormente en detalle.

Puede buscar ya listo, escrito por las soluciones de alguien para su tarea. Pero para hacer un analizador que aborde todas las opciones en la máquina, probablemente sea imposible. Bajo cada tipo de tarea, debe desarrollar su producto específico.

Y para aquellos que no quieren bañarse con expresiones regulares y configuraciones de analizador, estoy listo para hacerlo refinamiento para usted, pero, por supuesto, costará dinero :-).

El costo final de los servicios de desarrollo se determina después de recibir una tarea técnica específica. El precio se establece estrictamente antes de comenzar el trabajo, durante el flujo de trabajo, las condiciones financieras no cambian. trabajo en 100% prepago. El pedido mínimo es 2000 rublos.

A menudo, el precio del analizador es bastante alto, y esto se debe al hecho de que el desarrollo se obtiene único, afilado bajo un cliente específico. Varios Hay opciones para la entrada de melón, se requiere un resultado de salida individual.

En este caso, también puedes formar un analizador para ti. Por ejemplo, el precio del desarrollo del analizador resultó ser de 9,000 rublos. Está buscando a 9 personas con un problema similar y recolectar 1000 rublos de ellos, ordenar el desarrollo de un analizador. Luego haces 10 copias, 1 nosotros y 9 Dar a tus conocidos.

En el siguiente ciclo de artículos, mostraré ejemplos de la implementación de analizadores más complejos, etc.

En general, mis queridos lectores, de lo que pude ayudar, leer, aprender y no olvidar vincularse con el blog.

Si necesita hacer un documento HTML de análisis, las expresiones regulares no son la mejor manera de esto. Además, su proceso de escritura, trabajo intensivo en mano de obra, y reducen la velocidad de la aplicación PHP. En este artículo, aprenderá cómo usar su analizador HTML gratuito, para leer, cambiar, extraer algunos elementos DOM de las páginas HTML. Además, un recurso HTML puede ser una fuente externa. Es decir, la dirección de las páginas HTML en otro dominio. Usando como ejemplo, sitio sitear.ruAprenderá cómo obtener y mostrar una lista de todos los materiales publicados en la página principal del sitio. En otras palabras, hará lo que necesita, HTML PIRS usando PHP. En este caso, PHP está implícito por la simple biblioteca HTML DOM.

Simplemente siga todos los pasos del artículo, ¡y aprenda mucho y útil para usted mismo!

Paso 1 - Preparación

Para empezar, necesitas descargar una copia. html simplebibliotecas. Descargar gratis.

En el archivo encontrará varios archivos, pero solo necesitamos uno, simple_html_dom.php.. Todos los demás, estos son ejemplos y documentación.

Paso 2 - Análisis de lo básico HTML

Esta biblioteca es muy fácil de usar, pero aún así, es necesario desmontar algunos conceptos básicos antes de usarlo.

$ Html \u003d nuevo simple_html_dom (); // carga de una cadena $ html-\u003e carga ("

¡Hola Mundo!

"); // cargar un archivo $ html-\u003e load_file (" http: // sitio / ");

Todo es simple, puede crear un objeto descargando HTML desde la cadena. O descargue el código HTML del archivo. Puede descargar el archivo por la dirección URL, o con su sistema de archivos local (servidor).

Importante recordar:El método Load_File () funciona en el uso de características de PHP File_Get_Contents. Si está en su archivo php.ini, el parámetro Permitir_url_fopen no se establece como verdadero, no podrá recibir archivos HTML en una dirección remota. Pero, puede cargar estos archivos utilizando la biblioteca de rizo. A continuación, lea el contenido utilizando el método de carga ().

Obtenga acceso a los objetos DOM HTML

Supongamos que ya tenemos un objeto DOM, una estructura, como en la imagen de arriba. Puede comenzar a trabajar con él usando el método Buscar () y creando colecciones. Las colecciones son grupos de objetos que se encuentran usando selectores: sintaxis en algo similar a jQuery.

¡Hola Mundo!

ESTABAN AQUÍ.

Usando este ejemplo de código HTML, aprendemos cómo acceder al preso de la información en el segundo párrafo (P). Además, cambiaremos la información recibida y obtendremos el resultado en la pantalla.

// crear un objeto de analizador y recibir html incluyen ("Simple_html_dom.php"); $ Html \u003d nuevo simple_html_dom (); $ Html-\u003e cargar ("

¡Hola Mundo!

"); // obtener matrices de los párrafos $ Elemento \u003d $ HTML-\u003e Buscar (" P "); // Cambiar información dentro del párrafo de $ Element-\u003e InnerText. \u003d" Y "estamos aquí para quedarse"; // Salir Echo $ html-\u003e guardar ();

Como puede ver para implementar el análisis de PHP del documento HTML, es muy fácil usar la biblioteca Simple HTML DOM. En principio, en esta pieza de código PHP, todo se puede entender de manera intuitiva, pero si dudas de algo, veremos el código.

Línea 2-4: Conecte la biblioteca, cree un objeto de clase y cargue el código HTML de la línea.

Línea 7: Con esta línea, encontramos todo.

etiquetas en el código HTML, y guardamos en una variable como una matriz. El primer párrafo tendrá índice 0, los párrafos restantes se indexarán de acuerdo con 1,2,3 ...

Línea 10: Recibimos los contenidos del segundo párrafo en nuestra colección. Su índice será 1. También realizamos cambios en el texto usando el atributo de EgosText. El atributo de EgosText cambia todos los contenidos dentro de la etiqueta especificada. También podemos cambiar la etiqueta en sí mismo utilizando el atributo de extracción.

Agregemos otra línea de código PHP con la que asignamos la clase de estilo a nuestro párrafo.

$ Element-\u003e clase \u003d "class_name"; Echo $ html-\u003e guardar ();

El resultado de la ejecución de nuestro código será el siguiente documento HTML:

¡Hola Mundo!

Estamos aquí y estamos aquí para quedarnos.

Otros selectores

A continuación se muestran otros ejemplos de selectores. Si usaste jQuery, entonces en la simple biblioteca HTML DOM, la sintaxis es ligeramente similar.

// Obtenga el primer elemento con id \u003d "foo" $ single \u003d $ html-\u003e encontrar ("# foo", 0); // recibe todos los elementos con clase \u003d "foo" $ collection \u003d $ html-\u003e Buscar al analizar); // obtiene todas las etiquetas Con la colección $ \u003d $ html-\u003e encontrar ("a") analizando; // obtiene todas las etiquetas que se colocan en la etiqueta

$ Colección \u003d $ html-\u003e encontrar ("H1 A"); // obtiene todas las imágenes con title \u003d "(! Lang: himom" $collection = $html->find("img"); !}
Utilizando el primer selector con documento HTML PHP PARS, muy simple y comprensible. Su singularidad es que devuelve solo un elemento HTML, a diferencia de otros que devuelven una matriz (colección). El segundo parámetro (0), indicamos que solo necesitamos el primer elemento de nuestra colección. Espero que entiendan todas las variantes de los selectores Simple HTML SELECTOR SELECTORES si no entiende algo, intente el método del experimento científico. Si no lo ayudó, póngase en contacto con el artículo.

Documentación Simple HTML DOM

En esta dirección se puede encontrar documentación completa para usar la biblioteca Simple HTML DOM.

http://simplehtmldom.sourceforge.net/manual.htm.

Solo dale una ilustración que muestra las posibles propiedades del elemento HTML DOM seleccionado.

Paso 3 - Ejemplo real PHP analizando el documento HTML

Para el ejemplo del análisis, y traer el HTML DOM en acción, escribiremos materiales más graves en el sitio web del sitio. A continuación, retiraremos todos los artículos en forma de una lista en la que se indicarán los nombres de los artículos. Al escribir Grabrov, recuerde, ¡el robo del contenido es procesado! Pero no en el caso de que la página valga la pena una referencia activa al documento de origen.

Incluir ("simple_html_dom.php"); $ artículos \u003d matriz (); Getarticles ("http: // sitio /");
Comience con la conexión de la biblioteca y la llamada de la función. getarticles Que pasará los documentos HTML de acuerdo con la dirección de la página que se transmite como un parámetro de función.

También especificamos una matriz global en la que se almacenarán toda la información sobre los artículos. Antes de comenzar el documento HTML de análisis, veamos cómo se ve.
Esta es la plantilla básica de esta página. Al escribir un analizador HTML, debe examinar cuidadosamente el documento, ya que los comentarios, como, estos también son descendientes. En otras palabras, a los ojos de la simple biblioteca HTML DOM, estos son elementos que son equivalentes a otras etiquetas de la página.

Paso 4: escriba la característica principal de PHP Paraser HTML
Función Getticles ($ Página) (Global $ Artículos; $ html \u003d nuevo simple_html_dom (); $ html-\u003e load_file ($ Página); // ... Siguiente ...)
Inicialmente, llamamos a nuestra matriz global que hemos indicado anteriormente. Crea un nuevo objeto simple_html_dom. A continuación, descargue la página que haremos PARS.

Paso 5 - Encuentra la información deseada
$ artículos \u003d $ html-\u003e encontrar ("DIV"); Foreach ($ artículos como $ nombres) ($ artículos \u003d matriz ($ post-\u003e Niños (0) -\u003e texto simple);)
En esta pieza de código, todo es extremadamente simple, encontramos todo el div con clase \u003d name_material. A continuación, leemos la colección de elementos y elegimos los nombres de los materiales. Todos los materiales se guardarán en la matriz en este formulario:
$ Artículos \u003d "Nombre del material 1"; $ Artículos \u003d "Nombre del material 2"; ...
Paso 6 - Mostrar resultado del parido

Para empezar, instalaremos algunos estilos, para la belleza de la información mostrada que recibió durante el análisis.
Artículo (relleno: 10px; Color: # 600; Fuente: Bold 40px / 38px Helvetica, Verdana, Sans-Serif;)
"Echo $ artículo; echo"

"; } ?>

El resultado de la ejecución de este script será una lista de títulos de artículos en el sitio del sitio.

Conclusión

Así que aprendimos los documentos HTML de separación de PHP. Recuerda que el análisis es un proceso largo. Una página puede analizar aproximadamente un segundo. Si realiza una gran cantidad de documentos HTML, su servidor puede revertir la operación de script en relación con la expiración del tiempo establecido para la ejecución. Esto se puede corregir utilizando la función SET_TIME_LIMIT (240); 240 - esta vez en segundos, asignado para ejecutar el script.

Este artículo está destinado a formar los conceptos básicos de la página HTML por PHP. Hay otras bibliotecas y métodos de análisis. Si conoces aquellos, comparten los comentarios. Estaré encantado de saber qué instrumentos y métodos HTML del análisis son usted.

Para analizar la página del sitio web (es decir, para desmontar su código HTML), debe obtenerse para empezar. Y luego el código recibido se puede desmontar utilizando expresiones regulares y, o de alguna manera, analizarla, o guardarla en la base de datos o ambas.

Obteniendo páginas del sitio usando File_Get_Contents

Entonces, para empezar, reunámonos para recibir las páginas de los sitios en la variable PHP. Esto se hace utilizando la función. file_get_contents.Sin embargo, que se usa más a menudo para obtener datos del archivo, puede usarse para obtener la página del sitio, si no puede transferirlo al archivo al archivo, sino la URL de la página del sitio.

Tenga en cuenta que esta característica no es perfecta y hay una biblioteca analógica más poderosa RizoLo que le permite trabajar con cookies, con titulares, le permite enviar formas y proceder por redirecciones. Todo esto file_get_contents. No sabe cómo, sin embargo, para el principio, ella bajará y trabajará con Rizo Analizaremos en la siguiente lección.

Por lo tanto, obtenga la página principal de mi sitio, por ejemplo, y llevemos a la pantalla (hágalo):

Lo que recibirá como resultado: en la pantalla verá la página de mi sitio, sin embargo, lo más probable es posible sin estilos e imágenes CSS (ya sea que funcione CSS y las imágenes, depende del sitio, por qué lo verá más tarde. ).

Vamos a traer la página del sitio, pero su código fuente. Lo escribimos a la variable. $ Str. y traer a la pantalla usando var_dump:

Tenga en cuenta que var_dump Debe configurarse correctamente en la configuración de PHP (consulte la lección anterior para esto). CORRECTAMENTE: significa que debe ver las etiquetas y no debe haber restricciones a la longitud de la cadena (el código de la página del sitio puede ser muy grande y deseable para verlo todo).

Entonces, si todo se hace bien, y ves el código fuente de la página del sitio, es hora de llegar a su despedida con expresiones regulares.

Si no conoce expresiones regulares o duda de su conocimiento, es hora de aprender el libro de texto sobre expresiones regulares y luego regresar al estudio de esta Guía de Partes.

Permitir la directiva_url_fopen debe habilitarse http://php.net/manual/ru/filesystem.configuration.php#ini.allow-url-fopen

Analizando con expresiones regulares

Al intentar desmontar el código HTML con la ayuda de expresiones regulares, estará esperando algunos escollos. Su presencia se debe con mayor frecuencia al hecho de que las expresiones regulares no están destinadas a desarmar las etiquetas: hay herramientas más avanzadas para esto, por ejemplo, la biblioteca de phpquery, que nos desmontaremos en las siguientes lecciones.

Sin embargo, ser capaz de usar expresiones regulares de parida También es importante, primero, regularmente, es simple (si ya los conoce, es simple) y una herramienta popular para analizar, en segundo lugar, trabaja regularmente un pedido más rápido que cualquier biblioteca (a menudo es crítica), y tercero , incluso cuando se usa bibliotecas especiales, la necesidad sigue ahí de todos modos.

Rocas submarinas

Primero La sorpresa que te espera cuando usas preg_match y preg_match_all. - Esto es lo que trabajan solo para las etiquetas, ubicadas completamente en la misma línea (es decir, no tienen un ingreso presionado). Si intenta renunciar a una etiqueta de múltiples líneas, no tendrá éxito hasta que encienda modo de una sola línea Usando modificador s.. De esta manera:

Segundo La sorpresa lo está esperando cuando intenta trabajar con Cyrillic, en este caso, no debe olvidarse de escribir un modificador u. (U pequeño, no para ser confundido con excelente), como este:

¿Qué otras escollas te están esperando? Nos desmarcaremos gradualmente durante esta lección.

Intentemos desarmar las etiquetas

Queemos de alguna manera (por ejemplo, a través de file_get_contents.) Recibió el código de sitio HTML. Aquí lo tienes:

Este es el título de la testle. Este es el contenido principal de la página.

Vamos a lidiar con su análisis. Primero, vamos a conseguir los contenidos de la etiqueta. , Taga <head>, y etiqueta <body>. Entonces, obtenemos los contenidos de la etiqueta. <title> (en la variable $ Str. El código HTML que desmontamos) se almacenan: <?php preg_match_all("#<title>(.+?)#Su ", $ str, $ res); var_dump ($ res);?\u003e

Contenido :

(.+?)#Su ", $ str, $ res); var_dump ($ res);?\u003e

Contenido :

(.+?)

#Su ", $ str, $ res); var_dump ($ res);?\u003e

En general, no hay nada complicado, solo tenga en cuenta que tanto las esquinas de las etiquetas como el plano de la etiqueta de cierre no deben estar protegidas (esta última es verdadera si el limitador regular regular no está en silencio /, pero, por ejemplo, la celosía . Ahora).

Sin embargo, de hecho, nuestras regularidades regulares no son perfectas. Bajo algunas condiciones, ellos solo se niega al trabajo. Debe estar preparado para esto: sitios que se pintará, diferentes (a menudo todavía están desactualizados), y lo que funciona bien en un sitio, puede dejar de trabajar en el otro.

¿Qué hacemos mal? En realidad etiqueta - La misma etiqueta, así como el resto y en él puede ser atributos. La mayoría de las veces es el atributo de la clase, pero otros pueden ser (por ejemplo, onload. Para ejecutar javascript).

Entonces, reescribe la tarjeta regular con los atributos:

(.+?)

#Su ", $ str, $ res); var_dump ($ res);?\u003e

Pero aquí estamos equivocados, con más errores. Primero - no debe ser puesto más + , y estrella * porque más sugiere la disponibilidad al menos un símbolo - Pero después de todos los atributos de la etiqueta no puede ser, y en este caso entre el título de la etiqueta cuerpo. Y no habrá símbolos con la esquina, y nuestro regularmente guardará (no está claro lo que escribí aquí, enseñe regularmente).

Replantaremos este problema y volveremos a una discusión adicional:

(.+?)

#Su ", $ str, $ res); var_dump ($ res);?\u003e

Segundo El problema es el siguiente: Si dentro Habrá otras etiquetas (y por lo que estará en la vida real), entonces nuestro regular Ganchos demasiado. Por ejemplo, considere un código de este tipo:

Este es el título de la testle.

Regular encontrará ne. Como se esperaba, y

Párrafo(

) - Porque no limitamos su codicia. Hazlo: lugar Escribir - En este caso, todo estará bien.

Pero una mejor opción escribirá en lugar de un diseño. [^>] (no cerrar esquina), como esto - ] *?\u003e En este caso, somos completamente insuficientes de los problemas de este tipo, ya que regularmente nunca puede obtener la etiqueta.

Obteniendo un bloque en la identificación

Veamos el siguiente código:

Este es el título de la testle.

Contenido

Más div.

Escribimos un bloque regular que recibirá el contenido del bloque con ID Igual contenido.

Entonces, el intento número uno (no por completo):

#(.+?)

Parser Universal PHP Contenido. Escribimos el analizador de contenido en PHP. Leyendo un archivo en la línea PHP con fgets ()

Ejemplo de un simple contenido de PHP Paraser HTML

Artículos de precios de Parrer en Gearbest.com

Cómo Poule Data cifrada

PHP Parser HTML Site de forma gratuita

Paso 1 - Preparación

Paso 2 - Análisis de lo básico HTML

Obtenga acceso a los objetos DOM HTML

Otros selectores

Documentación Simple HTML DOM

Paso 3 - Ejemplo real PHP analizando el documento HTML

Paso 4: escriba la característica principal de PHP Paraser HTML

Paso 5 - Encuentra la información deseada

Paso 6 - Mostrar resultado del parido

Conclusión

Obteniendo páginas del sitio usando File_Get_Contents

Analizando con expresiones regulares

Rocas submarinas

Intentemos desarmar las etiquetas

Obteniendo un bloque en la identificación

El problema de los bloques anidados.

Tire de los bloques especificados

Obtener enlaces de HREF

Enlaces de Bloka

Obtención de elementos por clase.

Codificación de documentos

Qué vas a hacer después:

Cómo usar "Micro-Server"

Resumen

Ejemplo de trabajo

Descargar "Microer"